Steerling-8B: un modelo de lenguaje que rastrea cada respuesta hast...

Guide Labs liberó Steerling-8B, un LLM interpretable que permite rastrear tokens a datos y mejorar control regulatorio.

Entender por qué un modelo de lenguaje dice lo que dice se ha vuelto uno de los grandes dolores de cabeza de la IA moderna. No importa si hablamos de ajustes finos que terminan en resultados inesperados, de respuestas demasiado complacientes o de las clásicas “alucinaciones”: cuando un sistema tiene miles de millones de parámetros, mirar por dentro y encontrar una causa clara suele ser frustrante.

Guide Labs, una startup de San Francisco fundada por su CEO Julius Adebayo y su directora científica Aya Abdelsalam Ismail, anunció una propuesta concreta para atacar ese problema desde la raíz. La compañía liberó como código abierto Steerling-8B, un modelo de lenguaje de 8.000 millones de parámetros entrenado con una arquitectura diseñada para que sus decisiones sean interpretables. La promesa es ambiciosa y a la vez muy práctica: cada token (cada unidad de texto) que produce el modelo puede rastrearse hasta sus orígenes en los datos de entrenamiento.

En términos sencillos, esto permitiría identificar de dónde salen los “hechos” que cita el modelo, o incluso analizar cómo construye ideas más resbaladizas, como el humor o el género. Adebayo lo explicó con una imagen clara: si un concepto puede codificarse de “un trillón de maneras”, entonces no basta con encontrar una señal aislada; hay que poder localizar muchas de esas codificaciones y, sobre todo, activarlas o desactivarlas de forma confiable. Según él, con los modelos actuales se puede intentar, pero es “muy frágil”, y por eso la interpretabilidad sigue siendo una especie de “santo grial”.

El enfoque de Guide Labs se apoya en una idea central: en lugar de hacer “neurociencia” sobre un modelo ya entrenado para adivinar qué ocurre dentro, ellos proponen diseñarlo desde el principio para que sea legible. Para lograrlo, los desarrolladores insertan una “capa de conceptos” que agrupa datos en categorías trazables. Esto exige más anotación al inicio, aunque el equipo afirma que se apoyó en otros modelos de IA para acelerar ese trabajo y entrenar su mayor prueba de concepto hasta la fecha.

Una duda razonable es si tanta estructura mata algo de la magia de los LLM: esos comportamientos emergentes que les permiten generalizar más allá de lo visto. Adebayo sostiene que Steerling-8B también muestra ese tipo de hallazgos, y que su equipo monitorea lo que llaman “conceptos descubiertos” por el propio modelo, como el de computación cuántica.

La apuesta no es solo académica. Adebayo argumenta que esta arquitectura interpretable será necesaria para el mundo real: desde productos de consumo que quieran bloquear el uso de materiales con copyright, hasta controles más finos en temas sensibles como violencia o abuso de drogas. En industrias reguladas, el caso es aún más directo: por ejemplo, en finanzas, un modelo que evalúa solicitudes de crédito debería considerar historiales financieros, pero no variables como la raza.

La interpretabilidad también aparece como pieza clave en ciencia. Aunque el plegamiento de proteínas ya es un éxito de la IA, muchos investigadores necesitan entender por qué un sistema sugiere combinaciones prometedoras. En esa línea, Adebayo afirma que entrenar modelos interpretables dejó de ser “ciencia” para convertirse en un problema de ingeniería: dicen haber resuelto la base científica y ahora pueden escalar.

Guide Labs asegura que Steerling-8B alcanza el 90% de la capacidad de modelos existentes, usando menos datos de entrenamiento gracias a su arquitectura. La empresa, que salió de Y Combinator y levantó una ronda semilla de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024, planea como siguiente paso construir un modelo más grande y ofrecer acceso vía API y capacidades “agentic” para usuarios.

El mensaje de fondo es claro: si vamos a delegar decisiones cada vez más importantes a sistemas “super inteligentes”, no conviene que operen como cajas negras. Para Adebayo, democratizar una interpretabilidad “inherente” no solo es una mejora técnica; es una condición para confiar en la IA cuando empiece a decidir, de verdad, en nombre de las personas.

Steerling-8B: un modelo de lenguaje que rastrea cada respuesta hasta sus datos

Calificación

Reportes

Comentarios

Steerling-8B: un modelo de lenguaje que rastrea cada respuesta hasta sus datos

Guide Labs liberó Steerling-8B, un LLM interpretable que permite rastrear tokens a datos y mejorar control regulatorio.