Steerling-8B: el modelo abierto que permite rastrear cada token has...

Guide Labs libera Steerling-8B, un LLM interpretable que rastrea cada token a sus datos de entrenamiento originales.

Entender por qué un modelo de lenguaje dice lo que dice se ha convertido en uno de los grandes dolores de cabeza de la IA moderna. Entre alucinaciones “normales”, respuestas complacientes y ajustes finos que no terminan de domar comportamientos extraños —como los tropiezos públicos de Grok con temas políticos—, el problema de fondo es el mismo: navegar redes neuronales con miles de millones de parámetros es, muchas veces, como intentar leer una caja negra.

Guide Labs, una startup de San Francisco, quiere cambiar esa dinámica con una apuesta concreta: diseñar modelos que nazcan interpretables, en lugar de intentar “hacerles neurociencia” después. La compañía, fundada por el CEO Julius Adebayo y la directora científica Aya Abdelsalam Ismail, anunció la liberación en código abierto de Steerling-8B, un modelo de 8.000 millones de parámetros construido con una arquitectura nueva cuyo objetivo principal es que sus decisiones sean rastreables.

La promesa es llamativa: cada token que produce Steerling-8B puede trazarse hasta su origen dentro de los datos de entrenamiento. En lo simple, esto permite identificar qué materiales de referencia sostienen un dato que el modelo menciona. En lo complejo, abre la puerta a entender cómo el sistema representa conceptos difíciles —por ejemplo, humor o género— y, sobre todo, a encender o apagar esos “circuitos” de forma más confiable. Adebayo lo explicó con una imagen potente: si un concepto como género puede codificarse de “un trillón de maneras”, el reto es localizar todas las formas en que el modelo lo aprendió y poder controlarlas sin que el sistema se vuelva frágil.

Esta línea de trabajo no nació ayer. Adebayo empezó a desarrollarla durante su doctorado en MIT y fue coautor de un paper de 2018, ampliamente citado, que mostraba que los métodos existentes para interpretar modelos de deep learning no eran confiables. Ese antecedente desembocó en el enfoque actual de Guide Labs: insertar una “capa de conceptos” que agrupa datos en categorías trazables. El costo es claro: requiere más anotación previa del dataset. Pero la empresa sostiene que, apoyándose en otros modelos de IA para asistir ese proceso, lograron entrenar su mayor prueba de concepto hasta ahora.

Una duda razonable es si tanta estructura mata parte de lo que hace fascinantes a los LLM: sus comportamientos emergentes y su capacidad de generalizar más allá de lo visto. Guide Labs dice que no. De hecho, el equipo monitorea lo que llama “conceptos descubiertos”, ideas que el propio modelo aprende sin que se las “etiqueten” explícitamente; mencionan, por ejemplo, computación cuántica.

El interés práctico va más allá de la curiosidad académica. Para productos de consumo, una arquitectura interpretable podría ayudar a bloquear el uso de materiales con copyright o a controlar mejor salidas sensibles relacionadas con violencia o abuso de drogas. En sectores regulados, como finanzas, el argumento es aún más directo: un modelo que evalúa solicitudes de crédito debería considerar historial financiero, pero no raza. Y en ciencia, donde el deep learning ya brilló con avances como el plegamiento de proteínas, los investigadores siguen necesitando algo crucial: entender por qué el software sugiere ciertas combinaciones prometedoras.

Guide Labs afirma que Steerling-8B alcanza el 90% de la capacidad de modelos existentes, pero con menos datos de entrenamiento gracias a su arquitectura. La empresa, surgida de Y Combinator, levantó una ronda seed de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024. Su siguiente paso es entrenar un modelo más grande y empezar a ofrecer acceso vía API y capacidades “agentic” para usuarios.

El planteo de Adebayo es, en el fondo, una postura sobre el futuro: si vamos a depender de modelos cada vez más inteligentes para tomar decisiones en nuestro nombre, no podemos permitirnos que sigan siendo misteriosos. Para Guide Labs, la interpretabilidad deja de ser una ciencia artesanal y pasa a ser un problema de ingeniería escalable. Y si esa idea prende, la caja negra de los LLM podría empezar a tener, por fin, un mapa legible.

Steerling-8B: el modelo abierto que permite rastrear cada token hasta sus datos

Calificación

Reportes

Comentarios

Steerling-8B: el modelo abierto que permite rastrear cada token hasta sus datos

Guide Labs libera Steerling-8B, un LLM interpretable que rastrea cada token a sus datos de entrenamiento originales.