Steerling-8B: un modelo abierto que permite rastrear cada respuesta...

Guide Labs libera Steerling-8B, un LLM interpretable que vincula cada token con su origen en datos de entrenamiento.

Entender por qué un modelo de deep learning responde lo que responde se ha vuelto uno de los grandes dolores de cabeza de la IA moderna. No importa si hablamos de ajustes finos que salen mal, de respuestas complacientes que dicen lo que el usuario quiere oír, o de las ya famosas “alucinaciones”: cuando un sistema tiene miles de millones de parámetros, investigar qué lo llevó a una frase concreta puede sentirse como buscar una aguja en un pajar.

Guide Labs, una startup de San Francisco liderada por su CEO Julius Adebayo y su directora científica Aya Abdelsalam Ismail, presentó una propuesta directa para atacar ese problema: Steerling-8B, un modelo de lenguaje de 8.000 millones de parámetros que la empresa ha publicado como open source. La promesa es ambiciosa y muy concreta: cada token que produce el modelo puede rastrearse hasta su origen en los datos de entrenamiento. En términos prácticos, esto podría servir tanto para algo sencillo —identificar de qué materiales salen los “hechos” que cita el modelo— como para tareas mucho más delicadas, como analizar cómo representa conceptos complejos (por ejemplo, el humor o el género).

La idea no nace de la nada. Adebayo empezó este trabajo durante su doctorado en el MIT. Allí coescribió un paper de 2018, muy citado, que mostraba que los métodos existentes para “entender” modelos de deep learning no eran fiables. En lugar de hacer lo que muchos investigadores intentan hoy —una especie de “neurociencia” aplicada a redes neuronales para inferir qué pasa dentro— Guide Labs dice haber dado la vuelta al enfoque: diseñar el modelo desde el inicio para que sea interpretable.

¿Cómo lo logran? Según la descripción de la empresa, los desarrolladores insertan una “capa de conceptos” que agrupa y clasifica datos en categorías rastreables. Esto exige más anotación al principio, pero Guide Labs afirma que pudo apoyarse en otros modelos de IA para acelerar ese trabajo y entrenar su mayor prueba de concepto hasta ahora.

Una duda razonable es si tanta estructura podría “apagar” parte de los comportamientos emergentes que hacen atractivos a los LLM, como su capacidad de generalizar y conectar ideas nuevas. Adebayo sostiene que en Steerling-8B eso sigue ocurriendo: el equipo monitoriza lo que llaman “conceptos descubiertos”, es decir, conceptos que el modelo identifica por sí mismo, como la computación cuántica.

Más allá de la curiosidad técnica, el enfoque tiene implicaciones claras. En productos de consumo, una arquitectura interpretable podría ayudar a bloquear el uso de materiales con copyright o a controlar mejor respuestas en temas sensibles como violencia o abuso de drogas. En sectores regulados, la motivación es aún más fuerte: en finanzas, por ejemplo, un modelo que evalúe solicitudes de crédito debería considerar historiales financieros, pero no variables como la raza. Y en ciencia, donde el deep learning ya ha brillado en áreas como el plegamiento de proteínas, los investigadores necesitan entender por qué el software sugiere combinaciones prometedoras, no solo que “funcione”.

Guide Labs asegura que Steerling-8B alcanza el 90% de la capacidad de modelos existentes, pero con menos datos de entrenamiento, gracias a su arquitectura. La compañía, que salió de Y Combinator y levantó una ronda semilla de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024, dice que su siguiente paso será entrenar un modelo más grande y empezar a ofrecer acceso vía API y capacidades “agentic” para usuarios.

En el fondo, el mensaje de Adebayo apunta a un cambio de mentalidad: entrenar modelos interpretables ya no sería un misterio científico reservado a laboratorios, sino un problema de ingeniería que puede escalar. Y si la industria camina hacia sistemas cada vez más inteligentes, la idea de que tomen decisiones “misteriosas” en nombre de las personas empieza a parecer menos tolerable. Steerling-8B se presenta, justamente, como un intento de hacer esa caja negra un poco más transparente.

Steerling-8B: un modelo abierto que permite rastrear cada respuesta a sus datos

Calificación

Reportes

Comentarios

Steerling-8B: un modelo abierto que permite rastrear cada respuesta a sus datos

Guide Labs libera Steerling-8B, un LLM interpretable que vincula cada token con su origen en datos de entrenamiento.