Guide Labs libera Steerling-8B, un modelo de IA que explica el origen de cada token
La startup Guide Labs publicó Steerling-8B, un LLM interpretable que rastrea cada respuesta hasta datos de entrenamiento verificables.
Calificación
0 / 5 (0 votos)
Fuente: https://images.pexels.com/photos/4031693/pexels-photo-4031693.jpeg?auto=compress&cs=tinysrgb&h=650&w=940
Categoría: Tecnología
Entender por qué un modelo de IA responde lo que responde se ha vuelto uno de los grandes dolores de cabeza de la era de los LLM. Entre alucinaciones “normales”, sesgos difíciles de corregir y ajustes finos que a veces terminan en resultados extraños, auditar una red neuronal con miles de millones de parámetros suele parecer más un ejercicio de fe que de ingeniería.Guide Labs, una startup de San Francisco fundada por su CEO Julius Adebayo y su directora científica Aya Abdelsalam Ismail, quiere cambiar esa lógica. Esta semana la compañía liberó como código abierto Steerling-8B, un modelo de lenguaje de 8.000 millones de parámetros entrenado con una arquitectura pensada para algo poco común: que sus acciones sean fácilmente interpretables. En la práctica, Guide Labs afirma que cada token que produce el modelo puede rastrearse hasta sus “orígenes” en los datos de entrenamiento. Eso permitiría desde algo tan directo como identificar las fuentes detrás de un dato citado, hasta preguntas más complejas sobre cómo el modelo construye nociones como el humor o el género.Adebayo lo explica con una metáfora que deja claro el tamaño del problema: si un concepto como “género” puede codificarse de “un billón de maneras”, y el modelo lo distribuye en mil millones de esos lugares, el reto no es solo encontrarlo, sino poder activarlo o desactivarlo de forma confiable. Según el CEO, con modelos actuales se puede intentar, pero es frágil. Y ahí es donde Guide Labs propone un giro: en lugar de hacer “neurociencia” sobre un modelo ya entrenado para ver qué hay dentro, diseñan el modelo desde cero para que no haga falta ese trabajo posterior.El enfoque consiste en insertar una “capa de conceptos” que agrupa información en categorías rastreables. El costo es claro: exige más anotación previa de datos. Pero la empresa sostiene que, apoyándose en otros modelos de IA para asistir el proceso, lograron entrenar su mayor prueba de concepto hasta ahora.Una crítica típica a la interpretabilidad “de fábrica” es si mata parte de los comportamientos emergentes que hacen atractivos a los LLM: su capacidad de generalizar más allá de lo visto. Adebayo responde que eso sigue ocurriendo. Su equipo incluso monitorea lo que llaman “conceptos descubiertos”, ideas que el modelo habría aprendido por sí mismo, como computación cuántica.Las implicaciones prácticas son amplias. En productos de consumo, una trazabilidad por token podría ayudar a bloquear el uso de materiales con copyright o a controlar mejor salidas relacionadas con violencia o abuso de drogas. En industrias reguladas, la promesa es aún más concreta: por ejemplo, en finanzas, un modelo que evalúa solicitudes de crédito debería considerar historial financiero, pero no variables sensibles como raza. Y en ciencia, donde el aprendizaje profundo ya mostró éxitos como el plegamiento de proteínas, los investigadores siguen necesitando una pieza clave: entender por qué el software llegó a una combinación prometedora.Guide Labs asegura que Steerling-8B alcanza el 90% de la capacidad de modelos existentes, usando menos datos de entrenamiento gracias a su arquitectura. La compañía, surgida de Y Combinator, levantó una ronda semilla de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024. Su siguiente paso, según adelantó, es construir un modelo más grande y empezar a ofrecer acceso vía API y capacidades “agentic” para usuarios.El mensaje de Adebayo apunta a un debate de fondo: si la IA va a tomar decisiones en nombre de personas y organizaciones, no puede ser una caja negra. Para Guide Labs, la interpretabilidad deja de ser un arte incierto y pasa a ser un problema de ingeniería escalable. Y si esa idea se sostiene, podría mover el foco de la conversación: de “¿qué tan potente es el modelo?” a “¿qué tan verificable y controlable es lo que hace?”.