Han secuestrado agentes de IA de Google y Microsoft: el ataque sile...

Investigadores revelan cómo agentes de IA de Google y Microsoft son manipulados en GitHub para filtrar credenciales secretas.

El Secuestro Silencioso de tus Asistentes de IA

En los equipos de desarrollo más avanzados, los agentes de inteligencia artificial se han convertido en un compañero más, revisando código y gestionando tareas. Pero, ¿qué sucede cuando este aliado se convierte en un espía? Una investigación reciente ha encendido todas las alarmas al demostrar cómo agentes de IA de gigantes como Google, Microsoft y Anthropic pueden ser manipulados para filtrar credenciales y secretos directamente desde GitHub. No estamos hablando de un simple error, sino de un fallo de diseño que podría tener consecuencias devastadoras si no se aborda con la seriedad que merece.

El método “Comment and Control”: un ataque desde las sombras

La mente detrás de esta revelación, el investigador Aonan Guan, lo bautizó como “Comment and Control”. La genialidad y el peligro de este ataque residen en su simplicidad: no necesita una infraestructura externa compleja. El propio GitHub, el entorno de confianza para millones de desarrolladores, se convierte en el canal de entrada, control y salida. El atacante simplemente deja una instrucción maliciosa oculta en un comentario, el título de una incidencia o una solicitud de cambio (pull request). El agente de IA, en su rutina de trabajo, procesa esta instrucción como si fuera legítima, ejecuta el comando y expone información sensible dentro del mismo ecosistema. Todo queda en casa, y ahí radica la vulnerabilidad fundamental.

Tres Gigantes, una Misma Brecha de Seguridad

La investigación demostró que este patrón de ataque era efectivo contra tres agentes de alto perfil, aunque con ligeras variaciones. Cada uno de ellos compartía una lógica operativa similar: leer contenido de GitHub para usarlo como contexto y ejecutar acciones automatizadas. El problema es que ese mismo espacio de trabajo contenía los secretos que el agente necesitaba para operar.

Los casos específicos que desataron la alarma:

El primer objetivo fue Claude Code Security Review, de Anthropic. Bastó con insertar comandos maliciosos en el título de una pull request para que el agente los ejecutara y devolviera el resultado, llegando a extraer credenciales del entorno.

En el caso de Google, su agente Gemini CLI Action fue manipulado a través de instrucciones en una incidencia para que revelara su propia clave de API (GEMINI_API_KEY).

Quizás el caso más preocupante fue el de GitHub Copilot Agent. Aquí, el ataque se ocultaba en un comentario HTML invisible para un usuario humano, pero que el agente procesaba sin problemas al ser asignado a la tarea. En todos los escenarios, el resultado fue el mismo: la filtración de claves de API, tokens de GitHub y otros secretos que abren la puerta a ataques mucho más graves.

Una Solución Discreta y un Riesgo Latente

El riesgo principal afecta a los repositorios que ejecutan agentes sobre contenido enviado por colaboradores externos no fiables, especialmente si se les otorgan permisos para acceder a secretos. Aunque las tres compañías implicadas respondieron al aviso de los investigadores y pagaron recompensas económicas, la gestión de la comunicación pública generó controversia.

Anthropic resolvió el caso el 25 de noviembre de 2025 y pagó una recompensa de 100 dólares.
Google recompensó el hallazgo el 20 de enero de 2026 con 1.337 dólares.
GitHub cerró el caso el 9 de marzo de 2026, pagando 500 dólares.

Según The Register, ninguna de las empresas emitió avisos públicos de seguridad (CVEs) en el momento del hallazgo. Guan expresó su preocupación, afirmando que algunos usuarios podrían seguir utilizando versiones vulnerables sin saberlo. Esto subraya que el problema va más allá de GitHub; es un patrón que podría replicarse en bots de Slack, agentes de Jira o cualquier sistema que combine la lectura de inputs externos con el acceso a herramientas y secretos. La conclusión de los expertos no es renunciar a la IA, sino volver a un principio fundamental de la ciberseguridad: el mínimo privilegio. Un agente solo debe tener los permisos estrictamente necesarios para su función. Si su trabajo es revisar código, no necesita acceso a credenciales críticas. La era de la IA nos obliga a repensar la seguridad desde sus cimientos.

Han secuestrado agentes de IA de Google y Microsoft: el ataque silencioso que roba tus secretos desde dentro.