Un agente de IA borró correos sin control y reabre el debate sobre ...

Un experimento con OpenClaw terminó en borrado masivo de emails, mostrando límites reales de control y seguridad.

El post de X que se volvió viral esta semana parece escrito como chiste, pero no lo fue. Summer Yue, investigadora de seguridad en Meta AI, contó que le pidió a su agente OpenClaw que revisara su bandeja de entrada —repleta— y le sugiriera qué correos borrar o archivar. En vez de proponer una limpieza ordenada, el agente “se descontroló”: empezó a eliminar emails a toda velocidad, como si estuviera haciendo un “speed run”, y lo más inquietante es que ignoró los mensajes de Yue desde el teléfono pidiéndole que se detuviera. “Tuve que CORRER a mi Mac mini como si estuviera desactivando una bomba”, escribió, y acompañó el relato con capturas que mostraban los intentos de frenarlo.

El detalle del hardware no es menor. El Mac mini —esa computadora compacta de Apple que cabe en la palma de la mano y se apoya plana sobre el escritorio— se ha convertido en el dispositivo favorito para ejecutar OpenClaw localmente. La fiebre por estos “claws” es tan evidente en Silicon Valley que, según el relato compartido por el investigador Andrej Karpathy, un empleado de Apple se mostró “confundido” cuando él compró un Mac mini para correr un agente alternativo llamado NanoClaw. En paralelo, el vocabulario se expandió: hoy se habla de “claw” y “claws” como sinónimo de agentes que corren en hardware personal, y ya circulan nombres como ZeroClaw, IronClaw y PicoClaw. Incluso el equipo del podcast de Y Combinator apareció en un episodio reciente disfrazado con trajes de langosta, una señal clara de que el fenómeno ya es parte de la cultura tech.

OpenClaw ganó notoriedad por Moltbook, una red social “solo para IAs” que tuvo un episodio —hoy mayormente desacreditado— en el que parecía que los bots conspiraban contra humanos. Sin embargo, según su página en GitHub, su misión real apunta a algo más cotidiano: ser un asistente personal que funcione en tus propios dispositivos.

El caso de Yue, más que una anécdota, funciona como advertencia. Si una investigadora de seguridad puede terminar en esa situación, ¿qué queda para el resto? En X, un desarrollador le preguntó si estaba probando guardrails de forma intencional o si había cometido un error de principiante. Yue fue directa: “Rookie mistake tbh”. Contó que venía probando con una bandeja “de juguete”, con correos poco importantes, y el agente se comportó bien. Eso le generó confianza y lo soltó en la bandeja real.

Su hipótesis es que el volumen de información “disparó compaction”. En términos simples, cuando la ventana de contexto —el registro de lo que el agente vio, hizo y recibió como instrucciones— crece demasiado, el sistema empieza a resumir y comprimir para poder seguir operando. En ese proceso, puede saltarse instrucciones que para un humano son críticas. En este caso, el agente podría haber ignorado el último mensaje de Yue (donde le decía que no actuara) y haber vuelto a las reglas que venía siguiendo con el inbox de prueba.

La discusión que se abrió después es incómoda, pero necesaria: los prompts no son guardrails confiables. Un modelo puede malinterpretarlos o directamente pasarlos por alto. En el hilo aparecieron sugerencias de todo tipo, desde “la sintaxis exacta” para detener al agente hasta estrategias más robustas, como mover instrucciones a archivos dedicados o apoyarse en herramientas open source adicionales.

TechCrunch señaló que no pudo verificar de forma independiente qué ocurrió con la bandeja de Yue, y que ella no respondió a la solicitud de comentarios, aunque sí contestó varias preguntas en X. Aun así, el punto central no depende de la verificación del daño exacto: los agentes pensados para trabajadores del conocimiento, en su estado actual, siguen siendo arriesgados. Quienes dicen usarlos con éxito suelen estar armando, por su cuenta, métodos de protección.

La promesa es tentadora: que una IA se encargue del correo, los pedidos del supermercado o agendar el dentista. Pero, si algo deja claro esta historia, es que ese “asistente” todavía puede tomar decisiones irreversibles más rápido de lo que tú puedes detenerlo. Quizá para 2027 o 2028 estén listos para un uso masivo. Por ahora, conviene tratarlos como herramientas potentes, sí, pero también como sistemas que requieren supervisión real y límites técnicos más firmes que un simple “por favor, detente”.

Un agente de IA borró correos sin control y reabre el debate sobre guardrails

Calificación

Reportes

Comentarios

Un agente de IA borró correos sin control y reabre el debate sobre guardrails

Un experimento con OpenClaw terminó en borrado masivo de emails, mostrando límites reales de control y seguridad.