Del éxito de las imágenes a la conquista del vídeo
Crear una imagen mediante inteligencia artificial ha pasado de ser una proeza tecnológica a una herramienta cotidiana. Sin embargo, el verdadero desafío, el siguiente gran salto, reside en la capacidad no solo de generar, sino de modificar, dar continuidad y evolucionar una idea visual a lo largo del tiempo. En el ámbito del vídeo, este reto se multiplica exponencialmente. La coherencia del movimiento, la física, el tiempo y los personajes son barreras complejas que hasta ahora parecían insuperables. En este escenario, Google presenta Gemini Omni, una propuesta que busca abordar este problema y transformar la edición de vídeo en una tarea conversacional e intuitiva.
Para entender la ambición detrás de Gemini Omni, la propia Google DeepMind nos invita a pensar en su gran éxito anterior: Nano Banana. Este generador de imágenes no fue uno más; se convirtió en un fenómeno global que redefinió las expectativas sobre la creación visual con IA. Lanzado en agosto de 2025, Nano Banana acumuló 13 millones de usuarios en solo cuatro días y, para octubre de ese mismo año, ya había generado más de 5.000 millones de imágenes. Su éxito no radicó únicamente en la calidad, sino en su capacidad para interpretar y refinar las ideas de los usuarios de manera ágil.
Es precisamente sobre ese legado que Google construye su nueva apuesta. La compañía describe a Gemini Omni como el equivalente de Nano Banana, pero para vídeo. El mensaje es claro: aspiran a lograr con el contenido en movimiento el mismo impacto y facilidad de uso que ya consiguieron con las imágenes estáticas.
Gemini Omni Flash: La edición como un diálogo
Google ha presentado Gemini Omni Flash como el primer modelo de esta nueva familia, diseñado para crear contenido a partir de cualquier tipo de entrada. La premisa es que los usuarios puedan combinar imágenes, audio, fragmentos de vídeo y texto como punto de partida para generar clips de alta calidad, todo ello respaldado por el vasto conocimiento del mundo real que posee Gemini.
La faceta más innovadora de la herramienta reside en su enfoque de la edición. No se trata simplemente de un generador que crea un vídeo desde cero a partir de una instrucción. Gemini Omni se plantea como un sistema de edición colaborativa capaz de trabajar sobre una escena existente mediante una cadena de instrucciones en lenguaje natural. Google promete la capacidad de alterar elementos concretos, transformar por completo un vídeo de partida, o ajustar la estética, la acción, el entorno y hasta el ángulo de la cámara.
Promesas de coherencia y ejemplos prácticos
Uno de los mayores problemas en la generación de vídeo por IA es mantener la consistencia. Los personajes cambian de ropa, los objetos desaparecen y la física desafía toda lógica. Google afirma que Gemini Omni se ha diseñado para superar estos obstáculos, manteniendo la consistencia de los personajes y la continuidad de la escena. Algunos de los ejemplos de 'prompts' que la compañía ha compartido ilustran este poder:
- “Haz que la escultura esté hecha de burbujas”
- “Cuando la persona toque el espejo, haz que el espejo ondule con un efecto líquido y elegante, y que su brazo se convierta en un material reflectante”
- “Un explicador en 'claymation' sobre el plegamiento de proteínas, todo hecho de arcilla, sin manos, en 'stop motion' y con precisión”
Para ponerlo a prueba, se realizó un experimento con una imagen icónica: la Puerta de Alcalá de Madrid. A partir de una fotografía estática, se utilizó la instrucción: “Crea un vídeo a partir de esta imagen. Los coches avanzan y la gente camina”. El resultado fue un clip que animaba la escena, con vehículos en movimiento y peatones transitando, mientras se conservaban detalles como el logotipo de Mercedes-Benz en uno de los coches, demostrando un notable intento de coherencia.
Disponibilidad y limitaciones iniciales
Google ha anunciado que Gemini Omni Flash ha comenzado su despliegue para los suscriptores de Google AI Plus, Pro y Ultra a través de Gemini y Google Flow. Además, se integrará sin coste en plataformas masivas como YouTube Shorts y la aplicación YouTube Create. Sin embargo, las primeras pruebas sugieren que el acceso será gradual. En una prueba inicial, el sistema impuso un límite estricto de tres vídeos generados antes de bloquear el acceso por un día. Esto no es sorprendente y apunta al enorme coste computacional que exige la generación de vídeo, una estrategia de dosificación que probablemente Google mantendrá durante la fase inicial de lanzamiento.
El fantasma de Sora y el futuro del vídeo generativo
Es imposible hablar de generación de vídeo con IA sin mencionar a Sora, la que fue la gran promesa de OpenAI en este campo. Sus vídeos iniciales asombraron al mundo, pero su recorrido fue más corto de lo esperado. A finales de abril de 2026, su web y su aplicación dejaron de estar disponibles, una decisión que evidencia los enormes desafíos de esta tecnología. El colapso de Sora, atribuido a sus altísimos costes operativos y a una adopción por debajo de las expectativas, sirve como una advertencia para toda la industria.
El lanzamiento de Gemini Omni en este contexto es particularmente significativo. Google parece haber tomado nota de los tropiezos de su competidor. Al centrarse no solo en la generación pura, sino también en la edición conversacional y la coherencia, podría estar ofreciendo una herramienta más práctica y sostenible para los creadores. La capacidad de modificar un vídeo existente en lugar de generarlo todo desde cero podría ser la clave para gestionar los recursos y ofrecer un valor real a los usuarios.
Este movimiento también consolida la idea de que la IA de vanguardia se está convirtiendo en un campo de juego para gigantes tecnológicos. El desarrollo y mantenimiento de modelos como Gemini Omni exige una infraestructura y una inversión que solo un puñado de empresas en el mundo puede permitirse, dibujando un futuro dominado por un posible duopolio en el mercado de la IA. Google, con su vasta infraestructura en la nube y su ecosistema de productos, está en una posición privilegiada para llevar la generación de vídeo al siguiente nivel. La pregunta es si logrará hacerlo de una manera sostenible y evitar los escollos que hicieron tropezar a sus predecesores.