Monitor Software
Google DeepMind presenta Veo 2 e Imagen 3
Publicación:18-12-2024
TEMA: #Software
Veo 2 e Imagen 3 son la prueba de que la IA generativa no tiene intención de detenerse, y este diciembre ha llegado cargado de pruebas en este sentido.
Ahora, con estos dos modelos, Google DeepMind busca revolucionar la creación de contenido visual, mejorando tanto la generación de vídeos como de imágenes con un nivel de calidad y precisión nunca visto hasta ahora. Y, a la vista de lo que han mostrado hasta ahora, parece que van por muy buen camino.
Por un lado, Veo 2 lleva la generación de vídeo a un nuevo estándar, con clips más largos, mayor resolución y un realismo sorprendente en el movimiento y los detalles. Por otro, Imagen 3 perfecciona la creación de imágenes, ofreciendo una fidelidad impresionante a las instrucciones del usuario y una versatilidad capaz de adaptarse a cualquier estilo artístico.
Estas tecnologías no solo consolidan a Google DeepMind como uno de los líderes en el sector, sino que también colocan a Veo 2 e Imagen 3 en una posición privilegiada frente a rivales como Sora de OpenAI, que recientemente fue liberado para gran parte del mundo (con excepción de la Unión Europea, ya sabes, lo habitual de un tiempo a esta parte) o herramientas como MidJourney y DALL-E. ¿Cuáles son las novedades? Te lo contamos a continuación.
Veo 2: La generación de vídeo alcanza el 4K y más de 2 minutos
Veo 2 es la nueva generación del modelo de inteligencia artificial de Google DeepMind diseñado específicamente para la generación de vídeo. Esta versión supone un salto notable respecto a su predecesor, con capacidades que lo posicionan como uno de los modelos más avanzados del momento. Entre sus mejoras más destacadas encontramos una mayor resolución, una mayor duración de los clips y un realismo sorprendente en movimiento, texturas y detalles.
Según ha confirmado Google, Veo 2 puede generar vídeos de más de 2 minutos de duración con resoluciones que alcanzan los 4K (4.096 x 2.160 píxeles). Esto supone un avance importante si lo comparamos con modelos actuales como Sora de OpenAI, que en este momento está limitado a clips de 20 segundos y resolución 1.080p. No obstante, en su fase experimental a través de VideoFX, la herramienta de Google donde está disponible de forma limitada, Veo 2 genera clips de hasta 8 segundos en 720p.
Las mejoras técnicas de Veo 2 van más allá de la resolución y la duración. Google DeepMind ha conseguido un modelo con una comprensión mucho más precisa de la física, lo que permite representar con realismo escenas complejas como el movimiento de líquidos, la caída de objetos o la interacción entre elementos. Además, el modelo ha mejorado sus controles de cámara virtual, lo que se traduce en movimientos más suaves y la posibilidad de capturar objetos y personas desde distintos ángulos, imitando efectos cinematográficos como los que vemos en grandes producciones.
Por si fuera poco, Google afirma que Veo 2 también es capaz de generar vídeos con una amplia variedad de estilos, desde animaciones al más puro estilo Pixar hasta secuencias que buscan un acabado hiperrealista. En los ejemplos mostrados, destacan detalles como el comportamiento de líquidos viscosos —por ejemplo, el jarabe o el café vertiéndose en una taza— y el tratamiento de luces, sombras y reflejos con una precisión que hasta ahora no habíamos visto en modelos de este tipo.
No obstante, Veo 2 aún enfrenta desafíos. A pesar de los avances, el modelo sigue teniendo dificultades con la consistencia de los elementos en escenas más largas o con instrucciones complejas. El conocido «uncanny valley» sigue presente en detalles como expresiones humanas, ojos poco realistas o en escenas con movimiento rápido, donde todavía pueden aparecer artefactos visuales o incoherencias.
Actualmente, Veo 2 se encuentra en una fase experimental dentro de VideoFX, una herramienta disponible únicamente para usuarios seleccionados a través de una lista de espera. Google ha adelantado que, en el futuro, planea ofrecerlo a gran escala a través de su plataforma Vertex AI, lo que permitirá a desarrolladores e industrias aprovechar esta tecnología para crear contenido visual innovador.
Imagen 3: Detalles más nítidos y fieles a los prompts
Imagen 3 es la última versión del modelo de generación de imágenes de Google DeepMind, diseñado para crear composiciones visuales con un nivel de detalle, precisión y versatilidad sin precedentes. Con esta actualización, la compañía busca consolidar su posición en un mercado cada vez más competitivo, en el que herramientas como MidJourney, DALL-E 3 o Stable Diffusion han demostrado avances impresionantes en los últimos meses. Y, si hasta ahora estaba teniendo dificultades en este sentido, ahora parece que sí que está en disposición de conseguirlo.
Una de las mejoras más importantes de Imagen 3 es su capacidad para seguir de manera mucho más fiel y precisa las instrucciones proporcionadas por el usuario, especialmente cuando los prompts son complejos o detallados. Esto resuelve uno de los problemas más habituales en generaciones anteriores de modelos: la tendencia a ignorar o malinterpretar partes específicas de las solicitudes. Ahora, Imagen 3 es capaz de plasmar conceptos más intrincados, respetando tanto los elementos principales como los pequeños detalles que enriquecen una escena.
Además de su precisión, Imagen 3 destaca por la calidad de los resultados en términos de texturas, iluminación y composición. Las imágenes generadas muestran una mejora notable en el tratamiento de luces y sombras, consiguiendo un equilibrio visual más realista. También se han refinado detalles como la profundidad de campo, la nitidez de los bordes y el uso del color, lo que permite obtener imágenes más vibrantes y equilibradas, incluso en estilos artísticos complejos como el fotorealismo, el impresionismo o el anime.
Otra de las novedades de esta actualización está en la herramienta ImageFX, la plataforma de Google donde Imagen 3 está disponible. La interfaz ha sido mejorada con nuevas funcionalidades, como los «chiplets»: sugerencias automáticas de términos relacionados con el prompt que facilitan la iteración y perfeccionamiento de las imágenes. Por ejemplo, al escribir "un colibrí junto a una fresa", ImageFX ofrece opciones como "detalles realistas", "iluminación natural" o "fondo desenfocado", permitiendo al usuario ajustar la generación con mayor precisión.
Por supuesto, a pesar de estos avances, Imagen 3 sigue enfrentándose a algunas de las limitaciones más comunes en este tipo de servicios. Como ocurre con otros modelos similares, todavía existen dificultades en la generación de ciertos elementos, como manos humanas en posiciones complejas o interacciones entre objetos. Sin embargo, las mejoras son evidentes y sitúan a Imagen 3 como una herramienta cada vez más madura y versátil, capaz de competir con los mejores modelos del mercado.
Riesgos y consideraciones éticas: El debate sobre la IA generativa
El desarrollo de tecnologías como Veo 2 e Imagen 3 trae consigo un debate cada vez más relevante: ¿cómo podemos aprovechar estas herramientas sin que supongan un riesgo para la sociedad? Uno de los desafíos más importantes es la desinformación. La capacidad de Veo 2 para generar vídeos de alta resolución con un realismo creciente podría utilizarse para crear deepfakes y contenido manipulado con fines maliciosos. DeepMind, consciente de este riesgo, ha implementado su tecnología SynthID, un sistema de marcas de agua invisibles que permite identificar si un vídeo ha sido generado por IA. No obstante, como ocurre con cualquier solución de este tipo, SynthID no es invulnerable, y queda por ver si será suficiente para evitar usos indebidos.
Por otro lado, herramientas como Imagen 3, capaces de generar imágenes en segundos con un nivel de detalle impresionante, suponen un desafío para ilustradores, fotógrafos y otros profesionales creativos. La automatización de tareas que antes requerían horas de trabajo humano plantea preguntas difíciles sobre el futuro del sector artístico. ¿Es posible proteger a los creadores en un mundo donde la inteligencia artificial puede replicar —o incluso superar— su trabajo en algunos casos? Aunque Google insiste en su intención de colaborar con la comunidad creativa, el equilibrio entre innovación tecnológica y preservación del empleo sigue siendo una cuestión pendiente.
Más allá de estos riesgos, lo que queda claro es que la inteligencia artificial generativa está avanzando a un ritmo vertiginoso. Herramientas como Veo 2 e Imagen 3 abren la puerta a nuevas formas de expresión visual y creación de contenido, pero también exigen un debate profundo sobre los límites éticos y las medidas necesarias para minimizar su impacto negativo.
Y lo que también está claro es que modelos como Veo 2 e Imagen 3 no son solo el presente, sino también el futuro de la creación visual. La competencia con otras empresas como OpenAI asegura que el ritmo de desarrollo seguirá siendo vertiginoso, impulsando nuevas formas de expresión y producción. La pregunta ahora no es si estas tecnologías cambiarán la manera en que creamos contenido, sino cómo lo harán y hasta dónde seremos capaces de llevarlas.
« Especial »