Gemini Omni emite imagen y audio espacial sincronizado en una sola pasada de generación. Se acabó añadir TTS, foley o un modelo de audio de segunda pasada: el sonido es una salida de primera clase.
Sube un fotograma de referencia para Gemini Omni
Carga una imagen fija que quieras que Gemini Omni anime. El modelo usa tu referencia para la identidad del personaje, la iluminación y el color, de modo que el movimiento generado se mantenga fiel a la fuente. PNG o JPG; los retratos y las fotos de producto funcionan mejor.
Admite PNG, JPG, WebP hasta 24 MB
Elige la relación de aspecto
16:9 para reproducción cinematográfica, 9:16 para reels verticales, 1:1 para cuadrados sociales. Gemini Omni renderiza el encuadre correcto de forma nativa, no como un recorte.

Audio nativo integrado en cada renderización
Gemini Omni es el primer modelo de video de Google que escribe imagen y sonido como una sola señal. Pide lluvia sobre el pavimento y las salpicaduras encajan con los pasos; pide un violonchelo y obtienes la reverberación adecuada para la sala. Sin segunda pasada, sin editor de foley, sin sincronización manual.
Prompt
Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.
Audio espacial nativo
Estética cinematográfica desde un único prompt
Los movimientos de cámara, la elección de lente y la gradación de color son entradas de primera clase. Gemini Omni respeta 'profundidad de campo reducida' como una DOF real, 'cine negro' como una paleta real y 'neón reflejándose en pavimento mojado' como una fuente de luz real. El vocabulario de los directores de fotografía funciona tal como lo escribiste.
Prompt
Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.
Fidelidad de prompt cinematográfico
Planos parlantes con sincronización labial real
El habla se genera junto con la imagen, por lo que las formas de la boca coinciden con los fonemas fotograma a fotograma. Esta es la función que finalmente lleva el video con IA a anuncios pre-roll, reels explicativos y demostraciones de producto sin doblaje. Gemini Omni maneja la articulación, la respiración y las pequeñas pausas que hacen que el habla suene humana.
Prompt
Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.
Sincronización labial convincente
Movimiento físicamente consciente en el que puedes confiar
La tela se pliega, el agua se acumula, el cabello se asienta. Gemini Omni tiene un modelo interno real de cómo se mueve la materia bajo la gravedad y el viento, así que las tomas en cámara lenta se mantienen consistentes en cada fotograma en lugar de disolverse en los artefactos de transformación que otros modelos siguen produciendo en 2026.
Prompt
Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.
Física de tela real
Líquidos y refracción fotorrealistas
El líquido es la pista clásica de un render falso. Gemini Omni lo logra: tensión del menisco, refracción del vidrio, gotas de salpicadura que se detienen en el apogeo y el pequeño temblor del agua al asentarse. Los directores de producto consiguen una toma utilizable al primer intento.
Prompt
4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.
Líquidos fotorrealistas
Consistencia de personaje en tomas largas
Gemini Omni mantiene un rostro, un vestuario y una habitación durante todo el clip. Sube un guion de 50 páginas y lleva la cuenta de quién lleva qué, dónde está la lámpara y de qué dirección viene el viento. La misma idea escala a un reel de varias tomas: el personaje que generaste en la toma uno es el personaje que generas en la toma ocho.
Prompt
Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.
La identidad se mantiene durante 10 s
Lo que hace diferente a Gemini Omni
Gemini Omni está construido sobre la columna vertebral multimodal de Gemini, por eso entiende el sonido, el movimiento y el lenguaje como un solo sistema. A continuación, las capacidades que lo sitúan por delante de cualquier modelo de video anterior de Google.
Planes de Gemini Omni
Paquetes de créditos de pago por uso o compromiso anual con un 30 % de descuento. Los créditos se convierten uno a uno entre Gemini Omni texto a video, imagen a video y remezcla por chat.
Starter
$9.9/ mes
Empieza con Gemini Omni.
Incluye:
- 2.950 créditos al mes
- ~30 renderizaciones cortas al mes
Creator
$19.9/ mes
Para creadores de video profesionales.
Incluye:
- 6.500 créditos al mes
- ~70 renderizaciones cortas al mes
Studio
$49.9/ mes
Para agencias y estudios.
Incluye:
- 18.000 créditos al mes
- ~200 renderizaciones cortas al mes
Preguntas frecuentes sobre Gemini Omni
Preguntas prácticas sobre lo que hace Gemini Omni hoy y cómo encaja su flujo de trabajo con tus herramientas de edición.
01¿Qué es Gemini Omni?
Gemini Omni es el nuevo modelo multimodal de generación de video de Google, revelado dentro de la app Gemini antes del I/O 2026. Genera imagen y audio espacial sincronizado en una sola pasada, acepta un contexto de guion muy largo y te permite editar resultados por chat en lugar de manipular una línea de tiempo.
02¿Gemini Omni realmente genera audio junto con el video?
Sí, ese es el cambio principal. Los modelos de video anteriores de Google requerían una pasada de audio aparte. Gemini Omni emite una sola salida multimodal: los pasos caen en los fotogramas de salpicadura, los diálogos coinciden con las formas de los labios y el tono ambiente de la sala es coherente con la escena.
03¿Cómo funciona la edición por chat?
Generas un clip y luego describes el cambio que quieres: 'quita la marca de agua', 'cambia el objeto de la mesa', 'haz la línea de diálogo más suave'. Gemini Omni reescribe solo los fotogramas afectados y mantiene el resto de la toma estable a nivel de píxel.
04¿Cuánto duran los clips que produce Gemini Omni?
La interfaz filtrada sugiere formato corto por defecto (unos pocos segundos), con extensión de escenas a tomas más largas. La consistencia de personaje y vestuario se preserva durante una toma extendida, lo que importa más que la duración bruta para el trabajo editorial.
05¿Puedo usar la salida comercialmente?
La salida que generas es tuya para usarla, sujeta a los términos del modelo subyacente de Google y a tus leyes locales sobre derechos de imagen, música y marca registrada. No reclamamos derechos sobre los videos que creas con Gemini Omni en esta plataforma.
