O Gemini Omni emite imagem e áudio espacial sincronizado em uma única passada de geração. Acabaram-se TTS, Foley ou um modelo de áudio de segunda passada — o som é uma saída de primeira classe.
Envie um Quadro de Referência para o Gemini Omni
Coloque uma imagem estática que você quer que o Gemini Omni anime. O modelo usa sua referência para identidade do personagem, iluminação e cor para que o movimento gerado permaneça fiel à fonte. PNG ou JPG; retratos e fotos de produto funcionam melhor.
Suporta PNG, JPG, WebP até 24MB
Escolha a Proporção
16:9 para reprodução cinematográfica, 9:16 para reels verticais, 1:1 para quadrados sociais. O Gemini Omni renderiza o enquadramento correto nativamente, não como um corte.

Áudio Nativo Integrado em Cada Renderização
O Gemini Omni é o primeiro modelo de vídeo do Google que escreve imagem e som como um único sinal. Peça chuva no asfalto e os respingos ficam no tempo certo dos passos; peça um violoncelo e você obtém a reverberação adequada para o ambiente. Sem segunda passada, sem editor de Foley, sem sincronização manual.
Prompt
Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.
Áudio espacial nativo
Visual Cinematográfico a Partir de um Único Prompt
Movimentos de câmera, escolha de lente e correção de cor são entradas de primeira classe. O Gemini Omni honra 'profundidade de campo rasa' como uma DOF real, 'film noir' como uma paleta real e 'neon refletindo no asfalto molhado' como uma fonte de luz real. O vocabulário do diretor de fotografia funciona exatamente como você escreveu.
Prompt
Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.
Fidelidade ao prompt cinematográfico
Pessoas Falando com Sincronia Labial Real
A fala é gerada junto com a imagem, então as formas da boca correspondem aos fonemas quadro a quadro. Este é o recurso que finalmente coloca o vídeo IA em anúncios pré-roll, reels explicativos e demos de produto sem dublagem. O Gemini Omni lida com articulação, respiração e as pequenas pausas que tornam a fala humana.
Prompt
Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.
Sincronia labial confiável
Movimento Consciente da Física em Que Você Pode Confiar
Tecidos se dobram, água se acumula, cabelo assenta. O Gemini Omni tem um modelo interno real de como a matéria se move sob gravidade e vento, então cenas em câmera lenta permanecem consistentes em cada quadro em vez de se dissolverem nos artefatos de morphing que outros modelos ainda produzem em 2026.
Prompt
Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.
Física de tecido real
Líquidos e Refração Foto-Realistas
Líquido é o sinal clássico de uma renderização falsa. O Gemini Omni acerta: tensão do menisco, refração do vidro, gotas de respingo que pausam no ápice e a pequena oscilação da água ao assentar. Diretores de produto obtêm uma tomada utilizável já na primeira tentativa.
Prompt
4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.
Líquidos foto-realistas
Consistência de Personagem em Tomadas Longas
O Gemini Omni mantém um rosto, um guarda-roupa e um ambiente ao longo de todo o clipe. Envie um roteiro de 50 páginas e ele acompanha quem está vestindo o quê, onde está o abajur e de que direção vem o vento. A mesma ideia escala para um reel de várias tomadas: o personagem gerado na tomada um é o mesmo gerado na tomada oito.
Prompt
Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.
Identidade preservada por 10s
O Que Torna o Gemini Omni Diferente
O Gemini Omni é construído sobre a espinha dorsal multimodal do Gemini, e é por isso que ele entende som, movimento e linguagem como um único sistema. Abaixo estão os recursos que o colocam à frente de todos os modelos de vídeo anteriores do Google.
Planos do Gemini Omni
Pacotes de créditos pré-pagos, ou compromisso anual com 30% de desconto. Os créditos convertem um para um entre texto-para-vídeo, imagem-para-vídeo e remix por chat do Gemini Omni.
Starter
$9.9/ mês
Comece com o Gemini Omni.
Inclui:
- 2.950 créditos por mês
- ~30 renderizações curtas/mês
Creator
$19.9/ mês
Para criadores de vídeo profissionais.
Inclui:
- 6.500 créditos por mês
- ~70 renderizações curtas/mês
Studio
$49.9/ mês
Para agências e estúdios.
Inclui:
- 18.000 créditos por mês
- ~200 renderizações curtas/mês
Perguntas Frequentes do Gemini Omni
Perguntas práticas sobre o que o Gemini Omni faz hoje e como o fluxo de trabalho se encaixa com suas ferramentas de edição.
01O que é o Gemini Omni?
O Gemini Omni é o novo modelo multimodal de geração de vídeo do Google, revelado dentro do aplicativo Gemini antes do I/O 2026. Ele gera imagem e áudio espacial sincronizado em uma única passada, aceita contexto de roteiro muito longo e permite editar os resultados via chat em vez de raspagem na timeline.
02O Gemini Omni realmente gera áudio com o vídeo?
Sim — essa é a grande mudança. Modelos de vídeo anteriores do Google precisavam de uma passada de áudio separada. O Gemini Omni emite uma única saída multimodal: passos caem nos quadros de respingo, diálogos correspondem às formas dos lábios, e o som ambiente é consistente com a cena.
03Como funciona a edição por chat?
Você gera um clipe e depois descreve a alteração que deseja — 'remova a marca d'água', 'troque o objeto sobre a mesa', 'torne a linha de diálogo mais suave'. O Gemini Omni reescreve apenas os quadros afetados, mantendo o resto da cena estável em pixels.
04Qual é a duração dos clipes que o Gemini Omni produz?
A interface vazada sugere formato curto por padrão (alguns segundos), com extensão de cena para tomadas mais longas. A consistência de personagem e guarda-roupa é preservada em uma tomada estendida, o que importa mais do que a duração bruta para o trabalho editorial.
05Posso usar a saída comercialmente?
A saída que você gera é sua para usar, sujeita aos termos do modelo subjacente do Google e às leis locais sobre semelhança, música e marca registrada. Não reivindicamos direitos sobre os vídeos que você cria com o Gemini Omni nesta plataforma.
