Gemini Omni: o Gerador de Vídeo IA de Nova Geração do Google

Gere clipes cinematográficos com áudio espacial nativo, consistência ao nível da cena e edição por chat. O Gemini Omni transforma um único prompt em uma cena finalizada.

Envie um Quadro de Referência para o Gemini Omni

Coloque uma imagem estática que você quer que o Gemini Omni anime. O modelo usa sua referência para identidade do personagem, iluminação e cor para que o movimento gerado permaneça fiel à fonte. PNG ou JPG; retratos e fotos de produto funcionam melhor.

Suporta PNG, JPG, WebP até 24MB

Escolha a Proporção

16:9 para reprodução cinematográfica, 9:16 para reels verticais, 1:1 para quadrados sociais. O Gemini Omni renderiza o enquadramento correto nativamente, não como um corte.

Quadro de referência do Gemini Omni e quadro de vídeo finalizado 1

Áudio Nativo Integrado em Cada Renderização

O Gemini Omni é o primeiro modelo de vídeo do Google que escreve imagem e som como um único sinal. Peça chuva no asfalto e os respingos ficam no tempo certo dos passos; peça um violoncelo e você obtém a reverberação adequada para o ambiente. Sem segunda passada, sem editor de Foley, sem sincronização manual.

Prompt

Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.

Áudio espacial nativo

Visual Cinematográfico a Partir de um Único Prompt

Movimentos de câmera, escolha de lente e correção de cor são entradas de primeira classe. O Gemini Omni honra 'profundidade de campo rasa' como uma DOF real, 'film noir' como uma paleta real e 'neon refletindo no asfalto molhado' como uma fonte de luz real. O vocabulário do diretor de fotografia funciona exatamente como você escreveu.

Prompt

Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.

Fidelidade ao prompt cinematográfico

Pessoas Falando com Sincronia Labial Real

A fala é gerada junto com a imagem, então as formas da boca correspondem aos fonemas quadro a quadro. Este é o recurso que finalmente coloca o vídeo IA em anúncios pré-roll, reels explicativos e demos de produto sem dublagem. O Gemini Omni lida com articulação, respiração e as pequenas pausas que tornam a fala humana.

Prompt

Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.

Sincronia labial confiável

Movimento Consciente da Física em Que Você Pode Confiar

Tecidos se dobram, água se acumula, cabelo assenta. O Gemini Omni tem um modelo interno real de como a matéria se move sob gravidade e vento, então cenas em câmera lenta permanecem consistentes em cada quadro em vez de se dissolverem nos artefatos de morphing que outros modelos ainda produzem em 2026.

Prompt

Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.

Física de tecido real

Líquidos e Refração Foto-Realistas

Líquido é o sinal clássico de uma renderização falsa. O Gemini Omni acerta: tensão do menisco, refração do vidro, gotas de respingo que pausam no ápice e a pequena oscilação da água ao assentar. Diretores de produto obtêm uma tomada utilizável já na primeira tentativa.

Prompt

4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.

Líquidos foto-realistas

Consistência de Personagem em Tomadas Longas

O Gemini Omni mantém um rosto, um guarda-roupa e um ambiente ao longo de todo o clipe. Envie um roteiro de 50 páginas e ele acompanha quem está vestindo o quê, onde está o abajur e de que direção vem o vento. A mesma ideia escala para um reel de várias tomadas: o personagem gerado na tomada um é o mesmo gerado na tomada oito.

Prompt

Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.

Identidade preservada por 10s

O Que Torna o Gemini Omni Diferente

O Gemini Omni é construído sobre a espinha dorsal multimodal do Gemini, e é por isso que ele entende som, movimento e linguagem como um único sistema. Abaixo estão os recursos que o colocam à frente de todos os modelos de vídeo anteriores do Google.

Planos do Gemini Omni

Pacotes de créditos pré-pagos, ou compromisso anual com 30% de desconto. Os créditos convertem um para um entre texto-para-vídeo, imagem-para-vídeo e remix por chat do Gemini Omni.

Starter
$9.9/ mês

Comece com o Gemini Omni.

Inclui:

  • 2.950 créditos por mês
  • ~30 renderizações curtas/mês
Creator
$19.9/ mês

Para criadores de vídeo profissionais.

Inclui:

  • 6.500 créditos por mês
  • ~70 renderizações curtas/mês
Studio
$49.9/ mês

Para agências e estúdios.

Inclui:

  • 18.000 créditos por mês
  • ~200 renderizações curtas/mês

Perguntas Frequentes do Gemini Omni

Perguntas práticas sobre o que o Gemini Omni faz hoje e como o fluxo de trabalho se encaixa com suas ferramentas de edição.

01

O que é o Gemini Omni?

O Gemini Omni é o novo modelo multimodal de geração de vídeo do Google, revelado dentro do aplicativo Gemini antes do I/O 2026. Ele gera imagem e áudio espacial sincronizado em uma única passada, aceita contexto de roteiro muito longo e permite editar os resultados via chat em vez de raspagem na timeline.

02

O Gemini Omni realmente gera áudio com o vídeo?

Sim — essa é a grande mudança. Modelos de vídeo anteriores do Google precisavam de uma passada de áudio separada. O Gemini Omni emite uma única saída multimodal: passos caem nos quadros de respingo, diálogos correspondem às formas dos lábios, e o som ambiente é consistente com a cena.

03

Como funciona a edição por chat?

Você gera um clipe e depois descreve a alteração que deseja — 'remova a marca d'água', 'troque o objeto sobre a mesa', 'torne a linha de diálogo mais suave'. O Gemini Omni reescreve apenas os quadros afetados, mantendo o resto da cena estável em pixels.

04

Qual é a duração dos clipes que o Gemini Omni produz?

A interface vazada sugere formato curto por padrão (alguns segundos), com extensão de cena para tomadas mais longas. A consistência de personagem e guarda-roupa é preservada em uma tomada estendida, o que importa mais do que a duração bruta para o trabalho editorial.

05

Posso usar a saída comercialmente?

A saída que você gera é sua para usar, sujeita aos termos do modelo subjacente do Google e às leis locais sobre semelhança, música e marca registrada. Não reivindicamos direitos sobre os vídeos que você cria com o Gemini Omni nesta plataforma.