Gemini Omni : le générateur vidéo IA nouvelle génération de Google

Générez des plans cinématographiques avec audio spatial natif, cohérence à l'échelle de la scène et édition par chat. Gemini Omni transforme un simple prompt en plan fini.

Audio natif intégré à chaque rendu

Gemini Omni est le premier modèle vidéo de Google à écrire image et son comme un seul signal. Demandez de la pluie sur le bitume et les éclaboussures tombent en rythme avec les pas ; demandez un violoncelle et vous obtenez la bonne réverbération de la pièce. Pas de seconde passe, pas de monteur Foley, pas de synchronisation manuelle.

Prompt

Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.

Audio spatial natif

Look cinématographique à partir d'un seul prompt

Les mouvements de caméra, le choix d'objectif et l'étalonnage sont des entrées de premier ordre. Gemini Omni honore la « faible profondeur de champ » comme une vraie DOF, le « film noir » comme une vraie palette et le « néon qui se reflète sur le bitume mouillé » comme une véritable source de lumière. Le vocabulaire des chefs opérateurs fonctionne tel que vous l'écrivez.

Prompt

Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.

Fidélité au prompt cinéma

Plans parlés avec un vrai lip sync

La parole est générée en même temps que l'image, donc les formes de la bouche correspondent aux phonèmes image par image. C'est la fonctionnalité qui propulse enfin la vidéo IA dans les pré-rolls publicitaires, les vidéos explicatives et les démos produits sans doublage. Gemini Omni gère l'articulation, la respiration et les petites pauses qui rendent la voix humaine.

Prompt

Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.

Un lip-sync qui tient

Mouvement physique fiable

Le tissu plisse, l'eau s'accumule, les cheveux retombent. Gemini Omni dispose d'un véritable modèle interne de la façon dont la matière bouge sous la gravité et le vent ; les plans au ralenti restent cohérents image après image, sans les artefacts de morphing que d'autres modèles produisent encore en 2026.

Prompt

Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.

Physique des tissus réaliste

Liquides et réfractions photoréalistes

Le liquide est depuis longtemps le signal des rendus truqués. Gemini Omni le réussit : tension du ménisque, réfraction du verre, gouttelettes d'éclaboussure qui marquent une pause à leur sommet et le léger tremblement de l'eau qui se stabilise. Les réalisateurs de films produit obtiennent une prise utilisable dès la première fois.

Prompt

4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.

Liquides photoréalistes

Cohérence des personnages sur les plans longs

Gemini Omni conserve un visage, une garde-robe et un décor sur l'ensemble du clip. Téléversez un scénario de 50 pages : il garde en mémoire qui porte quoi, où se trouve la lampe et d'où vient le vent. La même logique tient pour une bobine multi-plans : le personnage généré au plan un est le même que celui du plan huit.

Prompt

Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.

Identité tenue sur 10 s

Ce qui rend Gemini Omni différent

Gemini Omni s'appuie sur l'épine dorsale multimodale Gemini, ce qui lui permet de comprendre le son, le mouvement et le langage comme un seul système. Voici les capacités qui le placent au-delà de tous les modèles vidéo précédents de Google.

Forfaits Gemini Omni

Packs de crédits à la consommation, ou engagement annuel à -30 %. Les crédits se convertissent un pour un entre text-to-video, image-to-video et remix par chat de Gemini Omni.

Abonnement mensuel

Abonnement annuel

-30 % OFF

Packs de crédits

Abonnement mensuel

Abonnement annuel

-30 % OFF

Packs de crédits

Starter

$9.9/ mois

Démarrez avec Gemini Omni.

Inclus :

2 950 crédits par mois
~30 courts rendus/mois

Creator

$19.9/ mois

Pour les créateurs vidéo en activité.

Inclus :

6 500 crédits par mois
~70 courts rendus/mois

Studio

$49.9/ mois

Pour les agences et studios.

Inclus :

18 000 crédits par mois
~200 courts rendus/mois

FAQ Gemini Omni

Questions pratiques sur ce que Gemini Omni fait aujourd'hui et la façon dont le workflow s'intègre à vos outils de montage.

Qu'est-ce que Gemini Omni ?

Gemini Omni est le nouveau modèle multimodal de génération vidéo de Google, dévoilé dans l'application Gemini en amont de I/O 2026. Il génère l'image et l'audio spatial synchronisé en un seul passage, accepte un très long contexte de scénario et vous permet d'éditer les résultats par chat plutôt que de scroller dans une timeline.

Gemini Omni génère-t-il vraiment l'audio avec la vidéo ?

Oui — c'est le grand changement. Les précédents modèles vidéo de Google nécessitaient une passe audio séparée. Gemini Omni produit une sortie multimodale unique : les pas tombent sur les images d'éclaboussures, les dialogues correspondent aux formes de la bouche et l'ambiance sonore est cohérente avec la scène.

Comment fonctionne l'édition par chat ?

Vous générez un clip, puis décrivez le changement souhaité — « retire le filigrane », « remplace l'objet sur la table », « adoucis la réplique ». Gemini Omni réécrit uniquement les images concernées, en gardant le reste du plan stable au pixel près.

Quelle est la durée des clips produits par Gemini Omni ?

L'UI divulguée laisse entendre du format court par défaut (quelques secondes), avec extension de scène pour des prises plus longues. La cohérence des personnages et de la garde-robe est préservée sur une prise prolongée, ce qui compte davantage que la seule durée pour le travail éditorial.

Puis-je utiliser le résultat à des fins commerciales ?

Ce que vous générez vous appartient, sous réserve des conditions du modèle sous-jacent de Google et de votre législation locale sur le droit à l'image, la musique et les marques. Nous ne revendiquons aucun droit sur les vidéos que vous créez avec Gemini Omni sur cette plateforme.

Gemini Omni : le générateur vidéo IA nouvelle génération de Google

Audio natif intégré à chaque rendu

Look cinématographique à partir d'un seul prompt

Plans parlés avec un vrai lip sync

Mouvement physique fiable

Liquides et réfractions photoréalistes

Cohérence des personnages sur les plans longs

Ce qui rend Gemini Omni différent

01Sortie multimodale nativeGemini Omni produit l'image et l'audio spatial synchronisé en un seul passage de génération. Plus besoin de greffer TTS, Foley ou un second modèle audio — le so…

02Édition par chatDites à Gemini Omni quoi changer. « Retire le filigrane », « remplace la voiture rouge par une noire », « rends la réplique plus contrite » — le modèle réécrit …

03Contexte de 50 pages de scénarioL'architecture Gemini sous Gemini Omni hérite de la fenêtre de contexte longue, donc un court-métrage entier tient en mémoire de travail. Les personnages garden…

04Bibliothèque de modèlesPartez d'un modèle — explainer, présentation produit, accroche sociale — et laissez Gemini Omni remplir les parties mobiles. L'UI divulguée met explicitement en…

05Remixer des séquences existantesImportez votre propre clip et demandez à Gemini Omni de le restyliser, l'allonger ou le recomposer. Le mode remix est exposé dans la même surface de chat que le…

06Résolution prête pour la productionSortie en classe 4K avec cadrage natif 9:16 et 1:1. Gemini Omni a clairement été pensé pour les pipelines sociaux et broadcast, et pas seulement pour les bobine…

FAQ Gemini Omni

Qu'est-ce que Gemini Omni ?

Gemini Omni génère-t-il vraiment l'audio avec la vidéo ?

Comment fonctionne l'édition par chat ?

Quelle est la durée des clips produits par Gemini Omni ?

Puis-je utiliser le résultat à des fins commerciales ?