Gemini Omni produit l'image et l'audio spatial synchronisé en un seul passage de génération. Plus besoin de greffer TTS, Foley ou un second modèle audio — le son est une sortie de premier ordre.
Importez une image de référence pour Gemini Omni
Déposez une image fixe que vous voulez voir Gemini Omni animer. Le modèle utilise votre référence pour l'identité du personnage, l'éclairage et les couleurs, afin que le mouvement généré reste fidèle à la source. PNG ou JPG, les portraits et photos de produit donnent les meilleurs résultats.
PNG, JPG, WebP jusqu'à 24 Mo
Choisissez le format
16:9 pour la lecture cinéma, 9:16 pour les vidéos verticales, 1:1 pour les carrés sociaux. Gemini Omni produit le cadrage choisi nativement, pas en recadrant.

Audio natif intégré à chaque rendu
Gemini Omni est le premier modèle vidéo de Google à écrire image et son comme un seul signal. Demandez de la pluie sur le bitume et les éclaboussures tombent en rythme avec les pas ; demandez un violoncelle et vous obtenez la bonne réverbération de la pièce. Pas de seconde passe, pas de monteur Foley, pas de synchronisation manuelle.
Prompt
Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.
Audio spatial natif
Look cinématographique à partir d'un seul prompt
Les mouvements de caméra, le choix d'objectif et l'étalonnage sont des entrées de premier ordre. Gemini Omni honore la « faible profondeur de champ » comme une vraie DOF, le « film noir » comme une vraie palette et le « néon qui se reflète sur le bitume mouillé » comme une véritable source de lumière. Le vocabulaire des chefs opérateurs fonctionne tel que vous l'écrivez.
Prompt
Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.
Fidélité au prompt cinéma
Plans parlés avec un vrai lip sync
La parole est générée en même temps que l'image, donc les formes de la bouche correspondent aux phonèmes image par image. C'est la fonctionnalité qui propulse enfin la vidéo IA dans les pré-rolls publicitaires, les vidéos explicatives et les démos produits sans doublage. Gemini Omni gère l'articulation, la respiration et les petites pauses qui rendent la voix humaine.
Prompt
Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.
Un lip-sync qui tient
Mouvement physique fiable
Le tissu plisse, l'eau s'accumule, les cheveux retombent. Gemini Omni dispose d'un véritable modèle interne de la façon dont la matière bouge sous la gravité et le vent ; les plans au ralenti restent cohérents image après image, sans les artefacts de morphing que d'autres modèles produisent encore en 2026.
Prompt
Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.
Physique des tissus réaliste
Liquides et réfractions photoréalistes
Le liquide est depuis longtemps le signal des rendus truqués. Gemini Omni le réussit : tension du ménisque, réfraction du verre, gouttelettes d'éclaboussure qui marquent une pause à leur sommet et le léger tremblement de l'eau qui se stabilise. Les réalisateurs de films produit obtiennent une prise utilisable dès la première fois.
Prompt
4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.
Liquides photoréalistes
Cohérence des personnages sur les plans longs
Gemini Omni conserve un visage, une garde-robe et un décor sur l'ensemble du clip. Téléversez un scénario de 50 pages : il garde en mémoire qui porte quoi, où se trouve la lampe et d'où vient le vent. La même logique tient pour une bobine multi-plans : le personnage généré au plan un est le même que celui du plan huit.
Prompt
Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.
Identité tenue sur 10 s
Ce qui rend Gemini Omni différent
Gemini Omni s'appuie sur l'épine dorsale multimodale Gemini, ce qui lui permet de comprendre le son, le mouvement et le langage comme un seul système. Voici les capacités qui le placent au-delà de tous les modèles vidéo précédents de Google.
Forfaits Gemini Omni
Packs de crédits à la consommation, ou engagement annuel à -30 %. Les crédits se convertissent un pour un entre text-to-video, image-to-video et remix par chat de Gemini Omni.
Starter
$9.9/ mois
Démarrez avec Gemini Omni.
Inclus :
- 2 950 crédits par mois
- ~30 courts rendus/mois
Creator
$19.9/ mois
Pour les créateurs vidéo en activité.
Inclus :
- 6 500 crédits par mois
- ~70 courts rendus/mois
Studio
$49.9/ mois
Pour les agences et studios.
Inclus :
- 18 000 crédits par mois
- ~200 courts rendus/mois
FAQ Gemini Omni
Questions pratiques sur ce que Gemini Omni fait aujourd'hui et la façon dont le workflow s'intègre à vos outils de montage.
01Qu'est-ce que Gemini Omni ?
Gemini Omni est le nouveau modèle multimodal de génération vidéo de Google, dévoilé dans l'application Gemini en amont de I/O 2026. Il génère l'image et l'audio spatial synchronisé en un seul passage, accepte un très long contexte de scénario et vous permet d'éditer les résultats par chat plutôt que de scroller dans une timeline.
02Gemini Omni génère-t-il vraiment l'audio avec la vidéo ?
Oui — c'est le grand changement. Les précédents modèles vidéo de Google nécessitaient une passe audio séparée. Gemini Omni produit une sortie multimodale unique : les pas tombent sur les images d'éclaboussures, les dialogues correspondent aux formes de la bouche et l'ambiance sonore est cohérente avec la scène.
03Comment fonctionne l'édition par chat ?
Vous générez un clip, puis décrivez le changement souhaité — « retire le filigrane », « remplace l'objet sur la table », « adoucis la réplique ». Gemini Omni réécrit uniquement les images concernées, en gardant le reste du plan stable au pixel près.
04Quelle est la durée des clips produits par Gemini Omni ?
L'UI divulguée laisse entendre du format court par défaut (quelques secondes), avec extension de scène pour des prises plus longues. La cohérence des personnages et de la garde-robe est préservée sur une prise prolongée, ce qui compte davantage que la seule durée pour le travail éditorial.
05Puis-je utiliser le résultat à des fins commerciales ?
Ce que vous générez vous appartient, sous réserve des conditions du modèle sous-jacent de Google et de votre législation locale sur le droit à l'image, la musique et les marques. Nous ne revendiquons aucun droit sur les vidéos que vous créez avec Gemini Omni sur cette plateforme.
