Gemini Omni Logo - Google AI 影片產生器GeminiOmni

Gemini Omni:Google 新世代 AI 影片產生器

生成具備原生空間音訊、場景級一致性與對話式編修的電影級短片。Gemini Omni 把單一提示詞變成成品鏡頭。

為 Gemini Omni 上傳參考畫面

丟入你希望 Gemini Omni 賦予動態的靜態畫面。模型會以你的參考圖鎖定角色身分、燈光與配色,讓生成的動作忠於原始素材。PNG 或 JPG 皆可,大頭照與產品照效果最佳。

支援 PNG、JPG、WebP,最大 24MB

選擇長寬比

16:9 適合電影級播放、9:16 適合直式短影音、1:1 適合社群方框。Gemini Omni 以原生方式算繪正確構圖,而非裁切。

Gemini Omni 參考畫面與成品影片畫格 1

每一次算繪都內建原生音訊

Gemini Omni 是 Google 第一個把畫面與聲音當成同一訊號生成的影片模型。要求路面上的雨,水花就會與腳步聲精準對齊;要求大提琴,就會得到符合空間的混響。不用二次處理、不需擬音剪輯師、無需手動同步。

Prompt

Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.

原生空間音訊

一段提示詞就有電影級質感

運鏡、鏡頭選擇與調色都是第一級輸入。Gemini Omni 把「淺景深」當成真正的景深、「黑色電影」當成真正的色盤、「霓虹反射在潮濕路面」當成真正的光源。攝影指導的詞彙能照你寫下的那樣運作。

Prompt

Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.

電影級提示詞忠實度

說話鏡頭真正對嘴

語音與畫面一起生成,所以嘴型逐格對應音素。這項功能終於讓 AI 影片能進入插播廣告、解說短片與免配音的產品示範。Gemini Omni 能處理咬字、呼吸,以及讓語音聽起來像人類的細小停頓。

Prompt

Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.

禁得起檢視的對嘴

可信賴的物理運動

布料皺褶、水會積、頭髮會落下。Gemini Omni 內建真實的物理模型,理解物質在重力與風中如何運動,所以慢動作鏡頭能跨格保持一致,不會像 2026 年其他模型那樣化成變形偽影。

Prompt

Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.

真實布料物理

擬真液體與折射

液體一直是假算繪的破綻。Gemini Omni 做對了:彎月面張力、玻璃折射、在最高點停留的水花液滴、水沉澱時的細小晃動。產品導演第一次就能拿到可用的鏡頭。

Prompt

4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.

擬真液體

長鏡頭中的角色一致性

Gemini Omni 能在整段短片中穩住臉孔、服裝與場景。上傳一份 50 頁劇本,它會記得誰穿什麼、燈在哪裡、風從哪個方向吹來。同樣的邏輯延伸到多鏡頭短片:第一鏡裡的角色,就是第八鏡裡的角色。

Prompt

Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.

10 秒內身分鎖定

Gemini Omni 的不同之處

Gemini Omni 建構於 Gemini 多模態主幹之上,所以它能把聲音、動作與語言當成同一套系統來理解。以下是讓它超越 Google 過去每一款影片模型的能力。

Gemini Omni 方案

依用量計費的點數包,或選擇年繳享 30% 折扣。點數可一比一通用於 Gemini Omni 的文字生成影片、圖片生成影片與對話式重混。

入門版
$9.9/ 月

從 Gemini Omni 開始。

方案內容:

  • 每月 2,950 點
  • 每月約 30 支短片
創作者版
$19.9/ 月

適合專業影片創作者。

方案內容:

  • 每月 6,500 點
  • 每月約 70 支短片
工作室版
$49.9/ 月

適合代理商與工作室。

方案內容:

  • 每月 18,000 點
  • 每月約 200 支短片

Gemini Omni 常見問題

關於 Gemini Omni 目前能做什麼,以及工作流程如何與你的剪輯工具搭配的實務問題。

01

什麼是 Gemini Omni?

Gemini Omni 是 Google 全新的多模態影片生成模型,於 I/O 2026 前在 Gemini App 中首次現身。它在單次算繪中生成畫面與同步空間音訊、接受非常長的劇本上下文,並讓你用對話而非時間軸刷動來編修成品。

02

Gemini Omni 真的能與影片一起生成音訊嗎?

可以 — 這是最大的改變。先前的 Google 影片模型需要獨立的音訊處理。Gemini Omni 輸出單一多模態結果:腳步聲落在水花畫格上、對白對齊嘴型、環境音與場景一致。

03

對話式編修怎麼運作?

你先生成一段短片,再描述想要的更動 — 「移除浮水印」、「換掉桌上的物件」、「讓這句台詞語氣更柔和」。Gemini Omni 只改寫受影響的畫格,其餘鏡頭維持像素穩定。

04

Gemini Omni 生成的短片有多長?

外流的介面顯示預設為短影音(數秒),可透過場景延伸做出更長的鏡頭。延伸鏡頭中角色與服裝的一致性被保留下來,這對編輯工作來說比純粹的時長更重要。

05

我可以商用輸出成品嗎?

你生成的成品歸你使用,但須遵守 Google 的底層模型條款以及你所在地區關於肖像、音樂與商標的法律。本平台不會主張你用 Gemini Omni 製作的影片著作權。