Gemini Omni 在一次生成过程中同时产出画面与同步的空间音频。再也不需要外挂 TTS、拟音或二次音频模型——声音本身就是一等输出。
为 Gemini Omni 上传参考画面
上传一张你希望 Gemini Omni 动态化的静态图。模型会依据你的参考图保持角色身份、光线与色彩,使生成的动态画面忠于原图。支持 PNG 或 JPG,人物头像与产品图效果最佳。
支持 PNG、JPG、WebP,单文件不超过 24MB
选择画幅比例
16:9 适合影院级播放,9:16 适合竖版短视频,1:1 适合社交方图。Gemini Omni 原生输出对应比例,而非裁剪生成。

原生音频内建于每一次渲染
Gemini Omni 是 Google 首个将画面与声音作为同一信号生成的视频模型。提示“雨水落在路面”,水花便会与脚步同步落地;提示“大提琴”,模型会根据房间为你匹配恰当的混响。无需二次处理、无需拟音师、无需手动对轨。
Prompt
Person walking through puddles in heavy rain, footsteps synchronized with splashing sounds, raindrops hitting umbrella in rhythm with audio, 4K quality, realistic water physics, cinematic atmosphere.
原生空间音频
一条提示词即可获得电影级质感
运镜、镜头选择与色彩调性都是一等输入。Gemini Omni 会把“浅景深”当作真实的景深,把“黑色电影”当作真实的色板,把“湿润路面上的霓虹反光”当作真实的光源。你写下的摄影术语,将被原样兑现。
Prompt
Professional portrait of a young man in a rainy urban street at night, neon signs reflecting on wet pavement, atmospheric fog, shallow depth of field, cinematic bokeh, moody color palette, 4K ultra-detailed, film noir aesthetic.
电影级提示词还原
口型精准对应的真实人声
语音与画面同步生成,口型可以逐帧匹配音素。正是这项能力让 AI 视频真正具备进入贴片广告、解说短片与无需配音的产品演示的资格。Gemini Omni 能处理咬字、呼吸以及让人声听起来真实的微小停顿。
Prompt
Close-up shot of a woman speaking directly to camera, clear articulation of words, natural facial expressions during speech, perfect lip-sync with audio, 4K cinematic quality, professional interview lighting, authentic conversational tone.
经得起检验的口型同步
可信赖的物理感运动
布料的褶皱、水面的聚集、头发的下落,都恰如其分。Gemini Omni 内部建立了真实的物质在重力与风力下的运动模型,因此慢动作镜头能在每一帧保持一致,而不像 2026 年其他模型那样仍会糊成形变伪影。
Prompt
Slow-motion shot of a red silk scarf being thrown into the air, floating gracefully with realistic fabric physics, gentle wind affecting movement, 4K quality, cinematic lighting with soft shadows, photorealistic material properties.
真实的织物物理
Prompt
4K close-up of water being poured into a crystal glass, realistic liquid physics with surface tension, light refraction through water and glass, dynamic splashing, photorealistic transparency and reflections, cinematic lighting.
照片级液体表现
长镜头中的角色一致性
Gemini Omni 能在整段短片中锁定一张脸、一套服装、一处场景。上传一份 50 页的剧本,它会清楚谁穿什么、台灯在哪里、风从哪个方向吹来。这套能力同样适用于多镜头连拍:你在第 1 个镜头里生成的角色,到第 8 个镜头依然是同一个人。
Prompt
Cinematic close-up portrait of a woman in soft window light, 10 seconds of natural micro-expressions, breath visible, identity locked across every frame, 4K editorial photography aesthetic, shallow depth of field.
10 秒长镜头中身份不漂移
Gemini Omni 的与众不同之处
Gemini Omni 基于 Gemini 多模态主干模型构建,因此它能把声音、画面与语言作为一个整体来理解。以下能力让它超越了 Google 此前的所有视频模型。
Gemini Omni 套餐
支持按需购买积分包,或选择年付享 7 折优惠。积分可在 Gemini Omni 的文生视频、图生视频与对话式重混之间通用,按一比一兑换。
入门版
$9.9/ 月
开始体验 Gemini Omni。
包含:
- 每月 2,950 积分
- 每月约 30 段短片
创作者版
$19.9/ 月
适合在职视频创作者。
包含:
- 每月 6,500 积分
- 每月约 70 段短片
工作室版
$49.9/ 月
适合机构与工作室。
包含:
- 每月 18,000 积分
- 每月约 200 段短片
Gemini Omni 常见问题
关于 Gemini Omni 当前能力以及它如何融入你现有剪辑流程的实用问答。
01什么是 Gemini Omni?
Gemini Omni 是 Google 全新的多模态视频生成模型,在 I/O 2026 大会前已在 Gemini 应用内提前曝光。它能在一次生成中同时输出画面与同步空间音频,支持极长剧本上下文,并允许你通过对话编辑成片,而非在时间线上反复拖拽。
02Gemini Omni 真的能与视频一起生成音频吗?
是的——这正是它最关键的变化。Google 此前的视频模型都需要单独跑一遍音频生成。Gemini Omni 一次性输出多模态结果:脚步声落在水花画面上,对白对应着口型,环境氛围音与场景始终一致。
03对话式编辑是怎么工作的?
你先生成一段短片,然后用语言描述想要修改的内容——“去掉水印”“换掉桌上的物体”“让这句台词更柔和”。Gemini Omni 只会改写受影响的帧,其余画面保持像素级稳定。
04Gemini Omni 生成的短片有多长?
曝光的 UI 显示默认为短视频长度(几秒钟),并可通过场景延展拓展为更长的镜头。在延长后的镜头中,角色与服装的一致性依然得以保持——这对编辑工作而言比单纯的时长更重要。
05生成的内容可以商用吗?
你生成的内容归你自由使用,但需遵守 Google 的底层模型条款以及当地关于肖像、音乐与商标的法律。本平台不主张你用 Gemini Omni 生成的视频的任何权利。
