2026-05-20 09:49:28

Seedance 2.0最强对手上线：AI视频的“Nano Banana时辰”

摘要

不出所料，之前爆料的 Gemini Omni 正式发布了。不过和当时大家预想的视频模型不同，Google 定义的 Gemini Omni 是一个能接受任意输...

不出所料，之前爆料的 Gemini Omni 正式发布了。

不过和当时大家预想的视频模型不同，Google 定义的 Gemini Omni 是一个能接受任意输入，生成任意输出的模型，视频只是当前的一部分。

DeepMind CEO Demis Hassabis 在发布会现场，给出了多个 Gemini Omni 的演示案例。它上传了一张自己的照片，Omni 可以快速地修改人物所处的现实环境，轻松调节不同的风格。

画一个简单的圆圈，Omni 可以生成一个黑洞，一场傍晚的漫步，Omni 会渲染不同风格的环境；任何素材通过 Omni 都可以成为构建全新现实的画布。

Gemini Omni 的核心能力在于把文字、视频、图像、交互仿真整合进同一个生成框架。

具体来说，Omni 结合了 Google 目前最先进的几款生成式媒体模型，包括图像模型 Nano Banana、视频生成模型 Veo，以及世界模型 Genie。

我们可以输入「制作一段蛋白质折叠的动画解说」，它会直接产出带有 α 螺旋、β 折叠结构演示的教学视频，而不只是文字描述。

提示词：claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

有网友也立马用 Omni 和 Seedance 2.0 进行了更详细的对比，比较实际生成的质量、动态效果和一致性。

自动播放

整体看下来，Seedance 2.0 的表现还是相当稳定，Omni 则是在某些特定的场景表现要比 Seedance 更强。

根据官方博客的介绍，Omni 的能力集中在视频编辑和物理模拟上。

动动嘴就能剪视频，AI 视频的「可控时刻」

除了用来制作教学视频，视频编辑是 Omni 的另一个主打场景。

Omni 支持上传自拍或任意素材，用自然语言，像和人类剪辑师聊天一样，对视频进行多轮修改，调整风格、添加元素。这套交互逻辑也和此前 Nana Banana 的图片编辑的思路一脉相承。

在官方的演示中，这种能力显得有些特立独行。

拍了一段手摸镜子的视频，只需告诉 Omni：「当人触摸镜子时，让镜子像液体一样泛起美丽的涟漪，人的手臂变成反光材质。」

奇迹就真的发生了。视频没有被完全重绘，人物动作得以保留，但镜子的物理状态和手臂的材质被精准替换。

更值得一提的是它的「多轮对话能力」，每一次新指令都会基于前一次结果继续生成。

Gemini Omni 会尽量保持人物、环境、物理效果和场景上下文的一致性。

懂像素，更懂这个世界的物理法则

物理模拟则是 Gemini Omni 技术含量最高的部分。Google 称 Omni 在模拟动能、重力等现象时有了「质的飞跃」。更逼真的视频、图像以及交互式仿真内容，现在都能通过 Gemini Omni 生成。

当要求它生成「一条在连锁反应轨道上快速滚动的弹珠」时，Omni 展现出了对重力和动能的精确理解。

更复杂的案例是一个「字母表物品视频」。当要求模型展示 26 个英文字母，每个字母对应一个不寻常物体，例如 C 对应水豚、D 对应迪斯科球、L 对应熔岩灯。

提示词：Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

Omni 能同时处理好字母和物体的对应关系、画面节奏、字幕形式、帧数要求、音乐风格和视频收尾方式，把语言、图像和意义联系起来，而不是只做表层的视觉匹配。

目前 Gemini Omni Flash 已同步上线所有 Google 产品，面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，用户可以通过 Gemini app 和 Google Flow 使用。

在 Gemini 网页和应用端，我们可以选择「生成视频」体验 Omni 的能力。

Gemini 提供了年轻时尚、蒙太奇、美漫、会说话的宠物、派对邀请函、月亮、变身表情包、涂鸦特效、像素冒险等 18 种预设风格，我们的 Pro 账户每天有 3 次生成机会。

我们随手输入了一段提示词，「一个男的汽车博主，穿着女装JK服装，梳着双马尾辫，在一台汽车面前」，使用预设的 80 年代 MV 风格，就得到了下面这段让人「欲罢不能」的视频。

自动播放

Google 还提到 YouTube Shorts 和 YouTube Create App 用户也将从本周开始免费使用相关能力；未来几周会通过 API 向开发者和企业客户开放 Gemini Omni。

Omni 可以把图片、文字、视频和音频作为参考素材，并整合成一个连贯输出。

针对真实人脸的使用，它还推出了可以克隆外貌和声音的 Avatar（数字分身）功能。

过去一年，谷歌用 Nano Banana 把 Gemini 的多模态能力推进到图像生成和编辑场景。

现在，Gemini Omni 开始把同一套思路带入视频领域，并试图打造视频生成领域的「Nano Banana 时刻」。

这对视频创作者的直接影响，是制作门槛继续下降：一段手机拍摄的视频、一张参考图、一段音乐，都可能成为可对话编辑的素材。

更大的变化则在于，当视频可以被一句话持续改写，内容生产的速度、真实感验证、版权边界和平台治理，也会被一起推到新的位置。

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！