为了佐证 Veo 2 确实优秀,谷歌还做了一个基于人类评估者的对比评估,简单来说就是让人类评估者看不同模型基于同一提示词生成的视频,然后判断自己更喜欢哪一个视频。他们对比了 Meta Movie Gen、可灵 1.5、Minimax 和 Sora Turbo。参与者观看了 1003 条提示词及相应视频。
在整体偏好上,Veo 2 的优势非常明显,被另一个对比模型胜过的概率不超过 33%。
而在指令遵从度上,Veo 2 的表现依旧强势。
令人意外的反倒是 Sora Turbo,其整体偏好和指令遵从表现是这几个模型里面最差的。Sora 要想「挽回面子」,可能还得看以后的满血版了。
DeepMind 表示,虽然视频模型经常出现「幻觉」,展示不必要的细节(例如多余的手指或额外的物体),但 Veo 2 产生这些细节的频率较低,模型的输出更加逼真。当然,作为一款 SOTA 视频生成模型,光能生成拟真视频可不够。从官方以及网友分享的生成结果看,Veo 2 在生成幻想和动画内容方面的表现也同样非常出色。 提示词:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 来自 X @hhm
提示词:a sitcom tv show about potatoes,来自谷歌研究科学家 @babaeizadeh
Veo 2 还让创作者可以轻松实现以前需要复杂后期才能完成的视觉效果。比如,它可以让这个运动的立方体稳定地切换材质,这个画面让人来做,看起来就很难,换 AI 来做,其实一点也没变简单。