查看: 1517|回复: 4

这个清华大佬整的活，让李白穿上了背带裤 [复制链接]

see122

军衔等级：

少校

注册：2007-10-29 点赞数

11

电梯直达

1^# 大中小

发表于 2024-11-15 09:02:53 |只看该作者 |正序浏览

粉色连衣裙、黑色大波浪的美女，惊恐转身后，露出了一神似张宋小宝的娇俏面庞。

微张的嘴唇，欲语还休。

美国的三好青年马斯克，身着东北大花袄，站在微风阵阵的白宫前边。

小手一揣，略带局促地露出一抹拘谨、正派的微笑。

而另一边，魔卡少女小樱也正拉着隔壁的蕾姆，在三里屯商场里逛街。

当然了，世超知道见识过各种 P 图软件和 AI 技术的你。估计看到这些效果，也是轻轻一笑说：

早半年前，哥就见过这种效果了。

哥不仅能让马斯克换装，就是让他跳段舞，也是手拿把掐了。

但且慢，上面这些视频的生成方法，可能跟你以前见过的都不一样。

这个用的是生数科技联合清华团队推出的视频模型 Vidu 1.5 ，这个模型有一个新的能力：多主体一致性。

用大白话来说，就是我们可以上传多张图片来生成视频。并且保证这些复杂的元素不会变形。

比如上传角色、物体和地点的图，它可以用你指定的这些元素，做出一条视频来。

这样我们在生成的时候，就可以自己设定人物、物体还有场景。

像马斯克这条视频，就是用了一张马斯克的大头照，一件花袄，还有一张白宫的图片，生成出来的。

丢一句简单的提示词， Vidu 就可以复刻出一条以假乱真的视频。让马斯克，穿上你给的大花袄，在白宫前秀一段。

这么整的好处显而易见，我们可以手动控制AI 生成的素材，让视频更合我们心意。

以前我们只能扔一句话，或者扔一张照片，让 AI 自由发挥。最后结果很容易就脱离我们的预期。

比如你直接说让马斯克穿着大花袄，它就会真的在马褂上，画几朵大花。

如果 AI 的词库里，就没有大花袄这个东西。不论我们怎么调整提示词，最后都没法生成出来。

可现在，你不用使劲憋提示词了，只需要闭眼甩一张图。

之前还没有视频模型可以做到这样，很多时候能把一张上传的图片处理明白，就已经相当得劲了。

所以， Vidu 这个模型一发布。外网的各种网友们，立马就惊呼，然后开机上手了。

大家也可以直接打开 Vidu 的官方，上手试试看。不过，现在只有三次的免费机会，后面每次试用就会需要消耗 4 个积分。

为了给大家整个明白，世超试用了一天。大伙可以往下滑，看看我的效果，再决定要不要玩。

按照编辑部的约定俗成，咱们的吉祥物一般都是我第一个试的。

这回，我整了两张火锅戴头盔的照片，又上传了一张抹茶绿的雅迪电动车。

输入提示词：金毛犬在骑雅迪电动车。

大概几十秒之后，带着黑色防风镜的火锅，就这么丝滑地骑上了小电驴。

连胸前蓝色的挂饰，还有雅迪的橙色车标，都完整的保留了下来。这个一致性效果还是挺惊艳的。

还贴心地加上了吐舌头和摇尾巴的小细节。

虽然火锅这个滑滑板一样的骑车动作，是肯定没法上路的。

不过，因为狗本来就不会骑电驴，咱们也不能强求。后面，世超换了张乔布斯的大头照，这个效果就很可以了。

而且，我还特地上了点难度。让乔布斯也和马斯克一样，穿上了咱们特色服饰军大衣。

硬朗五官配上笔挺大衣，效果还是非常板正的。

乔布斯应该也没想到，自己有一天会坐上雅迪的橘色雅座吧。

虽然只有正脸照，但是镜头转到侧方的时候，人物的特征（比如小秃头）还是还原得挺精准。

不过，上面这些都还是单一的人物主体，外加一个场景或者物品。抓取起来还是比较简单。

一般来说，我们加入的主体越多，大模型就可能抓取错误。

于是我试了一下上传一张唐伯虎点秋香里经典图，然后要求把脸部替换成我给的另一张图。

它从一堆人的背影里，精准地找到秋香。让她把脸缓缓转过来，微微露出侧脸。

虽然没有全脸示人，但眉眼就足够一眼丁真。

后面，我又加上了难度。

不仅要替换服装，还要加上动作。让语文课本上的李白和蔡徐坤来个对换：李白穿着背带裤在打篮球。

这次， Vidu 给的效果就相当抽象了。

它直接给坤换了个画风，整出了一个动画版。虽说保留的格子裤花纹小细节，足以体现用心。

但这个李白 260°水调大转头，画面实在过于诡异了。也没有完成我输入的【打篮球】的指令。

在后面测试中，世超发现 Vidu 虽然能抠主体。但是，如果动作比较大，或者画面变化比较多，就容易出现上面突然转头的小 bug 。

比如，让它把胖虎的玩具人偶放在冰雪女王的手上。

它确实能处理多个主体，让塑胶胖虎凭空变出来，而且，冰雪女王的动作和场景连贯性，基本可以以假乱真。

但是，换进去的胖虎的动作，就明显有点小崩。在五秒里，连续抽搐变形了数次。

在一下午的测试里， Vidu 的生成效果总是时好时坏。

世超一直在上一秒惊艳，下一秒惊吓的反复中来来回回。

比如让雷军坐到问界的车里挥手。雷军就这么水灵灵地掉到了车外面，而且，脸也早已经崩坏了。

但是，同时它又能完美地让乐高国王，在城堡上举起长剑，激昂演讲。保持场景和人物，都连贯一致。

崩多了之后，我甚至摸出了一些门道。如果你看完文章后，打算去试试，那么在给主体照片的时候，最好找背景比较干净的图片。

主体越好抠出来，生成的准确率就越高。

同时，给一个主体上传多个角度的照片，也能让他动起来更自然。因为模型可以构建出一个更完整的人物。

虽然根据 Vidu 官方的说法，他们这次放弃了业界主流的 LoRA 微调的方法。因为那种方法，很容易出现过拟合，就是在理解主体的过程中，会遗忘大量原先的知识。

所以，主体的动作和肢体很容易崩坏，难以控制。画面里东西越多，变化越多，就越容易失控。

而 Vidu 的新模型是用类似于大语言模型的技术，把所有输入都处理成视觉数据，并和大语言模型一样能“上下文记忆”地处理这些输入数据。

这确实让 Vidu 在多主体的处理上，迈出了一大步。

但与此同时，经过简单测试后，世超觉得 Vidu 的这个技术还有很长一段路需要走。

其实， Vidu 暴露的问题跟早期的文成视频很像。就是意思都到了，但是细节还不够，效果不稳定，时不时抽一下风。

像这个电动车和公路场景，再怎么切换镜头都没有变形。就是运动的时候，人物出现了影分身。

指定图片：初音未来、雅迪电动车和公路

如果你想用它完全替代视频工作者的工作，世超觉得还是得等等。

但 Vidu 肯定是值得上手玩玩看的。

毕竟谁不想让喜欢的角色穿上我们挑选的衣服，不想让心意的 IP 角色或者明星，跨界同框一下呢。

来源：36kr

本主题由版主或管理员于 2024-11-15 09:14 审核通过

0 举报本楼

本帖有 4 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-4-21 19:41 , Processed in 0.249099 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册