查看: 1177|回复: 0

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发 [复制链接]

tayun

军衔等级：

中校

注册：2015-11-14 点赞数

9

电梯直达

1^# 大中小

发表于 2024-11-15 18:45:15 |只看该作者 |倒序浏览

机器之心原创

机器之心编辑部

「在吗？我这儿有三张图，你能攒一个视频出来吗？」最近，在 X 平台上，国产视频模型 Vidu 玩起了在线接单。

你猜怎么着？拿到这三张图之后，这个模型还真能攒一个毫无违和感的视频，人、物、背景的交互非常自然，人物的面部特征、动态表情也没有因为大幅度的动作而变形。

这项成果来自国产视频模型 Vidu，由清华系大模型公司生数科技自主研发，这也是全球最早对标 Sora 发布的视频模型。

自 7 月正式上线以来，Vidu 持续进化，如今已经升级到了 1.5 版本。

Vidu 这次升级在功能层面最大的特点在于「多主体一致性」的突破，能把多张参考图中的多个主体自然地融合到一个视频中。

有了这项能力，马斯克穿大花袄给「电动车」代言都不用亲自飞过来；

提示词：男人穿着花袄在游乐园骑电动车。

让小李子穿高定走个秀，也是分分钟成真；

提示词：男人穿着红色的裙子在走秀

直观看，Vidu1.5 的推出提升了视频模型的可玩性。

但好玩只是表象，背后还藏着三大惊喜：

一是视频模型能控制多主体了！

二是视频模型拥有记忆了，能对「上下文特征」进行关联了！

三是视频模型告别 LoRA，通用架构就可以支持泛化任务了！视频模型迎来智能涌现！

攻克视频模型的「杀手级」难题

在视频生成中，保持「单主体一致性」就已经是一大难题，更别提说对「多主体」的控制。

比如同时上传男孩、生日蛋糕、水晶背景，生成一段「男孩手里拿着蛋糕在水晶场景里」的画面。

这里涉及三个主体特征，当前的视频模型无法理解这么多的特征，输出结果「大翻车」。

比如海外爆火的 Runway，虽然一定程度上也在融合，但是主体关系明显错误。

同样热度很高的 Luma AI，直接来了一段 PPT 播放。

而 Vidu 能同时理解三个主体特征，将三者完美融合，同时严格遵循指令要求，手拿蛋糕、身处水晶里 —— 物理空间关系完美契合。

这段画面，是在 Vidu 中通过上传人物角色图、道具图、环境图，一键生成。

但这还只是其中一种打开方式，Vidu 还可以直接融合不同主体特征，比如将角色 A 的正面和角色 B 的反面无缝融合。

小试一下，马斯克直接换上 10 号球衣替梅西上场踢球；

提示词：男人背对着镜头，慢慢转过头冲着镜头笑

另外也可以上传多个自定义角色，让它们在指定空间内进行交互。

喜欢的二次元角色，画风差了十几年，也可以同框一起逛街：

提示词：两个女孩在一起逛商场。

甚至可以直接上传人物图 + 道具图，让指定人物用指定道具做出指定的动作；

提示词：一个女孩正在骑摩托车在城市街头。

视频模型也能读懂「上下文」了

要实现诸如以上的效果，模型需要做到几点：

理解多主体的特征，简单说，有哪几样主体，都长什么样，模型能理解和记住；
理解描述指令的含义，知道要输出一个什么画面；
对不同主体、不同特征进行关联，比如「小男孩拿着蛋糕」这一画面，模型在记住男孩和蛋糕的特征之后，还需理解空间方位是怎样，将两个主体合理关联到一起。

这个过程是不是有点眼熟？对，这个实现路径在大语言模型 LLM 中同样出现过，就是「上下文学习」（In-context Learning）。

我们知道，在过去几年语言模型的突飞猛进中，「上下文学习」功不可没。LLM 的成功，就在于模型不仅仅是处理单一的文本输入信息，而是能够关联前后的文本、识别语句之间的关系，从而生成连贯且符合情境的回答或内容。

简单说，就是支持的输入更灵活（多段、甚至超长文本的输入），还能做记忆管理（理解含义），上下文关联（理解上下文），最后再输出。

如今 Vidu1.5 也是这样的路径。不再是仅接受单一输入，从单图输入拓展到多图的灵活输入，而且不局限于特定特征，同时能在多输入间建立关联、理解复杂的描述，并输出符合逻辑的内容。

这套独属于 LLM 的独门秘籍，视频模型现在也学会了。

终结 LoRA，通用架构的再一次成功

Vidu 为什么能实现「上下文记忆」能力，或许答案就藏在技术架构上。

生数科技官方放出了背后的技术架构，无独有偶，是和 LLM 相似的「设计哲学」。

具体来说，可以分为三个维度：统一问题形式、统一架构、压缩即智能。

统一问题形式：LLM 将所有问题，不管是对话、翻译，还是代码，都统一为（文本输入，文本输出），Vidu 则是将所有问题统一为（视觉输入，视觉输出）；
统一架构：均用单个网络统一建模变长的输入和输出；
压缩即智能：LLM 从文本数据的压缩中获取智能，Vidu 从视频数据的压缩中获取智能，都是从海量预训练数据中压缩提取丰富的知识。

LLM 与 Vidu 技术架构方案对比

这样的设计思路，概括来说就是，用一个通用化的模型来处理所有任务，避免复杂多样的专用任务模块。

要知道，过往的视频模型如果想实现上述换装、人脸融合等不同任务，需要针对每一个场景进行微调。

就是所谓 LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定场景、特定主体的多段视频进行微调，让模型理解该场景下的主体特征。

简单理解，比如要实现人脸融合的任务，将我的脸融合到别的人物角色上，但模型在预训练过程中并没有学习过我长什么样，所以首先需要基于多段我的视频，让模型进一步训练，让模型认识我长什么样，从而能够生成。

但这里的问题是，通常 LoRA 需要 20～100 段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本为单次视频生成的成百上千倍。

另外 LoRA 微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态表情或肢体动作变化，很难有效控制，生成的视频容易产生僵硬或不自然的效果，以及在复杂动作或大幅度变换时，微调模型无法很好地捕捉细节，导致主体特征不够精准。

所以 LoRA 主要适用于大多数简单的任务场景，但对于高复杂的问题场景，需要更多的微调数据和更复杂的模型微调策略。

但就像 LLM 用一个通用模型统一了所有文本类场景，Vidu 也是基于通用的模型来统一视觉类任务。

视觉智能涌现，AGI 要加速到来了？

Vidu1.5 的推出让我们仿佛看到了大语言模型「来时路」的样子。

架构层面，从「预训练 + 微调」的范式，进化到无需微调就能覆盖广泛的下游任务。表现层面，通过不断扩展上下文，实现更多更复杂任务的直接生成。这无疑让我们联想到 ChatGPT 的智能涌现时刻。

如 OpenAI 引领 LLM 的进步和创新，Vidu1.5 的推出则在世界范围内率先推动了多模态大模型产生智能涌现。

当然多模态模型与语言模型仍然存在显著差异，在架构复杂性、数据多样性、生成效率等方面，多模态模型需要处理的问题更复杂、门槛更高。

这也意味着，多模态大模型领域的「智能涌现」更难能可贵。

面向 AGI 的终局看，从 ChatGPT 引爆世界开始，领域内至今已形成共识，大语言模型的训练和推理阶段均存在 Scaling Law，这揭示了通往 AGI 的可行路径。

但最近，学界和业界对于未来 LLM 迭代方向的讨论不少，其中不乏「Scaling Law （扩展法则）到头了」这种悲观的声音，AGI 发展受阻。

但 Vidu1.5 的诞生或许能打消一部分人的疑虑。

具体来看，关于大语言模型「Scaling Law 到头了」的判断，主要源于可用于训练的高质量文本数据已经趋于枯竭。新的文本数据变得难以获得，Scaling Law 在文本领域面临瓶颈。

相比之下，视觉数据的获取则更为容易。随手一拍或摄录便能得到全新的影像素材，丰富的视觉数据为 Scaling Law 提供了源源不断的「燃料」。

再到现如今，Vidu1.5 的推出，又证明了视觉模型在架构上的突破。「数据」和「架构」两大难题，均得到良好解决。这表明在视觉模型中，Scaling Law 将焕发新的活力。

从单输入主体的文 / 图生视频，到多输入参考信息，如今，大语言模型的独特优势已经在视觉模型中尽数体现。一个清晰可见的趋势是，未来将能以更长、更丰富的上下文作为输入，进一步提升视觉模型的表现。

所以，对于视觉生成这件事来说，技术的奇点刚刚出现！

另外，目前业界共识，仅依赖单一的文本输入始终是无法实现全面逼近人类的高度智能。要实现更加通用和全面的智能，必须对更多模态进行良好的理解和生成建模，尤其是视觉模态，因为它是更直观、更丰富的世界理解方式。

所以 Vidu1.5 的突破，或许打通了前往 AGI 的关键一环。虽然 LLM 的增长在放缓，但视觉模型领域正迎来大爆发，这或许将从另一个维度加速 AGI 的到来！

如今，Vidu 1.5 版本已正式上线，感兴趣的同学可上手试用！

体验地址：www.vidu.studio

来源：网易

本主题由版主或管理员于 2024-11-15 19:23 审核通过

0 举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-4-22 00:51 , Processed in 0.260077 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册