查看: 1176|回复: 3

全网热评的李飞飞世界生成模型，真的能构建物理世界吗？ [复制链接]

ttxx

军衔等级：

少校

注册：2010-4-28 点赞数

10

电梯直达

1^# 大中小

发表于 2024-12-3 16:01:48 |只看该作者 |倒序浏览

还记得《爱丽丝梦游仙境》开头那个神奇的兔子洞吗？现在你不需要追着白兔跳进去，只要点击一下鼠标就行。

北京时间12月3日凌晨，李飞飞空间智能World Labs的首个项目推出第一个重磅成果：世界生成。

世界生成是一个可以用单个图像生成 3D 物理世界的人工智能系统，World Labs的官方账号连发9条X（原Twitter），更新项目的最新进展：

这一更新激发了AI界的热议。英伟达高级研究科学家、李飞飞高徒Jim Fan在X上表示，这是个可以和Sora媲美的跨时代的产品。他说“GenAI 正在生成越来越具高维度的关于人类体验的快照。Stable Diffusion是一个二维快照。Sora 是一个二维加时间快照。现在，World Labs 是一个三维、完全沉浸式的快照。”

a16z的合伙人Sarah Wang也表示，“AI 生成的连贯 3D 世界已经通过 @theworldlabs 问世。”

来自Google Brain的科学家Ben Poole试图拆解其背后的原理，把这一技术的开创归功于谷歌的CAT3D项目。但奈何这个项目就是没李飞飞的项目火。

而在卡内基梅隆大学机器人研究所工作过的Haoru Xue展望了这个产品的潜在应用：在具身智能里构建无穷现实世界。

看了这么多评论，World Labs是不是真的能做到跨越世代呢？从其效果看，确实可以。

从任何一张平平无奇的照片，生成一个可以进去闲逛的3D世界。这听起来像是科幻作家的幻想，但从今天开始，靠着World Labs的发明，这成了触手可及的现实。

1 世界生成模型，不同在哪里？

之前我们也看到过各种生成3D可交互场景的AI生成产品，包括可即时互动的《我的世界》Oasis。

但World Labs这项技术的核心突破在于直接生成三维场景，而不是停留在传统的像素层面。当一个场景被生成后，它就像真实世界一样稳定存在——你可以在其中自由移动，近距离观察一朵花的细节，或是绕到墙角后看看隐藏的风景。而像素层面生成则很难克服随机性的问题。

更重要的是，这个世界遵循基本的物理规则，具有真实的深度感和空间感。

World Labs还能做出很多场景控制。比如，镜头上，你可以调节虚拟相机的景深，做出大名鼎鼎的希区柯克变焦。

甚至还可以设置多个虚拟镜头，调节镜头在这世界中的运动。

效果方面，你还能为场景添加动态效果，让树叶随风摇曳，让水面泛起波纹。这说明World Labs可以非常好的识别到3D物品的边缘和实体，而非仅仅是复原景深。

更让惊喜的是，这个系统不仅能处理普通照片，还能应付艺术作品。

想象一下：你可以溜进梵高的《夜晚露天咖啡馆》，在那些标志性的黄色灯光下点杯咖啡；或者在爱德华·霍普的《夜游人》中，从另一个角度打量那些永恒的夜归人。这大概是最接近"穿越名画"的体验了——虽然你还是不能真的喝到那杯咖啡。

拿到测试资格的创作者，已经开始迫不及待的开始魔改这项技术，把它塞进视频生成的工作流内。你可以先用文本生成一张图片，再将其转化为3D场景，然后在其中自由设计镜头运动。已经有创作者开始尝试这种新的工作方式——他们将World Labs的技术与现有的AI工具相结合，比如Runway和AI mod，出片效果相当惊艳。

2 解码世界生成背后的技术

虽然World Labs并没有完全公布其背后的技术论文，但根据一些蛛丝马迹，我们还是可以大概重构其技术背景。

在World Labs提供的一系列场景控制中，有一种是景深还原。这是目前实现图片到3D场景重构的核心方法。

早在2023年末，首尔大学的Lucid Dreamer和Skybox AI 就已经实现了可探索的图片到3D场景的构成。它先用类似Stable Diffusion这样的AI模型生成图像，然后利用点云（即用大量3D坐标点来表示物体表面的数据结构，就像用无数小点描绘空间形状）来确保空间准确性。系统Diffusion 模型创造新视角画面时，会参考这些点云投影作为指引，确保生成的内容符合3D几何规律。

生成的2D图像随后通过景深估计（预测图像中物体远近的技术）转换为新的3D点，再用高斯散射技术（一种通过在空间中分布带有颜色和透明度的小球体来实现逼真3D渲染的方法）将这些离散的点转化为连续平滑的3D场景。整个过程就像是用AI来"画"3D空间，但每一笔都受到严格的几何约束，确保最终生成的虚拟世界既真实自然又能自由探索。

但以当时的技术，它无法实现360度全场景的生成，3D的景深感也非常有限。但这一技术路径很可能就是World Labs实现的基础。

而Ben Poole提到的2024年5月Deepmind 发布CAT3D，其核心是一个"两步走"的过程 - 首先用条件扩散模型（类似Stable Diffusion）基于输入图片生成多个不同视角的画面，然后使用类似NeRF（神经辐射场，一种将2D图像转换为3D场景的神经网络技术）的方法将这些视角整合成一个连续的3D空间。这就像是AI先从不同角度"想象"场景会是什么样子，然后把这些"想象"拼接成一个可以自由探索的3D世界。关键突破在于，他们把原本需要大量真实照片的NeRF技术，改造成了只需几张甚至一张图片就能工作的系统，而且处理速度快得惊人，仅需一分钟。

World Labs跟更像是两者的一种结合态，既能延展生成场景，又能使场景内的3D物品更立体多角度。

3 算不上重构物理世界，但未来也许可以

当然，目前展示的还是早期成果。在我们的试用之中，自由移动是有边界的。这也许是因为生成的3D模型并非即时渲染，很难能保证大规模镜头运动之后，其他部分的生成。

另外，这个世界是静止的。你虽然可以用特效调节它，但角色之类可动的内容都需要借助其他工具生成。这是个可探索的世界，但你能做的探索，可能仅仅是溜达。

至于物理世界的互动，除了我们现在能看到，从展示视频中出现的物理反弹，沿着3D轮廓的水波纹外，其他都没什么踪迹。这只能说明，World Labs创造的世界中，至多是有3D体积的建构和基础力反馈。很难说它“模拟了物理世界”。

然而，这可能只是World Labs和李飞飞空间智能野心的第一步。李飞飞自己在5月份的讲座中就提到，“如果我们想让AI超越当前能力，我们不仅想要能够看到和说话的AI，我们还想要能够行动的AI。空间智能的最新里程碑是，教计算机看到、学习、行动，并学习看到和行动得更好。“让这个静止的世界动起来，才是空间智能心之所向。

他们在博客中也表示，正在努力提升生成世界的规模和细节质量，并探索更多交互方式。在不远的将来，任何人都可能通过简单的操作创建自己的3D世界，并与之深度交互。

这让人不禁想起博尔赫斯笔下的图书馆，只不过这次不是无限的书籍，而是无限的空间。在AI技术的魔法加持下，每张图片都可能变成一个入口，通向独特的数字领地。这大概就是技术给我们的承诺：不是简单的观看，而是真正的造访；不是被动的欣赏，而是主动的探索。

所以，你们准备好钻进AI世界的兔子洞了吗？

来源：36kr

本主题由版主或管理员于 2024-12-3 16:06 审核通过

0 举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-4-26 23:45 , Processed in 0.282135 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册