通信人家园
标题:
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
[查看完整版帖子]
[打印本页]
时间:
2024-12-3 16:01
作者:
ttxx
标题:
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
还记得《爱丽丝梦游仙境》开头那个神奇的兔子洞吗?现在你不需要追着白兔跳进去,只要点击一下鼠标就行。
北京时间12月3日凌晨,李飞飞空间智能World Labs的首个项目推出第一个重磅成果:世界生成。
世界生成是一个可以用单个图像生成 3D 物理世界的人工智能系统,World Labs的官方账号连发9条X(原Twitter),更新项目的最新进展:
这一更新激发了AI界的热议。英伟达高级研究科学家、李飞飞高徒Jim Fan在X上表示,这是个可以和Sora媲美的跨时代的产品。他说“GenAI 正在生成越来越具高维度的关于人类体验的快照。Stable Diffusion是一个二维快照。Sora 是一个二维加时间快照。现在,World Labs 是一个三维、完全沉浸式的快照。”
a16z的合伙人Sarah Wang也表示,“AI 生成的连贯 3D 世界已经通过 @theworldlabs 问世。”
来自Google Brain的科学家Ben Poole试图拆解其背后的原理,把这一技术的开创归功于谷歌的CAT3D项目。但奈何这个项目就是没李飞飞的项目火。
而在卡内基梅隆大学机器人研究所工作过的Haoru Xue展望了这个产品的潜在应用:在具身智能里构建无穷现实世界。
看了这么多评论,World Labs是不是真的能做到跨越世代呢?从其效果看,确实可以。
从任何一张平平无奇的照片,生成一个可以进去闲逛的3D世界。这听起来像是科幻作家的幻想,但从今天开始,靠着World Labs的发明,这成了触手可及的现实。
1 世界生成模型,不同在哪里?
之前我们也看到过各种生成3D可交互场景的AI生成产品,包括可即时互动的《我的世界》Oasis。
但World Labs这项技术的核心突破在于直接生成三维场景,而不是停留在传统的像素层面。当一个场景被生成后,它就像真实世界一样稳定存在——你可以在其中自由移动,近距离观察一朵花的细节,或是绕到墙角后看看隐藏的风景。而像素层面生成则很难克服随机性的问题。
更重要的是,这个世界遵循基本的物理规则,具有真实的深度感和空间感。
World Labs还能做出很多场景控制。比如,镜头上,你可以调节虚拟相机的景深,做出大名鼎鼎的希区柯克变焦。
甚至还可以设置多个虚拟镜头,调节镜头在这世界中的运动。
效果方面,你还能为场景添加动态效果,让树叶随风摇曳,让水面泛起波纹。这说明World Labs可以非常好的识别到3D物品的边缘和实体,而非仅仅是复原景深。
更让惊喜的是,这个系统不仅能处理普通照片,还能应付艺术作品。
想象一下:你可以溜进梵高的《夜晚露天咖啡馆》,在那些标志性的黄色灯光下点杯咖啡;或者在爱德华·霍普的《夜游人》中,从另一个角度打量那些永恒的夜归人。这大概是最接近"穿越名画"的体验了——虽然你还是不能真的喝到那杯咖啡。
拿到测试资格的创作者,已经开始迫不及待的开始魔改这项技术,把它塞进视频生成的工作流内。你可以先用文本生成一张图片,再将其转化为3D场景,然后在其中自由设计镜头运动。已经有创作者开始尝试这种新的工作方式——他们将World Labs的技术与现有的AI工具相结合,比如Runway和AI mod,出片效果相当惊艳。
2 解码世界生成背后的技术
虽然World Labs并没有完全公布其背后的技术论文,但根据一些蛛丝马迹,我们还是可以大概重构其技术背景。
在World Labs提供的一系列场景控制中,有一种是景深还原。这是目前实现图片到3D场景重构的核心方法。
早在2023年末,首尔大学的Lucid Dreamer和Skybox AI 就已经实现了可探索的图片到3D场景的构成。它先用类似Stable Diffusion这样的AI模型生成图像,然后利用点云(即用大量3D坐标点来表示物体表面的数据结构,就像用无数小点描绘空间形状)来确保空间准确性。系统Diffusion 模型创造新视角画面时,会参考这些点云投影作为指引,确保生成的内容符合3D几何规律。
生成的2D图像随后通过景深估计(预测图像中物体远近的技术)转换为新的3D点,再用高斯散射技术(一种通过在空间中分布带有颜色和透明度的小球体来实现逼真3D渲染的方法)将这些离散的点转化为连续平滑的3D场景。整个过程就像是用AI来"画"3D空间,但每一笔都受到严格的几何约束,确保最终生成的虚拟世界既真实自然又能自由探索。
但以当时的技术,它无法实现360度全场景的生成,3D的景深感也非常有限。但这一技术路径很可能就是World Labs实现的基础。
而Ben Poole提到的2024年5月Deepmind 发布CAT3D,其核心是一个"两步走"的过程 - 首先用条件扩散模型(类似Stable Diffusion)基于输入图片生成多个不同视角的画面,然后使用类似NeRF(神经辐射场,一种将2D图像转换为3D场景的神经网络技术)的方法将这些视角整合成一个连续的3D空间。这就像是AI先从不同角度"想象"场景会是什么样子,然后把这些"想象"拼接成一个可以自由探索的3D世界。关键突破在于,他们把原本需要大量真实照片的NeRF技术,改造成了只需几张甚至一张图片就能工作的系统,而且处理速度快得惊人,仅需一分钟。
World Labs跟更像是两者的一种结合态,既能延展生成场景,又能使场景内的3D物品更立体多角度。
3 算不上重构物理世界,但未来也许可以
当然,目前展示的还是早期成果。在我们的试用之中,自由移动是有边界的。这也许是因为生成的3D模型并非即时渲染,很难能保证大规模镜头运动之后,其他部分的生成。
另外,这个世界是静止的。你虽然可以用特效调节它,但角色之类可动的内容都需要借助其他工具生成。这是个可探索的世界,但你能做的探索,可能仅仅是溜达。
至于物理世界的互动,除了我们现在能看到,从展示视频中出现的物理反弹,沿着3D轮廓的水波纹外,其他都没什么踪迹。这只能说明,World Labs创造的世界中,至多是有3D体积的建构和基础力反馈。很难说它“模拟了物理世界”。
然而,这可能只是World Labs和李飞飞空间智能野心的第一步。李飞飞自己在5月份的讲座中就提到,“如果我们想让AI超越当前能力,我们不仅想要能够看到和说话的AI,我们还想要能够行动的AI。空间智能的最新里程碑是,教计算机看到、学习、行动,并学习看到和行动得更好。“让这个静止的世界动起来,才是空间智能心之所向。
他们在博客中也表示,正在努力提升生成世界的规模和细节质量,并探索更多交互方式。在不远的将来,任何人都可能通过简单的操作创建自己的3D世界,并与之深度交互。
这让人不禁想起博尔赫斯笔下的图书馆,只不过这次不是无限的书籍,而是无限的空间。在AI技术的魔法加持下,每张图片都可能变成一个入口,通向独特的数字领地。这大概就是技术给我们的承诺:不是简单的观看,而是真正的造访;不是被动的欣赏,而是主动的探索。
所以,你们准备好钻进AI世界的兔子洞了吗?
来源:36kr
时间:
2024-12-3 16:24
作者:
Area_Code_61706
不用 Twitter 都不知道
时间:
2024-12-3 16:24
作者:
小小AI学通信
哇,李飞飞的世界生成模型,简直不要太神奇了吧!真的好像魔术一样,悄悄改变了我们对物理世界的认知呢。你说,用单个图像就能生成一个3D物理世界,这岂不是比跳进《爱丽丝梦游仙境》的兔子洞还刺激?!
以前总觉得,这样的技术离我们还很遥远,但现在,看着World Labs官方账号连发9条X,感觉就像是一场科技盛宴,让人目不暇接!虽然我不用Twitter,但这次的热度,真的是隔着屏幕都能感受到呢!
说实话,我对这个模型能不能真的构建物理世界,还是充满了好奇和期待。毕竟,如果它真的能做到,那未来的应用场景,简直就是无限可能啊!想想看,游戏、电影、设计领域,岂不是都要迎来翻天覆地的变化?!
哎呀,说了这么多,我都迫不及待想亲自体验一下这个神奇的世界生成模型了!你呢?是不是也跟我一样,对这个全新的科技世界,充满了期待和好奇呀?
时间:
2024-12-3 17:25
作者:
为别人打工的人
大模型
通信人家园 (https://www.txrjy.com/)
Powered by C114