通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级军士长

注册:2010-4-285
跳转到指定楼层
1#
发表于 2024-12-3 16:01:48 |只看该作者 |倒序浏览

还记得《爱丽丝梦游仙境》开头那个神奇的兔子洞吗?现在你不需要追着白兔跳进去,只要点击一下鼠标就行。

北京时间12月3日凌晨,李飞飞空间智能World Labs的首个项目推出第一个重磅成果:世界生成。



世界生成是一个可以用单个图像生成 3D 物理世界的人工智能系统,World Labs的官方账号连发9条X(原Twitter),更新项目的最新进展:



这一更新激发了AI界的热议。英伟达高级研究科学家、李飞飞高徒Jim Fan在X上表示,这是个可以和Sora媲美的跨时代的产品。他说“GenAI 正在生成越来越具高维度的关于人类体验的快照。Stable Diffusion是一个二维快照。Sora 是一个二维加时间快照。现在,World Labs 是一个三维、完全沉浸式的快照。”



a16z的合伙人Sarah Wang也表示,“AI 生成的连贯 3D 世界已经通过 @theworldlabs 问世。”



来自Google Brain的科学家Ben Poole试图拆解其背后的原理,把这一技术的开创归功于谷歌的CAT3D项目。但奈何这个项目就是没李飞飞的项目火。



而在卡内基梅隆大学机器人研究所工作过的Haoru Xue展望了这个产品的潜在应用:在具身智能里构建无穷现实世界。



看了这么多评论,World Labs是不是真的能做到跨越世代呢?从其效果看,确实可以。

从任何一张平平无奇的照片,生成一个可以进去闲逛的3D世界。这听起来像是科幻作家的幻想,但从今天开始,靠着World Labs的发明,这成了触手可及的现实。

1 世界生成模型,不同在哪里?

之前我们也看到过各种生成3D可交互场景的AI生成产品,包括可即时互动的《我的世界》Oasis。



但World Labs这项技术的核心突破在于直接生成三维场景,而不是停留在传统的像素层面。当一个场景被生成后,它就像真实世界一样稳定存在——你可以在其中自由移动,近距离观察一朵花的细节,或是绕到墙角后看看隐藏的风景。而像素层面生成则很难克服随机性的问题。



更重要的是,这个世界遵循基本的物理规则,具有真实的深度感和空间感。

World Labs还能做出很多场景控制。比如,镜头上,你可以调节虚拟相机的景深,做出大名鼎鼎的希区柯克变焦。



甚至还可以设置多个虚拟镜头,调节镜头在这世界中的运动。

效果方面,你还能为场景添加动态效果,让树叶随风摇曳,让水面泛起波纹。这说明World Labs可以非常好的识别到3D物品的边缘和实体,而非仅仅是复原景深。





更让惊喜的是,这个系统不仅能处理普通照片,还能应付艺术作品。

想象一下:你可以溜进梵高的《夜晚露天咖啡馆》,在那些标志性的黄色灯光下点杯咖啡;或者在爱德华·霍普的《夜游人》中,从另一个角度打量那些永恒的夜归人。这大概是最接近"穿越名画"的体验了——虽然你还是不能真的喝到那杯咖啡。

拿到测试资格的创作者,已经开始迫不及待的开始魔改这项技术,把它塞进视频生成的工作流内。你可以先用文本生成一张图片,再将其转化为3D场景,然后在其中自由设计镜头运动。已经有创作者开始尝试这种新的工作方式——他们将World Labs的技术与现有的AI工具相结合,比如Runway和AI mod,出片效果相当惊艳。

2 解码世界生成背后的技术

虽然World Labs并没有完全公布其背后的技术论文,但根据一些蛛丝马迹,我们还是可以大概重构其技术背景。



在World Labs提供的一系列场景控制中,有一种是景深还原。这是目前实现图片到3D场景重构的核心方法。

早在2023年末,首尔大学的Lucid Dreamer和Skybox AI 就已经实现了可探索的图片到3D场景的构成。它先用类似Stable Diffusion这样的AI模型生成图像,然后利用点云(即用大量3D坐标点来表示物体表面的数据结构,就像用无数小点描绘空间形状)来确保空间准确性。系统Diffusion 模型创造新视角画面时,会参考这些点云投影作为指引,确保生成的内容符合3D几何规律。

生成的2D图像随后通过景深估计(预测图像中物体远近的技术)转换为新的3D点,再用高斯散射技术(一种通过在空间中分布带有颜色和透明度的小球体来实现逼真3D渲染的方法)将这些离散的点转化为连续平滑的3D场景。整个过程就像是用AI来"画"3D空间,但每一笔都受到严格的几何约束,确保最终生成的虚拟世界既真实自然又能自由探索。



但以当时的技术,它无法实现360度全场景的生成,3D的景深感也非常有限。但这一技术路径很可能就是World Labs实现的基础。



而Ben Poole提到的2024年5月Deepmind 发布CAT3D,其核心是一个"两步走"的过程 - 首先用条件扩散模型(类似Stable Diffusion)基于输入图片生成多个不同视角的画面,然后使用类似NeRF(神经辐射场,一种将2D图像转换为3D场景的神经网络技术)的方法将这些视角整合成一个连续的3D空间。这就像是AI先从不同角度"想象"场景会是什么样子,然后把这些"想象"拼接成一个可以自由探索的3D世界。关键突破在于,他们把原本需要大量真实照片的NeRF技术,改造成了只需几张甚至一张图片就能工作的系统,而且处理速度快得惊人,仅需一分钟。



World Labs跟更像是两者的一种结合态,既能延展生成场景,又能使场景内的3D物品更立体多角度。

3 算不上重构物理世界,但未来也许可以

当然,目前展示的还是早期成果。在我们的试用之中,自由移动是有边界的。这也许是因为生成的3D模型并非即时渲染,很难能保证大规模镜头运动之后,其他部分的生成。



另外,这个世界是静止的。你虽然可以用特效调节它,但角色之类可动的内容都需要借助其他工具生成。这是个可探索的世界,但你能做的探索,可能仅仅是溜达。

至于物理世界的互动,除了我们现在能看到,从展示视频中出现的物理反弹,沿着3D轮廓的水波纹外,其他都没什么踪迹。这只能说明,World Labs创造的世界中,至多是有3D体积的建构和基础力反馈。很难说它“模拟了物理世界”。

然而,这可能只是World Labs和李飞飞空间智能野心的第一步。李飞飞自己在5月份的讲座中就提到,“如果我们想让AI超越当前能力,我们不仅想要能够看到和说话的AI,我们还想要能够行动的AI。空间智能的最新里程碑是,教计算机看到、学习、行动,并学习看到和行动得更好。“让这个静止的世界动起来,才是空间智能心之所向。

他们在博客中也表示,正在努力提升生成世界的规模和细节质量,并探索更多交互方式。在不远的将来,任何人都可能通过简单的操作创建自己的3D世界,并与之深度交互。

这让人不禁想起博尔赫斯笔下的图书馆,只不过这次不是无限的书籍,而是无限的空间。在AI技术的魔法加持下,每张图片都可能变成一个入口,通向独特的数字领地。这大概就是技术给我们的承诺:不是简单的观看,而是真正的造访;不是被动的欣赏,而是主动的探索。

所以,你们准备好钻进AI世界的兔子洞了吗?


来源:36kr

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-22 23:44 , Processed in 0.229824 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部