通信人家园

标题: 黄仁勋“背后”的中国机器人放大招：全球首个端到端具身大模型来了 [查看完整版帖子] [打印本页]

时间: 2025-1-20 11:22

作者: tayun 标题: 黄仁勋“背后”的中国机器人放大招：全球首个端到端具身大模型来了

机器人前瞻（公众号：robot_pro）

作者|许丽思

编辑|漠影

继机器人在CES上托举起英伟达新一代显卡产品RTX5090，大出风头后，银河通用又有新动作了。

机器人前瞻1月10日报道，昨天，银河通用联合北京智源人工智能研究院（BAAI）及北京大学和香港大学发布了全球首个端到端具身抓取基础大模型（Foundation Model）GraspVLA。

GraspVLA是全球首个完全基于仿真合成大数据进行预训练的具身大模型，展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。

该模型的训练数据达到了有史以来最大的数据体量——十亿帧“视觉-语言-动作”对，掌握泛化闭环抓取能力、达成基础模型。预训练后，模型可直接Sim2Real在未见过的、千变万化的真实场景和物体上零样本测试，全球首次全面展现了七大卓越的泛化能力，满足大多数产品的需求。

而针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时形成符合产品需求的专业技能，具备巨大的低成本商业化潜力。

一、七大全面泛化能力，VLA预训练实现多场景泛化

近来，虽然具身大模型虽在泛化性上取得一定进展，但端到端具身大模型的泛化性仍然达不到真实需求，无法支撑产品落地。

对此，团队首次给出了VLA达到基础模型需满足的七大泛化金标准，展现了GraspVLA单一模型在各种均未见过的场景和物体中进行零样本测试的结果。

1、光照泛化

团队模拟了在咖啡厅、便利店、生产车间、KTV等真实工作环境中的光线条件，在光线条件呈现出冷暖、强弱等多种变化，甚至是完全变为黑暗时，GraspVLA都可以准确、快速地找到目标物体。

2、背景泛化

团队对桌布图案进行的变换，面对红色花纹桌布、星空图案图案、拼色垫板等，GraspVLA皆不受影响。

面对快速变化的动态背景画面，GraspVLA亦不受影响。团队还表示，GraspVLA采用双相机视角作为输入，演示视频拍摄的视角对应了机器人正面的相机视角。

3、平面位置泛化

把物体在桌面随意挪动、变换方位，GraspVLA依旧可以随机应变，准确找到物体。

4、空间高度泛化

团队将多种小球在不同高度下进行错落摆放，模型可以依次准确找到对应的物体。

5、动作策略泛化

GraspVLA还可以实时进行推理决策，当研究人员突然移动桌面上矿泉水瓶位置时，模型也会及时发现，调整抓取策略。

6、动态干扰泛化

机器人在正常工作过程中，研究人员突然往其工作空间中随意增加了许多干扰物体，物体之间发生了碰撞并导致移位，GraspVLA依然能够稳定地完成任务。

7、物体类别泛化

团队表示，上述测试中，所有物体、场景、摆放方式均未进行任何训练，GraspVLA仅通过仿真合成数据学习到的语义和动作能力，实现了在真实世界中零样本泛化测试。

此外，通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练，对于没有学习过动作数据的物体类别，GraspVLA也能把已掌握的动作能力泛化迁移。

二、少量样本训练，快速对齐产品特殊需求

七大泛化金标准，已经证明了GraspVLA能够满足绝大多数应用需求，但在部分场景、产品中，依旧有一些的特殊需求。

团队通过在商超、工厂及家庭的三大场景中的特殊要求，检验了GraspVLA在少量样本训练后就能够实现对新需求进行快速适应及迁移，在不同场景中针对特定需求规模化应用时，可以实现低成本高效拓展。

1、迅速服从指定规范并“举一反三”

例如，在商超场景中，虽然GraspVLA具有泛化的抓取能力，预训练后即可轻松抓取指定商品。但是面对多瓶相同的怡宝矿泉水，用户需要模型要按照特定顺序进行抓取，而模型可能不知道要从哪里入手合适。

对此，团队仅需采集少量（少于一个人遥操一天）的真实数据，就能让GraspVLA理解并满足按序抓取的需求，挨个从右往左、从上至下进行抓取。

只经过怡宝一人天（一个人遥操一天）采集数据的后训练，GraspVLA就能够举一反三，将这种少样本习得的行为自动迁移到其他品牌的饮品（农夫山泉、东方树叶），按规定的摆放顺序分别抓取了瓶身颜色不同，瓶盖大小不一的同类商品。

2、迅速掌握新词汇，拓展新类别

在工业场景中，往往有大量行业专用的罕见特殊零件。模型很容易抓错零件，比如，命令模型抓起“车窗控制器”，它却抓去了接线座。

为了提升模型识别罕见零件的能力，团队采集少量轨迹进行快速后训练。GraspVLA迅速掌握了诸如接线座（Wiring Base）、三角板（Triangular Panel）、黑色软管（Black Hose）等特殊工业名词，能从任意摆放的密集场景中精准找出对应零件。

3、迅速对齐人类偏好

在家庭场景中，用户对机器人的行为可能会有不同的偏好要求。例如，原本GraspVLA根据指令抓起放着牙膏牙刷的杯子会碰到内壁。

但通过采集少量带用户偏好的抓取轨迹，GraspVLA就明白了抓取洗漱杯时，不能接触杯子内壁。

三、结语：合成数据开创技术新范式，推动具身智能迈向ChatGPT时刻

GraspVLA的发布，确立了以仿真合成大数据预训练为核心的具身基础大模型技术路线，就此开创该领域全新发展范式，支撑这一范式的关键正是合成大数据。通过GraspVLA在一系列不同场景、需求的表现可以看出，该模型不仅表现出强大的泛化能力，也展现出低成本大规模商业化的巨大潜力。

银河通用基于多年合成仿真数据的经验，研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线，在短短一周内就能生成全球规模最大的十亿级机器人操作数据集（包含视频-语言-动作三个模态）。

团队还表示，过去一年里还在导航VLA模型（NaVid系列模型）的研究上取得了重大突破，将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。

此外，团队未来还将快速推出覆盖多技能的具身基础大模型，全面整合团队从抓到放、从关节类物体到柔性物体操作的各类任务的合成数据，持续依靠合成大数据作为唯一预训练来源，推动具身智能迈向ChatGPT时刻。

来源：智东西

时间: 2025-1-20 11:53

作者: 愤怒的拳头

厉害了

时间: 2025-1-20 13:44

作者: hjh_317

厉害了。。

时间: 2025-1-20 13:51

作者: cyqisno1

厉害了

时间: 2025-1-21 02:45

作者: 不吹不黑

厉害了啊！

通信人家园 (https://www.txrjy.com/)