通信人家园
标题:
黄仁勋“背后”的中国机器人放大招:全球首个端到端具身大模型来了
[查看完整版帖子]
[打印本页]
时间:
2025-1-20 11:22
作者:
tayun
标题:
黄仁勋“背后”的中国机器人放大招:全球首个端到端具身大模型来了
机器人前瞻(公众号:robot_pro)
作者|
许丽思
编辑|
漠影
继机器人在CES上托举起英伟达新一代显卡产品RTX5090,大出风头后,银河通用又有新动作了。
机器人前瞻1月10日报道,昨天,银河通用联合北京智源人工智能研究院(BAAI)及北京大学和香港大学发布了
全球首个端到端具身抓取基础大模型(Foundation Model)GraspVLA。
GraspVLA是全球首个
完全基于仿真合成大数据进行预训练
的具身大模型,展现出比
OpenVLA、π0、RT-2、RDT等
模型更强大的泛化能力和在真实场景中的实用潜力。
该模型的训练数据达到了有史以来最大的数据体量——
十亿帧“视觉-语言-动作”对,
掌握泛化闭环抓取能力、达成基础模型。预训练后,模型
可直接Sim2Real在未见过的、千变万化的真实场景和物体上零样本测试,
全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求。
而针对特别需求,后训练仅需
小样本学习
即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能,具备巨大的低成本商业化潜力。
一、七大全面泛化能力,VLA预训练实现多场景泛化
近来,虽然具身大模型虽在泛化性上取得一定进展,但端到端具身大模型的泛化性仍然达不到真实需求,无法支撑产品落地。
对此,团队首次给出了VLA达到基础模型需满足的七大泛化金标准,展现了GraspVLA单一模型在各种均未见过的场景和物体中进行零样本测试的结果。
1、光照泛化
团队模拟了在咖啡厅、便利店、生产车间、KTV等真实工作环境中的光线条件,在光线条件呈现出冷暖、强弱等多种变化,甚至是完全变为黑暗时,GraspVLA都可以准确、快速地找到目标物体。
2、背景泛化
团队对桌布图案进行的变换,面对红色花纹桌布、星空图案图案、拼色垫板等,GraspVLA皆不受影响。
面对快速变化的动态背景画面,GraspVLA亦不受影响。团队还表示,GraspVLA采用双相机视角作为输入,演示视频拍摄的视角对应了机器人正面的相机视角。
3、平面位置泛化
把物体在桌面随意挪动、变换方位,GraspVLA依旧可以随机应变,准确找到物体。
4、空间高度泛化
团队将多种小球在不同高度下进行错落摆放,模型可以依次准确找到对应的物体。
5、动作策略泛化
GraspVLA还可以实时进行推理决策,当研究人员突然移动桌面上矿泉水瓶位置时,模型也会及时发现,调整抓取策略。
6、动态干扰泛化
机器人在正常工作过程中,研究人员突然往其工作空间中随意增加了许多干扰物体,物体之间发生了碰撞并导致移位,GraspVLA依然能够稳定地完成任务。
7、物体类别泛化
团队表示,上述测试中,
所有物体、场景、摆放方式均未进行任何训练,
GraspVLA仅通过
仿真合成数据
学习到的语义和动作能力,实现了在真实世界中零样本泛化测试。
此外,通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练,对于没有学习过动作数据的物体类别,GraspVLA也能把已掌握的动作能力泛化迁移。
二、少量样本训练,快速对齐产品特殊需求
七大泛化金标准,已经证明了GraspVLA能够满足绝大多数应用需求,但在部分场景、产品中,依旧有一些的特殊需求。
团队通过在商超、工厂及家庭的三大场景中的特殊要求,检验了GraspVLA在少量样本训练后就能够实现对新需求进行快速适应及迁移,在不同场景中针对特定需求规模化应用时,可以实现低成本高效拓展。
1、迅速服从指定规范并“举一反三”
例如,在商超场景中,虽然GraspVLA具有泛化的抓取能力,预训练后即可轻松抓取指定商品。但是面对多瓶相同的怡宝矿泉水,用户需要模型要按照特定顺序进行抓取,而模型可能不知道要从哪里入手合适。
对此,团队仅需采集少量(少于一个人遥操一天)的真实数据,就能让GraspVLA理解并满足按序抓取的需求,挨个从右往左、从上至下进行抓取。
只经过怡宝一人天(一个人遥操一天)
采集数据的后训练,GraspVLA就能够举一反三,将这种少样本习得的行为自动迁移到其他品牌的饮品(农夫山泉、东方树叶),按规定的摆放顺序分别抓取了瓶身颜色不同,瓶盖大小不一的同类商品。
2、迅速掌握新词汇,拓展新类别
在工业场景中,往往有大量行业专用的罕见特殊零件。模型很容易抓错零件,比如,命令模型抓起“车窗控制器”,它却抓去了接线座。
为了提升模型识别罕见零件的能力,团队采集少量轨迹进行快速后训练。GraspVLA迅速掌握了诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中精准找出对应零件。
3、迅速对齐人类偏好
在家庭场景中,用户对机器人的行为可能会有不同的偏好要求。例如,原本GraspVLA根据指令抓起放着牙膏牙刷的杯子会碰到内壁。
但通过采集少量带用户偏好的抓取轨迹,GraspVLA就明白了抓取洗漱杯时,不能接触杯子内壁。
三、结语:合成数据开创技术新范式,推动具身智能迈向ChatGPT时刻
GraspVLA的发布,确立了以仿真合成大数据预训练为核心的具身基础大模型技术路线,就此开创该领域全新发展范式,支撑这一范式的关键正是合成大数据。通过GraspVLA在一系列不同场景、需求的表现可以看出,该模型不仅表现出强大的泛化能力,也展现出低成本大规模商业化的巨大潜力。
银河通用基于多年合成仿真数据的经验,研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线,
在短短一周内就能生成全球规模最大的十亿级机器人操作数据集(包含视频-语言-动作三个模态)。
团队还表示,过去一年里还在
导航VLA模型(NaVid系列模型)
的研究上取得了重大突破,将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。
此外,团队未来还将快速推出
覆盖多技能的具身基础大模型,全面整合团队从抓到放、从关节类物体到柔性物体操作的各类任务的合成数据,
持续依靠合成大数据作为唯一预训练来源,推动具身智能迈向ChatGPT时刻。
来源:智东西
时间:
2025-1-20 11:53
作者:
愤怒的拳头
厉害了
时间:
2025-1-20 13:44
作者:
hjh_317
厉害了。。
时间:
2025-1-20 13:51
作者:
cyqisno1
厉害了
时间:
2025-1-21 02:45
作者:
不吹不黑
厉害了啊!
通信人家园 (https://www.txrjy.com/)
Powered by C114