查看: 781|回复: 2

国内首次！机器人无缝衔接人类操作数据 [复制链接]

see122

军衔等级：

少校

注册：2007-10-29 点赞数

12

电梯直达

1^# 大中小

发表于 2025-2-19 10:44:25 |只看该作者 |倒序浏览

机器人前瞻2月18日报道，最近，逐际动力发布了基于视频生成大模型的具身操作算法（VideoGenMotion）——LimX VGM，实现了国内首次将人类操作数据直接应用于机器人操作。

一直以来，具身智能都面临着诸多数据难题：人类操作视频无法直接应用于机器人操作；大模型虽然能够根据这些视频生成行为轨迹和操作数据，但往往存在精度不足、偏离物理规律、存在幻觉等缺陷，即使数据准确，仍然无法直接应用于机器人操作。

LimX VGM通过人类操作视频数据对现有的视频生成大模型进行后训练，仅需将场景图片和操作任务指令作为提示Prompts，即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程，全过程零真机样本数据，并且可实现多平台泛化。

具体来说，LimX VGM的工作流程包括以下三个关键步骤：

训练阶段：采集若干真实人类操作的视频，对现有的视频生成大模型进行后训练。
推理阶段：以初始场景结合任务操作指令作为提示Prompts，利用经过后训练的视频生成大模型生成带深度信息的人类操作视频，进而根据人类操作视频，生成机器人操作的行为。
执行阶段：算法输出符合机器人操作逻辑的行为解算，由机器人执行相应的操作轨迹。

LimX VGM的工作流程背后，还有三大具身技术核心创新点：

1、人类操作视频到机器人操作策略及行为的桥接LimX VGM不做视频生成大模型，而是利用当前已有的大模型框架，通过有效训练从中提取对执行操作任务有用的关键信息，转化为机器人操作策略及行为。之后，LimX VGM只需额外采集少量的人类操作视频数据，即可用于机器人操作，全程零真机数据，让数据采集工作变得简单、成本低，且效率高。随着大模型不断升级，LimX VGM将具备更加丰富、全面的操作知识，生成更有效的操作策略，进一步提升算法的泛化性。
▲LimX VGM 引入深度信息，让生成的操作视频直接包含三维空间数据

3、算法与机器人本体的解耦，可跨平台部署

LimX VGM的整个训练过程仅依靠人类操作视频，不涉及任何机器人本体。算法的真机部署仅需进行简单适配，便可实现跨硬件平台的直接操作执行。即使机器人硬件不断推陈出新，也无需再对算法进行大幅调整及数据重新采集，实现操作能力在设备上的泛化性。

演示中，研究人员使用了三种在构型、参数、能力等方面的差异巨大的机械臂，但算法依旧可以实现一致的操作效果。

▲同一个算法在三个机械臂上都能简单快速部署

另外，逐际动力还提出了“数据-性能ROI”这一数据效率评估方法，聚焦于数据成本到操作性能转化率的提升。

据了解，逐际动力后续计划推动这一算法适配Cosmos等更多视频大模型，优化算法推理效率，逐步实现实时视频生成，并优化空间智能的模块性能，提升操作执行的精准性。

来源：网易

作者近期主题帖

• 完全开源！全新多合一AI智能体框架来了：无缝支持多种工具、多种任务 (2025-05-11)
• 再砍一刀！英伟达或发布特供版H20 (2025-05-11)
• 对话阶跃星辰创始人：2年发16款多模态模型，实现AGI的必经之路 (2025-05-09)
• 刚刚，ChatGPT的深度研究可以连接GitHub了，网友：这是真·RAG (2025-05-09)
• 苹果酝酿Safari大改版，瞄准AI搜索，谷歌一度跌超9%、地位面临严峻挑战 (2025-05-08)
• 玩热梗、搞抽象，AIGC如何在互联网扎根？ (2025-05-08)

本主题由版主或管理员于 2025-2-19 10:47 审核通过

0 举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-5-12 02:20 , Processed in 0.136107 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册