最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
ZeroWBC:从人类自我中心视频学习自然全身人形交互
时间:2026-06-04 19:04:01 编辑:袖梨 来源:一聚教程网
ZeroWBC:从人类自我中心视频学习自然全身人形交互
一项名为ZeroWBC的全新框架近日问世,它试图解决人形机器人交互控制中的一个老大难问题——如何让机器人做出自然、连贯的全身动作,而不是僵硬地只动上半身。这个框架厉害之处在于,它不需要昂贵且耗时的全身遥操作数据,而是直接学习人类日常活动中拍摄的第一人称(自我中心)视频,就学会了全身交互控制。

为什么说这是个突破?
人形机器人要跟人协作,比如递个杯子、扶一把、做个体检,其实挺难的。传统做法是靠遥操作,就是人套上动作捕捉设备,机器人跟着学。但全身动作的数据采集成本太高,而且每个动作都得重新录,不可能覆盖所有场景。ZeroWPC的做法是先“生成”再“跟踪”——给定一张初始的第一人称图像和一句语言指令(比如“从桌上拿起水杯”),它能生成合理的全身运动轨迹并执行。这不也挺自然的吗?
具体是怎么做到的?
- 生成阶段:框架首先接收一张来自人类视角的静态图像,结合用户的自然语言指令,通过一个微调的视觉-语言模型生成相应的全身动作序列。这一步解决了“机器人该做什么”的问题。
- 跟踪阶段:生成的动作序列会被转化为低层次的关节控制指令,驱动机器人实际执行。由于模型是基于大量真实人类交互视频训练的,生成的动作品质相当自然,避免了传统控制中常见的机械感。
零遥操作数据:整个训练过程完全不依赖遥操作数据,而是以“人类自我中心视频+同步的全身运动+文本标注”三元组作为学习素材。这意味着只要海量的人类日常交互视频(比如第一人称做饭、搬东西、与人接触的画面),就能教会机器人做新任务。
挑战何在?
ZeroWBC目前主要针对静态场景中的全身交互控制问题,也就是说,场景里的物体和背景不能是动态变化的。如果场景自己会变(比如人在走动、物体被移动),当前框架的生成-跟踪方案可能还跟不上。另外,虽然文本指令支持自然语言,但对复杂任务(比如“先把杯子放好,再转身开门”)的分解能力还有待提高。
未来值得看:如果这套方法能进一步扩展到非静态场景,并兼容更复杂的任务指令,那你我生活中出现真正“会干活”的人形机器人,可能就不远了。
相关文章
- cf买号平台哪个好 靠谱的cf买号平台推荐 06-04
- 理想汽车官方后花园 - 2026最新车主社区平台 06-04
- Windows安装OpenClash的3种方法,实测有效 06-04
- 2026 最新:Windows WSL 安装避坑 5 步实操 06-04
- 实测windows安装claude code全流程,5步搞定 06-04
- 怎么抽wakuku盲盒隐藏款 06-04