🎯 情报来源:量子位
UC伯克利与卡内基梅隆大学团队开发的LeVERB框架首次实现人形机器人视觉感知与全身运动控制的端到端协同。该技术部署于宇树G1机器人后,在简单视觉导航任务中达到80%零样本成功率,整体任务成功率58.5%,较传统方案提升7.8倍。
团队同步开源包含154个任务的LeVERB-Bench基准测试集,涵盖17.1小时仿真运动轨迹数据。核心创新在于通过潜在动作词汇连接高层语义理解与底层动力学控制,解决传统方法动作僵硬、语义割裂的问题。
核心要点:
- 零样本任务成功率:简单导航80%,综合58.5%,较基线提升7.8倍
- 双模块架构:10Hz视觉语言处理器(102.6M参数)+50Hz动作控制器(1.1M参数)
- 开源基准测试集LeVERB-Bench含154个视觉语言任务+460个纯语言任务
- 采用仿真MoCap数据训练,光线追踪渲染缩小仿真与现实差距
- 华人主导团队,负责人薛浩儒曾获自动驾驶赛车国际赛事奖项
📌 情报分析
技术价值:极高
突破性解决视觉-运动协同的语义断层问题,潜在动作词汇设计实现10Hz/50Hz双频协同控制,消融实验显示判别器和运动学编码器对性能贡献度超40%。
商业价值:高
直接适配宇树G1等商用机器人,开源策略降低行业准入门槛。人形机器人WBC市场预计2026年达$12.7亿(MarketsandMarkets数据)。
趋势预测:
3-6个月内将看到更多基于LeVERB的垂直场景适配,医疗护理/危险作业领域或率先落地。开源生态可能催生新的机器人应用开发范式。
