🎯 情报来源:量子位
清华大学与上海人工智能实验室联合团队近日发布SimpleVLA-RL框架,通过创新性的交互式轨迹采样与探索增强机制,显著提升视觉-语言-动作(VLA)模型的训练效率与泛化能力。该方案在LIBERO基准测试中,仅用单条演示数据就将OpenVLA-OFT模型的长时序任务成功率从17.3%提升至91.7%,数据效率提升5.3倍。
实验显示,模型在RoboTwin2.0双臂操控基准上实现68.8%的平均成功率(原38.3%),并涌现出突破人类演示局限的”Pushcut”新策略。该成果已同步开源代码与论文,为机器人强化学习领域提供新范式。
💡 核心要点
- 数据效率突破:单轨迹微调场景下,LIBERO-Long任务成功率从17.3%→91.7%
- 基准测试表现:RoboTwin2.0平均成功率提升30.5个百分点(38.3%→68.8%)
- 泛化能力跃升:未见任务最高提升36.5个百分点,克服SFT的灾难性遗忘
- Sim-to-Real迁移:真实机械臂任务成功率从17.5%提升至38.5%
- 自主策略涌现:发现”Pushcut”现象,突破人类演示动作模式限制
📌 情报分析
技术价值:极高
• 创新性提出轨迹采样+结果奖励+探索增强的三重机制,系统性解决VLA训练痛点
• 实验数据全面覆盖单臂/双臂、短/长时序、仿真/真实场景,技术验证完整
商业价值:高
• 将机器人训练数据需求降低至单轨迹级别,显著降低商业化部署成本
• 已实现AgileX Piper等真实机械臂验证,具备工业场景快速落地潜力
趋势预测:高
• “Pushcut”现象预示RL可能催生超越人类经验的新操作范式
• 开源策略将加速VLA模型在物流、家政等长时序任务领域的应用渗透
