AI2发布首个’行动推理模型’MolmoAct 7B:开源自研机器人AI,12,000真实场景训练实现71.9%任务成功率

🎯 情报来源:The Robot Report

艾伦人工智能研究所(AI2)昨日正式发布MolmoAct 7B模型,这是全球首个专注于实体世界行动的'行动推理模型'(ARM)。该模型通过12,000个真实环境机器人操作场景训练,在SimPLER基准测试中取得71.9%的成功率,仅需18百万样本和24小时预训练即实现超越商业模型的性能表现。

与传统端到端架构不同,MolmoAct采用分层推理架构:首先进行3D空间感知,然后规划视觉路径点,最终解码为具体控制指令。AI2 CEO Ali Farhadi强调:'我们不仅发布模型,更是为AI新纪元奠定基础——让强大AI模型真正理解物理世界运作规律。'模型所有训练数据、代码及评估基准已通过Hugging Face开源。

💡 核心要点

  • 突破性架构:首创'行动推理模型'概念,通过3D感知-视觉规划-动作解码三阶段实现物理世界任务分解
  • 高效训练:仅用18百万样本+256块H100 GPU(24小时预训练+2小时微调),远低于行业平均水平
  • 顶尖性能:SimPLER基准测试71.9%成功率,超越需数亿样本的商业系统
  • 完整开源:包含12,000场景训练数据、模型检查点及评估工具链
  • 实时可控:支持通过自然语言或触屏草图实时调整机器人行动计划

📌 情报分析

技术价值:极高
分层推理架构解决了传统端到端模型的黑箱问题,可视化决策链条显著提升可解释性。71.9%的基准成绩证明其在有限算力下实现超比例性能突破。

商业价值:高
开源策略可能加速行业标准化进程,但非营利属性限制直接商业化。12,000真实场景数据集对服务机器人开发具有极高参考价值。

趋势预测:高
物理AI将成为下一竞争焦点,10月RoboBusiness大会将集中展示相关进展。透明化、轻量化的训练方法可能重塑行业技术路线。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索