Allen AI开源MolmoAct 7B模型:72.1%任务成功率挑战Nvidia谷歌的物理AI新突破

🎯 情报来源:AI News | VentureBeat

艾伦人工智能研究所(Ai2)最新发布开源模型MolmoAct 7B,以72.1%的任务成功率超越谷歌、微软和英伟达的同类模型,标志着物理AI领域取得重要进展。该模型基于Apache 2.0许可证开源,训练数据采用CC BY-4.0协议开放,具备三维空间推理能力,可适配机械臂和人形机器人等不同实体形态。

MolmoAct被归类为动作推理模型(Action Reasoning Model),通过输出”空间感知标记”理解物理环境,预测物体间距并规划行动路径。测试显示其仅需少量微调即可适应不同机器人硬件,在家庭等非结构化环境中展现出优于传统视觉-语言-动作(VLA)模型的泛化能力。

💡 核心要点

  • 72.1%任务成功率:基准测试超越谷歌/微软/英伟达竞品
  • 7B参数规模:基于Ai2开源Molmo框架的三维空间推理架构
  • 双开源协议:模型Apache 2.0/数据集CC BY-4.0授权
  • 5cm级动作精度:可输出”下降手臂几英寸”等具体指令
  • 零样本适应:机械臂与人形机器人间迁移仅需微调

📌 情报分析

技术价值:高
三维空间理解架构突破传统VLA模型的二维局限,空间感知标记技术使几何结构编码成为可能。但俄勒冈州立大学Alan Fern教授指出,当前基准测试仍未能完全反映真实世界复杂度。

商业价值:极高
开源策略显著降低研发门槛,Gather AI联合创始人Daniel Maturana认为这为学术实验室和爱好者提供了重要基础。家庭服务机器人市场预计2025年达230亿美元,非结构化环境适应能力是关键突破口。

趋势预测:高
物理AI领域年复合增长率预计38%(2023-2030),英伟达Cosmos-Transfer1等竞品加速涌现。Fern教授指出,尽管演示有限,但大模型赋能的通用物理智能正快速接近拐点,三维理解将成为下一代机器人标配能力。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索