OWMM-Agent:首个开放世界移动操作多模态智能体,零样本动作预测准确率达90%

🎯 情报来源:机器之心

近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构推出 OWMM-Agent,这是首个专为开放世界移动操作(OWMM)设计的多模态智能体架构。该架构通过仿真数据微调多模态大模型 OWMM-VLM,在真实环境测试中实现零样本单步动作预测准确率达 90%,显著超越 GPT-4o 等基线模型。

核心要点:

  • OWMM-VLM-38B 在模拟环境中三项核心任务的准确率分别达 97.85%、87.54% 和 88%,远超 GPT-4o。
  • 真实环境测试中,Fetch 机器人在零样本条件下完成任务的成功率为 90%。
  • 研究团队基于 Habitat 仿真平台生成 20 万+条多模态数据,涵盖 143 个场景、157 种可抓取物体和 1471 个容器。

📌 情报分析

技术价值:极高

OWMM-Agent 首次实现了全局场景理解与具身决策闭环的统一建模,结合仿真数据合成方案有效解决了 VLM 模型在机器人领域的“幻觉”问题,技术突破显著。

商业价值:高

随着老龄化社会对服务机器人的需求增长,OWMM-Agent 的泛化能力为家庭服务机器人提供了关键技术支持,有望加速商业化落地。

趋势预测:

未来 3-6 个月内,OWMM-Agent 架构可能吸引更多研究团队关注,并推动仿真数据驱动的具身智能技术发展,但复杂机械臂控制仍是短期瓶颈。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索