DeepMind发布Gemini Robotics 1.5双模型:实现跨机器人平台动作迁移,15项基准测试达SOTA

🎯 情报来源:The Robot Report

Google DeepMind昨日推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5双模型系统,宣称其”通过高级思维解锁智能体体验”,标志着向机器人通用人工智能(AGI)迈出关键一步。其中视觉-语言-动作模型(VLA)Gemini Robotics 1.5具备跨平台动作迁移能力,而视觉-语言模型(VLM)Gemini Robotics-ER 1.5在15项学术基准测试中达到业界最优(SOTA)。

Gemini Robotics-ER 1.5已通过Gemini API开放给开发者,具备物理环境推理、多步骤任务规划及原生调用数字工具(如Google搜索)的能力。双模型协同工作时,可使机器人在复杂任务中的泛化能力提升47%(基于内部测试数据),并能通过自然语言解释决策过程。

💡 核心要点

  • 跨平台学习:Gemini Robotics 1.5实现ALOHA 2机械臂动作向Apptronik人形机器人Apollo的无缝迁移
  • 安全性能:ASIMOV基准测试显示模型对语义安全的理解提升32%(较前代)
  • 基准表现:ER 1.5在Embodied Reasoning Question Answering等15项基准测试达SOTA
  • 商业进展:ER 1.5已开放API接入,标准版1.5限合作伙伴使用
  • 认知突破:模型可分解”按颜色分类衣物”等复杂任务至7个推理层级

📌 情报分析

技术价值:极高
• 首创VLA+VLM双模型架构,在Point-Bench等空间理解测试中误差降低41%
• 跨平台动作迁移技术减少78%的机器人再训练成本(基于ALOHA 2与Franka对比数据)

商业价值:高
• 直接对接Google AI Studio生态,可快速集成第三方工具链
• 实测显示新模型使物流分拣任务完成速度提升2.3倍(需验证实际部署数据)

趋势预测:高
• 2025年RoboBusiness大会将重点讨论该技术,预示物理AI赛道升温
• 安全基准ASIMOV的升级显示行业对具身智能安全标准的迫切需求

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索