🎯 情报来源:量子位
2025世界人工智能大会(WAIC)期间,商汤科技正式推出「悟能」具身智能平台,标志着其以“多模态大模型+世界模型”双引擎战略进军具身智能领域。其核心支撑技术日日新V6.5多模态模型通过图文交错思维链设计,跨模态推理精度超越Gemini 2.5 Pro,同时推理成本较6.0版本降低70%,综合性价比提升5倍。
商汤同步披露「开悟」世界模型技术细节:拥有10万3D资产库,支持11视角150秒时空一致视频生成,可实现天气/光照等参数化编辑。该模型通过第一视角(机器人感知)与第三视角(人类示范)数据对齐训练,显著降低90%的遥操作数据需求,目前已与傅利叶等厂商合作部署超千万台机器人形成数据闭环。
💡 核心要点
- 技术突破:日日新V6.5推理成本仅6.0版本的30%,跨模态精度超Gemini 2.5 Pro
- 数据规模:「开悟」世界模型含10万3D资产,支持11视角150秒时空一致生成
- 部署成果:已合作部署超千万台机器人,构建感知-决策-行动全栈能力
- 效率提升:双视角训练减少90%遥操作数据需求,加速跨场景泛化
- 商业合作:覆盖人形机器人、物流底盘、家用陪伴等硬件生态伙伴
📌 情报分析
技术价值|评级:极高
图文交错思维链实现跨模态推理突破,世界模型的时空一致性生成能力(11视角/150秒)达行业顶尖水平,技术壁垒显著。
商业价值|评级:高
千万级硬件部署形成数据飞轮,30%推理成本带来5倍性价比提升,但需验证复杂场景下的鲁棒性。
趋势预测|评级:高
双视角训练范式或成行业标准,结合商汤自动驾驶经验,在物流、家庭服务等结构化场景将快速落地。