🎯 情报来源:量子位
北京时间2025年7月10日,马斯克旗下xAI发布Grok-4大模型,在被称为”人类最后考试”的HLE基准测试中创下50.7%准确率,成为首个突破50%门槛的AI模型。该成绩较谷歌Gemini-2.5-Pro提升18个百分点,马斯克宣称其”比所有领域博士生都聪明”。
模型在多项专业测试中展现统治级表现:美国数学邀请赛(AIME25)获100%满分,研究生水平问答(GPQA)88.9%,美国数学奥林匹克竞赛(USAMO25)61.9%。直播演示显示,Grok-4在MLB赛事预测、黑洞引力波模拟等复杂任务中展现出超越ChatGPT的推理能力。
💡 核心要点
- HLE基准50.7%准确率,较竞品提升18个百分点
- AIME25数学竞赛史上首个满分AI,USAMO25达61.9%
- 训练量达Grok-3的10倍,依托20万卡计算集群
- 药物发现基准(RKG)突破10%准确率,行业唯一
- 4小时自动生成第一人称射击游戏,定价30美元/月
📌 情报分析
技术价值:极高
原生工具融合架构带来18%性能跃升,20万卡集群支撑的RL训练规模为业界标杆。数学推理(100% AIME25)和跨模态任务(黑洞模拟)表现确立新SOTA。
商业价值:高
已布局特斯拉车机系统(多语言支持)和Optimus机器人中枢,订阅制年费300美元。但30美元/月定价较ChatGPT Plus溢价50%,需验证用户体验优势。
趋势预测:极高
2026年计划推出AI生成视频游戏,结合其4小时游戏开发能力,可能颠覆内容生产行业。数学/物理领域的突破性应用(如论文生成)将成为下一个竞争焦点。