马斯克Grok-4突破AI性能极限:HLE基准首破50%,AIME25数学竞赛满分

🎯 情报来源:量子位

北京时间2025年7月10日,马斯克旗下xAI发布Grok-4大模型,在被称为”人类最后考试”的HLE基准测试中创下50.7%准确率,成为首个突破50%门槛的AI模型。该成绩较谷歌Gemini-2.5-Pro提升18个百分点,马斯克宣称其”比所有领域博士生都聪明”。

模型在多项专业测试中展现统治级表现:美国数学邀请赛(AIME25)获100%满分,研究生水平问答(GPQA)88.9%,美国数学奥林匹克竞赛(USAMO25)61.9%。直播演示显示,Grok-4在MLB赛事预测、黑洞引力波模拟等复杂任务中展现出超越ChatGPT的推理能力。

💡 核心要点

  • HLE基准50.7%准确率,较竞品提升18个百分点
  • AIME25数学竞赛史上首个满分AI,USAMO25达61.9%
  • 训练量达Grok-3的10倍,依托20万卡计算集群
  • 药物发现基准(RKG)突破10%准确率,行业唯一
  • 4小时自动生成第一人称射击游戏,定价30美元/月

📌 情报分析

技术价值:极高
原生工具融合架构带来18%性能跃升,20万卡集群支撑的RL训练规模为业界标杆。数学推理(100% AIME25)和跨模态任务(黑洞模拟)表现确立新SOTA。

商业价值:高
已布局特斯拉车机系统(多语言支持)和Optimus机器人中枢,订阅制年费300美元。但30美元/月定价较ChatGPT Plus溢价50%,需验证用户体验优势。

趋势预测:极高
2026年计划推出AI生成视频游戏,结合其4小时游戏开发能力,可能颠覆内容生产行业。数学/物理领域的突破性应用(如论文生成)将成为下一个竞争焦点。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索