🎯 情报来源:AI News & Artificial Intelligence | TechCrunch
Elon Musk旗下AI公司xAI于周三深夜发布旗舰模型Grok 4及定价300美元/月的高端订阅服务SuperGrok Heavy。该模型在Humanity’s Last Exam基准测试中以25.4%得分超越Gemini 2.5 Pro(21.6%)和OpenAI o3(21%),其多代理版本Grok 4 Heavy使用工具后更达到44.4%的突破性成绩。
同时公布的ARC-AGI-2视觉推理测试中,Grok以16.2%刷新纪录,达到Claude Opus 4的两倍表现。Musk在直播中宣称”Grok 4在所有学科领域的学术能力已超越博士水平”,但也承认其仍存在常识缺失问题。
💡 核心要点
- Grok 4在Humanity’s Last Exam基准测试得分25.4%(无工具),超Gemini 2.5 Pro 3.8个百分点
- Grok 4 Heavy(多代理版本)使用工具后得分44.4%,较Gemini 2.5 Pro工具版高出17.5个百分点
- ARC-AGI-2视觉推理测试16.2%得分,创造商业模型新纪录
- 推出行业最贵订阅服务SuperGrok Heavy(300美元/月),含优先体验权
- 计划8-10月陆续发布AI编程模型、多模态代理和视频生成模型
📌 情报分析
技术价值:高
基准测试显示其学术和视觉推理能力达前沿水平,多代理架构(Grok 4 Heavy)带来显著性能提升,但未解决”缺乏常识”的核心缺陷
商业价值:一般
300美元定价策略瞄准高端市场,但近期反犹言论事故可能影响企业采用率,且企业级业务仅开展两个月
趋势预测:高
多代理架构可能引领下一代AI设计范式,产品路线图(编码/多模态/视频模型)显示强技术布局,需观察实际落地效果