开源AI新突破:Nous Research发布Hermes 4模型,性能比肩商业系统,数学推理超ChatGPT

🎯 情报来源:AI News | VentureBeat

人工智能初创公司Nous Research本周悄然发布Hermes 4大语言模型系列,该开源模型在数学推理等关键性能指标上已媲美商业闭源系统。最具突破性的是其4050亿参数版本在MATH-500基准测试中获得96.3%的惊人准确率,在AIME'24数学竞赛中达到81.9%的得分,超越多数需要数千万美元研发成本的专有系统。

该模型采用独特的”混合推理”模式,允许用户切换快速响应与逐步思考过程,并通过标签实现思维过程全透明。在衡量AI拒绝回答问题的RefusalBench测试中,Hermes 4以57.1%的得分显著领先GPT-4o(17.67%)和Claude Sonnet 4(17%)。其训练过程消耗192块NVIDIA B200 GPU和71,616 GPU小时,采用突破性的DataForge合成数据生成器和Atropos强化学习框架,共包含350万推理样本和160万非推理样本。

💡 核心要点

  • 4050亿参数模型数学推理准确率96.3%,超越多数商业系统
  • RefusalBench测试得分57.1%,是GPT-4o的3.2倍
  • 训练消耗71,616 GPU小时,采用350万推理样本数据集
  • 首创”混合推理”模式,思维过程完全透明
  • 解决模型”过度思考”问题,长推理生成减少65-79%

📌 情报分析

技术价值:极高
突破性解决开源模型推理能力短板,MATH-500 96.3%的得分确立新标杆,混合推理和思维过程透明化设计具有行业示范意义。

商业价值:高
6500万美元融资背书,企业级API服务已部署,但192块B200 GPU的硬件门槛可能限制中小开发者采用。

趋势预测:高
开源AI性能逼近商业系统的拐点已至,Psyche Network分布式训练系统的开发可能进一步改变行业算力格局。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索