德企TNG发布DeepSeek-TNG R1T2 Chimera模型:推理速度提升200%,效率超开源标杆DeepSeek-R1-0528

🎯 情报来源:AI News | VentureBeat

德国TNG科技咨询公司基于中国深度求索(DeepSeek)开源大模型,最新发布DeepSeek-TNG R1T2 Chimera模型。该模型采用创新的专家组装(AoE)技术,在Hugging Face基准测试中展现出突破性性能:推理速度达到原版DeepSeek-R1-0528的200%,同时保持90%以上的核心推理能力,且响应token数量减少60%。

值得注意的是,R1T2通过融合DeepSeek三个版本模型(R1-0528、R1和V3-0324)的权重张量,无需重新训练即实现性能跃升。TNG公布的数据显示,相比1月发布的DeepSeek-R1基础版,新模型速度提升20%,在GPQA&AIME 24测试中表现更优。

💡 核心要点

  • 速度突破:响应速度达DeepSeek-R1-0528的200%(2倍),比基础版R1快20%
  • 效率跃升:输出token数量减少60%,大幅降低推理成本
  • 性能保留:在AIME-24/25和GPQA测试中保持原模型90-92%的推理能力
  • 技术革新:采用AoE技术整合三个父模型优势,MIT许可证开源
  • 商业应用:已在OpenRouter等平台日处理数十亿token,适合高吞吐场景

📌 情报分析

技术价值:高
AoE技术突破传统MoE架构限制,通过权重张量选择性融合实现零训练优化。保留90%+基准性能的同时,token效率提升2.5倍(40%输出量),在模型压缩领域具有示范意义。

商业价值:极高
实测60%的推理成本降低直接解决企业核心痛点。Hugging Face技术负责人证实其在高难度测试(GPQA&AIME 24)中的优异表现,MIT许可更赋予商业部署灵活性。

趋势预测:高
TNG已形成Chimera模型家族技术路线,其模块化组装理念可能推动行业从单一模型训练转向组合式开发。欧盟AI法案合规提示显示,开源生态将面临更复杂的监管适配需求。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索