蚂蚁数科金融大模型Agentar-Fin-R1刷新SOTA:32B版本Finova基准69.93分超GPT-o1

🎯 情报来源:量子位

在2025年WAIC大会前夕,蚂蚁数科提前披露其金融推理大模型Agentar-Fin-R1技术论文,该模型在金融垂直领域实现重大突破。其32B参数版本在自研Finova基准测试中以69.93分刷新SOTA,超越DeepSeek-R1(61.28分)和GPT-o1(60.46分),同时在MATH、GPQA等通用推理基准中保持竞争力。

该模型基于Qwen3架构开发,包含8B/32B双版本,通过千亿级金融语料训练和三项技术创新:金融任务标签体系、加权训练算法、业务场景自主进化机制。蚂蚁数科同步推出包含1350道难题的Finova评测基准,从智能体执行、复杂推理、安全合规三大维度构建更严苛的评估标准。

💡 核心要点

  • 性能突破:Finova基准69.93分(32B),超越同业最佳56.02分及通用大模型成绩
  • 技术创新:首创金融任务分类体系覆盖银行/证券/保险全场景,数据利用率提升40%
  • 商业覆盖:已服务100%国有股份制银行及超60%城商行,智能体方案提升效率80%
  • 基准升级:Finova包含1350道专业考题,难度较传统测试提升50%以上
  • 训练优化:两阶段训练策略降低30%计算成本,响应金融市场变化速度提升5倍

📌 情报分析

技术价值:极高
论文公开完整技术路径,加权训练算法和数据合成框架具行业普适性。Finova基准填补金融大模型专业评估空白。

商业价值:高
背靠蚂蚁集团金融生态,已形成可复用的智能体解决方案矩阵。但需验证真实业务场景的故障率是否低于0.1%的金融业红线。

趋势预测:高
2025年金融大模型市场规模预计达280亿元,具备场景化数据+专业评测体系的企业将占据75%市场份额。该模型技术路线可能成为行业范式。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索