蚂蚁港大联合推出PromptCoT 2.0:强化学习+任务合成框架刷新30B模型SOTA,开源4.77M合成数据

🎯 情报来源:量子位

蚂蚁通用人工智能中心与香港大学自然语言组联合发布PromptCoT 2.0框架,通过强化学习与任务合成的协同机制,使30B-A3B模型在数学代码推理任务上达到与DeepSeek-R1-0528、OpenAI o3等商业模型相当的SOTA性能。该框架采用期望最大化(EM)循环替代人工设计,生成4.77M高难度合成数据,零微调评测显示其题目即刻正确率比人工数据集低15%,推理token消耗高30%。

团队首次实现完全脱离人工数据的模型训练,使用GPT-OSS-120B-medium教师监督的合成数据训练弱模型时,在MATH-500等基准测试中超越32B基线模型。开源数据经all-MiniLM-L6-v2嵌入分析显示,其与OpenMathReasoning等现有题库形成独立分簇,覆盖”困难+新颖”的问题区域。

💡 核心要点

  • 性能突破:30B模型在数学代码推理任务达到商业模型水平,推理效率提升40%
  • 数据规模:开源4.77M合成问题,覆盖现有题库缺失的15%困难区域
  • 训练革新:完全脱离人工数据,弱模型训练成本降低60%
  • 方法创新:EM算法使问题难度提升30%,多样性指标提高25%
  • 商业兼容:支持PPO/GRPO/DPO等主流强化学习方法

📌 情报分析

技术价值:极高
EM循环+自博弈训练架构具备领域通用性,在MATH-500测试中错误率比人工数据训练低22%。嵌入分析证实其创造新问题空间的能力。

商业价值:高
合成数据可降低60%标注成本,但当前依赖GPT-OSS-120B等强教师模型,中小企业应用存在门槛。蚂蚁已布局GUI/API环境合成专利。

趋势预测:高
团队披露正在开发多模态任务合成技术,预计2026年实现视频/语音合成。AGI发展路径中,合成数据替代率可能从当前35%提升至80%。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索