🎯 情报来源:量子位
快手与清华大学联合团队最新提出的Archer方法,通过差异化Token管理策略,仅用1.5B参数的小型语言模型就在数学推理和代码生成任务中实现突破性表现。该模型在AIME 2024数学竞赛测试集上正确率提升18.1%,代码基准LiveCodeBench v5提升3.4%,训练成本仅为1900 H800 GPU小时,效率达同类SOTA模型的1/8。
区别于传统RLVR方法的粗放训练,Archer创新性地采用句子级熵统计技术,动态区分知识型(低熵)与推理型(高熵)Token。前者通过强KL正则保持知识稳定性,后者采用宽松约束鼓励推理探索,在保持参数规模不变的情况下显著提升模型逻辑能力。
💡 核心要点
- 效率突破:1.5B参数模型在AIME25数学基准超越同量级SOTA 5.2%,训练成本仅需1900 GPU小时
- 双项提升:数学推理(AIME24 +18.1%)与代码生成(LiveCodeV6 +2.6%)能力同步突破
- 技术创新:首创句子级熵统计技术,实现Token级精准分类(准确率较批次统计提升37%)
- 成本优势:单阶段训练达成多阶段效果,GPU耗时仅为Nemotron方案的12%
- 开源共享:代码及模型已在GitHub开放,获星数3小时破千
📌 情报分析
技术价值:极高
熵值动态分类机制解决了LLM训练中知识固化与推理灵活的固有矛盾,实验显示约束策略不当会导致模型性能下降42%
商业价值:高
小模型的高效能特性适配边缘计算场景,实测在NVIDIA Jetson设备推理速度达23 tokens/s,成本效益比达商业级标准
趋势预测:高
精细化训练策略或引发模型优化范式转移,团队透露该方法可扩展至10B+模型,预计年底前将有更大规模验证