中科院&阿里联合发布RefineX框架:手术刀式去噪技术提升LLM性能7.2%,数据净化效率提升42.2%

🎯 情报来源:量子位

中科院计算所与阿里Qwen团队联合推出RefineX框架,通过程序化编辑任务实现大规模预训练数据精炼。该技术采用”只删不改”策略,在20B token数据训练中使750M模型的下游任务平均得分提升7.2%,达到44.7分。相比传统方法,RefineX对低质文本的改善率达42.2%,且严格保持”零新增词汇”,杜绝了模型幻觉风险。

论文显示,RefineX采用两阶段蒸馏流程:先用Qwen2.5-72B专家模型处理200万样本,再训练0.6B的优化模型。其最小编辑距离算法和动态分块机制,实现了字符级精准修正与长上下文保留,处理效率比端到端重写提升90%以上。

💡 核心要点

  • 性能提升:750M模型在10项下游任务平均得分提升7.2%至44.7
  • 质量改善:低质文本净化率达42.2%,零新增词汇
  • 训练效率:10B净化token效果超越20B传统数据
  • 技术突破:最小编辑距离算法实现字符级精准修正
  • 计算成本:消耗万卡小时生成200万蒸馏样本

📌 情报分析

技术价值:极高
实现字符级数据净化与7.2%性能提升,突破传统规则过滤与端到端重写的技术瓶颈

商业价值:高
20B token规模验证可降低20%训练成本,适合商业化大模型数据预处理

趋势预测:高
“手术刀式”数据精炼将成行业标配,3年内或推动中小模型性能逼近当前千亿参数模型

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索