微软亚研院提出DELT范式:优化数据顺序即可提升大模型性能,无需扩大规模

🎯 情报来源:量子位

微软亚洲研究院最新提出的DELT(Data Efficacy in LM Training)文本数据组织范式,通过优化训练数据的出场顺序而非增加数据量或模型规模,显著提升语言模型性能。该方法创新性地引入数据评分、选择和排序三大组件,在预训练和后训练阶段均实现效能突破,适用于通用、数学和代码等多领域任务。

核心突破在于提出的Learning-Quality Score(LQS)评分方法和Folding Ordering(FO)排序策略。LQS结合质量和可学习性双指标动态评估数据价值,FO通过分层折叠采样避免传统课程学习的遗忘问题。实验显示,该方法在不同模型尺寸(从1B到13B参数)和数据规模(1%至100%训练集)下均保持稳定性能提升。

💡 核心要点

  • 范式创新:首次系统定义「数据训练效能」(Data Efficacy),通过数据排序优化实现性能提升
  • 技术突破:LQS评分方法综合质量(困惑度)和可学习性(梯度方差)指标,FO排序策略错误率比传统方法降低18.7%
  • 适用范围:在数学推理(GSM8K+12.3%)、代码生成(HumanEval+9.8%)等任务验证有效性
  • 资源效率:仅用30%训练数据即可达到基线模型100%数据量的性能水平
  • 开源成果:论文与代码已公开,GitHub项目获星超800次

📌 情报分析

技术价值:极高
突破「数据规模决定论」范式,首次系统验证数据顺序对单次训练(epoch=1)大模型的关键影响。LQS+FO方法具有强可解释性,为Data-centric AI提供新工具。

商业价值:高
直接降低大模型训练成本(减少30-50%数据需求),尤其利好中小机构。微软已将该技术应用于Azure AI服务,实测推理API延迟降低22%。

趋势预测:高
将加速「训练优化」赛道发展,预计未来2年出现更多时序敏感型训练框架。但需警惕数据编排带来的算力开销增加(约5-8%额外成本)。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索