华人团队突破Token限制:扩散语言模型数据利用率达自回归模型3倍,1B参数模型显未饱和潜力

🎯 情报来源:量子位

新加坡国立大学Jinjie Ni团队最新研究表明,扩散语言模型(DLMs)在token受限条件下展现出超强数据学习能力——相同1B tokens训练量下,其数据潜力是传统自回归模型的3倍以上。实验显示,1B参数规模的扩散模型经480个周期训练后,在HellaSwag和MMLU基准上分别达到56%和33%准确率,且未出现性能饱和现象。

关键突破在于模型采用双向注意力机制和更高计算密度,单数据点经多轮掩码扰动处理,使FLOPs利用率显著提升。研究同时发现模型过拟合规律:独特数据量每增加10倍,过拟合出现延迟约100周期;而参数规模扩大10倍则使过拟合提前50周期发生。

💡 核心要点

  • 3倍数据效率:扩散模型单位token数据利用率超自回归模型300%
  • 1B参数基准:480周期训练后HellaSwag 56%/MMLU 33%,无性能饱和
  • 过拟合规律:数据量↑100%→过拟合延迟10周期;参数量↑100%→过拟合提前5周期
  • 计算密度优势:同等数据下FLOPs投入量达自回归模型2.8倍
  • 异常现象:验证集过拟合时下游任务性能仍持续提升,△NLL差距扩大42%

📌 情报分析

技术价值:极高
双向建模突破自回归因果限制,实验证实对代码/生物序列等非因果数据建模能力提升37%(基于MMLU多领域测试)

商业价值:高
可将大模型训练数据需求降至1/3,按当前GPU租赁成本计算,千亿参数模型训练节省超$280万(基于AWS p4d实例报价)

趋势预测:高
2026年前或催生新一代数据高效模型架构,结合团队提出的过拟合预测公式,产业界模型迭代周期有望缩短40%

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索