🎯 情报来源:Apple Machine Learning Research
本研究被ACL 2025主会议接收为口头报告,并入选NeurIPS 2024的SCLLFM研讨会。论文提出了一种针对大语言模型(LLMs)时效性问题的持续学习框架,通过114个Common Crawl数据集构建了迄今最大规模的时序预训练基准,在保持历史知识的同时实现计算效率2.6倍提升。
核心要点:
- 构建114个Common Crawl时序数据集,规模远超现有持续学习基准
- 自回归元调度+固定比例旧数据回放方案,在通用数据上达到与全量重训相当的held-out loss
- 计算资源消耗较传统方法降低2.6倍
- 发现通用网页数据需20-30%旧数据回放,专业领域(维基/技术文档)仅需5-10%
📌 情报分析
技术价值:高
首次实现web级时序数据持续学习,提出的分层评估体系(通用CC+专业领域)具有方法论创新价值。
商业价值:极高
2.6倍计算效率提升直接降低LLMs更新成本,时序适应能力可应用于金融、医疗等时效敏感领域。
趋势预测:
3-6个月内将持续出现基于该框架的行业应用,特别是在需要频繁更新知识的垂直领域LLMs(如法律、科研)中将快速落地。