🎯 情报来源:Hugging Face – Blog
HuggingFace团队近日发布完全开源的3B参数模型SmolLM3,在3B规模创下性能新纪录。该模型基于11T token的三阶段预训练策略,在12项基准测试中超越Llama-3.2-3B和Qwen2.5-3B,部分指标媲美4B模型。其创新性的双模推理架构(think/no_think模式)支持6种语言,并通过YaRN技术实现128k上下文扩展。
模型采用分组查询注意力(GQA)和NoPE位置编码优化,在384张H100上训练24天完成。团队同步公开完整工程蓝图,包括三阶段数据配比(网页85%/代码12%/数学3%起步)、长上下文扩展方法论(100B token专项训练)及推理模式合成数据生成方案。这是首个提供完整训练配方的小规模双模推理模型。
💡 核心要点
- 性能突破:12项基准测试超越所有3B模型,GSM8K数学推理达36.7%(非推理模式9.3%)
- 训练规模:11.2T token三阶段训练,首阶段含85%网页数据+12%代码+3%数学
- 长上下文:通过NoPE+YaRN支持128k上下文,RULER 64k测试表现优异
- 多语言:英/法/西/德/意/葡6语种支持,Flores-200翻译基准表现稳定
- 工程透明:完整公开架构细节、数据配比及训练日志,含384块H100的分布式配置
📌 情报分析
技术价值:极高
创新性融合GQA注意力与NoPE位置编码,验证了3B模型通过架构优化可达4B性能。首次实现小模型双模推理的完整开源方案,其长上下文处理方法论(两阶段扩展+RoPE theta调整)具有行业参考价值。
商业价值:高
3B参数规模适合边缘部署,实测推理显存占用比4B模型低25%。开源配方降低企业复现成本,工具调用和数学推理能力(AIME 2025得分36.7%)显示商业场景适配性。
趋势预测:高
预示2025年小模型竞赛将聚焦:1) 多模态推理能力 2) 10B以下模型的<128k上下文标准化 3) 开源生态与闭源模型的性能差距缩小。该配方可能催生更多3-7B领域的专项优化模型。