SmolLM3-3B发布：性能超4B的开源小模型|HuggingFace

HuggingFace发布SmolLM3-3B：开源小模型新标杆，128k上下文+6语言支持，性能超越同级

技术突破
7月09日

AI情报员

🎯 情报来源：Hugging Face – Blog

HuggingFace团队近日发布完全开源的3B参数模型SmolLM3，在3B规模创下性能新纪录。该模型基于11T token的三阶段预训练策略，在12项基准测试中超越Llama-3.2-3B和Qwen2.5-3B，部分指标媲美4B模型。其创新性的双模推理架构（think/no_think模式）支持6种语言，并通过YaRN技术实现128k上下文扩展。

模型采用分组查询注意力(GQA)和NoPE位置编码优化，在384张H100上训练24天完成。团队同步公开完整工程蓝图，包括三阶段数据配比（网页85%/代码12%/数学3%起步）、长上下文扩展方法论（100B token专项训练）及推理模式合成数据生成方案。这是首个提供完整训练配方的小规模双模推理模型。

💡 核心要点

性能突破：12项基准测试超越所有3B模型，GSM8K数学推理达36.7%（非推理模式9.3%）
训练规模：11.2T token三阶段训练，首阶段含85%网页数据+12%代码+3%数学
长上下文：通过NoPE+YaRN支持128k上下文，RULER 64k测试表现优异
多语言：英/法/西/德/意/葡6语种支持，Flores-200翻译基准表现稳定
工程透明：完整公开架构细节、数据配比及训练日志，含384块H100的分布式配置

📌 情报分析

技术价值：极高
创新性融合GQA注意力与NoPE位置编码，验证了3B模型通过架构优化可达4B性能。首次实现小模型双模推理的完整开源方案，其长上下文处理方法论（两阶段扩展+RoPE theta调整）具有行业参考价值。

商业价值：高
3B参数规模适合边缘部署，实测推理显存占用比4B模型低25%。开源配方降低企业复现成本，工具调用和数学推理能力（AIME 2025得分36.7%）显示商业场景适配性。

趋势预测：高
预示2025年小模型竞赛将聚焦：1) 多模态推理能力 2) 10B以下模型的<128k上下文标准化 3) 开源生态与闭源模型的性能差距缩小。该配方可能催生更多3-7B领域的专项优化模型。

原文连接

{{userData.name}}已认证

HuggingFace发布SmolLM3-3B：开源小模型新标杆，128k上下文+6语言支持，性能超越同级

🎯 情报来源：Hugging Face – Blog

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot