🎯 情报来源:AI News | VentureBeat
旧金山AI研究初创公司Deep Cogito(由前谷歌工程师创立)近日发布其第二代大语言模型系列Cogito v2,包含70B至671B参数的四款不同架构模型。该系列最大亮点是通过「迭代蒸馏放大」技术使模型具备自主优化推理能力,其中671B参数的MoE版本在多项基准测试中匹配DeepSeek R1等顶尖开源模型,同时将推理链缩短60%,训练总成本控制在350万美元以内。
模型采用混合许可模式,现已在Hugging Face、Unsloth及第三方API平台上线。特别值得注意的是671B模型的FP8量化版本,能在保持95-99%性能前提下大幅降低硬件需求。据内部测试,该系列在数学计算、法律推理等需要多步逻辑判断的任务中展现出显著优势。
💡 核心要点
- 671B MoE旗舰模型:推理性能匹配DeepSeek R1 0528,推理链缩短60%,MMLU/GSM8K测试接近Claude 4 Opus梯队
- 突破性训练方法:通过「迭代蒸馏放大」将模型的中间推理过程反哺权重更新,单轮训练成本仅3.5M美元(对比OpenAI达1亿美元)
- 硬件适配创新:FP8量化版671B模型实现8-bit低精度推理,性能保留率95%-99%
- 多场景验证优势:数学应用题(3小时车程判断)仅用100 tokens完成推理,较对标模型节省50%计算量
- 商业可用性:提供从本地部署(Unsloth)到API调用(Together AI)的全套解决方案
📌 情报分析
技术价值:极高
模型将推理能力编码为「机器直觉」,在GSM8K等复杂任务中实现200→100 tokens的推理链压缩,且量化版保持95%+性能,突破了大模型部署的算力瓶颈。CEO Arora提出的「更优先验>更多token」方法论已验证有效。商业价值:高
350万美元训练成本仅为行业标杆的3.5%,MoE架构实现推理成本与模型规模的解耦。但作为新兴厂商,企业级生态支持尚不及Anthropic等成熟玩家,需观察API合作伙伴的实际交付能力。趋势预测:高
「推理即训练」范式可能重塑LLM开发流程,Benchmark等顶级风投的押注显示技术路线获认可。若后续能保持当前迭代速度(v1→v2仅14个月),有望在2026年前跻身开源模型第一阵营。