🎯 情报来源:Simon Willison's Weblog
中国AI实验室近期密集发布两大开源模型:深度求索的DeepSeek-V3.2-Exp(690GB,MIT协议)和智谱AI的GLM-4.6(714GB,MIT协议)。前者引入稀疏注意力机制优化长文本处理效率,后者将上下文窗口从128K扩展至200K,并在代码基准测试和工具调用场景表现突出。
实测显示,GLM-4.6在搜索代理任务中展现出更强性能,而DeepSeek-V3.2-Exp因测试时路由至低速节点导致响应延迟。两大模型均采用完全开源策略,技术参数已通过Hugging Face平台公开。
💡 核心要点
- 200K上下文窗口:GLM-4.6创造当前开源模型最长上下文记录
- 690GB/714GB参数量:双模型均进入百GB级大模型阵营
- MIT开源协议:商业应用友好型授权策略
- 代码基准提升:GLM-4.6在编程任务表现显著优化
- 稀疏注意力机制:DeepSeek新技术验证训练/推理效率优化
📌 情报分析
技术价值:高
• GLM-4.6的200K窗口突破长文本处理瓶颈(需验证实际推理效率)
• DeepSeek稀疏注意力机制具原创性,但实测性能待验证
商业价值:极高
• 完全开源策略降低企业应用门槛
• 工具调用能力提升直接匹配RAG等企业级需求
趋势预测:高
• 国产模型进入「长文本+工具智能」双赛道竞争阶段
• 2024年Q3或将出现300K+上下文窗口产品
