DeepSeek-V3.2-Exp与GLM-4.6同日发布:国产大模型突破200K上下文窗口

🎯 情报来源:Simon Willison's Weblog

中国AI实验室近期密集发布两大开源模型:深度求索的DeepSeek-V3.2-Exp(690GB,MIT协议)和智谱AI的GLM-4.6(714GB,MIT协议)。前者引入稀疏注意力机制优化长文本处理效率,后者将上下文窗口从128K扩展至200K,并在代码基准测试和工具调用场景表现突出。

实测显示,GLM-4.6在搜索代理任务中展现出更强性能,而DeepSeek-V3.2-Exp因测试时路由至低速节点导致响应延迟。两大模型均采用完全开源策略,技术参数已通过Hugging Face平台公开。

💡 核心要点

  • 200K上下文窗口:GLM-4.6创造当前开源模型最长上下文记录
  • 690GB/714GB参数量:双模型均进入百GB级大模型阵营
  • MIT开源协议:商业应用友好型授权策略
  • 代码基准提升:GLM-4.6在编程任务表现显著优化
  • 稀疏注意力机制:DeepSeek新技术验证训练/推理效率优化

📌 情报分析

技术价值:高
• GLM-4.6的200K窗口突破长文本处理瓶颈(需验证实际推理效率)
• DeepSeek稀疏注意力机制具原创性,但实测性能待验证

商业价值:极高
• 完全开源策略降低企业应用门槛
• 工具调用能力提升直接匹配RAG等企业级需求

趋势预测:高
• 国产模型进入「长文本+工具智能」双赛道竞争阶段
• 2024年Q3或将出现300K+上下文窗口产品

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索