Cerebras与Moonshot启动大模型推理速度竞赛:Cerebras实现2000 token/秒,Moonshot提速4倍

🎯 情报来源:Simon Willison's Weblog

Cerebras与Moonshot同日发布高速推理服务方案,刷新行业性能基准。Cerebras基于Qwen3-Coder-480B-A35B-Instruct模型推出订阅服务,宣称实现每秒2000 token的推理速度,较Claude Sonnet 4快4倍。该服务提供两档方案:50美元/月(1000次请求/日)和200美元/月(5000次请求/日),从模型发布到商用仅耗时10天。

同日Moonshot推出kimi-k2-turbo-preview服务,将其万亿参数Kimi K2模型的推理速度从10 token/秒提升至40 token/秒。限时定价策略中,输入token费用为0.3美元/百万(缓存命中),输出token单价5美元/百万,9月1日后将恢复4倍溢价定价。

💡 核心要点

  • ⏱️ 2000 token/秒 – Cerebras创造当前开源代码模型最快推理速度纪录
  • 🚀 10天商用转化 – Qwen3模型发布到Cerebras服务上线创行业新速度
  • 📈 4倍提速 – Moonshot通过kimi-k2-turbo实现性能跃升
  • 💰 50%限时折扣 – Moonshot新服务9月前实行半价策略
  • ⚖️ 2-4倍溢价 – 高速服务定价达基础版2-4倍

📌 情报分析

技术价值:极高
Cerebras的2000 token/秒速度已超越主流商业模型(如Claude 4),Qwen3模型10天集成周期展现工程化能力突破。

商业价值:高
Moonshot采用动态定价策略(限时折扣+后续4倍溢价),验证市场对推理速度的付费意愿,企业级代码场景或成主要市场。

趋势预测:高
推理速度正成为核心竞争维度,2024下半年或将出现更多「Turbo」类优化方案,但需警惕性能提升与成本控制的平衡风险。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索