🎯 情报来源:Simon Willison's Weblog
Cerebras与Moonshot同日发布高速推理服务方案,刷新行业性能基准。Cerebras基于Qwen3-Coder-480B-A35B-Instruct模型推出订阅服务,宣称实现每秒2000 token的推理速度,较Claude Sonnet 4快4倍。该服务提供两档方案:50美元/月(1000次请求/日)和200美元/月(5000次请求/日),从模型发布到商用仅耗时10天。
同日Moonshot推出kimi-k2-turbo-preview服务,将其万亿参数Kimi K2模型的推理速度从10 token/秒提升至40 token/秒。限时定价策略中,输入token费用为0.3美元/百万(缓存命中),输出token单价5美元/百万,9月1日后将恢复4倍溢价定价。
💡 核心要点
- ⏱️ 2000 token/秒 – Cerebras创造当前开源代码模型最快推理速度纪录
- 🚀 10天商用转化 – Qwen3模型发布到Cerebras服务上线创行业新速度
- 📈 4倍提速 – Moonshot通过kimi-k2-turbo实现性能跃升
- 💰 50%限时折扣 – Moonshot新服务9月前实行半价策略
- ⚖️ 2-4倍溢价 – 高速服务定价达基础版2-4倍
📌 情报分析
技术价值:极高
Cerebras的2000 token/秒速度已超越主流商业模型(如Claude 4),Qwen3模型10天集成周期展现工程化能力突破。
商业价值:高
Moonshot采用动态定价策略(限时折扣+后续4倍溢价),验证市场对推理速度的付费意愿,企业级代码场景或成主要市场。
趋势预测:高
推理速度正成为核心竞争维度,2024下半年或将出现更多「Turbo」类优化方案,但需警惕性能提升与成本控制的平衡风险。