Baseten联手谷歌云与NVIDIA实现推理性能突破:成本效益提升225%,登顶OpenRouter排行榜

🎯 情报来源:Cloud Blog

AI基础设施提供商Baseten宣布通过整合谷歌云A4虚拟机和NVIDIA Blackwell架构,实现推理性能重大突破:在高吞吐量推理场景下成本效益提升225%,延迟敏感型推理提升25%。这一技术突破使得复杂AI代理和推理模型的大规模生产部署成为可能,目前其服务已覆盖DeepSeek V3/R1、Llama 4等主流开源模型。

作为六年历史的C轮公司,Baseten通过”硬件最大化+软件优化”双轨策略,结合谷歌云AI超算架构和NVIDIA Dynamo、TensorRT-LLM等开源框架,为Writer等客户实现60%以上的吞吐量提升。其多云容灾架构借助动态工作负载调度器(DWS)实现分钟级故障转移,支撑全球关键业务部署。

💡 核心要点

  • 225%成本效益跃升:NVIDIA HGX B200+Dynamo组合实现高吞吐推理单位成本下降2.25倍
  • 60%客户性能提升:TensorRT-LLM优化使Writer公司的Palmyra模型吞吐量提升超60%
  • 三模型同步支持:Model API现可直接部署DeepSeek V3/R1和Llama 4 Maverick
  • 多云灾备效率:DWS系统实现跨云分钟级故障转移,保障99.9%可用性
  • OpenRouter登顶:Blackwell架构下推理延迟降低35%,问鼎LLM性能排行榜

📌 情报分析

技术价值:极高
• 实测数据验证硬件-软件全栈优化效果(225%成本效益+60%吞吐提升)
• 独创内核融合/内存分级优化技术突破长上下文处理瓶颈

商业价值:高
• 覆盖从T4到B200的全GPU产品线,满足不同预算客户需求
• 动态调度器实现”类按需计费”模式,降低客户隐性成本

趋势预测:高
• 多模态推理需求激增将放大其性能优势(OpenRouter数据已验证)
• 企业私有模型部署需求或推动B200专用集群业务增长

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索