NVIDIA联手OpenAI推出开源GPT模型优化方案,RTX 5090 GPU推理速度达256 token/s

🎯 情报来源:NVIDIA Blog

NVIDIA与OpenAI合作,针对NVIDIA GPU优化了开源GPT-oss模型系列,推出了gpt-oss-20b和gpt-oss-120b两款模型。这些模型支持高达131,072的上下文长度,在NVIDIA GeForce RTX 5090 GPU上可实现最高256 token/s的推理速度。模型采用混合专家架构,支持思维链推理和可调节推理强度,适用于网页搜索、编码辅助、文档理解等任务。

开发者可通过Ollama、llama.cpp和Microsoft AI Foundry Local等工具在配备至少24GB显存的RTX AI PC上使用这些模型。Ollama提供了开箱即用的支持,无需额外配置即可获得最佳性能。同时,NVIDIA持续与开源社区合作优化llama.cpp和GGML张量库在RTX GPU上的表现。

💡 核心要点

  • NVIDIA RTX 5090 GPU上gpt-oss模型推理速度高达256 token/s
  • 支持131,072超长上下文长度,位居本地推理前列
  • 采用MXFP4精度,在保持高质量的同时提升效率
  • 通过Ollama可零配置部署,支持PDF/文本文件处理
  • Microsoft AI Foundry Local提供命令行/SDK集成方案

📌 情报分析

技术价值:极高 – 131K上下文长度和256 token/s的速度设定了新的本地推理基准,MXFP4精度创新平衡了质量与效率。

商业价值:高 – 覆盖从云到PC的完整AI基础设施,为开发者提供从训练到推理的全栈支持,但开源模式可能限制直接盈利。

趋势预测:极高 – 开源模型+硬件优化的组合将加速AI应用创新,预计未来6-12个月内将涌现大量基于此架构的代理型AI应用。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索