🎯 情报来源:Simon Willison's Weblog
OpenAI于8月28日悄然推出新一代语音对话模型gpt-realtime,官方称其为”最先进的语音转语音模型”,实质替代了2023年10月发布的gpt-4o-realtime-preview。该模型仍基于2023年10月训练数据,未采用预计2024年9月发布的GPT-5架构,维持32,000上下文token和4,096输出token限制。
技术文档显示,新模型支持MCP服务器配置、图像输入及改进的指令跟随能力。值得注意的是,定价页面同时列出gpt-realtime和旧版gpt-4o-mini-realtime-preview的API价格,后者虽未出现在模型列表却仍可使用,且成本仅为新模型的15%-31%(文本处理$0.6 vs $4/百万token)。
💡 核心要点
- 训练数据截止2023年10月,与GPT-4o相同,未整合GPT-5技术
- 保留32K上下文窗口,输出限制4,096 token,性能参数无突破
- 音频处理成本达$64/百万token输出,是文本处理的4倍
- 旧版mini模型仍可用,128K上下文窗口+低价策略($0.6/百万token输入)
- 新增图像输入支持($5/百万token)和MCP服务器配置能力
📌 情报分析
技术价值:一般
未采用GPT-5架构,核心参数与旧版一致,主要改进集中在工程优化(指令跟随、多模态支持)
商业价值:高
保留低价旧版选项的策略显示OpenAI在平衡技术迭代与市场需求,图像处理等新能力可能开辟垂直场景
趋势预测:一般
2023年训练数据时效性受限,预计GPT-5发布后将面临重大架构更新,当前版本或为过渡产品
