Gemini 2.5系列模型发布:性能与价格全面升级,音频生成支持多语言

🎯 情报来源:Simon Willison's Weblog

谷歌正式推出Gemini 2.5 Pro和Flash模型,并新增一款预览版Lite模型(gemini-2.5-flash-lite-preview-06-17),后者在价格和推理速度上进一步优化。与此同时,Gemini 2.5技术报告详细介绍了其在长上下文、音频生成及视频处理方面的能力突破。

核心要点:

  • Gemini 2.5 Flash Lite预览版价格低至$0.10/百万文本tokens和$0.50/百万音频tokens,推理速度显著提升。
  • Gemini 2.5支持超过80种语言的语音合成任务,可生成多角色对话,适用于播客等场景。
  • Gemini 2.5 Pro能够在46分钟视频中精准召回1秒视觉事件,展示了强大的长上下文处理能力。
  • 定价策略调整,2.5 Flash模型统一简化为$0.30/百万输入tokens和$2.50/百万输出tokens。
  • 实验显示,新模型在音频转录任务中表现优异,但Lite版本存在输出循环问题。
  • 原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索