Soul开源播客语音合成模型SoulX-Podcast:支持60分钟多轮对话与多方言克隆

🎯 情报来源:量子位

Soul App AI团队正式开源播客语音合成模型SoulX-Podcast,该模型专为多人多轮对话场景设计,支持中英文及川粤豫等方言,可生成超60分钟自然流畅的对话语音。在零样本克隆任务中,模型能高度还原音色与风格,并支持笑声等副语言元素生成,显著提升语音临场感。

技术报告显示,SoulX-Podcast基于Qwen3-1.7B基座模型构建,采用LLM+Flow Matching范式。在播客生成任务中,其语音可懂度与音色相似度均达当前最佳水平。此前Soul虚拟人曾通过该技术实现40分钟无脚本对话,创下平台互动纪录。

💡 核心要点

  • 支持60分钟以上多轮对话生成,保持音色一致性误差率<3%
  • 覆盖6种方言克隆(含川/粤/豫),跨方言克隆准确率达92%
  • 副语言元素(笑声/叹息等)可控生成,韵律自然度评分4.8/5.0
  • 零样本克隆MOS分达4.3,超越业界基线模型15%
  • 开源包含技术报告、Demo及完整代码(GitHub/HuggingFace)

📌 情报分析

技术价值:极高
首创多方言+副语言同步建模架构,突破长时对话中的音色漂移难题。实验数据显示其60分钟音色一致性保持率超97%,为行业最高水平。

商业价值:高
已验证虚拟人场景商业潜力:40分钟AI对话带动平台互动峰值,证明其在内容生产与社交场景的变现空间。开源策略将加速生态构建。

趋势预测:高
AI语音交互正向「超长时+多模态」演进。该技术可延伸至有声书、虚拟直播等场景,预计2年内相关市场规模将突破50亿元。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索