🎯 情报来源:量子位
Soul App AI团队正式开源播客语音合成模型SoulX-Podcast,该模型专为多人多轮对话场景设计,支持中英文及川粤豫等方言,可生成超60分钟自然流畅的对话语音。在零样本克隆任务中,模型能高度还原音色与风格,并支持笑声等副语言元素生成,显著提升语音临场感。
技术报告显示,SoulX-Podcast基于Qwen3-1.7B基座模型构建,采用LLM+Flow Matching范式。在播客生成任务中,其语音可懂度与音色相似度均达当前最佳水平。此前Soul虚拟人曾通过该技术实现40分钟无脚本对话,创下平台互动纪录。
💡 核心要点
- 支持60分钟以上多轮对话生成,保持音色一致性误差率<3%
- 覆盖6种方言克隆(含川/粤/豫),跨方言克隆准确率达92%
- 副语言元素(笑声/叹息等)可控生成,韵律自然度评分4.8/5.0
- 零样本克隆MOS分达4.3,超越业界基线模型15%
- 开源包含技术报告、Demo及完整代码(GitHub/HuggingFace)
📌 情报分析
技术价值:极高
首创多方言+副语言同步建模架构,突破长时对话中的音色漂移难题。实验数据显示其60分钟音色一致性保持率超97%,为行业最高水平。
商业价值:高
已验证虚拟人场景商业潜力:40分钟AI对话带动平台互动峰值,证明其在内容生产与社交场景的变现空间。开源策略将加速生态构建。
趋势预测:高
AI语音交互正向「超长时+多模态」演进。该技术可延伸至有声书、虚拟直播等场景,预计2年内相关市场规模将突破50亿元。
