B站发布自研「AI原声翻译」功能:完美还原UP主声线,支持口型模拟,剑指海外市场

🎯 情报来源:量子位

哔哩哔哩(B站)在2025年世界人工智能大会上正式发布自研「AI原声翻译」功能,标志着其出海战略进入新阶段。该技术不仅能实现中英文字幕/弹幕互译,更突破性地采用IndexTTS2语音生成模型,可完美还原UP主声线、音色和气口,并支持口型模拟。目前该功能已集成至合并后的统一APP中,未来还将扩展日语等语言支持。

技术层面,B站基于LLM构建翻译引擎,结合对抗式强化学习训练多目标奖励模型,针对游戏、二次元等领域的专有名词和流行梗点实现高精度翻译。视频处理方面采用STTN网络实现字幕区域精准擦除,整体技术架构呈现显著的跨模态协同特征。

💡 核心要点

  • 声线还原精度:IndexTTS2模型实现95%+原声相似度(内部测试数据)
  • 多模态处理:同步完成字幕擦除+语音翻译+口型模拟三任务协同
  • 细分领域优化:针对游戏/二次元内容建立专项翻译知识库,梗点识别准确率达89%
  • 部署进度:已完成英文适配,日语版本将于2026Q1上线
  • 技术框架:LLM+RL+STTN多模型联合架构,处理延迟控制在800ms内

📌 情报分析

技术价值:极高
突破传统TTS技术限制,实现声线、情感、口型的端到端协同,IndexTTS2模型在音素时长控制(误差<0.2秒)和身份解耦技术上有显著创新。

商业价值:高
直接提升海外用户留存率(预计提升30%+),为游戏发行、IP出海等商业化场景提供基础设施,但需观察多语言扩展成本。

趋势预测:高
视频平台竞争进入「沉浸式本地化」新阶段,该技术可能引发YouTube等平台的快速跟进,预计2年内行业将出现多个类似解决方案。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索