清华团队AudioLBM突破192kHz音频超分技术,实现通用高保真音频生成新范式

🎯 情报来源:量子位

清华大学与生数科技团队在ICASSP 2025和NeurIPS 2025连续发表两项音频超分辨率研究成果,其中AudioLBM模型首次实现192kHz母带级音频超分,在Any-to-48kHz任务中超越所有基线模型。该技术突破传统48kHz限制,通过波形隐空间建模和级联桥类设计,将采样率上限提升至工业级标准。

核心创新点包括:1)首创波形连续隐空间桥接生成技术;2)开发频率感知机制实现any-to-any超分;3)级联模型设计突破高分辨率数据瓶颈。测试显示,在语音、音效与音乐多领域,AudioLBM的对数谱距离(LSD)指标均显著优于AudioSR等基线模型,1.7M参数的Bridge-SR模型已在VCTK测试集实现语音超分质量突破。

💡 核心要点

  • 采样率突破:AudioLBM支持48kHz/96kHz/192kHz三级超分,首次覆盖母带级标准
  • 性能优势:Any-to-48kHz任务达到SOTA,LSD指标显著优于基线模型
  • 架构创新:采用波形隐空间桥接+级联LBM设计,参数仅1.7M
  • 通用能力:统一框架处理语音/音效/音乐,频谱能量一致性提升30%
  • 工程落地:已开源论文及样本,适用于老音频修复、音乐制作等场景

📌 情报分析

技术价值:极高 – 突破隐空间建模与级联生成关键技术,实验数据充分验证192kHz可行性

商业价值:高 – 直接对标OpenAI Sora 2的96kHz音频生成能力,音乐制作市场空间达$50亿

趋势预测:高 – 论文显示模型可扩展至多模态生成,或引发AIGC音频赛道新一轮技术迭代

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索