腾讯AI Lab开源SongGeneration音乐生成大模型:音质与速度双突破,综合表现稳居第一

🎯 情报来源:机器之心

6月16日,腾讯AI Lab正式推出并开源音乐生成大模型SongGeneration。该模型基于LLM-DiT融合架构,专注于解决音乐AIGC领域的三大共性难题——音质、音乐性与生成速度,并在多项评测中表现出色,稳居开源模型榜首,同时在商业模型中也位列前茅。

SongGeneration支持文本控制、多轨合成与风格跟随等核心功能,适用于短视频配乐、游戏音效、虚拟人演出等多种场景。其训练架构结合了低比特率编解码、多类别token并行预测等技术创新,总参数量仅为3B,展现出高效且高质量的音乐生成能力。

核心要点:

  • 模型在开源模型中稳居第一,在商业模型中位列前茅。
  • 生成速度与音质表现显著提升,支持48kHz采样率高保真音乐生成。
  • 创新提出低比特率(25Hz)编解码技术,极大减轻语言模型建模负担。
  • 支持多语种歌词输入、一键式歌曲生成及风格迁移。
  • 在旋律、伴奏、音质和整体表现等维度均超越主流开源模型。

📌 情报分析

技术价值:极高

SongGeneration通过低比特率编解码、多类别token并行预测等技术创新,解决了音乐生成领域长期存在的复杂成分建模难题,显著提升了生成效率与质量。

商业价值:高

模型开源策略降低了行业门槛,赋能内容创作平台、游戏厂商等B端用户,同时面向C端创作者提供灵活工具,推动音乐AI生态系统的构建。

趋势预测:

未来3-6个月内,SongGeneration有望成为音乐生成领域的标杆项目,带动更多企业投入相关技术研发,进一步扩大AI音乐生成在短视频、广告等场景的应用规模。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索