🎯 情报来源:机器之心
6月16日,腾讯AI Lab正式推出并开源音乐生成大模型SongGeneration。该模型基于LLM-DiT融合架构,专注于解决音乐AIGC领域的三大共性难题——音质、音乐性与生成速度,并在多项评测中表现出色,稳居开源模型榜首,同时在商业模型中也位列前茅。
SongGeneration支持文本控制、多轨合成与风格跟随等核心功能,适用于短视频配乐、游戏音效、虚拟人演出等多种场景。其训练架构结合了低比特率编解码、多类别token并行预测等技术创新,总参数量仅为3B,展现出高效且高质量的音乐生成能力。
核心要点:
- 模型在开源模型中稳居第一,在商业模型中位列前茅。
- 生成速度与音质表现显著提升,支持48kHz采样率高保真音乐生成。
- 创新提出低比特率(25Hz)编解码技术,极大减轻语言模型建模负担。
- 支持多语种歌词输入、一键式歌曲生成及风格迁移。
- 在旋律、伴奏、音质和整体表现等维度均超越主流开源模型。
📌 情报分析
技术价值:极高
SongGeneration通过低比特率编解码、多类别token并行预测等技术创新,解决了音乐生成领域长期存在的复杂成分建模难题,显著提升了生成效率与质量。
商业价值:高
模型开源策略降低了行业门槛,赋能内容创作平台、游戏厂商等B端用户,同时面向C端创作者提供灵活工具,推动音乐AI生态系统的构建。
趋势预测:
未来3-6个月内,SongGeneration有望成为音乐生成领域的标杆项目,带动更多企业投入相关技术研发,进一步扩大AI音乐生成在短视频、广告等场景的应用规模。
