Splash Music联手AWS打造HummingLM音乐生成模型,训练成本降低54%

🎯 情报来源:Artificial Intelligence

Splash Music与AWS合作开发的HummingLM音乐生成基础模型正在重塑音乐创作方式。这款多模态生成模型采用Transformer架构,能够将用户哼唱的旋律实时转换为专业乐器演奏,已驱动全球超6亿次音乐播放。通过采用AWS Trainium芯片和Amazon SageMaker HyperPod,Splash Music实现了训练速度提升2倍、成本降低54%的突破。

HummingLM模型包含3.85亿参数的Transformer语言模型和专用上采样组件,在信号保真度上比基线方法提升57.93%,支持1-5秒可变时长控制信号输入,并具备零样本学习能力。其架构采用离散令牌表示,相比传统波形方法减少计算开销,训练数据集规模超过2PB。

💡 核心要点

  • 训练成本降低54%,速度提升2倍,最大批量处理规模从70扩大到512
  • 信号保真度(SI-SDR)提升57.93%,零样本性能媲美已知乐器预设
  • 全球累计播放量超6亿次,支持6种音轨分离(鼓、贝斯、人声等)
  • 采用385M参数Transformer+上采样架构,处理22.05kHz音频输入
  • 基于AWS Trainium芯片构建,使用64台trn1.32xlarge实例并行训练

📌 情报分析

技术价值:极高
模型在信号保真度、零样本学习和多风格适应性方面表现突出,采用创新的双组件架构和离散令牌表示技术,技术指标全面超越VALL-E等基线方法。

商业价值:高
已形成规模化商业应用(6亿播放量),训练成本的大幅降低(54%)和效率提升使产品具备持续迭代优势,但音乐生成领域的商业化变现模式仍需验证。

趋势预测:高
随着数据集计划扩大10倍和多模态音频/视频生成的探索,该技术有望进一步降低专业音乐创作门槛,但需关注版权和内容原创性等监管挑战。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索