前言

阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

摘要:音乐创作全能“编辑器”:高效多元、强可控、可编辑,满足多样化需求。

一年前,阶跃与 ACE Studio 达成深度战略合作,依托 ACE Studio 的专业级音乐能力与阶跃领先的多模态技术,双方致力于打造最懂音乐的大模型,为广泛的音乐爱好者提供科技化的音乐表达工具。一年后的今天,技术与艺术的融合成果展现,阶跃星辰与 ACE Studio 正式联合发布并开源 SOTA 级音乐大模型——ACE-Step(中文名:音跃),成为继语音、视频、图片、视觉推理等多模态大模型之后的又一重要突破,展现了音乐创作与生成的最新进展。

ACE Studio 是一家以生成式 AI 技术为核心的科技公司,旗下的产品 ACE Studio,是一款 Gen-AI 为核心的音乐创作工作站产品(The Cursor.ai for music),用户遍布全球,包括格莱美获奖者,世界顶级的工作室都在使用。

57d389b4-53af-4a87-8abf-3c8c75294ccd.mp4

ACE-Step 音跃大模型参数量为 3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。通过创新架构与训练策略,ACE-Step 提升了旋律的流畅性与歌词的契合度,让生成的音乐在旋律、结构上更完整、更具情感表达力。

作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,极大降低音乐 AI 应用的开发门槛。借助这些能力,ACE-Step 有望推动音乐生成领域迈向自己的 “Stable Diffusion 时刻”。

模型特点

ACE-Step 具备高效多元创作能力、强可控性易于拓展的三大核心特色。

1、高效多元创作支持

ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现,确保创作者能够实现跨文化创作与高质量交付。

  • 音乐质量与表现力兼顾

ACE-Step 支持多种主流音乐风格的创作,并能够生成丰富多样且兼具表现力的演唱、器乐编排,确保音乐的连贯性与和谐,并展现出风格的多样性。

电子乐.mp3

流行摇滚.mp3

除此之外,ACE-Step 也支持高质量的纯音乐生成。

奏鸣曲.mp3

探戈.mp3

  • 支持快速生成

ACE-Step 提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。

  • 支持多语言生成

ACE-Step 支持 19 种语言(如中文、英文、西班牙语等)的歌曲生成,满足跨文化创作的需求。无论是本地化定制还是跨语言创作,ACE-Step 都能提供强大支持,帮助创作者轻松应对全球化的音乐创作需求。

法语_pop.mp3

俄语russian_folk.mp3

ACE-Step 能精准捕捉每个乐器的音色和表现力,确保每个音符栩栩如生,并灵活展现不同歌唱技巧和音乐风格,让每一首歌都充满独特的韵味与深度。

2、全能编辑器:可控性强

ACE-Step 不仅仅是一个“生成器”,它还是一个全能的“编辑器”,在创作过程中提供高度的可控性。它为创作者提供了两个关键功能:EditRetake/Repaint,使得创作过程既精确又灵活。

  • Edit 功能:精准歌词调整

创作者可以在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。

原音乐.mp3

第一句歌词.mp3

  • Retake/Repaint 功能:灵活创作优化

如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。

无论你想微调歌词,还是想重新构思整个作品,ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活,加速创作的实用性。

快乐(原音乐).mp3

主歌前奏改disco.mp3

3、灵活拓展,覆盖多样创作需求

ACE-Step 拥有高度的可拓展性,支持 LoRA、ControlNet 等主流微调方式,轻松适配多种音乐创作场景,满足个性化定制需求。

  • LoRA 微调(定制音乐风格):通过 LoRA 微调技术,ACE-Step 可以根据创作者的需求进行特定风格的定制化训练,如生成符合 rap 风格的歌词,确保输出内容与目标风格高度一致。
  • ControlNet 微调(人声驱动伴奏生成):结合 ControlNet 技术,ACE-Step 能根据输入的旋律或人声自动生成相匹配的伴奏,提升音乐创作的个性化和灵活性。

技术亮点

上述特点的实现得益于 ACE-Step 在技术上的创新,借助先进的架构和训练策略,显著提升了生成质量、训练效率和模型的可扩展性,同时确保了音乐生成的速度、质量与灵活性。

ACE-Step 模型架构图

技术亮点一:一阶段 DiT 架构 + REPA 提升音乐结构性

传统的开源音乐生成模型大多采用两阶段架构:第一阶段生成语义代码,第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制,尤其在歌声的清晰度和乐器细节的表现上不足。

ACE-Step 采用一阶段 DiT 架构,并结合 REPA 技术,通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈,使得音频生成更加精确,且无需依赖声伴分离技术或歌词时间戳对齐,极大提高了生成的灵活性和训练效率。

技术亮点二:DCAE 与线性 Transformer 结合,提升生成速度与效率

在音频生成方面,ACE-Step 采用 DCAE(深度压缩自编码器)技术,通过压缩 Mel 频率,将 44.1kHz 的数据压缩至原来的 1/8,既减少了数据量,又保持了音质的细腻度,显著提升了训练收敛速度和生成效率。

同时,ACE-Step 引入线性 Transformer 架构,减少了显存占用并优化了计算复杂度,提高了训练的稳定性和效率。这两项技术不仅加速了音频生成,还能处理更长的音频数据,满足大规模创作的需求。

ACE-Step 优势

相比其他开源音乐模型,ACE-Step 展现了以下优势:

  • 全曲生成:ACE-Step 通过输入完整上下文生成音乐,真正实现了旋律与结构的一致性。尤其在歌曲的结尾部分能够自然复用开头的旋律,提供更加连贯的音乐体验,避免了断片式创作的突兀。
  • 精准时长控制:ACE-Step 能生成不同时长的完整音乐,无需后期剪辑。比如,ACE-Step 针对60 秒广告,能精确生成完整配乐。
  • 灵活输入格式:模型支持更自由的文本描述和风格输入,极大地拓宽了创作边界,允许创作者根据个人需求随心所欲地设定创作风格与内容。
  • 多语言与多风格生成:ACE-Step 支持多种语言(如中文、英语、西班牙语等)和多样化的音乐风格,从而更好地契合全球用户的创作需求,更加贴近现代音乐审美。

ACE-Step 的开源发布为全球创作者提供了更高效和灵活的创作工具,这是阶跃星辰与 ACE Studio 合作的一项重要成果。凭借强大的多模态能力和高度可定制的功能,为音乐创作带来了前所未有的自由度与精准度。未来,双方将进一步推动音乐模型技术演进,并探索在综合泛文娱产业的落地实践,为全球用户提供专业的音乐技术服务。

开源地址:

ModelScope:

https://www.modelscope.cn/models/ACE-Step/ACE-Step-v1-3.5B

Huggingface:

https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B

Huggingface Space Demo:

https://huggingface.co/spaces/ACE-Step/ACE-Step

Github:

https://github.com/ace-step/ACE-Step

Github 项目页:

https://ace-step.github.io/

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐