阶跃多模态再添一员：阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step！

魔搭ModelScope社区

165人浏览 · 2025-05-09 11:36:19

魔搭ModelScope社区 · 2025-05-09 11:36:19 发布

前言

阶跃多模态再添一员：阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step！

摘要：音乐创作全能“编辑器”：高效多元、强可控、可编辑，满足多样化需求。

一年前，阶跃与 ACE Studio 达成深度战略合作，依托 ACE Studio 的专业级音乐能力与阶跃领先的多模态技术，双方致力于打造最懂音乐的大模型，为广泛的音乐爱好者提供科技化的音乐表达工具。一年后的今天，技术与艺术的融合成果展现，阶跃星辰与 ACE Studio 正式联合发布并开源 SOTA 级音乐大模型——ACE-Step（中文名：音跃），成为继语音、视频、图片、视觉推理等多模态大模型之后的又一重要突破，展现了音乐创作与生成的最新进展。

ACE Studio 是一家以生成式 AI 技术为核心的科技公司，旗下的产品 ACE Studio，是一款 Gen-AI 为核心的音乐创作工作站产品（The Cursor.ai for music），用户遍布全球，包括格莱美获奖者，世界顶级的工作室都在使用。

57d389b4-53af-4a87-8abf-3c8c75294ccd.mp4

ACE-Step 音跃大模型参数量为 3.5B，具备快速高质量生成、强可控性、易于拓展等特点，同时支持多种语言的歌曲生成，涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。通过创新架构与训练策略，ACE-Step 提升了旋律的流畅性与歌词的契合度，让生成的音乐在旋律、结构上更完整、更具情感表达力。

作为一个通用性强的音乐基础模型，ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式，可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务，极大降低音乐 AI 应用的开发门槛。借助这些能力，ACE-Step 有望推动音乐生成领域迈向自己的 “Stable Diffusion 时刻”。

模型特点

ACE-Step 具备高效多元创作能力、强可控性和易于拓展的三大核心特色。

1、高效多元创作支持

ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现，确保创作者能够实现跨文化创作与高质量交付。

音乐质量与表现力兼顾

ACE-Step 支持多种主流音乐风格的创作，并能够生成丰富多样且兼具表现力的演唱、器乐编排，确保音乐的连贯性与和谐，并展现出风格的多样性。

电子乐.mp3

流行摇滚.mp3

除此之外，ACE-Step 也支持高质量的纯音乐生成。

奏鸣曲.mp3

探戈.mp3

支持快速生成

ACE-Step 提供两种生成模式：快速和慢速模式。最快 15 秒即可生成一整首歌，慢速模式也仅需 32 秒。

支持多语言生成

ACE-Step 支持 19 种语言（如中文、英文、西班牙语等）的歌曲生成，满足跨文化创作的需求。无论是本地化定制还是跨语言创作，ACE-Step 都能提供强大支持，帮助创作者轻松应对全球化的音乐创作需求。

法语_pop.mp3

俄语russian_folk.mp3

ACE-Step 能精准捕捉每个乐器的音色和表现力，确保每个音符栩栩如生，并灵活展现不同歌唱技巧和音乐风格，让每一首歌都充满独特的韵味与深度。

2、全能编辑器：可控性强

ACE-Step 不仅仅是一个“生成器”，它还是一个全能的“编辑器”，在创作过程中提供高度的可控性。它为创作者提供了两个关键功能：Edit 和 Retake/Repaint，使得创作过程既精确又灵活。

Edit 功能：精准歌词调整

创作者可以在不改变旋律的情况下，精确修改已生成歌曲的歌词内容、语气或情感表达，确保每行歌词与整体音乐风格完美契合。

原音乐.mp3

第一句歌词.mp3

Retake/Repaint 功能：灵活创作优化

如果生成的作品不完全符合创作需求，创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲，或者通过 Repaint 对特定部分（如旋律或歌词）进行局部调整，进一步优化作品。

无论你想微调歌词，还是想重新构思整个作品，ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活，加速创作的实用性。

快乐（原音乐）.mp3

主歌前奏改disco.mp3

3、灵活拓展，覆盖多样创作需求

ACE-Step 拥有高度的可拓展性，支持 LoRA、ControlNet 等主流微调方式，轻松适配多种音乐创作场景，满足个性化定制需求。

LoRA 微调（定制音乐风格）：通过 LoRA 微调技术，ACE-Step 可以根据创作者的需求进行特定风格的定制化训练，如生成符合 rap 风格的歌词，确保输出内容与目标风格高度一致。
ControlNet 微调（人声驱动伴奏生成）：结合 ControlNet 技术，ACE-Step 能根据输入的旋律或人声自动生成相匹配的伴奏，提升音乐创作的个性化和灵活性。

技术亮点

上述特点的实现得益于 ACE-Step 在技术上的创新，借助先进的架构和训练策略，显著提升了生成质量、训练效率和模型的可扩展性，同时确保了音乐生成的速度、质量与灵活性。

ACE-Step 模型架构图

技术亮点一：一阶段 DiT 架构 + REPA 提升音乐结构性

传统的开源音乐生成模型大多采用两阶段架构：第一阶段生成语义代码，第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制，尤其在歌声的清晰度和乐器细节的表现上不足。

ACE-Step 采用一阶段 DiT 架构，并结合 REPA 技术，通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈，使得音频生成更加精确，且无需依赖声伴分离技术或歌词时间戳对齐，极大提高了生成的灵活性和训练效率。

技术亮点二：DCAE 与线性 Transformer 结合，提升生成速度与效率

在音频生成方面，ACE-Step 采用 DCAE（深度压缩自编码器）技术，通过压缩 Mel 频率，将 44.1kHz 的数据压缩至原来的 1/8，既减少了数据量，又保持了音质的细腻度，显著提升了训练收敛速度和生成效率。

同时，ACE-Step 引入线性 Transformer 架构，减少了显存占用并优化了计算复杂度，提高了训练的稳定性和效率。这两项技术不仅加速了音频生成，还能处理更长的音频数据，满足大规模创作的需求。

ACE-Step 优势

相比其他开源音乐模型，ACE-Step 展现了以下优势：

全曲生成：ACE-Step 通过输入完整上下文生成音乐，真正实现了旋律与结构的一致性。尤其在歌曲的结尾部分能够自然复用开头的旋律，提供更加连贯的音乐体验，避免了断片式创作的突兀。
精准时长控制：ACE-Step 能生成不同时长的完整音乐，无需后期剪辑。比如，ACE-Step 针对60 秒广告，能精确生成完整配乐。
灵活输入格式：模型支持更自由的文本描述和风格输入，极大地拓宽了创作边界，允许创作者根据个人需求随心所欲地设定创作风格与内容。
多语言与多风格生成：ACE-Step 支持多种语言（如中文、英语、西班牙语等）和多样化的音乐风格，从而更好地契合全球用户的创作需求，更加贴近现代音乐审美。

ACE-Step 的开源发布为全球创作者提供了更高效和灵活的创作工具，这是阶跃星辰与 ACE Studio 合作的一项重要成果。凭借强大的多模态能力和高度可定制的功能，为音乐创作带来了前所未有的自由度与精准度。未来，双方将进一步推动音乐模型技术演进，并探索在综合泛文娱产业的落地实践，为全球用户提供专业的音乐技术服务。

开源地址：

ModelScope:

https://www.modelscope.cn/models/ACE-Step/ACE-Step-v1-3.5B

Huggingface：

https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B

Huggingface Space Demo：

https://huggingface.co/spaces/ACE-Step/ACE-Step

Github：

https://github.com/ace-step/ACE-Step

Github 项目页：

https://ace-step.github.io/