
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
前言
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
摘要:音乐创作全能“编辑器”:高效多元、强可控、可编辑,满足多样化需求。
一年前,阶跃与 ACE Studio 达成深度战略合作,依托 ACE Studio 的专业级音乐能力与阶跃领先的多模态技术,双方致力于打造最懂音乐的大模型,为广泛的音乐爱好者提供科技化的音乐表达工具。一年后的今天,技术与艺术的融合成果展现,阶跃星辰与 ACE Studio 正式联合发布并开源 SOTA 级音乐大模型——ACE-Step(中文名:音跃),成为继语音、视频、图片、视觉推理等多模态大模型之后的又一重要突破,展现了音乐创作与生成的最新进展。
ACE Studio 是一家以生成式 AI 技术为核心的科技公司,旗下的产品 ACE Studio,是一款 Gen-AI 为核心的音乐创作工作站产品(The Cursor.ai for music),用户遍布全球,包括格莱美获奖者,世界顶级的工作室都在使用。
57d389b4-53af-4a87-8abf-3c8c75294ccd.mp4
ACE-Step 音跃大模型参数量为 3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。通过创新架构与训练策略,ACE-Step 提升了旋律的流畅性与歌词的契合度,让生成的音乐在旋律、结构上更完整、更具情感表达力。
作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,极大降低音乐 AI 应用的开发门槛。借助这些能力,ACE-Step 有望推动音乐生成领域迈向自己的 “Stable Diffusion 时刻”。
模型特点
ACE-Step 具备高效多元创作能力、强可控性和易于拓展的三大核心特色。
1、高效多元创作支持
ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现,确保创作者能够实现跨文化创作与高质量交付。
- 音乐质量与表现力兼顾
ACE-Step 支持多种主流音乐风格的创作,并能够生成丰富多样且兼具表现力的演唱、器乐编排,确保音乐的连贯性与和谐,并展现出风格的多样性。
除此之外,ACE-Step 也支持高质量的纯音乐生成。
- 支持快速生成
ACE-Step 提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。
- 支持多语言生成
ACE-Step 支持 19 种语言(如中文、英文、西班牙语等)的歌曲生成,满足跨文化创作的需求。无论是本地化定制还是跨语言创作,ACE-Step 都能提供强大支持,帮助创作者轻松应对全球化的音乐创作需求。
ACE-Step 能精准捕捉每个乐器的音色和表现力,确保每个音符栩栩如生,并灵活展现不同歌唱技巧和音乐风格,让每一首歌都充满独特的韵味与深度。
2、全能编辑器:可控性强
ACE-Step 不仅仅是一个“生成器”,它还是一个全能的“编辑器”,在创作过程中提供高度的可控性。它为创作者提供了两个关键功能:Edit 和 Retake/Repaint,使得创作过程既精确又灵活。
- Edit 功能:精准歌词调整
创作者可以在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。
- Retake/Repaint 功能:灵活创作优化
如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。
无论你想微调歌词,还是想重新构思整个作品,ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活,加速创作的实用性。
3、灵活拓展,覆盖多样创作需求
ACE-Step 拥有高度的可拓展性,支持 LoRA、ControlNet 等主流微调方式,轻松适配多种音乐创作场景,满足个性化定制需求。
- LoRA 微调(定制音乐风格):通过 LoRA 微调技术,ACE-Step 可以根据创作者的需求进行特定风格的定制化训练,如生成符合 rap 风格的歌词,确保输出内容与目标风格高度一致。
- ControlNet 微调(人声驱动伴奏生成):结合 ControlNet 技术,ACE-Step 能根据输入的旋律或人声自动生成相匹配的伴奏,提升音乐创作的个性化和灵活性。
技术亮点
上述特点的实现得益于 ACE-Step 在技术上的创新,借助先进的架构和训练策略,显著提升了生成质量、训练效率和模型的可扩展性,同时确保了音乐生成的速度、质量与灵活性。
ACE-Step 模型架构图
技术亮点一:一阶段 DiT 架构 + REPA 提升音乐结构性
传统的开源音乐生成模型大多采用两阶段架构:第一阶段生成语义代码,第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制,尤其在歌声的清晰度和乐器细节的表现上不足。
ACE-Step 采用一阶段 DiT 架构,并结合 REPA 技术,通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈,使得音频生成更加精确,且无需依赖声伴分离技术或歌词时间戳对齐,极大提高了生成的灵活性和训练效率。
技术亮点二:DCAE 与线性 Transformer 结合,提升生成速度与效率
在音频生成方面,ACE-Step 采用 DCAE(深度压缩自编码器)技术,通过压缩 Mel 频率,将 44.1kHz 的数据压缩至原来的 1/8,既减少了数据量,又保持了音质的细腻度,显著提升了训练收敛速度和生成效率。
同时,ACE-Step 引入线性 Transformer 架构,减少了显存占用并优化了计算复杂度,提高了训练的稳定性和效率。这两项技术不仅加速了音频生成,还能处理更长的音频数据,满足大规模创作的需求。
ACE-Step 优势
相比其他开源音乐模型,ACE-Step 展现了以下优势:
- 全曲生成:ACE-Step 通过输入完整上下文生成音乐,真正实现了旋律与结构的一致性。尤其在歌曲的结尾部分能够自然复用开头的旋律,提供更加连贯的音乐体验,避免了断片式创作的突兀。
- 精准时长控制:ACE-Step 能生成不同时长的完整音乐,无需后期剪辑。比如,ACE-Step 针对60 秒广告,能精确生成完整配乐。
- 灵活输入格式:模型支持更自由的文本描述和风格输入,极大地拓宽了创作边界,允许创作者根据个人需求随心所欲地设定创作风格与内容。
- 多语言与多风格生成:ACE-Step 支持多种语言(如中文、英语、西班牙语等)和多样化的音乐风格,从而更好地契合全球用户的创作需求,更加贴近现代音乐审美。
ACE-Step 的开源发布为全球创作者提供了更高效和灵活的创作工具,这是阶跃星辰与 ACE Studio 合作的一项重要成果。凭借强大的多模态能力和高度可定制的功能,为音乐创作带来了前所未有的自由度与精准度。未来,双方将进一步推动音乐模型技术演进,并探索在综合泛文娱产业的落地实践,为全球用户提供专业的音乐技术服务。
开源地址:
ModelScope:
https://www.modelscope.cn/models/ACE-Step/ACE-Step-v1-3.5B
Huggingface:
https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Huggingface Space Demo:
https://huggingface.co/spaces/ACE-Step/ACE-Step
Github:
https://github.com/ace-step/ACE-Step
Github 项目页:
更多推荐
所有评论(0)