2025-06-02 05:28:58

在线教学｜ACE-Step 音乐生成模型正式推出，支持多达 19 种语言，生成速度提升至 15 倍！

当前的音乐生成模型在生成速度、音乐连贯性和可控性之间面临着固有的权衡。例如，基于 LLM 的模型（例如 Yue、SongGen）在歌词对齐方面表现出色，但推理速度慢且存在结构性伪影。 另一方面，扩散模型（例如 DiffRhythm）虽然能够实现更快的合成速度，但通常缺乏长距离的结构连贯性。对此，人工智能公司阶跃星辰（StepFun）与数字音乐平台 ACE Studio 联合推出了一款音乐生成基础模型 ACE-Step-v1-3.5B ，于 2025 年 5 月 7 日开源。该模型在 NVIDIA A100 GPU 上只需 20 秒即可合成长达 4 分钟的音乐，比基于 LLM 的基线方法快 15 倍， 同时在旋律、和声和节奏指标方面实现了卓越的音乐连贯性和歌词对齐。

相较于传统 AI 音乐工具， ACE-Step 克服了现有方法的关键局限性，并通过整体架构设计实现了最佳性能，在多元风格流派、多语言支持、器乐表现力和人声表现力 4 个方面有着突出优势。 其开源版本已支持 19 种语言输入，并且保留了精细的声学细节，支持高级控制机制，例如语音克隆、歌词编辑、混音和音轨生成等，此外还支持所有主流音乐风格、多种演唱风格，支持跨流派器乐生成，能精准还原乐器音色特征可生成包含复杂编曲的多轨音乐。

小编借 ACE-Step-v1-3.5B 之手，仅需输入音乐风格和歌词等参数，即可快速生成一段 30 秒的音乐片段～