ACE-Step：最强歌曲生成工具

官方文档

功能介绍

核心能力包含：

文生音乐
音乐生音乐

安装应用

前提：需要8G显存。下面以 Windows11 为例，演示安装流程。在 cmd 中依次输入以下命令

shell

git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step

conda create -n acestep_env python=3.12 -y
conda activate acestep_env

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .

启动应用

shell

acestep --checkpoint_path D:\ai\voice\ACE-Step\model --server_name 127.0.0.1 --port 7865

说明：

--checkpoint_path：指定模型地址，如果没有，在首次生成音乐时会自动下载 ACE-Step/ACE-Step-v1-3.5B 模型到此处
--server_name：Gradio 服务器绑定的 IP 地址或主机名（默认值：“127.0.0.1”）。使用“0.0.0.0”可让网络上的其他设备访问。
--port：运行 Gradio 服务器的端口（默认值：7865）
--device_id：要使用的 GPU 设备 ID（默认值：0）
--share：启用 Gradio 共享链接（默认值：False）
--bf16：使用 bfloat16 精度进行更快的推理（默认值：True）
--torch_compile：用于torch.compile()优化模型，加快推理速度（默认值：False）。Windows 需要安装 triton：安装方案
--cpu_offload：将模型权重卸载到 CPU 以节省 GPU 内存（默认值：False）
--overlapped_decode：使用重叠解码来加速推理（默认值：False）

UI 使用

音乐生成参数

Audio Duration（音乐时长）: 期望的音乐时长，最长240s，-1表示在30s~240s之间随机
Tags（标签）: 输入 descriptive tags / genres / scene descriptions，多个词之间使用英文逗号分隔，可以自定义，官方也给出了一些预设标签
lyrics（歌词）: 输入歌词，需要使用结构化标签例如 [verse], [chorus], [bridge] 进行歌词的组织
Enable Audio2Audio（启动音乐生音乐）

音乐局部重绘参数

上传音乐，选择需要重绘的时段，进行重绘

音乐标签/歌词重绘参数

上传音乐，填写标签或歌词，选择“only_lyrics”模式（保留旋律）或“remix”模式（改变旋律），进行重绘

音乐扩展参数

上传音乐，选择左右扩展的音乐长度，进行重绘

ACE-Step：最强歌曲生成工具 ​

功能介绍 ​

安装应用 ​

启动应用 ​

UI 使用 ​

音乐生成参数 ​

音乐局部重绘参数 ​

音乐标签/歌词重绘参数 ​

音乐扩展参数 ​

ACE-Step：最强歌曲生成工具

功能介绍

安装应用

启动应用

UI 使用

音乐生成参数

音乐局部重绘参数

音乐标签/歌词重绘参数

音乐扩展参数