AudioX：声音/音乐生成工具

官方文档

功能介绍

AudioX 是一个统一的 Diffusion Transformer 模型，用于 Anything-to-Audio 和 音乐生成, 能够生成高质量的通用音频和音乐，提供灵活的自然语言控制。核心功能包含：

文生音频
文生音乐
视频生音频（文固定为：Generate general audio for the video）
视频生音乐（文固定为：Generate general audio for the video）
文+视频生音频
文+视频生音乐

一键整合包

下载地址：百度网盘安装方式：下载后，选择文件夹中的所有文件（约14G），右键选择“7-Zip” => “Extract Here”，解压完成后，双击压缩包中的 “启动.bat” 文件即可启动程序。如果想要自行进行安装，继续查看“安装应用”小节。

安装应用

下面以 Windows11 为例，演示安装流程。在 cmd 中依次输入以下命令

shell

git clone https://github.com/ZeyueT/AudioX.git
cd AudioX
conda create -n AudioX python=3.10
conda activate AudioX
# 安装 flash_attn
pip install "D:\util\bak\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl"
# 删除 set_up.py 中的 flash_attn，再进行其他依赖的安装
pip install git+https://github.com/ZeyueT/AudioX.git
conda install -c conda-forge ffmpeg libsndfile

pip uninstall torch
pip uninstall torchaudio
pip uninstall torchvision
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# 降级 pydantic，解决报错 TypeError: argument of type 'bool' is not iterable 
pip install pydantic==2.10.6

模型下载

shell

mkdir -p model
wget https://huggingface.co/HKUSTAudio/AudioX/resolve/main/model.ckpt -O model/model.ckpt
wget https://huggingface.co/HKUSTAudio/AudioX/resolve/main/config.json -O model/config.json

WEB 界面使用

shell

python run_gradio.py --model-config model/config.json

看到如下输出，表示成功：

shell

Using device: cuda
Running on local URL:  http://127.0.0.1:7860

打开浏览器，界面如下：

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

AudioX：声音/音乐生成工具 ​

功能介绍 ​

一键整合包 ​

安装应用 ​

模型下载 ​

WEB 界面使用 ​

AudioX：声音/音乐生成工具

功能介绍

一键整合包

安装应用

模型下载

WEB 界面使用