AudioX:声音/音乐生成工具
功能介绍
AudioX 是一个统一的 Diffusion Transformer 模型, 用于 Anything-to-Audio
和 音乐生成
, 能够生成高质量的通用音频和音乐,提供灵活的自然语言控制。核心功能包含:
- 文生音频
- 文生音乐
- 视频生音频(文固定为:
Generate general audio for the video
) - 视频生音乐(文固定为:
Generate general audio for the video
) - 文+视频生音频
- 文+视频生音乐
一键整合包
下载地址:百度网盘 安装方式:下载后,选择文件夹中的所有文件(约14G),右键选择“7-Zip” => “Extract Here”,解压完成后,双击压缩包中的 “启动.bat” 文件即可启动程序。如果想要自行进行安装,继续查看“安装应用”小节。
安装应用
下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令
shell
git clone https://github.com/ZeyueT/AudioX.git
cd AudioX
conda create -n AudioX python=3.10
conda activate AudioX
# 安装 flash_attn
pip install "D:\util\bak\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl"
# 删除 set_up.py 中的 flash_attn,再进行其他依赖的安装
pip install git+https://github.com/ZeyueT/AudioX.git
conda install -c conda-forge ffmpeg libsndfile
pip uninstall torch
pip uninstall torchaudio
pip uninstall torchvision
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# 降级 pydantic,解决报错 TypeError: argument of type 'bool' is not iterable
pip install pydantic==2.10.6
模型下载
shell
mkdir -p model
wget https://huggingface.co/HKUSTAudio/AudioX/resolve/main/model.ckpt -O model/model.ckpt
wget https://huggingface.co/HKUSTAudio/AudioX/resolve/main/config.json -O model/config.json
WEB 界面使用
shell
python run_gradio.py --model-config model/config.json
看到如下输出,表示成功:
shell
Using device: cuda
Running on local URL: http://127.0.0.1:7860
打开浏览器,界面如下:
文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!
