HunyuanVideo-Foley:参考视频生成声音
功能介绍
HunyuanVideo-Foley 核心能力是参考视频与提示语生成声音,用于为视频配音
为了简化使用,制作了一键启动包(环境+代码+模型),关注公众号,回复foley获取下载链接
安装应用
下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令
shell
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley.git
cd HunyuanVideo-Foley
conda create -n foley_env python=3.10
conda activate foley_env
pip install -r requirements.txt
pip uninstall torch
pip uninstall torchaudio
pip uninstall torchvision
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126模型下载
shell
mkdir -p pretrained_models
# 下载模型,首先在 https://huggingface.co/settings/tokens/new?tokenType=write 新建 token
hf download tencent/HunyuanVideo-Foley --local-dir=pretrained_models --token ${token}WEB 界面使用
shell
python gradio_app.py看到如下输出,表示成功:
shell
Running on local URL: http://0.0.0.0:8080打开浏览器,界面如下:

官方建议:
- 上传的视频长度最好为8-10s,太长和太短都会影响声音质量
- 正向提示语需要详细的描述声音而不是视频
- 负向提示语可以有效的减少不期望出现的声音,例如背景音乐,吵闹声
文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!
