HunyuanVideo-Foley：参考视频生成声音

官方文档

https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

功能介绍

HunyuanVideo-Foley 核心能力是参考视频与提示语生成声音，用于为视频配音

为了简化使用，制作了一键启动包（环境+代码+模型），关注公众号，回复foley获取下载链接

安装应用

下面以 Windows11 为例，演示安装流程。在 cmd 中依次输入以下命令

shell

git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley.git
cd HunyuanVideo-Foley
conda create -n foley_env python=3.10
conda activate foley_env

pip install -r requirements.txt
pip uninstall torch
pip uninstall torchaudio
pip uninstall torchvision
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

模型下载

shell

mkdir -p pretrained_models
# 下载模型，首先在 https://huggingface.co/settings/tokens/new?tokenType=write 新建 token
hf download tencent/HunyuanVideo-Foley --local-dir=pretrained_models --token ${token}

WEB 界面使用

shell

python gradio_app.py

看到如下输出，表示成功：

shell

Running on local URL:  http://0.0.0.0:8080

打开浏览器，界面如下：

官方建议：

上传的视频长度最好为8-10s，太长和太短都会影响声音质量
正向提示语需要详细的描述声音而不是视频
负向提示语可以有效的减少不期望出现的声音，例如背景音乐，吵闹声

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

HunyuanVideo-Foley：参考视频生成声音 ​

功能介绍 ​

安装应用 ​

模型下载 ​

WEB 界面使用 ​

HunyuanVideo-Foley：参考视频生成声音

功能介绍

安装应用

模型下载

WEB 界面使用