Skip to content

HunyuanVideo-Foley:参考视频生成声音

功能介绍

HunyuanVideo-Foley 核心能力是参考视频与提示语生成声音,用于为视频配音

为了简化使用,制作了一键启动包(环境+代码+模型),关注公众号,回复foley获取下载链接

安装应用

下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令

shell
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley.git
cd HunyuanVideo-Foley
conda create -n foley_env python=3.10
conda activate foley_env

pip install -r requirements.txt
pip uninstall torch
pip uninstall torchaudio
pip uninstall torchvision
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

模型下载

shell
mkdir -p pretrained_models
# 下载模型,首先在 https://huggingface.co/settings/tokens/new?tokenType=write 新建 token
hf download tencent/HunyuanVideo-Foley --local-dir=pretrained_models --token ${token}

WEB 界面使用

shell
python gradio_app.py

看到如下输出,表示成功:

shell
Running on local URL:  http://0.0.0.0:8080

打开浏览器,界面如下:

img.png

官方建议:

  1. 上传的视频长度最好为8-10s,太长和太短都会影响声音质量
  2. 正向提示语需要详细的描述声音而不是视频
  3. 负向提示语可以有效的减少不期望出现的声音,例如背景音乐,吵闹声

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!