Skip to content

最强开源数字人 LatentSync

项目介绍

LatentSync 是字节跳动开源的一款数字人软件,具有降低的显存占用(6.8G),以及较好的数字人效果,尤其是唇形同步。

软件安装

前置条件

6.8 G显存

一键整合包

下载地址:百度网盘 安装方式:下载后,选择文件夹中的所有文件(约6.5G),右键选择“7-Zip” => “Extract Here”,解压完成后,双击压缩包中的 “启动.bat” 文件即可启动程序。如果想要自行进行安装,继续查看“安装应用”小节。

本地安装部署

shell
git clone https://github.com/bytedance/LatentSync.git
cd LatentSync

conda create -n latents_env python=3.12 -y
conda activate latents_env
pip install mediapipe==0.10.21
# 单独安装 mediapipe,从 requirements.txt 文件中注释掉该依赖
pip install -r requirements.txt
# 降级 pydantic,解决报错 TypeError: argument of type 'bool' is not iterable 
pip install pydantic==2.10.6

模型下载

下载 此处 的所有文件到 LatentSync/checkpoints/ 文件夹下。 如果仅用于推理的话,则只需下载以下文件:

text
./checkpoints/
|-- latentsync_unet.pt
|-- whisper
|   `-- tiny.pt
|-- auxiliary
|   |-- 2DFAN4-cd938726ad.zip
|   |-- s3fd-619a316812.pth

其中 auxiliary 下的两个文件需要软链到 C 盘指定路径下,可以编写一个 windows 的 set_model_link.bat 文件,如下所示:

shell
if not exist "%USERPROFILE%\.cache\torch\hub\checkpoints" (
    mkdir "%USERPROFILE%\.cache\torch\hub\checkpoints"
)

set CURRENT_DIR=%cd%
mklink "%USERPROFILE%\.cache\torch\hub\checkpoints\2DFAN4-cd938726ad.zip" "%CURRENT_DIR%\checkpoints\auxiliary\2DFAN4-cd938726ad.zip"
mklink "%USERPROFILE%\.cache\torch\hub\checkpoints\s3fd-619a316812.pth" "%CURRENT_DIR%\checkpoints\auxiliary\s3fd-619a316812.pth"

启动 LatentSync

双击 set_model_link.bat 建立模型软链接,之后执行如下命令启动软件:

shell
python gradio_app.py

img.png

软件使用

上传一个人物视频 + 上传一个语音 => 点击生成 => 产出一个数字人视频,该视频的唇形与动作与语音同步。与 HeyGem 相比,眼睛和唇形更加自然,但是缺乏语音克隆能力,缺乏直接用数字人读取文字的能力。需要配合 CosyVoice2 等配合使用。