Skip to content

CosyVoice2:最逼真的声音克隆工具

功能介绍

CosyVoice 核心能力包含:

  1. 声音克隆:包含两种模式 - 3s极速复刻(上传3s以上音频,通过克隆的声音读取合成文本内容);跨语种复刻(实现不同语言之间的克隆,例如输入英文视频,克隆其声音去读取中文文字) img.png
  2. 预训练音色 TTS:使用预训练好的音色来读取合成文本内容 img.png
  3. 自然语言控制

一键整合包

下载地址:百度网盘

为了简化使用,制作了一键整合包,关注本公众号,回复 cosy,获取下载链接。 下载后,选择文件夹中的所有文件(约6.13G),右键选择“7-Zip” => “Extract Here”,解压完成后,双击压缩包中的 “启动-语音克隆cosyvoice2.bat” 文件即可自动加载 CosyVoice2 模型并启动语音克隆界面。 为了简化包大小,本整合包仅安装了 CosyVoice2-0.5B 模型,用于声音克隆,如果想要继续使用 CosyVoice1 期间存在的一些能力,请按照下文下载模型。还有疑问,请私信作者。

如果想要自行进行安装,继续查看“安装应用”小节。

安装应用

下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令

shell
cd D:\ai\self_use_package // 选择软件安装的目标目录
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git // 下载源码
cd CosyVoice // 进入源码目录
conda create -n cosyVoice python=3.10 -y // 创建虚拟环境
conda activate cosyVoice // 激活虚拟环境
conda install -y -c conda-forge pynini==2.1.5 // 安装依赖
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com // 安装依赖
pip install onnxruntime // 安装缺失依赖

在 CosyVoice 文件夹下创建文件 download_model.py,编辑内容如下:

python
# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

执行如下命令,等待模型下载完成

shell
.\python310\python.exe .\download_model.py

启动应用

CosyVoice2 声音克隆

shell
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B

CosyVoice1 声音克隆

shell
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

SFT 推理

shell
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT

Instruct 推理

shell
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-Instruct

在 cmd 中看到如下日志,表示成功

shell
Running on local URL:  http://0.0.0.0:50000

此时浏览器输入 http://127.0.0.1:50000,展示界面如下

img.png

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!