Skip to content

VoxCPM:一款轻量级(8G显存可用)效果顶尖(媲美CosyVoice3和Index-TTS2)的声音克隆工具

VoxCPM 是一款轻量级(8G 显存可用)声音克隆效果顶尖(效果媲美 CosyVoice3 和 Index-TTS2)的声音克隆工具。核心表现如下(图片来自 CosyVoice3 官方测评文档): img.png

效果展示

原声:

克隆文字:(来自 index-tts2 官方示例)

text
今天呢,咱们开一部新书,叫《赛博朋克二零七七》。这词儿我听着都新鲜。这赛博朋克啊,简单理解就是“高科技,低生活”。这一听,我就明白了,于老师就爱用那高科技的东西,手机都得拿脚纹开,大冬天为了解锁脱得一丝不挂,冻得跟王八蛋似的。

结论:

  • VoxCPM 克隆效果接近 CosyVoice3,但是结尾处发现与 CosyVoice3 相比差一点(感觉有点仓促)
  • VoxCPM 的推理速度与 CosyVoice3 相近
  • VoxCPM 的操作界面更加简单易用,不需要用户手动传入原声的文本作为 prompt(会自动推理且不需要像 CosyVoice3 那样需要输入指定的前缀)

安装应用

下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令

shell
cd D:\ai\self_use_package // 选择软件安装的目标目录
git clone https://github.com/OpenBMB/VoxCPM.git // 下载源码
cd VoxCPM // 进入源码目录
conda create -n voxcpm_env python=3.12 -y // 创建虚拟环境
conda activate voxcpm_env // 激活虚拟环境
pip install voxcpm // 安装依赖
pip uninstall torch torchaudio // 卸载 cpu 版本的 pytorch 依赖
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu126 // 安装 gpu 版本的 pytorch 依赖
pip install torchcodec // 安装缺失依赖

启动应用

shell
python app.py

启动时,如果相关模型没有下载,则会自动进行下载,最后在在 cmd 中看到如下日志,表示成功

shell
Running on local URL:  http://localhost:7860

此时浏览器输入 http://127.0.0.1:7860,展示界面如下

img_1.png

使用建议

Prompt Speech Enhancement

启用:通过 ZipEnhancer 组件消除背景噪音,但会将音频采样率限制在16kHz,限制克隆上限。 禁用:保留原始音频的全部信息,包括背景环境声,最高支持44.1kHz的音频复刻。

Text Normalization

启用:使用 WeTextProcessing 组件,可支持常见文本的正则化处理。 禁用:将使用 VoxCPM 内置的文本理解能力。

CFG Value

调低:如果提示语音听起来不自然或过于夸张,或者长文本输入出现稳定性问题。 调高:为更好地贴合提示音频的风格或输入文本, 或者极短文本输入出现稳定性问题。

Inference Timesteps

调低:合成速度更快。 调高:合成质量更佳。

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!