VoxCPM：一款轻量级（8G显存可用）效果顶尖（媲美CosyVoice3和Index-TTS2）的声音克隆工具

官方文档

VoxCPM 是一款轻量级（8G 显存可用）声音克隆效果顶尖（效果媲美 CosyVoice3 和 Index-TTS2）的声音克隆工具。核心表现如下（图片来自 CosyVoice3 官方测评文档）：

效果展示

原声：

克隆文字：（来自 index-tts2 官方示例）

text

今天呢，咱们开一部新书，叫《赛博朋克二零七七》。这词儿我听着都新鲜。这赛博朋克啊，简单理解就是“高科技，低生活”。这一听，我就明白了，于老师就爱用那高科技的东西，手机都得拿脚纹开，大冬天为了解锁脱得一丝不挂，冻得跟王八蛋似的。

结论：

VoxCPM 克隆效果接近 CosyVoice3，但是结尾处发现与 CosyVoice3 相比差一点（感觉有点仓促）
VoxCPM 的推理速度与 CosyVoice3 相近
VoxCPM 的操作界面更加简单易用，不需要用户手动传入原声的文本作为 prompt（会自动推理且不需要像 CosyVoice3 那样需要输入指定的前缀）

安装应用

下面以 Windows11 为例，演示安装流程。在 cmd 中依次输入以下命令

shell

cd D:\ai\self_use_package // 选择软件安装的目标目录
git clone https://github.com/OpenBMB/VoxCPM.git // 下载源码
cd VoxCPM // 进入源码目录
conda create -n voxcpm_env python=3.12 -y // 创建虚拟环境
conda activate voxcpm_env // 激活虚拟环境
pip install voxcpm // 安装依赖
pip uninstall torch torchaudio // 卸载 cpu 版本的 pytorch 依赖
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu126 // 安装 gpu 版本的 pytorch 依赖
pip install torchcodec // 安装缺失依赖

启动应用

shell

python app.py

启动时，如果相关模型没有下载，则会自动进行下载，最后在在 cmd 中看到如下日志，表示成功

shell

Running on local URL:  http://localhost:7860

此时浏览器输入 http://127.0.0.1:7860，展示界面如下

使用建议

Prompt Speech Enhancement

启用：通过 ZipEnhancer 组件消除背景噪音，但会将音频采样率限制在16kHz，限制克隆上限。禁用：保留原始音频的全部信息，包括背景环境声，最高支持44.1kHz的音频复刻。

Text Normalization

启用：使用 WeTextProcessing 组件，可支持常见文本的正则化处理。禁用：将使用 VoxCPM 内置的文本理解能力。

CFG Value

调低：如果提示语音听起来不自然或过于夸张，或者长文本输入出现稳定性问题。调高：为更好地贴合提示音频的风格或输入文本，或者极短文本输入出现稳定性问题。

Inference Timesteps

调低：合成速度更快。调高：合成质量更佳。

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

VoxCPM：一款轻量级（8G显存可用）效果顶尖（媲美CosyVoice3和Index-TTS2）的声音克隆工具 ​

效果展示 ​

安装应用 ​

启动应用 ​

使用建议 ​

VoxCPM：一款轻量级（8G显存可用）效果顶尖（媲美CosyVoice3和Index-TTS2）的声音克隆工具

效果展示

安装应用

启动应用

使用建议