FireRedTTS2：多个说话人对话生成的长时间 TTS 系统

官方文档

https://github.com/FireRedTeam/FireRedTTS2

功能介绍

FireRedTTS‑2 是小红书开源的一种用于多说话人对话生成的长时间流式 TTS 系统，可提供稳定、自然的语音，具有可靠的说话人切换和上下文感知的韵律。

核心亮点：

长对话语音生成：目前支持 4 位说话者的 3 分钟对话，并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
多语言支持：支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆，适用于跨语言和代码切换场景。
超低延迟
强稳定性
随机音色

在官方页面可以看到一段精彩的双人对话

安装应用

显存要求：测试下来需要 13.4G 显存。

下面以 Windows11 为例，演示安装流程。在 cmd 中依次输入以下命令

shell

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

conda create --name fireredtts2_env python==3.12 -y
conda activate fireredtts2_env

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .
pip install -r requirements.txt
pip install SoundFile

# 启动应用
python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

出现如下日志，则表示启动成功。

text

* Running on local URL:  http://0.0.0.0:7860

浏览器输入 http://127.0.0.1:7860 进行使用。

两种模式：

音色克隆：上传两段语音+分别的语音文本用于音色和音调，输入待对话的文本，点击运行即可。
随机音色：直接输入待对话的文本，点击运行即可。

两个人的代号分别为：S1 和 S2。

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

FireRedTTS2：多个说话人对话生成的长时间 TTS 系统 ​

功能介绍 ​

安装应用 ​

FireRedTTS2：多个说话人对话生成的长时间 TTS 系统

功能介绍

安装应用