FireRedTTS2:多个说话人对话生成的长时间 TTS 系统
功能介绍
FireRedTTS‑2 是小红书开源的一种用于多说话人对话生成的长时间流式 TTS 系统,可提供稳定、自然的语音,具有可靠的说话人切换和上下文感知的韵律。
核心亮点:
- 长对话语音生成:目前支持 4 位说话者的 3 分钟对话,并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
- 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持
零样本语音克隆,适用于跨语言和代码切换场景。 - 超低延迟
- 强稳定性
- 随机音色
在 官方页面 可以看到一段精彩的双人对话
安装应用
显存要求:测试下来需要 13.4G 显存。
下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令
shell
git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2
git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2
conda create --name fireredtts2_env python==3.12 -y
conda activate fireredtts2_env
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .
pip install -r requirements.txt
pip install SoundFile
# 启动应用
python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"出现如下日志,则表示启动成功。
text
* Running on local URL: http://0.0.0.0:7860浏览器输入 http://127.0.0.1:7860 进行使用。

两种模式:
- 音色克隆:上传两段语音+分别的语音文本用于音色和音调,输入待对话的文本,点击运行即可。
- 随机音色:直接输入待对话的文本,点击运行即可。
两个人的代号分别为:S1 和 S2。
文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!
