Skip to content

FireRedTTS2:多个说话人对话生成的长时间 TTS 系统

功能介绍

FireRedTTS‑2 是小红书开源的一种用于多说话人对话生成的长时间流式 TTS 系统,可提供稳定、自然的语音,具有可靠的说话人切换和上下文感知的韵律。

核心亮点:

  • 长对话语音生成:目前支持 4 位说话者的 3 分钟对话,并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
  • 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆,适用于跨语言和代码切换场景。
  • 超低延迟
  • 强稳定性
  • 随机音色

官方页面 可以看到一段精彩的双人对话

安装应用

显存要求:测试下来需要 13.4G 显存。

下面以 Windows11 为例,演示安装流程。在 cmd 中依次输入以下命令

shell
git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

conda create --name fireredtts2_env python==3.12 -y
conda activate fireredtts2_env

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .
pip install -r requirements.txt
pip install SoundFile

# 启动应用
python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

出现如下日志,则表示启动成功。

text
* Running on local URL:  http://0.0.0.0:7860

浏览器输入 http://127.0.0.1:7860 进行使用。

img_1.png

两种模式:

  1. 音色克隆:上传两段语音+分别的语音文本用于音色和音调,输入待对话的文本,点击运行即可。
  2. 随机音色:直接输入待对话的文本,点击运行即可。

两个人的代号分别为:S1 和 S2。

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!