ChatTTS - 文本转语音

ChatTTS

了解 ChatTTS

ChatTTS 是专为 LLM 助手等对话场景设计的文本到语音模型。它支持中英文两种语言。我们的模型经过 100,000+ 小时的中英文训练。 

ChatTTS 功能

  • 对话式 TTS ChatTTS 针对基于对话的任务进行了优化,可实现自然而富有表现力的语音合成。它支持多人发言,促进互动对话。
  • 精细控制: 该模型可以预测和控制细粒度的前言特征,包括笑声、停顿和插话。
  • 更好的韵律 ChatTTS 在拟声方面超越了大多数开源 TTS 模型。我们提供预训练模型,以支持进一步的研究和开发。

常见问题

我需要多少 VRAM?推断速度如何?

一个 30 秒的音频片段至少需要 4GB GPU 内存。对于 4090D GPU 来说,它每秒可以生成大约 7 个语义词块对应的音频。实时因子(RTF)约为 0.65。

模型稳定性不够好,存在多扬声器或音频质量差等问题。

这通常是自回归模型(树皮和山谷)出现的问题。一般很难避免。我们可以尝试多个样本来找到合适的结果。

除了笑声,我们还能控制其他什么吗?我们还能控制其他情绪吗?

在当前发布的模型中,唯一的标记级控制单元是[笑]、[uv_break]和[lbreak]。在未来的版本中,我们可能会开源具有更多情绪控制能力的模型。

分享

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注