了解 ChatTTS
ChatTTS 是专为 LLM 助手等对话场景设计的文本到语音模型。它支持中英文两种语言。我们的模型经过 100,000+ 小时的中英文训练。
ChatTTS 功能
- 对话式 TTS ChatTTS 针对基于对话的任务进行了优化,可实现自然而富有表现力的语音合成。它支持多人发言,促进互动对话。
- 精细控制: 该模型可以预测和控制细粒度的前言特征,包括笑声、停顿和插话。
- 更好的韵律 ChatTTS 在拟声方面超越了大多数开源 TTS 模型。我们提供预训练模型,以支持进一步的研究和开发。
常见问题
我需要多少 VRAM?推断速度如何?
一个 30 秒的音频片段至少需要 4GB GPU 内存。对于 4090D GPU 来说,它每秒可以生成大约 7 个语义词块对应的音频。实时因子(RTF)约为 0.65。
模型稳定性不够好,存在多扬声器或音频质量差等问题。
这通常是自回归模型(树皮和山谷)出现的问题。一般很难避免。我们可以尝试多个样本来找到合适的结果。
除了笑声,我们还能控制其他什么吗?我们还能控制其他情绪吗?
在当前发布的模型中,唯一的标记级控制单元是[笑]、[uv_break]和[lbreak]。在未来的版本中,我们可能会开源具有更多情绪控制能力的模型。