人工智能文本生成器

ChatTTS - 文本转语音

8 月 20, 20240 条评论1.8k

ChatTTS

了解 ChatTTS

ChatTTS 是专为 LLM 助手等对话场景设计的文本到语音模型。它支持中英文两种语言。我们的模型经过 100,000+ 小时的中英文训练。

ChatTTS 功能

对话式 TTS ChatTTS 针对基于对话的任务进行了优化，可实现自然而富有表现力的语音合成。它支持多人发言，促进互动对话。
精细控制： 该模型可以预测和控制细粒度的前言特征，包括笑声、停顿和插话。
更好的韵律 ChatTTS 在拟声方面超越了大多数开源 TTS 模型。我们提供预训练模型，以支持进一步的研究和开发。

常见问题

我需要多少 VRAM？推断速度如何？

一个 30 秒的音频片段至少需要 4GB GPU 内存。对于 4090D GPU 来说，它每秒可以生成大约 7 个语义词块对应的音频。实时因子（RTF）约为 0.65。

模型稳定性不够好，存在多扬声器或音频质量差等问题。

这通常是自回归模型（树皮和山谷）出现的问题。一般很难避免。我们可以尝试多个样本来找到合适的结果。

除了笑声，我们还能控制其他什么吗？我们还能控制其他情绪吗？

在当前发布的模型中，唯一的标记级控制单元是[笑]、[uv_break]和[lbreak]。在未来的版本中，我们可能会开源具有更多情绪控制能力的模型。

分享

哈利波特》名字生成器上一篇文章

Codestral - 人工智能代码生成下一篇

发表回复取消回复