AI 文字產生器

ChatTTS - 文字轉語音

8 月 20, 20240 評論3.9k

ChatTTS

探索 ChatTTS

ChatTTS 是專為對話情境設計的文字轉語音模型，例如 LLM 助理。它支援英文和中文。我們的模型經過 100,000+ 小時的中文和英文訓練。

ChatTTS 功能

會話式 TTS： ChatTTS 已針對以對話為基礎的任務進行最佳化，可實現自然且具表達力的語音合成。它支援多位講者，促進互動對話。
精細控制： 該模型可以預測和控制細粒度的語音特徵，包括笑聲、停頓和插話。
更好的 Prosody： ChatTTS 在 prosody 方面超越了大多數的開放源碼 TTS 模型。我們提供預先訓練的模型，以支援進一步的研究與開發。

常見問題

我需要多少 VRAM？推斷速度如何？

對於 30 秒的音訊片段，至少需要 4GB 的 GPU 記憶體。對 4090D GPU 而言，每秒可產生約 7 個語意詞彙對應的音訊。即時因子 (RTF) 約為 0.65。

模型的穩定性不夠好，存在多喇叭或音訊品質不佳等問題。

這是自回歸模型通常會發生的問題（對於樹皮和山谷）。一般很難避免。我們可以嘗試多個樣本，找出合適的結果。

除了笑之外，我們還能控制其他事情嗎？我們可以控制其他情緒嗎？

在目前已發佈的模型中，唯一的符號層級控制單元是 [laugh]、[uv_break] 和 [lbreak]。在未來的版本中，我們可能會開放具有額外情緒控制能力的模型。

分享

哈利波特名稱產生器上一篇文章

Codestral - AI 代碼生成下一篇文章

發佈留言取消回覆