ChatTTS - 文字轉語音

ChatTTS

探索 ChatTTS

ChatTTS 是專為對話情境設計的文字轉語音模型,例如 LLM 助理。它支援英文和中文。我們的模型經過 100,000+ 小時的中文和英文訓練。 

ChatTTS 功能

  • 會話式 TTS: ChatTTS 已針對以對話為基礎的任務進行最佳化,可實現自然且具表達力的語音合成。它支援多位講者,促進互動對話。
  • 精細控制: 該模型可以預測和控制細粒度的語音特徵,包括笑聲、停頓和插話。
  • 更好的 Prosody: ChatTTS 在 prosody 方面超越了大多數的開放源碼 TTS 模型。我們提供預先訓練的模型,以支援進一步的研究與開發。

常見問題

我需要多少 VRAM?推斷速度如何?

對於 30 秒的音訊片段,至少需要 4GB 的 GPU 記憶體。對 4090D GPU 而言,每秒可產生約 7 個語意詞彙對應的音訊。即時因子 (RTF) 約為 0.65。

模型的穩定性不夠好,存在多喇叭或音訊品質不佳等問題。

這是自回歸模型通常會發生的問題(對於樹皮和山谷)。一般很難避免。我們可以嘗試多個樣本,找出合適的結果。

除了笑之外,我們還能控制其他事情嗎?我們可以控制其他情緒嗎?

在目前已發佈的模型中,唯一的符號層級控制單元是 [laugh]、[uv_break] 和 [lbreak]。在未來的版本中,我們可能會開放具有額外情緒控制能力的模型。

分享

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *