ChatTTSを発見しよう
ChatTTS は、LLMアシスタントのような対話シナリオのために特別に設計された音声合成モデルです。英語と中国語の両方をサポートしています。我々のモデルは中国語と英語からなる10万時間以上の訓練を受けています。
ChatTTSの特徴
- 会話型TTS: ChatTTSは対話ベースのタスクに最適化されており、自然で表現力豊かな音声合成を可能にします。複数の話者をサポートし、インタラクティブな会話を促進します。
- きめ細かなコントロール: このモデルは、笑い、ポーズ、間投詞などの細かい韻律的特徴を予測し、制御することができる。
- より良い韻律: ChatTTSは、韻律の点で、オープンソースのTTSモデルのほとんどを凌駕しています。私たちは、さらなる研究開発をサポートするために、事前に訓練されたモデルを提供しています。
よくあるご質問
VRAMはどれくらい必要?推算速度は?
30秒のオーディオクリップには、少なくとも4GBのGPUメモリが必要です。4090D GPUの場合、毎秒約7セマンティック・トークンに相当するオーディオを生成できます。リアルタイム・ファクター(RTF)は約0.65です。
モデルの安定性は十分ではなく、マルチスピーカーや音質の悪さなどの問題がある。
これは一般的に自己回帰モデル(バークとバレー用)で発生する問題です。これを避けるのは一般に難しい。適切な結果を見つけるために複数のサンプルを試すことができます。
笑いのほかに、私たちは何かをコントロールできるだろうか?他の感情をコントロールできるだろうか?
現在リリースされているモデルでは、トークン・レベルの制御ユニットは[laugh]、[uv_break]、[lbreak]のみです。将来のバージョンでは、感情をコントロールする機能を追加したモデルをオープンソース化するかもしれません。