ChatTTS - Text-zu-Sprache

20. August 20240 Kommentar1.8k

Entdecken Sie das ChatTTS

ChatTTS ist ein Text-to-Speech-Modell, das speziell für Dialogszenarien wie den LLM-Assistenten entwickelt wurde. Es unterstützt sowohl die englische als auch die chinesische Sprache. Unser Modell wurde mit mehr als 100.000 Stunden trainiert, die aus Chinesisch und Englisch bestanden.

ChatTTS-Funktionen

Konversationelle TTS: ChatTTS ist für dialogbasierte Aufgaben optimiert und ermöglicht eine natürliche und ausdrucksstarke Sprachsynthese. Es unterstützt mehrere Sprecher und erleichtert so interaktive Unterhaltungen.
Feinkörnige Kontrolle: Das Modell konnte feinkörnige prosodische Merkmale wie Lachen, Pausen und Interjektionen vorhersagen und kontrollieren.
Bessere Prosodie: ChatTTS übertrifft die meisten Open-Source-TTS-Modelle in Bezug auf die Prosodie. Wir stellen vortrainierte Modelle zur Verfügung, um weitere Forschung und Entwicklung zu unterstützen.

FAQ

Wie viel VRAM benötige ich? Wie sieht es mit der Inferenzgeschwindigkeit aus?

Für einen 30-sekündigen Audioclip werden mindestens 4 GB GPU-Speicher benötigt. Die 4090D-GPU kann Audiodaten erzeugen, die etwa 7 semantischen Token pro Sekunde entsprechen. Der Echtzeit-Faktor (RTF) liegt bei etwa 0,65.

Die Stabilität des Modells ist nicht gut genug, mit Problemen wie mehreren Lautsprechern oder schlechter Audioqualität.

Dies ist ein Problem, das typischerweise bei autoregressiven Modellen (für Rinde und Valle) auftritt. Es ist im Allgemeinen schwer zu vermeiden. Man kann mehrere Stichproben ausprobieren, um ein geeignetes Ergebnis zu finden.

Können wir außer dem Lachen noch etwas anderes kontrollieren? Können wir andere Emotionen kontrollieren?

In dem derzeit veröffentlichten Modell sind die einzigen Steuereinheiten auf Token-Ebene [laugh], [uv_break] und [lbreak]. In zukünftigen Versionen werden wir möglicherweise Modelle mit zusätzlichen emotionalen Kontrollmöglichkeiten als Open Source zur Verfügung stellen.

BESUCHEN SIE DIE WEBSITE

Teilen Sie