
Ontdek de ChatTTS
ChatTTS is een tekst-naar-spraak model dat speciaal is ontworpen voor dialoogscenario's zoals de LLM-assistent. Het ondersteunt zowel Engelse als Chinese talen. Ons model is getraind met 100.000+ uur samengesteld uit Chinees en Engels.
ChatTTS-functies
- TTS voor gesprekken: ChatTTS is geoptimaliseerd voor dialooggebaseerde taken en maakt natuurlijke en expressieve spraaksynthese mogelijk. Het ondersteunt meerdere sprekers en maakt interactieve gesprekken mogelijk.
- Fijnkorrelige controle: Het model kon fijnkorrelige prosodische kenmerken voorspellen en controleren, waaronder lachen, pauzes en tussenwerpsels.
- Betere prosodie: ChatTTS overtreft de meeste open-source TTS-modellen op het gebied van prosodie. We leveren voorgetrainde modellen om verder onderzoek en ontwikkeling te ondersteunen.
FAQ
Hoeveel VRAM heb ik nodig? Hoe zit het met de infer snelheid?
Voor een audioclip van 30 seconden is ten minste 4 GB GPU-geheugen nodig. De 4090D GPU kan audio genereren die overeenkomt met ongeveer 7 semantische tokens per seconde. De Real-Time Factor (RTF) is ongeveer 0,65.
De stabiliteit van het model is niet goed genoeg, met problemen zoals meerdere luidsprekers of slechte audiokwaliteit.
Dit is een probleem dat typisch optreedt bij autoregressieve modellen (voor schors en valle). Het is over het algemeen moeilijk te vermijden. Men kan meerdere steekproeven proberen om een geschikt resultaat te vinden.
Kunnen we naast lachen nog iets anders beheersen? Kunnen we andere emoties beheersen?
In het huidige model zijn de enige eenheden op tokenniveau [lachen], [uv_break] en [lbreak]. In toekomstige versies kunnen we modellen met extra emotionele controlemogelijkheden open-sourcen.