ChatTTS - Synthèse vocale

ChatTTS

Découvrez le ChatTTS

ChatTTS est un modèle de synthèse vocale conçu spécifiquement pour les scénarios de dialogue tels que l'assistant LLM. Il prend en charge les langues anglaise et chinoise. Notre modèle a été entraîné avec plus de 100 000 heures composées de chinois et d'anglais. 

Caractéristiques de ChatTTS

  • TTS conversationnel : ChatTTS est optimisé pour les tâches basées sur le dialogue, permettant une synthèse vocale naturelle et expressive. Il prend en charge plusieurs locuteurs, ce qui facilite les conversations interactives.
  • Contrôle précis : Le modèle peut prédire et contrôler des caractéristiques prosodiques très fines, y compris les rires, les pauses et les interjections.
  • Une meilleure prosodie : ChatTTS surpasse la plupart des modèles TTS open-source en termes de prosodie. Nous fournissons des modèles pré-entraînés pour soutenir la recherche et le développement.

FAQ

De combien de VRAM ai-je besoin ? Qu'en est-il de la vitesse d'inférence ?

Pour un clip audio de 30 secondes, il faut au moins 4 Go de mémoire GPU. Le GPU 4090D peut générer de l'audio correspondant à environ 7 jetons sémantiques par seconde. Le facteur temps réel (RTF) est d'environ 0,65.

La stabilité du modèle n'est pas suffisante, avec des problèmes tels que la présence de plusieurs haut-parleurs ou une qualité audio médiocre.

Il s'agit d'un problème qui survient généralement avec les modèles autorégressifs (pour bark et valle). Il est généralement difficile à éviter. On peut essayer plusieurs échantillons pour trouver un résultat convenable.

Outre le rire, pouvons-nous contrôler autre chose ? Pouvons-nous contrôler d'autres émotions ?

Dans le modèle actuellement disponible, les seules unités de contrôle au niveau des jetons sont [laugh], [uv_break] et [lbreak]. Dans les versions futures, il est possible que nous ouvrions des modèles avec des capacités de contrôle émotionnel supplémentaires.

Partager

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *