ChatTTS - Conversão de texto em fala

ChatTTS

Descubra o ChatTTS

ChatTTS é um modelo de conversão de texto em voz concebido especificamente para cenários de diálogo como o assistente LLM. Suporta as línguas inglesa e chinesa. O nosso modelo foi treinado com mais de 100.000 horas compostas por chinês e inglês. 

Caraterísticas do ChatTTS

  • TTS conversacional: O ChatTTS está optimizado para tarefas baseadas no diálogo, permitindo uma síntese de voz natural e expressiva. Suporta vários oradores, facilitando as conversas interactivas.
  • Controlo de precisão: O modelo podia prever e controlar caraterísticas prosódicas de pormenor, incluindo risos, pausas e interjeições.
  • Melhor Prosódia: O ChatTTS supera a maioria dos modelos TTS de código aberto em termos de prosódia. Fornecemos modelos pré-treinados para apoiar mais investigação e desenvolvimento.

FAQ

De quanta VRAM preciso? E quanto à velocidade de inferência?

Para um clipe de áudio de 30 segundos, são necessários pelo menos 4 GB de memória da GPU. Para a GPU 4090D, pode gerar áudio correspondente a aproximadamente 7 tokens semânticos por segundo. O fator de tempo real (RTF) é de cerca de 0,65.

A estabilidade do modelo não é suficientemente boa, com problemas como os altifalantes múltiplos ou a fraca qualidade de áudio.

Este é um problema que ocorre tipicamente com modelos autoregressivos (para bark e valle). É geralmente difícil de evitar. É possível tentar várias amostras para encontrar um resultado adequado.

Para além do riso, podemos controlar mais alguma coisa? Podemos controlar outras emoções?

No modelo atualmente lançado, as únicas unidades de controlo ao nível dos tokens são [laugh], [uv_break] e [lbreak]. Em versões futuras, podemos abrir modelos de código aberto com capacidades adicionais de controlo emocional.

Partilhar

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *