Descubre el ChatTTS
ChatTTS es un modelo de conversión de texto a voz diseñado específicamente para escenarios de diálogo como el asistente LLM. Es compatible tanto con el inglés como con el chino. Nuestro modelo se ha entrenado con más de 100.000 horas de chino e inglés.
Características de ChatTTS
- TTS conversacional: ChatTTS está optimizado para tareas basadas en el diálogo, lo que permite una síntesis de voz natural y expresiva. Admite varios interlocutores, lo que facilita las conversaciones interactivas.
- Control detallado: El modelo podía predecir y controlar rasgos prosódicos precisos, como risas, pausas e interjecciones.
- Mejor Prosodia: ChatTTS supera en prosodia a la mayoría de los modelos TTS de código abierto. Proporcionamos modelos preentrenados para facilitar la investigación y el desarrollo.
PREGUNTAS FRECUENTES
¿Cuánta VRAM necesito? ¿Y la velocidad infer?
Para un clip de audio de 30 segundos, se necesitan al menos 4 GB de memoria de la GPU. La GPU 4090D puede generar audio correspondiente a aproximadamente 7 tokens semánticos por segundo. El factor de tiempo real (RTF) se sitúa en torno a 0,65.
La estabilidad del modelo no es lo suficientemente buena, con problemas como altavoces múltiples o mala calidad de audio.
Se trata de un problema que suele producirse con los modelos autorregresivos (para corteza y valle). En general, es difícil de evitar. Se puede probar con varias muestras para encontrar un resultado adecuado.
Además de la risa, ¿podemos controlar alguna otra cosa? ¿Podemos controlar otras emociones?
En el modelo actual, las únicas unidades de control a nivel de token son [laugh], [uv_break] y [lbreak]. En futuras versiones, es posible que los modelos de código abierto con capacidades de control emocional adicionales.