Откройте для себя ChatTTS
ChatTTS это модель преобразования текста в речь, разработанная специально для диалоговых сценариев, таких как LLM Assistant. Она поддерживает как английский, так и китайский языки. Наша модель обучена на 100 000+ часах китайского и английского языков.
Особенности ChatTTS
- Разговорный TTS: ChatTTS оптимизирован для задач, основанных на диалогах, и обеспечивает естественный и выразительный синтез речи. Он поддерживает несколько дикторов, что облегчает интерактивные беседы.
- Тонкий контроль: Модель может предсказывать и контролировать тонкие просодические особенности, включая смех, паузы и междометия.
- Лучшая просодия: ChatTTS превосходит большинство моделей TTS с открытым исходным кодом в плане просодии. Мы предоставляем предварительно обученные модели для поддержки дальнейших исследований и разработок.
ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ
Сколько VRAM мне нужно? Как насчет скорости инференции?
Для 30-секундного аудиоклипа требуется не менее 4 ГБ памяти GPU. Графический процессор 4090D способен генерировать аудио, соответствующее примерно 7 семантическим лексемам в секунду. Коэффициент реального времени (RTF) составляет около 0,65.
Стабильность модели оставляет желать лучшего: возникают проблемы с несколькими динамиками или низким качеством звука.
Эта проблема обычно возникает с моделями авторегрессии (для Кора и Валле). Как правило, ее трудно избежать. Можно попробовать использовать несколько выборок, чтобы найти подходящий результат.
Можем ли мы контролировать что-то еще, кроме смеха? Можем ли мы контролировать другие эмоции?
В текущей выпущенной модели единственными управляющими единицами на уровне токенов являются [laugh], [uv_break] и [lbreak]. В будущих версиях мы можем выложить в открытый доступ модели с дополнительными возможностями управления эмоциями.