ChatTTS - преобразование текста в речь

ChatTTS

Откройте для себя ChatTTS

ChatTTS это модель преобразования текста в речь, разработанная специально для диалоговых сценариев, таких как LLM Assistant. Она поддерживает как английский, так и китайский языки. Наша модель обучена на 100 000+ часах китайского и английского языков. 

Особенности ChatTTS

  • Разговорный TTS: ChatTTS оптимизирован для задач, основанных на диалогах, и обеспечивает естественный и выразительный синтез речи. Он поддерживает несколько дикторов, что облегчает интерактивные беседы.
  • Тонкий контроль: Модель может предсказывать и контролировать тонкие просодические особенности, включая смех, паузы и междометия.
  • Лучшая просодия: ChatTTS превосходит большинство моделей TTS с открытым исходным кодом в плане просодии. Мы предоставляем предварительно обученные модели для поддержки дальнейших исследований и разработок.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Сколько VRAM мне нужно? Как насчет скорости инференции?

Для 30-секундного аудиоклипа требуется не менее 4 ГБ памяти GPU. Графический процессор 4090D способен генерировать аудио, соответствующее примерно 7 семантическим лексемам в секунду. Коэффициент реального времени (RTF) составляет около 0,65.

Стабильность модели оставляет желать лучшего: возникают проблемы с несколькими динамиками или низким качеством звука.

Эта проблема обычно возникает с моделями авторегрессии (для Кора и Валле). Как правило, ее трудно избежать. Можно попробовать использовать несколько выборок, чтобы найти подходящий результат.

Можем ли мы контролировать что-то еще, кроме смеха? Можем ли мы контролировать другие эмоции?

В текущей выпущенной модели единственными управляющими единицами на уровне токенов являются [laugh], [uv_break] и [lbreak]. В будущих версиях мы можем выложить в открытый доступ модели с дополнительными возможностями управления эмоциями.

Поделиться

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *