Обзор компании Minimax AI
MiniMax AI занимается разработкой технологий масштабного моделирования ИИ, созданием инфраструктуры и решений для применения контента. MiniMax, основанная в 2021 году со штаб-квартирой в Шанхае (Китай) и занимающаяся разработкой движковых систем общего искусственного интеллекта (AGI), является последней попыткой стартапа-"единорога", поддерживаемого Alibaba и Tencent, заняться разработкой генеративного искусственного интеллекта. Одним из основных продуктов компании является генератор текста в видео которая произвела фурор благодаря своей способности генерировать гиперреалистичные кадры людей, включая точные движения рук.
Продукты Minimax AI
Поколение видео Модель: видео-01
Видео-01 - это Модель искусственного интеллекта которая может генерировать видео высокого разрешения из текстовых инструкций, поддерживая разрешение 1 280 x 720 пикселей при 25 кадрах в секунду. В настоящее время продолжительность видеороликов ограничена шестью секундами. Video-01 предлагает различные стили, включая аниме, CGI и графику видеоигр. Модель демонстрирует относительно небольшое количество ошибок и артефактов изображения и даже способна отображать текст в видео. MiniMax video-01 - хорошая модель, примерно эквивалентная Luma Labs Dream Machine Но не так хорошо, как Runway Gen-3.
Модель Music Generation: Музыка-01
Music-01 - это ai модель преобразования текста в музыку, ключевые особенности которой включают:
- Генерация музыки с высокой степенью антропоморфности: Эта модель создает сложные и эмоциональные музыкальные композиции, что делает ее идеальной для различных творческих сценариев и предлагает значительную гибкость и инновации в создании музыки.
- Поддержка нескольких стилей: Модель прекрасно справляется с широким спектром музыкальных стилей - от традиционных инструментов до современной электронной музыки, от китайской классики до западной поп-музыки.
Текст большой модели: abab 6,5 с
abab 7 поддерживает эффективное обучение огромных наборов данных, значительно повышая практичность и скорость реакции при резком снижении затрат на обучение и обоснование больших моделей. По сравнению с традиционной архитектурой Transformer, эта новая архитектура сокращает затраты более чем на 90% при длине последовательности 128K, а при увеличении длины последовательности преимущества еще больше.
Голос большой модель: speech-01
Разнообразие высококачественных гипер-антропоморфных тонов, возможности генерации голоса нового поколения.