Стабильное видео 4D (SV4D) - это генеративная модель, основанная на стабильной диффузии видео (SVD) и стабильном видео 3D (SV3D), которая принимает одноракурсное видео объекта и генерирует несколько новых ракурсных видео (матрица 4D-изображений) этого объекта.
Что такое стабильное видео 4D?
Компания Stability AI представила новый генеративный ИИ под названием Stable Video 4D, который значительно расширяет возможности генерации видео. Модель принимает видеосигнал и генерирует несколько новых видео с восьми различных ракурсов. Основное преимущество Stable Video 4D заключается в том, что он объединяет синтез ракурсов и генерацию видео в единый процесс, что улучшает согласованность 3D и временную плавность.
Модель Stable Video 4D обучена генерировать 40 кадров (5 видеокадров x 8 ракурсов камеры) с разрешением 576×576, учитывая 5 опорных кадров того же размера. Чтобы сгенерировать матрицу изображений 5×8 из одноракурсного видео, сначала запустите SV3D на первом входном кадре, чтобы сгенерировать орбитальное видео, следующее по заданному пути камеры, затем используйте орбитальное видео как опорные виды SV4D, а входное видео как опорные кадры, как условие для выборки 4D. Для создания более длинных видеороликов с новыми видами мы используем первые сгенерированные кадры в качестве опорных, а затем плотно сэмплируем (интерполируем) остальные кадры. Подробности смотрите в [техническом отчете].
Основные выводы:
Состояние и производительность
Stable Video 4D способна генерировать 5-кадровые видео с 8 точек обзора примерно за 40 секунд, а весь процесс 4D-оптимизации занимает от 20 до 25 минут. Ожидается, что технология найдет широкое применение в области разработки игр, видеомонтажа и виртуальной реальности, где специалисты смогут рассматривать объекты с разных точек зрения для повышения реалистичности и погружения в свои продукты.
Технологические инновации
В отличие от предыдущих методов, требующих выборки из моделей диффузии изображений, моделей диффузии видео и многоракурсных моделей диффузии, SV4D генерирует несколько новых видео точек обзора одновременно, что значительно улучшает согласованность пространственных и временных осей и обеспечивает согласованность внешнего вида объекта в нескольких точках обзора и временных метках.
Перспективы применения
Легкий фреймворк SV4D для оптимизации 4D привносит инновации в виртуальную реальность, видеомонтаж и другие области, и в будущем будет реализован способ достижения лучшего баланса между визуальными эффектами и творчеством.