Modelos de IA

Vídeo estable 4D

20 de agosto de 20240 Comentarios2.8k

Vídeo estable 4D (SV4D) es un modelo generativo basado en la difusión de vídeo estable (SVD) y el vídeo estable en 3D (SV3D), que toma un vídeo de una sola vista de un objeto y genera múltiples vídeos de nuevas vistas (matriz de imágenes en 4D) de ese objeto.

arXiv

huggingface

Código

¿Qué es Stable Video 4D?

Stability AI ha presentado una nueva IA generativa llamada Stable Video 4D, que amplía considerablemente las posibilidades de generación de vídeo. El modelo acepta entradas de vídeo y genera varios vídeos nuevos desde ocho perspectivas diferentes. La principal ventaja de Stable Video 4D es que combina la síntesis de las perspectivas de vídeo y la generación de vídeo en un único proceso, lo que mejora la coherencia 3D y la suavidad temporal.

El modelo Stable Video 4D está entrenado para generar 40 fotogramas (5 fotogramas de vídeo x 8 vistas de cámara) con una resolución de 576×576, dados 5 fotogramas de referencia del mismo tamaño. Para generar una matriz de imágenes de 5×8 a partir de un vídeo de una sola vista, primero se ejecuta SV3D en el primer fotograma de entrada para generar un vídeo orbital siguiendo una trayectoria de cámara especificada, después se utiliza el vídeo orbital como vistas de referencia de SV4D, y el vídeo de entrada como fotogramas de referencia, como condicionamiento para el muestreo 4D. Para generar vídeos de nueva vista más largos, utilizamos los primeros fotogramas generados como anclas y, a continuación, muestreamos densamente (interpolamos) los fotogramas restantes. Para más detalles, consulte nuestro [informe técnico].

Principales conclusiones:

Situación y resultados
Stable Video 4D es capaz de generar vídeos de 5 fotogramas desde 8 puntos de vista en unos 40 segundos, y todo el proceso de optimización 4D dura entre 20 y 25 minutos. Se espera que la tecnología tenga amplias perspectivas de aplicación en los campos del desarrollo de juegos, la edición de vídeo y la realidad virtual, donde los profesionales pueden ver objetos desde múltiples perspectivas para aumentar el realismo y la inmersión de sus productos.

Innovación tecnológica
A diferencia de los métodos anteriores, que requerían el muestreo de modelos de difusión de imagen, modelos de difusión de vídeo y modelos de difusión multivista, SV4D genera múltiples vídeos de nuevos puntos de vista al mismo tiempo, lo que mejora significativamente la coherencia de los ejes espaciales y temporales y garantiza la coherencia de la apariencia del objeto a través de múltiples puntos de vista y marcas de tiempo.

Perspectivas de aplicación
El ligero marco de optimización 4D de SV4D aporta innovación a la realidad virtual, la edición de vídeo y otros campos, y en el futuro se hará realidad la forma de lograr un mejor equilibrio entre efectos visuales y creatividad.