Modèles d'IA

Vidéo 4D stable

20 août 20240 Commentaire5k

Vidéo 4D stable (SV4D) est un modèle génératif basé sur la diffusion vidéo stable (SVD) et la vidéo stable 3D (SV3D), qui prend une vidéo à vue unique d'un objet et génère plusieurs vidéos à vue nouvelle (matrice d'image 4D) de cet objet.

arXiv

visage étreint

Code

Qu'est-ce que Stable Video 4D ?

Stability AI a introduit une nouvelle IA générative appelée Stable Video 4D, qui élargit considérablement les possibilités de génération de vidéos. Le modèle accepte des entrées vidéo et génère plusieurs nouvelles vidéos à partir de huit perspectives différentes. Le principal avantage de Stable Video 4D est qu'il combine la synthèse des vues vidéo et la génération de vidéos en un seul processus, ce qui améliore la cohérence 3D et la fluidité temporelle.

Le modèle Stable Video 4D est entraîné à générer 40 images (5 images vidéo x 8 vues de caméra) à une résolution de 576×576, à partir de 5 images de référence de la même taille. Pour générer une matrice d'images 5×8 à partir d'une vidéo à vue unique, il faut d'abord exécuter SV3D sur la première image d'entrée pour générer une vidéo orbitale suivant une trajectoire de caméra spécifiée, puis utiliser la vidéo orbitale comme vues de référence de SV4D, et la vidéo d'entrée comme images de référence, en tant que conditionnement pour l'échantillonnage 4D. Pour générer des vidéos plus longues, nous utilisons les premières images générées comme points d'ancrage, puis nous échantillonnons densément (interpolation) les images restantes. Veuillez consulter notre [rapport technique] et pour plus de détails.

Principaux enseignements :

Statut et performance
Stable Video 4D est capable de générer des vidéos de 5 images à partir de 8 points de vue en 40 secondes environ, et l'ensemble du processus d'optimisation 4D prend de 20 à 25 minutes. Cette technologie devrait avoir de nombreuses perspectives d'application dans les domaines du développement de jeux, du montage vidéo et de la réalité virtuelle, où les professionnels peuvent visualiser des objets sous plusieurs angles afin d'améliorer le réalisme et l'immersion de leurs produits.

Innovation technologique
Contrairement aux méthodes précédentes qui nécessitaient un échantillonnage à partir de modèles de diffusion d'images, de modèles de diffusion vidéo et de modèles de diffusion multi-vues, SV4D génère plusieurs nouveaux points de vue vidéo en même temps, ce qui améliore considérablement la cohérence des axes spatiaux et temporels et garantit la cohérence de l'apparence de l'objet entre les différents points de vue et les différents horodatages.

Perspectives d'application
Le cadre d'optimisation 4D léger de SV4D apporte des innovations à la réalité virtuelle, au montage vidéo et à d'autres domaines, et la manière de parvenir à un meilleur équilibre entre les effets visuels et la créativité sera réalisée à l'avenir.