Vídeo estável 4D (SV4D) é um modelo generativo baseado na Difusão de Vídeo Estável (SVD) e no Vídeo Estável 3D (SV3D), que recebe um vídeo de visão única de um objeto e gera vários vídeos de nova visão (matriz de imagem 4D) desse objeto.
O que é o Stable Video 4D?
A Stability AI introduziu uma nova IA generativa chamada Stable Video 4D, que expande significativamente as possibilidades de geração de vídeo. O modelo aceita a entrada de vídeo e gera vários vídeos novos a partir de oito perspectivas diferentes. A principal vantagem do Stable Video 4D é que combina a síntese de vistas de vídeo e a geração de vídeo num único processo, o que melhora a consistência 3D e a suavidade temporal.
O modelo Stable Video 4D é treinado para gerar 40 fotogramas (5 fotogramas de vídeo x 8 vistas de câmara) com uma resolução de 576×576, dados 5 fotogramas de referência do mesmo tamanho. Para gerar uma matriz de imagem 5×8 a partir de um vídeo de vista única, primeiro executamos o SV3D no primeiro quadro de entrada para gerar um vídeo orbital seguindo um caminho de câmara especificado, depois usamos o vídeo orbital como vistas de referência do SV4D e o vídeo de entrada como quadros de referência, como condicionamento para a amostragem 4D. Para gerar vídeos mais longos de novel-view, usamos os primeiros frames gerados como âncoras, e depois amostramos densamente (interpolamos) os restantes frames. Para mais pormenores, consulte o nosso [relatório técnico].
Principais conclusões:
Estado e desempenho
O Stable Video 4D é capaz de gerar vídeos de 5 fotogramas a partir de 8 pontos de vista em cerca de 40 segundos, e todo o processo de otimização 4D demora cerca de 20 a 25 minutos. Espera-se que a tecnologia tenha uma vasta gama de perspectivas de aplicação nos domínios do desenvolvimento de jogos, edição de vídeo e realidade virtual, onde os profissionais podem visualizar objectos a partir de múltiplas perspectivas para melhorar o realismo e a imersão dos seus produtos.
Inovação tecnológica
Ao contrário dos métodos anteriores, que exigiam a amostragem de modelos de difusão de imagem, modelos de difusão de vídeo e modelos de difusão de múltiplas vistas, o SV4D gera vários vídeos de novos pontos de vista ao mesmo tempo, o que melhora significativamente a consistência dos eixos espaciais e temporais e garante a consistência da aparência do objeto em vários pontos de vista e registos de data e hora.
Perspectivas de aplicação
A estrutura leve de otimização 4D do SV4D traz inovação à realidade virtual, à edição de vídeo e a outros campos, e a forma de alcançar um melhor equilíbrio entre efeitos visuais e criatividade será concretizada no futuro.