AI 모델

안정적인 비디오 4D

8월 20, 20240 댓글1.7k

안정적인 비디오 4D (SV4D)는 물체의 단일 뷰 비디오를 가져와 해당 물체에 대한 여러 개의 새로운 뷰 비디오(4D 이미지 매트릭스)를 생성하는 안정적인 비디오 확산(SVD) 및 안정적인 비디오 3D(SV3D) 기반 생성 모델입니다.

arXiv

포옹하는 얼굴

코드

스테이블 비디오 4D란 무엇인가요?

스테이블리티 AI는 동영상 생성의 가능성을 크게 확장하는 새로운 생성 AI인 스테이블리티 비디오 4D를 도입했습니다. 이 모델은 동영상 입력을 받아 8개의 다른 관점에서 여러 개의 새로운 동영상을 생성합니다. 스테이블 비디오 4D의 가장 큰 장점은 비디오 뷰의 합성과 비디오 생성을 단일 프로세스로 결합하여 3D 일관성과 시간적 부드러움을 향상시킨다는 것입니다.

안정된 비디오 4D 모델은 동일한 크기의 참조 프레임 5개가 주어지면 576×576 해상도로 40프레임(비디오 프레임 5개 x 카메라 뷰 8개)을 생성하도록 훈련됩니다. 단일 뷰 비디오에서 5×8 이미지 매트릭스를 생성하려면 먼저 첫 번째 입력 프레임에서 SV3D를 실행하여 지정된 카메라 경로를 따라 궤도 비디오를 생성한 다음, 궤도 비디오를 SV4D의 참조 뷰로 사용하고 입력 비디오를 참조 프레임으로 사용하여 4D 샘플링을 위한 컨디셔닝으로 사용합니다. 더 긴 소설 뷰 비디오를 생성하기 위해 처음 생성된 프레임을 앵커로 사용한 다음 나머지 프레임을 조밀하게 샘플링(보간)합니다. 자세한 내용은 [기술 보고서]를 참조하세요.

주요 요점:

상태 및 성과
스테이블 비디오 4D는 8개 시점의 5프레임 영상을 약 40초 만에 생성할 수 있으며, 전체 4D 최적화 과정은 약 20~25분 정도 소요됩니다. 이 기술은 게임 개발, 영상 편집, 가상현실 분야에서 다양한 시점으로 사물을 바라보며 제품의 사실감과 몰입감을 높일 수 있어 폭넓게 활용될 수 있을 것으로 기대됩니다.

기술 혁신
이미지 확산 모델, 비디오 확산 모델, 멀티뷰 확산 모델에서 샘플링이 필요했던 이전 방식과 달리 SV4D는 여러 개의 새로운 시점 비디오를 동시에 생성하여 공간 및 시간 축의 일관성을 크게 개선하고 여러 시점과 타임스탬프에서 오브젝트의 모양이 일관되게 유지되도록 합니다.

애플리케이션 관점
SV4D의 경량 4D 최적화 프레임워크는 가상 현실, 동영상 편집 및 기타 분야에 혁신을 가져다주며, 앞으로 시각 효과와 창의성 사이의 균형을 더 잘 맞추는 방법을 실현할 것입니다.