稳定视频 4D (SV4D) 是一种基于稳定视频扩散 (SVD) 和稳定视频三维 (SV3D) 的生成模型,它接收一个物体的单视角视频,并生成该物体的多个新视角视频(4D 图像矩阵)。
什么是稳定视频 4D?
稳定人工智能(Stability AI)推出了一款名为 "稳定视频 4D"(Stable Video 4D)的新型生成式人工智能,大大扩展了视频生成的可能性。该模型接受视频输入,并从八个不同视角生成多个新视频。稳定视频 4D 的主要优势在于,它将视频视角的合成和视频生成结合在一个过程中,从而提高了三维一致性和时间平滑性。
稳定视频 4D 模型经过训练,可以在 576×576 分辨率下生成 40 帧图像(5 个视频帧 x 8 个摄像机视图),并给出 5 个相同大小的参考帧。要从单视图视频生成 5×8 图像矩阵,首先要在第一个输入帧上运行 SV3D,按照指定的摄像机路径生成轨道视频,然后将轨道视频作为 SV4D 的参考视图,将输入视频作为参考帧,作为 4D 采样的条件。为了生成较长的新视角视频,我们将生成的第一帧作为锚点,然后对其余帧进行密集采样(插值)。详情请查看我们的[技术报告]。
主要收获:
现状和绩效
稳定视频 4D 能够在大约 40 秒内从 8 个视角生成 5 帧视频,整个 4D 优化过程大约需要 20 到 25 分钟。预计该技术将在游戏开发、视频编辑和虚拟现实等领域有广泛的应用前景,专业人士可以从多个角度查看物体,以增强产品的真实感和沉浸感。
技术创新
与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中采样的方法不同,SV4D 可同时生成多个新视角视频,这大大提高了空间轴和时间轴的一致性,确保了物体在多个视角和时间戳中外观的一致性。
应用视角
SV4D 的轻量级 4D 优化框架为虚拟现实、视频编辑等领域带来了创新,如何在视觉效果和创意之间实现更好的平衡,将在未来得以实现。