安定したビデオ4D

安定したビデオ4D

安定したビデオ4D (SV4D)は、Stable Video Diffusion (SVD)とStable Video 3D (SV3D)に基づいた生成モデルであり、オブジェクトのシングルビュービデオを取り込み、そのオブジェクトの複数のノベルビュービデオ(4Dイメージマトリックス)を生成する。

Stable Video 4Dとは?

Stability AIは、動画生成の可能性を大きく広げる新しい生成AI「Stable Video 4D」を発表した。このモデルは動画入力を受け付け、8つの異なる視点から複数の新しい動画を生成する。Stable Video 4Dの主な利点は、ビデオビューの合成とビデオ生成を1つのプロセスで行うことで、3Dの一貫性と時間的な滑らかさを向上させることである。

Stable Video 4D Modelは、576×576の解像度で40フレーム(5ビデオフレーム×8カメラビュー)を生成するように学習され、同じサイズの5つの参照フレームが与えられます。シングルビュービデオから5×8のイメージマトリクスを生成するには、まず最初の入力フレームでSV3Dを実行し、指定されたカメラ軌道に沿った軌道ビデオを生成します。その後、軌道ビデオをSV4Dの参照ビューとして、入力ビデオを参照フレームとして、4Dサンプリングの条件として使用します。より長いノベルビュー映像を生成するために、最初に生成されたフレームをアンカーとして使用し、残りのフレームを高密度にサンプリング(補間)します。詳しくは[技術レポート]をご覧ください。

重要なポイント 

現状とパフォーマンス
Stable Video 4Dは、8つの視点から5フレームの動画を約40秒で生成することが可能で、4D最適化プロセス全体は約20〜25分で完了する。この技術は、ゲーム開発、ビデオ編集、バーチャルリアリティの分野での幅広い応用が期待されており、専門家は複数の視点から対象物を見ることで、製品の臨場感や没入感を高めることができる。

技術革新
画像拡散モデル、動画拡散モデル、多視点拡散モデルからのサンプリングを必要とする従来の手法とは異なり、SV4Dは複数の新しい視点動画を同時に生成することで、空間軸と時間軸の一貫性を大幅に改善し、複数の視点とタイムスタンプにまたがるオブジェクトの外観の一貫性を保証します。

アプリケーションの視点
SV4Dの軽量な4D最適化フレームワークは、バーチャルリアリティやビデオ編集などの分野に革新をもたらし、視覚効果と創造性のより良いバランスをいかに実現するかが、今後実現されていくだろう。

シェア

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です