穩定的視訊 4D (SV4D) 是以穩定視訊擴散 (SVD) 和穩定視訊 3D (SV3D) 為基礎的生成模型,可接收物件的單視訊,並生成該物件的多個新視訊 (4D 影像矩陣)。
什麼是 Stable Video 4D?
Stability AI 推出了一款名為 Stable Video 4D 的全新生成式 AI,大幅擴展了視訊生成的可能性。該模型接受視訊輸入,並從八個不同的角度產生數個新視訊。Stable Video 4D 的主要優勢在於它將視訊觀點的合成與視訊產生結合在單一流程中,提高了 3D 的一致性與時間上的流暢性。
Stable Video 4D Model(穩定視訊 4D 模型)經過訓練,可在 576×576 解析度下產生 40 個畫面(5 個視訊畫面 x 8 個攝影機視圖),並給定 5 個相同大小的參考畫面。若要從單一視圖視訊產生 5×8 的影像矩陣,首先在第一個輸入幀上執行 SV3D,依照指定的攝影機路徑產生一個軌道視訊,然後將軌道視訊用作 SV4D 的參考視圖,並將輸入視訊用作參考幀,作為 4D 取樣的條件。若要產生較長的新視圖視訊,我們會使用第一個產生的畫面作為錨點,然後對其餘的畫面進行密集取樣(插補)。詳情請參閱我們的 [技術報告]。
主要心得:
狀態與效能
Stable Video 4D 能在約 40 秒內從 8 個視點產生 5 幀視訊,整個 4D 最佳化過程約需 20 至 25 分鐘。這項技術可望在遊戲開發、視訊編輯和虛擬實境等領域有廣泛的應用前景,專業人士可從多角度觀看物件,以提升產品的真實感和沉浸感。
技術創新
不同於以往需要從影像擴散模型、視訊擴散模型和多視點擴散模型取樣的方法,SV4D 可同時製作多個新視點視訊,大幅改善空間軸和時間軸的一致性,確保物件在多個視點和時間戳中的外觀一致性。
應用角度
SV4D輕量級的4D優化框架為虛擬實境、視頻編輯等領域帶來了創新,如何在視覺效果和創意之間取得更好的平衡,將在未來實現。