發現W.A.L.T：一種革命模型，生成圖像或文本的視頻

W.A.L.T是什麼，該模型從圖像或文本生成視頻？

2023年12月27日，斯坦福大學，Google Research和Georgia理工學院的研究人員介紹了窗戶注意力潛伏變壓器（W.A.L.T）模型。利用變壓器神經網絡體系結構並為潛在視頻擴散模型（LVDMS）提供新穎的方法，它促進了從靜態圖像或文本描述中產生的感性視頻。

### W.A.L.T團隊的創新方法

研究人員使用自動編碼器將視頻和圖像映射到降低維度的統一潛在空間，從而使學習和產生跨越模態。通過培訓W.A.L.T對視頻和圖像的同時培訓，他們從一開始就為運動提供了更深入的了解。

此外，變壓器塊的專門設計使他們可以對潛在的視頻擴散進行建模。這些障礙在空間和時空自我發項層之間交替，空間注意力僅限於窗口。該設計提供了很大的優勢，包括由於局部窗戶的關注而減少了計算需求，以及獨立處理圖像和視頻幀的聯合培訓的可能性。

### W.A.L.T的出色表現

研究小組指出：“綜上所述，這些設計選擇使我們能夠在既定視頻（UCF-101和Kinetics-600）和Image（Imagenet）生成基准上實現最先進的性能，而無需使用無分類器指導。 “

圖像和視頻被編碼到共享的潛在空間中。變壓器主鏈通過具有兩個窗戶限制的注意的塊處理這些潛在的塊：空間層在圖像和視頻中捕獲空間關係，而時空層則在視頻中模型的時間動力學並通過身份注意力掩模過渡圖像。文本條件是通過空間跨注意完成的。

研究人員培訓了三個模型的級聯，用於文本到視頻生成任務：產生小型128 x 128像素剪輯的基本潛在視頻擴散模型，由兩個超級分辨率視頻擴散模型進行了更新，該模型產生了3.6秒的視頻，在8每秒幀，達到512 x 896像素的分辨率。

W.A.L.T展示了強勁的性能，尤其是在視頻平穩性方面，並且似乎驗證了研究人員的斷言：“圖像和視頻的統一框架將彌合圖像和視頻生成之間的差距”。

### W.A.L.T對文本到視頻生成領域的貢獻

W.A.L.T是對文本到視頻生成領域的重要貢獻，提供了幾個關鍵優勢：

1. **統一的框架：**通過在圖像和視頻上訓練單個模型，W.A.L.T對視覺內容有了全面的了解，使其能夠生成既現實又連貫的視頻。

2. **注意力的注意力：**使用窗口的注意力使W.A.L.T可以專注於視頻的本地區域，從而降低計算成本並提高培訓效率。

3. **最新的性能：** W.A.L.T在既定的視頻和圖像生成基準中實現最新的結果，這表明了其在從文本或圖像提示中生成高質量視頻時的出色性能。

W.A.L.T的功能為創意內容，視頻編輯以及娛樂，教育及其他地區的各種應用開闢了新的可能性。它代表了AI驅動視頻合成領域的重要一步。