內容生成AI進入視頻時代!

Meta發布「用嘴做視頻」僅一周,谷歌CEO劈柴哥接連派出兩名選手上場競爭。

第一位Imagen Video與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。

另一位選手Phenaki,則能根據200個詞左右的提示語生成2分鐘以上的長鏡頭,講述一個完整的故事。

網友看過后表示,這一切進展實在太快了。

也有網友認為,這種技術一旦成熟,會沖擊短視頻行業。

那么,兩個AI具體有什么能力和特點,我們分別來看。

Imagen Video:理解藝術風格與3D結構

Imagen Video同樣基于最近大火的擴散模型,直接繼承自5月份的圖像生成SOTA模型Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解并生成不同藝術風格的作品,如“水彩畫”或者“像素畫”,或者直接“梵高風格”。

它還能理解物體的3D結構,在旋轉展示中不會變形。

最后它還繼承了Imagen準確描繪文字的能力,在此基礎上僅靠簡單描述產生各種創意動畫,

這效果,直接當成一個視頻的片頭不過分吧?

除了應用效果出色以外,研究人員表示其中用到的一些優化技巧不光對視頻生成有效,可以泛化至一般擴散模型。

具體來說,Imagen Video是一系列模型的集合。

語言模型部分是谷歌自家的T5-XXL,訓練好后凍結住文本編碼器部分。

與負責從文本特征映射到圖像特征的CLIP相比,有一個關鍵不同:

語言模型只負責編碼文本特征,把文本到圖像轉換的工作丟給了后面的視頻擴散模型。

基礎模型,在生成圖像的基礎上以自回歸方式不斷預測下一幀,首先生成一個48*24、每秒3幀的視頻。

接下來,一系列空間超分辨率(Spatial Super-Resolution)與時間超分辨率(Temporal Super-Resolution)模型接連對視頻做擴展處理。

所有7種擴散模型都使用了v-prediction parameterization方法,與傳統方法相比在視頻場景中可以避免顏色偏移。

這種方法擴展到一般擴散模型,還使樣本質量指標的收斂速度更快。

此外還有漸進式蒸餾(Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節省顯存消耗。