
作者丨王 悅
編輯丨陳彩嫻
Scaling Law 或將終結——這是最近備受熱議的話題之一。該討論最初源自於哈佛大學一篇名為《Scaling Laws for Precision》的論文,其研究表明當下的語言模型在大量資料上經歷了過度訓練,繼續疊加更多的預訓練資料可能會產生副作用。
這釋放的訊號是:在自然語言處理領域, Scaling Law 目光所及地到達瓶頸,單純依靠增加模型規模和資料量來提升效能的方法也許不再有效,低精度的訓練和推理正在使模型效能提升的邊際效益遞減。
Scaling Law 在 NLP 的路上確實展現出了「即將到頭」的前兆,但這並不意味著其末日真的來臨。在多模態模型領域,由於多模態資料包含影像、影片、音訊等多種型別,在資訊豐富度、處理方法、應用領域方面均較為複雜,難以達到較大的訓練規模體量,因此 Scaling Law 尚沒有被真真切切地驗證過。
然而,清華系大模型公司生數科技最新發布的 Vidu1.5 表明,多模態領域的 Scaling Law 才剛剛起步。透過持續的 Scaling Up , Vidu 1.5 已經來到了「奇點」時刻,湧現出了「上下文能力」,能夠理解記憶所輸入的多主體資訊,並表現出對複雜主體更精準的控制能力。無論是細節豐富的角色還是複雜的物體,透過上傳不同角度下的三張圖片,Vidu 1.5 能保證單主體形象的高度一致。
Vidu 1.5 除了能對單個主體進行精確控制,也實現了多主體之間的一致性。使用者可以上傳包含人物角色、道具物體、環境背景等多種元素的影像,Vidu能夠將這些元素無縫的融合到一起,並實現自然互動。
Vidu 在主體一致性方面取得種種突破,不僅是 Scaling Law 法則在發揮作用,根本原因在於其所採用的無微調、大一統的技術架構方案。當前的影片模型為了實現一致性,大多是採用在預訓練的基礎上再針對單個任務進行微調的 LoRA 方案,而 Vidu 的底層模型跳出業界主流方案,做出了開拓性的改變。
無獨有偶,回顧大語言模型的發展歷程,會發現從 GPT-2 到 GPT-3.5 發生質變的標誌,也是實現了從預訓練+特定任務微調的方式到整體統一框架的突破。可以說,Vidu 1.5的推出,開啟了多模態大模型的 GPT-3.5 時刻。
Sora 自年初發布之後,再無其他迭代的新版本,其他家的影片生成創業團隊也彷彿沒了錨定的方向,大多是在 DiT 架構上進行些衍生性工作。對於這一現象,生數科技 CTO 鮑凡則表示:我們不會在 Sora 劃定好的路線上去追趕,而是從一開始就在走自己的路,瞄準通用多模態大模型的目標,去實現相應的能力。
從早於 Sora 釋出全球首個基於 Diffusion 的 Transformer 架構U-ViT,到首次實現用統一的架構處理泛化任務,生數有的不僅是先發優勢,更是持續突破的能力。Vidu 和業界其他的影片生成模型相比,已經初步形成技術代差。
實現主體一致性,是影片模型領域一塊難啃的骨頭。「這就好比,你知道發動機對於一輛汽車來講很重要,也知道如果發動機有質的改變,那麼汽車的效能也會隨之提升,但就是很難造出來一臺好的發動機。」鮑凡告訴 AI 科技評論。
包括 Sora 在內,國內外的影片模型都沒有在主體一致性方面有所突破。目前有涉足的是國內的一家大廠,僅侷限於實現人臉一致性的控制,難以保證細節、衣服、造型等細節,而且採用的是LoRA微調方案。
Vidu 在主體一致性方面的成果也並非一蹴而就。2024 年 7 月底, Vidu 上線之初就主打解決一致性問題,並能夠較好地實現面部一致的控制;9月份全球首發「主體參照」功能,把對單主體的控制從面部拓展到整個單主體的形象上;11 月上線的 Vidu 1.5 則進一步提升,可以對單主體的不同視角進行高度精準控制,同時攻破多主體控制的難題。
也就是說,Vidu 在 7 月份上線之時就完成了很多影片生成模型當下正在攻克的事情。
從技術方案上看,其他家都還囿於預訓練+LoRA 微調的方案,這種路線雖然成熟但也存在諸多缺點,諸如因資料構造繁瑣而需要較長的訓練時間、易產生過擬合從而遺忘大量原有知識、無法捕捉細節導致特徵不精準。生數則秉承通用性的理念,透過統一的底層模型技術架構去完成,因此不需要單獨再去進行資料的收集、標註、微調,只需要1到3張圖就能輸出高質量影片。
對比大語言模型的技術演進路線會發現,Vidu 有和大語言模型一致的設計哲學:類似於大語言模型用一個 Transformer 去處理所有的輸入和輸出 tokens,Vidu 作為影片模型也會將所有問題都統一成視覺輸入、視覺輸出的 patches;在此基礎上,再統一架構,Vidu 也像 大語言模型一樣採用單個網路統一建模變長的輸入和輸出。

「統一問題形式」是通用模型的起點。更難的地方在於統一架構,現在 Vidu 已經在最初的 U-ViT 上做了一些顛覆性的設計,和 Sora 的 DiT 架構產生了本質區別,在架構上做到更統一。鮑凡坦言,開發這一架構的難度不亞於從頭設計出一個 Transformer。
大一統架構的前身要追溯到 2022 年 9 月,彼時尚在清華大學朱軍教授的課題組讀博的鮑凡就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文,提出U-ViT 架構,比 Sora 的 DiT 架構提早了兩個月,將 DiT 拒稿的 CVPR2023 卻收錄了 U-ViT。
2023年3月,朱軍教授課題組再次釋出了一項 Unidiffuser 的工作,Unidiffuser 與同階段的 Stable Difussion 1.5 效果基本持平,展示了在視覺任務下的優異能力,更重要是,Unidifuser擴充套件性更強,能基於一個底層模型完成圖文之間的任意生成。簡單來講,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能。之後,而 OpenAI 則是將 DiT 應用於影片任務,生數作為初創團隊則是先將 U-ViT 應用於影像任務,從算力叢集規模要求更小的任務入手進行驗證。
2024 年 4 月,生數的底層模型架構開始在 U-ViT 架構上做出改變,使得團隊率先推出自研影片大模型Vidu,然後這種突破也一直持續著,在7月份正式全球上線的時候,Vidu 在人臉一致性問題上成功地實現了驗證。直到本次 Vidu1.5 版本的釋出,基於這一架構之上的 Scaling Up 讓多模態模型看到了「奇點」。
回顧大語言模型發展過程,GPT-2 的核心思想是在預訓練階段讓模型透過海量的文字資料進行無監督學習,不依賴於特定的任務;在預訓練之後,GPT-2 使用特定領域的標註資料對模型進行細化調整,使其能夠更好地適應特定任務或應用場景。但到 GPT-3.5 的階段,不再採用預訓練加特定任務微調的模式,只需一個更簡單高效的統一架構能夠去支援多種文字任務,模型已經出現了強大的泛化能力。

類似於從 GPT-2 到 GPT-3.5 ,實現了從預訓練加特定任務微調到統一通用的技術架構,Vidu 1.5的推出,讓影片模型正在經歷 GPT-3.5 時刻。也就是說,其他家的影片模型還在 GPT-2 預訓練+微調的階段,生數的 Vidu 已經到了 GPT-3.5 的階段。
統一高效的底層技術架構是 Vidu 的根本所在,但其目前呈現的綜合表現不僅是技術架構使然,更與影片模型的資料工程密不可分。
在人物特寫畫面中,Vidu 1.5 能夠確保人物面部的特徵細節和動態表情變化自然流暢,不會出現面部僵硬或失真的現象。該影片中,小女孩的表情能實現從高興到悲傷的變化十分自然。鮑凡告訴 AI 科技評論,資料對這些細節方面的精心調控非常重要。


隨著高質量資料的一同Scaling Up ,鮑凡坦言,在底層的影片生成模型上也看到了類似於大語言模型的智慧湧現。比如 Vidu1.5 能融合不同主體,將角色 A 的正面與角色 B 的反面無縫融合以創造出全新的角色,這是之前沒有預料到的能力。

除此之外, Vidu1.5 的智慧湧現還可以從模型上下文能力提升、記憶能力增強來窺探一二,這體現在對影片中角色、道具、場景的統一控制。


這一現象的關鍵是解決了「多圖靈活輸入」的問題,類似於語言模型提升了視窗長度。在與聊天機器人對話的過程中,先透過提示詞給出一個角色設定,之後 Chatbot 就能以這個角色的口吻進行互動對話,這說明語言模型不僅僅處理單一的文字輸入資訊,而是透過關聯前後的文字、識別語句之間的關係,生成連貫且符合情境的回答或內容。
同樣的,給影片模型一個主體照片作為 prompt,那麼在下文中無論繼續給出什麼新指令,都能生出上文照片中主體相關的影片。可見,影片模型要想更穩定地生成一致主體,也需要理解前後輸入的、相關聯的文字或圖片資訊,進而根據這些資訊生成一致、連貫且有邏輯的內容。
實際上,從單主體一致性到多主體一致性提升的難度也在於上下文長度。在幾個月之前的單主體架構的設計上,就已經相容現在的多主體一致的架構,而多主體一致相比單主體一致需要更長的上下文長度,從而解決理解更多輸入組合的關鍵問題。
接下來,生數的主攻方向依然會沿著上下文能力這一主線去迭代。「影片模型上下文能力提升後有很大的想象空間。」鮑凡說道。他進一步解釋,在模型中輸入幾段王家衛的電影切片,就可以生成一系列具有王家衛攝影技巧的影片片段;餵給模型一些經典打鬥動作的影片,就能生出打鬥技巧精妙、打戲畫面精良的影片。

Vidu 在上下文能力方面的迭代也有自己的節奏:從初期僅能參考單一主體的面部特徵,到現在能參考多個主體,之後預期可以實現參考拍攝技巧、運鏡、排程更因素。在這個過程中,參考物件從具體到抽象,要求和難度逐漸提升。
因為目前還沒有針對影片模型上下文能力的開源解決方案,所以它並不會像大語言模型一樣,在一家做好 PMF 之後,其他家迅速跟上。從這一角度上來說,Vidu1.5 形成了自己的技術壁壘。
「無微調、大一統的技術架構被生數設計出來,影片模型的智慧湧現先在 Vidu 上得以驗證——這些是必然事件。」鮑凡說道。「因為我們團隊成立之初的願景,就是去做通用的多模態模型。」
生數科技從來沒有走過單一的、針對具體任務進行微調的方案,這與統一高效的架構是相悖的。這也意味著,通用多模態模型是生數的基因所在。
年初 Sora 剛釋出之時,各影片生成創業團隊都在「大秀肌肉」,競爭一度十分激烈。然而行至年終,整個行業有些顯得「後勁不足」,初創公司的進展鮮有較大突破。然而生數科技卻在自己的路線上「精雕細琢」,不僅有規律地提升模型通用性,也不忽略鏡頭感、動態程度等影片畫面細節。
Vidu 1.5 在基礎模型層面便具備了對鏡頭運動的理解能力,能夠生成如推拉搖移+順/逆時針融合的複雜鏡頭,畫面擁有較高表現力和流暢度。比如,輸入提示詞:模特拍攝,她被鮮花簇擁著,光線明亮且自然,鏡頭順時針旋轉推進拍攝,得到如下畫面。
在動態性方面,Vidu1.5 生成的影片動作幅度大且自然,同時新上線了動態控制功能,能準確的控制畫面整體的動態程度。
描述詞:一個戰士拿著槍在戰場奔襲,大動態
描述詞:一個戰士拿著槍在戰場奔襲,中動態
描述詞:一個戰士拿著槍在戰場奔襲,小動態
除了影片能力外,Vidu 也在規劃和佈局 4D 模型、音訊等更多模態。其中,基於影片模型衍生出來的4D 模型,未來能夠對影片實現諸如「調整 6 度」的更加精確運鏡控制。鮑凡表示,目前的初期階段,團隊會先單獨驗證多模態模型中的各個子領域,最後會整合在通用多模態大模型中。
生數技術優勢的愈發凸顯,也給了其在國內影片模型競爭中的底氣。但擺在其前面的挑戰,還有快手、位元組等大廠壓倒性的資源優勢。對此,鮑凡回覆:當目標足夠明確,並且做出的東西真正能夠解決行業問題的時候,我們朝這個方向持續前進,最終結果總會是正確的。
對標世界範圍內領先的 Sora,會發現生數與 Sora 的關注點並不相同。生數科技的定位是通用多模態大模型,而 Sora 更主張做世界模擬器,希望真實的模擬物理世界。雖然世界模擬器是多模態大模型的一個子問題,但生數的通用多模態大模型會強調解決更多實際問題。
生數並不會完全對標 Sora,更不會跟在 Sora 之後亦步亦趨。Vidu 證明了:影片模型不只於 Sora 這一個答案。


更多內容,點選下方關注:
