AI版《貓和老鼠》百萬人圍觀!零剪輯自動生成,60秒神作重新整理AI影片天花板

一分鐘
就有好故事
如果在短影片或者社交媒體上,刷到這條影片,我大概會津津有味看完,然後回想這是《貓和老鼠》哪一集。
哪一集都不是,這不僅完全是 AI 生成的,而且是一次性完成。
影片生成一直以來都有一道「天塹」:時長。市面上主流的生成式影片產品,都是以秒為單位,能超過 10 秒就相當不錯了,還暫且不談這十秒裡畫面崩不崩。
這使得在實際使用中,還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術上限所致,沒辦法。
伯克利、斯坦福聯合英偉達的最新研究,驚人地把一次性生成時長推到了 1 分鐘,無剪輯,卻仍然保持逆天的一致性。
透過引入測試時訓練(Test-Time Training, TTT)層,顯著提升了擴散 Transformer 模型生成長影片的能力,使其能夠生成長達一分鐘、具有複雜多場景故事的連貫影片。
傳統 RNN 層(如 Mamba、DeltaNet)的隱藏狀態為固定大小的矩陣(例如線性投影),rank 限制了壓縮長序列資訊的能力。當處理包含數十萬影片令牌的上下文時,矩陣的線性表達能力不足以捕捉複雜的時空依賴關係。
聚焦在 TTT 層的創新之處有於,以隱藏狀態作為神經網路。在傳統的 RNN 中,隱藏狀態是用來儲存過去資訊的,比如之前的輸入如何影響當前輸出。
通常,這個記憶是一個固定大小的表格(比如數字矩陣),只能簡單記錄過去的資訊,可能不夠靈活。但在這項研究中,作者將隱藏狀態設計成了一個神經網路,這意味著這個「儲存空間」本身具有學習能力。
每當處理新的影片片段時,這個程式會透過練習來調整自己。比如,它會嘗試修復模糊的畫面(自監督任務),根據修復的效果修改自己的內部引數(用梯度下降法)。
同時,處理每一段影片時,神經網路都會根據當前內容調整引數。就像人在做數學題時,每做一題都會總結方法,下一題用改進後的方法一樣。
這樣,模型就能記住更復雜的場景變化(比如貓追老鼠的連貫動作),生成長達一分鐘的流暢影片。
為了檢驗成果,研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間,釋出的 81 集原版動畫,總共超過 400 分鐘。掃描原膠片,保留手繪動畫的線條和抖動特徵。
人工標註團隊依據鏡頭連續性,將平均每 5 分鐘的劇集,分割為 8-12 個場景。並且在這個環節,透過切割和標註的方式,模擬人類編劇從分鏡到劇本的創作過程,使模型學習敘事層次結構。
效果有多好呢?
整整一分鐘的影片,基本完成了劇本中所要求的情節,除了一些轉折處有不自然,整個故事的完整性沒有問題。
場景一致性、運動自然性都有驚人的表現。如追逐的場景,各個物體的屬性、顏色、形狀,以及和空間佈局一致性都沒有崩壞,證明了模型長期記憶的能力。
想象一下動畫片裡湯姆追逐傑瑞的經典場面:湯姆可不是簡單地直線跑,他會急剎車、猛轉彎、跳起來躲避障礙,甚至被砸扁後像彈簧一樣恢復。
這些看似誇張混亂的動作,其實也包含物理邏輯。但要讓 AI 理解這種複雜的動態場景並不容易。
過去 AI 模型(比如用到MLP技術的)需要學會描繪這種「不走直線」的運動軌跡。
現在 AI 有了一支靈活的「畫筆」(MLP的隱藏狀態),讓它能捕捉湯姆突然加速、變向、摔倒滾成球等各種非線性的、但又符合物理規律的運動變化,而不是隻能畫直線。
前面提到的 TTT 層,核心創新就像給湯姆加了一個「外掛」,讓他擁有超強的「臨場反應能力,能根據即時路況(新資料)微調自己的動作。
比如湯姆能看到香蕉皮的那個瞬間(測試時),立刻調整自己的腳步和姿勢(動態調整神經網路引數),試圖躲開或者以一種誇張的方式滑倒(上下文自適應)。
他不再靠以前摔倒的經驗(靜態訓練好的模型),而是當場學習和反應(測試時自監督學習)
不過,基礎模型,本身對複雜動作的學習不夠完美,即使加了 TTT 層,有些錯誤還是會出現。
對於模型能力而言,如何提高視覺處理能力,始終是一個「長期主義」任務。
Kimi 新開源的 Kimi-VL,就是在模型的視覺能力上繼續鑽研提高。在這次開源的論文中可以看到,Kimi 用原生高解析度視覺編碼器 MoonViT,來突破傳統視覺編碼的限制。
傳統方法(如 LLaVA-OneVision)需將高解析度影像分割為子圖再拼接,導致資訊丟失和計算冗餘。
MoonViT 基於 NaViT 的打包策略,將不同解析度的影像拆分為塊並展平為序列,結合 2D 旋轉位置編碼(RoPE),直接處理原生解析度影像,保留細粒度視覺資訊。
用人話來說,湯姆過去想抓住傑瑞,只能透過好幾個小窗戶去看一個大房間(LLaVA-OneVision)。
MoonViT 就像給湯姆換上了一副超高畫質、廣角、還能自動變焦的「超級眼鏡」。
他可以直接看到整個房間(處理原生高解析度影像),無論是牆上的小洞還是桌上的麵包屑都一清二楚(保留細粒度資訊),而且看得又快又好。
同時,Kimi 首次將 MoE 深度整合到視覺語言模型,跨模態的專家協作,能讓語言模型在保留純文字能力(如程式碼生成)的同時,啟用視覺專家處理影像、影片等多模態輸入。
對於視覺-語言的多模態任務而言,模型架構層的研究至關重要,因為多模態資料的異質性、互動複雜性以及任務多樣性對模型的表示能力、計算效率和泛化性提出了獨特挑戰。
想讓 AI 能看、能聽、能跑、能思考,它的內部模型架構就至關重要。
你不能簡單地把眼睛(視覺模組)和耳朵(音訊模組)、大腦(語言處理)零件堆在一起。
必須精心設計它們如何連線、如何協同工作(融合異構資料、跨模態關聯),才能讓 AI 流暢地根據看到的畫面和聽到的聲音做出反應,甚至理解一個包含畫面和對話的故事。
更復雜的是,當我們要讓 AI 生成長影片時,它不僅要保證畫面好看,還得讓整個故事情節前後連貫,講一個完整的故事而不是隨意堆砌場景,一分鐘的 AI版《貓和老鼠》還是一個雛形。
未來,隨著 3D 視覺、音訊等多模態擴充套件,架構研究需進一步探索,跨模態動態路由,結合 TTT 思想設計跨模態互動層,或進一步最佳化隱藏狀態的表達能力(如引入 Transformer 作為隱藏網路),或許是多模態模型架構研究的重要方向。
當大模型擁有了這全套「感官」,那些能幫我們幹活但稍顯愚蠢的通用 AI Agent ,可用性也將大大提升。
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章