AI版《貓和老鼠》百萬人圍觀！零剪輯自動生成，60秒神作重新整理AI影片天花板

2025-08-07 23:07 愛範兒

一分鐘

就有好故事

如果在短影片或者社交媒體上，刷到這條影片，我大概會津津有味看完，然後回想這是《貓和老鼠》哪一集。

哪一集都不是，這不僅完全是 AI 生成的，而且是一次性完成。

影片生成一直以來都有一道「天塹」：時長。市面上主流的生成式影片產品，都是以秒為單位，能超過 10 秒就相當不錯了，還暫且不談這十秒裡畫面崩不崩。

這使得在實際使用中，還是需要剪輯、拼接那些幾秒幾秒的短鏡頭。這是目前的技術上限所致，沒辦法。

伯克利、斯坦福聯合英偉達的最新研究，驚人地把一次性生成時長推到了 1 分鐘，無剪輯，卻仍然保持逆天的一致性。

透過引入測試時訓練（Test-Time Training， TTT）層，顯著提升了擴散 Transformer 模型生成長影片的能力，使其能夠生成長達一分鐘、具有複雜多場景故事的連貫影片。

傳統 RNN 層（如 Mamba、DeltaNet）的隱藏狀態為固定大小的矩陣（例如線性投影），rank 限制了壓縮長序列資訊的能力。當處理包含數十萬影片令牌的上下文時，矩陣的線性表達能力不足以捕捉複雜的時空依賴關係。

聚焦在 TTT 層的創新之處有於，以隱藏狀態作為神經網路。在傳統的 RNN 中，隱藏狀態是用來儲存過去資訊的，比如之前的輸入如何影響當前輸出。

通常，這個記憶是一個固定大小的表格（比如數字矩陣），只能簡單記錄過去的資訊，可能不夠靈活。但在這項研究中，作者將隱藏狀態設計成了一個神經網路，這意味著這個「儲存空間」本身具有學習能力。

每當處理新的影片片段時，這個程式會透過練習來調整自己。比如，它會嘗試修復模糊的畫面（自監督任務），根據修復的效果修改自己的內部引數（用梯度下降法）。

同時，處理每一段影片時，神經網路都會根據當前內容調整引數。就像人在做數學題時，每做一題都會總結方法，下一題用改進後的方法一樣。

這樣，模型就能記住更復雜的場景變化（比如貓追老鼠的連貫動作），生成長達一分鐘的流暢影片。

為了檢驗成果，研究人員用了《貓和老鼠》作為材料。他們收集了 1940-1948 年間，釋出的 81 集原版動畫，總共超過 400 分鐘。掃描原膠片，保留手繪動畫的線條和抖動特徵。

人工標註團隊依據鏡頭連續性，將平均每 5 分鐘的劇集，分割為 8-12 個場景。並且在這個環節，透過切割和標註的方式，模擬人類編劇從分鏡到劇本的創作過程，使模型學習敘事層次結構。

效果有多好呢？

整整一分鐘的影片，基本完成了劇本中所要求的情節，除了一些轉折處有不自然，整個故事的完整性沒有問題。

場景一致性、運動自然性都有驚人的表現。如追逐的場景，各個物體的屬性、顏色、形狀，以及和空間佈局一致性都沒有崩壞，證明了模型長期記憶的能力。

想象一下動畫片裡湯姆追逐傑瑞的經典場面：湯姆可不是簡單地直線跑，他會急剎車、猛轉彎、跳起來躲避障礙，甚至被砸扁後像彈簧一樣恢復。

這些看似誇張混亂的動作，其實也包含物理邏輯。但要讓 AI 理解這種複雜的動態場景並不容易。

過去 AI 模型（比如用到MLP技術的）需要學會描繪這種「不走直線」的運動軌跡。

現在 AI 有了一支靈活的「畫筆」（MLP的隱藏狀態），讓它能捕捉湯姆突然加速、變向、摔倒滾成球等各種非線性的、但又符合物理規律的運動變化，而不是隻能畫直線。

前面提到的 TTT 層，核心創新就像給湯姆加了一個「外掛」，讓他擁有超強的「臨場反應」能力，能根據即時路況（新資料）微調自己的動作。

比如湯姆能看到香蕉皮的那個瞬間（測試時），立刻調整自己的腳步和姿勢（動態調整神經網路引數），試圖躲開或者以一種誇張的方式滑倒（上下文自適應）。

他不再靠以前摔倒的經驗（靜態訓練好的模型），而是當場學習和反應（測試時自監督學習）

不過，基礎模型，本身對複雜動作的學習不夠完美，即使加了 TTT 層，有些錯誤還是會出現。

對於模型能力而言，如何提高視覺處理能力，始終是一個「長期主義」任務。

Kimi 新開源的 Kimi-VL，就是在模型的視覺能力上繼續鑽研提高。在這次開源的論文中可以看到，Kimi 用原生高解析度視覺編碼器 MoonViT，來突破傳統視覺編碼的限制。

傳統方法（如 LLaVA-OneVision）需將高解析度影像分割為子圖再拼接，導致資訊丟失和計算冗餘。

MoonViT 基於 NaViT 的打包策略，將不同解析度的影像拆分為塊並展平為序列，結合 2D 旋轉位置編碼（RoPE），直接處理原生解析度影像，保留細粒度視覺資訊。

用人話來說，湯姆過去想抓住傑瑞，只能透過好幾個小窗戶去看一個大房間（LLaVA-OneVision）。

MoonViT 就像給湯姆換上了一副超高畫質、廣角、還能自動變焦的「超級眼鏡」。

他可以直接看到整個房間（處理原生高解析度影像），無論是牆上的小洞還是桌上的麵包屑都一清二楚（保留細粒度資訊），而且看得又快又好。

同時，Kimi 首次將 MoE 深度整合到視覺語言模型，跨模態的專家協作，能讓語言模型在保留純文字能力（如程式碼生成）的同時，啟用視覺專家處理影像、影片等多模態輸入。

對於視覺-語言的多模態任務而言，模型架構層的研究至關重要，因為多模態資料的異質性、互動複雜性以及任務多樣性對模型的表示能力、計算效率和泛化性提出了獨特挑戰。

想讓 AI 能看、能聽、能跑、能思考，它的內部模型架構就至關重要。

你不能簡單地把眼睛（視覺模組）和耳朵（音訊模組）、大腦（語言處理）零件堆在一起。

必須精心設計它們如何連線、如何協同工作（融合異構資料、跨模態關聯），才能讓 AI 流暢地根據看到的畫面和聽到的聲音做出反應，甚至理解一個包含畫面和對話的故事。

更復雜的是，當我們要讓 AI 生成長影片時，它不僅要保證畫面好看，還得讓整個故事情節前後連貫，講一個完整的故事而不是隨意堆砌場景，一分鐘的 AI版《貓和老鼠》還是一個雛形。

未來，隨著 3D 視覺、音訊等多模態擴充套件，架構研究需進一步探索，跨模態動態路由，結合 TTT 思想設計跨模態互動層，或進一步最佳化隱藏狀態的表達能力（如引入 Transformer 作為隱藏網路），或許是多模態模型架構研究的重要方向。

當大模型擁有了這全套「感官」，那些能幫我們幹活但稍顯愚蠢的通用 AI Agent ，可用性也將大大提升。

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造

跨越模態邊界，探索原生多模態大語言模型

跨越模態邊界，探索原生多模態大語言模型

多模態也做到了強推理！工業界首個開源的R1V，讓視覺思考進入o1時代

多模態也做到了強推理！工業界首個開源的R1V，讓視覺思考進入o1時代

統一SAM2和LLaVA！位元組豆包提出DenseVideo多模態大模型Sa2VA

統一SAM2和LLaVA！位元組豆包提出DenseVideo多模態大模型Sa2VA

單卡3090幫你一口氣看完《黑悟空》，港大百度打造超長影片理解引擎VideoRAG

單卡3090幫你一口氣看完《黑悟空》，港大百度打造超長影片理解引擎VideoRAG

全球首個工業界多模態推理模型開源！38B硬剛DeepSeek-R1，訓練秘籍全公開

全球首個工業界多模態推理模型開源！38B硬剛DeepSeek-R1，訓練秘籍全公開

單卡3090實現超長影片理解！港大團隊打造首個超長影片理解引擎VideoRAG

單卡3090實現超長影片理解！港大團隊打造首個超長影片理解引擎VideoRAG

單張3090讓大模型“看”《黑悟空》，港大百度釋出VideoRAG

單張3090讓大模型“看”《黑悟空》，港大百度釋出VideoRAG

多模態版DeepSeek-R1：評測表現超GPT-4o，模態穿透反哺文字推理能力！北大港科大出品，已開源

多模態版DeepSeek-R1：評測表現超GPT-4o，模態穿透反哺文字推理能力！北大港科大出品，已開源

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

Copyright © 2025 | WordPress Theme by MH Themes