今天繼續聊聊科技圈的那些事兒。
一篇來自英偉達、斯坦福、伯克利、UT Austin 和 UCSD 的超酷研究——用AI一鍵生成1分鐘連貫動畫影片!
這篇論文已被計算機視覺頂會 CVPR 2025 接收。

專案主頁:
https://test-time-training.github.io/video-dit
文章地址:
https://arxiv.org/pdf/2504.05298
還有另一個亮點Wish-to-Game, 把你的想法變成真正的遊戲。不要程式碼,只憑感覺和想象力。

嚐鮮地址:
https://www.astrocade.com
一分鐘影片生成
影片生成這事,早就不是新鮮事。你現在就能在網上找到一些從文字生成影片的工具。但一直存在一個問題卡住了所有人:怎麼讓 AI 生成「連續一分鐘」的、有起承轉合、還能講故事的影片?
目前的大多數模型,比如 OpenAI 的 Sora 或 Meta 的 MovieGen,最長只能生成十幾秒。而這篇來自 NVIDIA、斯坦福等機構的論文展示了一個突破:他們讓模型生成了完整的一分鐘動畫,而且不用剪輯、拼接、也不用後期處理,一次性生成完畢!
這個黑科技的核心,是一種叫 Test-Time Training (TTT) 的結構。
來看看幾段樣片:
蘋果派:
水下冒險:
嘉年華:
像這這樣的短片總共有五個,大家也可以到他們的官網去檢視詳細提示詞還有故事梗概。
大家認為效果怎麼樣?要是我不提前說的話,能猜出來是AI生成的嗎?
重點來了TTT-MLP是根據文字劇本一次性生成的1分鐘動畫,沒有任何後期剪輯或拼接!
不少網友看完也是紛紛點贊,感嘆“AI封神了”:


TTT層讓Transformer變"長記性"
現在的AI生成影片有個痛點:記性太短, 因為傳統的 Transformer 模型根本吃不下。就像金魚一樣,生成20秒後就忘記前面發生了什麼。
TTT 是一種改造過的 RNN 層,它的隱藏狀態不是死板的向量或矩陣,而是一個可以訓練的神經網路!
它能在生成時繼續最佳化自己,就像給 Transformer 裝了一個臨場發揮模組。
同時還開發了一個特別的 GPU 加速演算法,把大部分中間狀態裝進共享記憶體,避免過多資料傳輸,提升效率。

架構核心,如圖所示:

-
每個注意力層後面加一個帶“學習門控”的 TTT 層;
-
Transformer 只處理 3 秒片段(區域性),TTT 層負責跨片段理解(全域性);
實力對比
研究團隊把他們的 TTT-MLP 模型和當前主流的幾種長影片生成方案做了對比,包括:
-
Mamba 2:線性 RNN 變體
-
Gated DeltaNet:另一種流行的高效 RNN 層
-
Sliding-window Attention:區域性注意力機制
故事線:湯姆愉快地坐在廚房的桌子旁吃蘋果派。傑瑞則帶著渴望的表情,希望自己也能嘗一嘗。 傑瑞走到房子的前門外,按響了門鈴。
當湯姆去開門時,傑瑞繞到房子的後面進入廚房,偷走了湯姆的蘋果派。 傑瑞拿著派跑向他的鼠洞,而湯姆則在追逐他。就在湯姆快要抓住傑瑞的時候,傑瑞鑽進了鼠洞,而湯姆撞到了牆上。

我們可以看到TTT-MLP是表現最好的。
-
TTT-MLP 在場景變化和不同角度下保持時間一致性,生成平滑且高質量的動作。
-
Sliding-window Attention改變了廚房環境,變換了房子的顏色,並多次重複傑瑞偷餡餅的動作。
-
Gated DeltaNet 在湯姆的不同角度缺乏時間一致性,但在後續幀中保持了廚房環境的一致性。
-
Mamba 2 在湯姆咆哮並追逐傑瑞時扭曲了他的外貌,但在整個影片中保持了廚房環境的一致性。
詳細的對比影片也可以在官網檢視。
TTT的特點
優點:
-
能處理複雜多場景故事
-
保持角色和場景的一致性
-
動作自然流暢(大部分時候)
現存問題:

-
物體有時會"飄浮":乳酪懸浮在空中,而不是自然地掉落到地面。
-
燈光變化不太自然:當湯姆轉身時,廚房的光線變得顯著更亮
-
複雜鏡頭運動還不夠精準:在同一場景的每個 3 秒段落中,方塊會發生形態變化
-
生成速度有待提升(目前比傳統方法慢1.4倍)
團隊為這次研究專門構建了一個數據集,讓湯姆和傑瑞再次就業。從已有的《貓 和老鼠》動畫中提取了 7 小時影片 + 精細故事板註釋。
注意,這次訓練目標不是“模仿原畫風”,而是專注於:
-
故事連貫性
-
場景切換處理
-
動作和劇情的因果性
他們的目標是:生成複雜多場景、長篇動態影片,為通用影片生成鋪路。
Wish-to-Game
最近“vibe coding”火了,大家說以後程式設計師只靠說話就能寫程式碼。現在,vibe game design 也來了!
一個名叫 Astrocade 的團隊推出了“Wish-to-Game”平臺,主打一句話生成可玩的遊戲!
什麼是 Wish-to-Game?
簡單說,將你的所有遊戲想法透過語言實現。 這聽起來是不是一件非常酷炫的事情。
我們在官方平臺上,透過對話的形式逐漸創作出屬於你自己的遊戲。

網友在評論區瘋狂輸出自己的各式各樣的想法,Astrocade公司也都回答到快去嘗試!



-
水下障礙賽?
-
貓咪的互動小說?
-
中土世界的農場經營模擬?
統統沒問題,就是你說我做、說完就能玩。

最後一句話
如果說此前的影片生成技術只能做“會動的美圖”,那這次 TTT 模型,算是讓 AI 講起了有頭有尾的故事。
那 Astrocade 就是讓 AI 和你一起創造能玩的故事。
兩者都在指向一個清晰的未來方向:想法變作品只需要一句話。
你會用 AI 講一個怎樣的故事,做一個什麼樣的遊戲?歡迎在評論區分享你的看法!
如果喜歡這類內容,別忘了點贊關注~ 下期我們會帶來更多有趣的AI前沿研究。我是 Jack,我們下期再見!
