
隨著人工智慧技術的飛速發展,影像到影片(I2V)生成已成為藝術與科技融合的前沿領域。然而,現有方法在將靜態繪畫轉化為動態影片時,仍面臨兩大核心挑戰:
(1)不動:現有模型無法準確解讀和執行文字提示中的運動指令,導致生成的影片缺乏動態效果或完全靜止;
(2)亂動:模型在嘗試賦予靜態繪畫動態效果的過程中,可能會出現與原作品風格不符或破壞其完整性的現象。
針對上述難題,西安交通大學、合肥工業大學以及澳門大學的研究團隊聯合提出一個零訓練影像轉影片框架——“Every Painting Awakened”,成功實現靜態繪畫的動態化生成。
該技術不僅能讓靜態油畫根據提示文字動起來,更可精準保持原畫筆觸的微妙漸變,解決了藝術動畫領域長期存在的動態失真與風格偏離兩大難題。

論文標題:
Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation
論文連結:
https://arxiv.org/abs/2503.23736
專案主頁:
https://painting-animation.github.io/animation/



▲ Every Painting Awakened 示例

從靜態到動態:藝術動畫的終極挑戰
“Every Painting Awakened” 創新性地引入雙路徑分數蒸餾技術與混合潛在融合機制,突破性實現:
-
動態精準控制:透過預訓練影像模型的文字-影像對齊能力,將文字提示編碼進影像域空間。
-
風格完美繼承:在潛在空間進行球面線性插值,確保動態化過程不損傷原作色彩、筆觸等藝術特徵。
-
即插即用部署:無需額外訓練,可直接增強現有 I2V 模型。

核心技術解析

▲ Every Painting Awakened 架構
“Every Painting Awakened” 框架首先應用一個預先訓練的影像模型從真實繪畫中生成一個代理影像,代理影像作為後續步驟的未來指導。隨後將雙路徑分數蒸餾取樣應用於真實繪畫和代理影像,得到兩個更新的初始影片潛在向量。
這兩個向量沿時間維度進行球形插值,以生成融合的潛在向量。該融合向量被用作 I2V 模型的輸入,用於影片生成。
框架的核心技術主要集中在兩個方面:
1. 雙路徑得分蒸餾(Dual-path Score Distillation)
問題:靜態繪畫缺乏動態資料支撐,模型難以捕捉運動規律。
方案:構建雙路徑架構,從代理影像中提取動態先驗,同時從真實繪畫中保留原畫靜態細節。
效果:既保證畫作風格的完整性,又為動態生成提供運動邏輯支援。
2. 混合潛在融合(Hybrid Latent Fusion)
問題:動態生成過程中,畫面過渡生硬或風格斷裂。
方案:在潛在空間中透過球面線性插值(Slerp)融合真實繪畫特徵與代理影像的動態特徵。
效果:實現自然流暢的時序過渡,確保動態與靜態元素的和諧統一。

實驗結果
研究顯示,“Every Painting Awakened”不僅能夠大幅提升與文字提示語義上的契合度,同時也能忠實地保留原繪畫的獨特風格和完整性。

▲ 在各 I2V 基礎模型上的評估結果和消融實驗結果

▲ AnimateAnything 模型上的示例

▲ ConsistI2V 模型上的示例

▲ Cinemo 模型上的示例

總結與未來方向
“Every Painting Awakened” 框架為數字藝術、影視特效等領域提供了高效工具。例如,博物館可將經典畫作轉化為動態展覽。當靜態藝術遇上動態 AI,技術與美學的邊界再次被突破。
這項研究不僅讓靜態繪畫“活”了起來,更以零訓練成本的優勢,為創意產業注入新動能。未來,研究將探索複雜場景推理最佳化,進一步提升長影片生成的連貫性。

參考文獻

[1] Z. Dai, Z. Zhang, Y. Yao, B. Qiu, S. Zhu, L. Qin, W. Wang, Fine-grained open
domain image animation with motion guidance, arXiv (2023).
[2] W. Ren, H. Yang, G. Zhang, C. Wei, X. Du, W. Huang, W. Chen, Consisti2v: Enhancing visual consistency for image-to-video generation, Transactions on Machine Learning Research (TMLR) (2024).
[3] X. Ma, Y. Wang, G. Jia, X. Chen, Y.-F. Li, C. Chen, Y. Qiao, Cinemo: Consistent
and controllable image animation with motion diffusion models, Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2025).
更多閱讀




#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
