只要一張圖就能「還原」25秒繪畫過程,這個AI爆火新專案讓畫師怒了

AI 繪圖圈大神、ControlNet 作者張呂敏又雙叒叕發新專案了。
這次推出的專案名為 Paints-Undo,支援圖片的輸入,然後倒推出人類繪製該影像的序列,包括但不限於素描、勾線、上色、陰影、變換、甚至能模擬在創作過程中改變思路的場景。
模型處理一張圖片的時間大約在 5 至 10 分鐘之間,最終生成的影片時長為 25 秒,幀率為 4 FPS,解析度支援 320×512、512×320、384×448、448×384 等多種格式。
據介紹,「Paints-Undo」 這個名字的靈感來自繪畫軟體中的「撤銷」功能,模型輸出成果的過程中如同連續按下 Ctrl+Z。
附上 GitHub 專案地址:https://github.com/lllyasviel/Paints-UNDO
作者也分享了一些實際的案例展示:
例如,輸入一張扎著馬尾辮、並且戴著紅色髮帶的動漫風格圖片,就能輸出一條 25 秒的影片,涵蓋了從素描到成圖的全過程。
又或者,它甚至還能改變繪製過程中的整體思路,以多種視角展示從草稿到成品的順序。
不過,作者本人也坦誠,該專案在某些方面仍存在侷限。
例如,模型難以再現逼真的圖片內容,當要它還原經常讓你「上當受騙」的 Rickroll 時,你可以很明顯地發現,最後輸出的影片結果和原照片還是有肉眼可見的區別。
而在處理一些複雜的構圖上,模型則容易歇菜。你看,原圖試卷紙張上的不少細枝末節在輸出後就被抹去,整體畫面給人一種形似而神不似的感覺。
並且,模型也還在努力理解一些諸如水瓶在激起水花場景下的特殊概念,又或者輸出的影片結果並不遵循設計場景中的工作流程。
在模型架構上,該專案包含兩個基於 Stable Diffusion 1.5 修改而成的模型,分別是單幀模型 paints_undo_single_frame 和雙幀模型 paints_undo_multi_frame。
單幀模型的工作方式是給定一張輸入的圖片和一個操作步驟的數量。它可以模擬撤銷一定次數的操作並生成相應的中間影像。
設創作一幅畫需要經過 1000 次操作步驟,每次操作都像在畫布上加一筆。
我們可以把這個模型想象成「撤銷」(Ctrl+Z)功能,比如輸入最終影像並指定撤銷多少次,模型會生成撤銷相應次數後的影像。
多幀模型則是同時輸入兩幅影像,生成這兩幅影像之間的中間幀。雖然生成速度較慢、效果較差,但生成的結果更加一致。
在實際的運作過程中,該專案通常會結合這兩種模型的優勢。
首先,用單幀模型生成大約 5 到 7 個關鍵幀,然後用多幀模型在這些關鍵幀之間插入更多的中間幀,生成一個較長的影片片段。
雖然理論上這種方法可以用來生成無限長的影片,但實際上當最終幀數約為 100-500 時,效果會更好。
隨著 AI 逐漸滲透到繪畫界,一個普遍的現象卻是,我們越發難以區分一些照片是出自 AI 還是真人之手。相應地,一些畫師也同樣面臨著約稿人的質疑。
AI 的第一屬性依然是工具性,其主要目的是輔助人類創作。
但可預見的是,一方面,新專案的推出可以幫助使用者「倒推」,以及學習別人的作畫過程,只不過也不用對它抱有太大希望,畢竟 AI 犯錯才是常態。
另一方面,這或許也容易滋生一些 AI 畫作冒充人類手稿,擾亂市場秩序的亂象。眼見不一定為實,接下來約稿人也要擦亮眼睛了。

相關文章