
夕小瑤科技說 原創
作者 | 兔子醬
這兩天,ICLR 2025 的 discussion phase 臨近截止,截止目前,驚現了一篇滿分論文,4個審稿人同時打出了10分、10分、10分、10分,這是什麼炸裂的存在?!
同時征服了所有的審稿人,都給出了最高檔評級strong accept!

這篇論文來自AI繪圖界的賽博佛祖——張呂敏,業內稱他為敏神,他還是大名頂頂的ControlNet的作者。
而這次獲得最高分的論文,是他半年前就在GitHub上開源的一個專案——叫IC-Light。
IC-Light,全稱是"Imposing Consistent Light",就是控制影像照明,簡而言之,動動嘴就能控制圖片的光影效果。
目前,這個專案已經獲得5.8K的star,非常火爆。它的牛逼之處就在於,可以隨意控制照片主體的光源和背景,將主體、光源、背景三者迅速地融合在一張圖片裡,非常真實。

目前IC-Light支援兩種控制方式:基於文字引導和基於背景圖來引導。
對於任意一張照片,透過提示詞迅速地改變光影效果;或者指定一張背景照片,重新打光,迅速地生成符合新背景環境光線的照片。
文字引導生成
Prompt: beautiful woman, detailed face, sunshine, outdoor, warm atmosphere提示:美女、細緻的臉龐、陽光、戶外、溫馨的氛圍
Lighting Preference: Right照明偏好:右

Prompt: Buddha, detailed face, sci-fi RGB glowing, cyberpunk
提示:佛像、細緻的臉部、科幻RGB發光、賽博朋克
Lighting Preference: Left照明偏好:左

Prompt: beautiful woman, detailed face, light and shadow提示:美麗的女人,細緻的臉龐,光影
Lighting Preference: Left照明偏好:左

背景引導生成


在 ICLR 投稿之前,這個工作就已經開源了,最初只適配於SD1.5和SDXL,最近作者又推出了V2版本IC-Light V2 ,基於FLUX,具有 16ch VAE 和原生高解析度。
V2版本細節保留能力遠高於SD1.5的版本,具有更好的主體風格一致性。基於SD1.5有時候會對原始影像的風格進行修改,比如,下面這張圖的生成效果。

V2的版本在保持主體風格一致性的前提下,生成完美融合光源背景的圖片。

目前,作者釋出了兩種型別的模型:文字條件重新光照模型和背景條件模型。兩種型別都需要前景影像作為輸入。
如果想了解更多細節和想試玩的小夥伴,看這裡~
Github連結V1版本 :
https://github.com/lllyasviel/IC-Light
https://github.com/lllyasviel/IC-Light
V2 版本:
https://github.com/lllyasviel/IC-Light/discussions/98
https://github.com/lllyasviel/IC-Light/discussions/98
敏神還貼心地放出了打光模型的體驗地址,但是隻能體驗第一種文字引導的生成方式,想要什麼圖需要放在提示詞文本里控制。
https://huggingface.co/spaces/lllyasviel/IC-Light8
另外,網上還有大神【Zho】做好了IC-Light 的 Colab 方案,也不需要排隊等待,這個Colab把背景圖引導的方式也支援上了,背景圖片 + 簡單提示詞,就可以進行重新打光,地址在這裡:
https://colab.research.google.com/drive/1-pXSpTH-zNhaAKFmMvh-xj7Zp9781L2f?usp=sharing
這個IC-Light是真的強。
就好比ControlNet的出現直接將Stable Diffusion從AI繪畫玩具變成了可控的AI繪畫工具一樣。
IC-Light代表的是落地級的工具外掛,直接把AI繪畫工具幹到生產力級別的神器!
有了這個神器,大量的AI繪圖的場景,比如電商場景裡千千萬萬件商品的拍攝、模特拍照,照相館裡的人物寫真攝像,還有室內家居設計,這些需要主體和背景結合的圖片內容,都能規模化批次生產。
因為它能夠輕易地解決主體、背景、光線的融合銜接問題。
這將是AI繪畫變成生產力工具的一塊重要拼圖。
滿分論文的作者張呂敏
IC-Light、ControlNet這些專案是真的強,不過,我覺得更強的是他們的作者——張呂敏。
他2021年本科畢業於蘇州大學,後來去斯坦福讀博。

從大學開始就開始研究AI繪畫,大一就發了paper了,本科期間一共發了10篇論文一作,都是AI繪畫相關的。
本人非常低調,我去搜了一下,他連Google Scholar賬號都沒有註冊,論文這麼高產,大幾百上千的citation早就有了。
他的GitHub專案主頁是:
https://github.com/lllyasviel

動輒一個專案就幾K的star,簡直就是AI繪圖屆的頂流。
Paints-UNDO是一個將真實人類繪畫行為建模到AI繪畫模型中,生成更符合人類審美和創作風格的影像。透過分析人類在繪畫過程中的操作,例如畫筆的移動、顏色選擇等,來學習人類的創作意圖。然後,將這些意圖融入到 AI 模型的訓練中。
另一項出圈的專案是LayerDiffuse,給一句prompt,用Stable Diffusion可以直接生成單個或多個透明圖層(PNG),區別於摳圖,它是用模型生成透明影像。
能夠十年如一日堅持在AI繪畫領域深耕,重點是開源的,這一點非常值得我敬佩。
熱愛+堅持+分享,永遠是最動人的。
願你和我都能在熱愛的領域發光!


關鍵詞
模型
影像
論文
作者
AI繪畫