“計算機視覺被GPT-4o終結了”(狗頭)

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者 | 夢晨
一夜之間,CV被大模型“解決”了(狗頭)。
萬物皆可吉卜力之後,GPT-4o原生多模態影像生成更多玩法被開發出來。
一個男友回頭表情包,可以秒變語義分割圖。
也可以秒變深度圖。
這下不光上一代AI畫圖工具和設計師,計算機視覺研究員也哭暈在廁所了。
這是NASA前工程師測試特斯拉自動駕駛系統的偽裝“隱形牆”,在GPT-4o面前也無所遁形。
這下OpenAI應用研究主管Boris Power已經把腦筋動到了自動駕駛,稱只需要訓練最強大的基礎模型,然後微調。
3D渲染領域也慘遭毒手,GPT-4o可以生成PBR材質(基於物理渲染的材質),紋理、法線貼圖等直接來一套。
對於這些能力,也有人認為沒什麼大不了的,Stable Diffusion + ControlNet就可以全部實現。
但不可否認,靠擴大基礎模型規模就能做到,也是令人意想不到的。

GPT-4o影像生成是自迴歸模型

這波GPT-4o原生影像生成的技術細節,OpenAI是一點也沒有公佈(粗節也沒有公佈)。
但還是有人從System Card中發現了蛛絲馬跡。
與DALL·E是一個擴散模型不同,GPT-4o影像生成是原生嵌入在ChatGPT內的自迴歸模型。
還有人觀察影像的生成過程,發現很可能是多尺度自迴歸的組合,先生成一個粗略的影像,填充細節的同時,粗略圖形本身也在變化。
自迴歸模型根據之前的畫素或patch預測下一個畫素或patch,獲得更好地遵循指令,以及影像編輯的能力。
但也有人引用發OpenAI員工Allan Jabri曬出的板書圖,提出在解碼階段仍然有可能用了擴散模型。
針對這一猜想,更具體的實現方法可以參考Meta等24年8月的一篇論文:使用一個多模態模型同時預測預測下一個token和擴散影像。
最後,微信評論區能發圖片了,歡迎大家把更多GPT-4o有趣玩法曬出來~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
https://arxiv.org/abs/2408.11039v1
參考連結:[1]https://x.com/fofrAI/status/1905289275316326679[2]https://x.com/a_karvonen/status/1905372299814932963

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章