點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

夢晨 發自 凹非寺轉載自:量子位(QbitAI)
一夜之間,CV被大模型“解決”了(狗頭)。
萬物皆可吉卜力之後,GPT-4o原生多模態影像生成更多玩法被開發出來。
一個男友回頭表情包,可以秒變語義分割圖。

也可以秒變深度圖。

這下不光上一代AI畫圖工具和設計師,計算機視覺研究員也哭暈在廁所了。

這是NASA前工程師測試特斯拉自動駕駛系統的偽裝“隱形牆”,在GPT-4o面前也無所遁形。


這下OpenAI應用研究主管Boris Power已經把腦筋動到了自動駕駛,稱只需要訓練最強大的基礎模型,然後微調。

3D渲染領域也慘遭毒手,GPT-4o可以生成PBR材質(基於物理渲染的材質),紋理、法線貼圖等直接來一套。

對於這些能力,也有人認為沒什麼大不了的,Stable Diffusion + ControlNet就可以全部實現。

但不可否認,靠擴大基礎模型規模就能做到,也是令人意想不到的。
GPT-4o影像生成是自迴歸模型
這波GPT-4o原生影像生成的技術細節,OpenAI是一點也沒有公佈(粗節也沒有公佈)。
但還是有人從System Card中發現了蛛絲馬跡。
與DALL·E是一個擴散模型不同,GPT-4o影像生成是原生嵌入在ChatGPT內的自迴歸模型。

還有人觀察影像的生成過程,發現很可能是多尺度自迴歸的組合,先生成一個粗略的影像,填充細節的同時,粗略圖形本身也在變化。

自迴歸模型根據之前的畫素或patch預測下一個畫素或patch,獲得更好地遵循指令,以及影像編輯的能力。
但也有人引用發OpenAI員工Allan Jabri曬出的板書圖,提出在解碼階段仍然有可能用了擴散模型。

針對這一猜想,更具體的實現方法可以參考Meta等24年8月的一篇論文:使用一個多模態模型同時預測預測下一個token和擴散影像。


最後,微信評論區能發圖片了,歡迎大家把更多GPT-4o有趣玩法曬出來~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
https://arxiv.org/abs/2408.11039v1
參考連結:[1]https://x.com/fofrAI/status/1905289275316326679[2]https://x.com/a_karvonen/status/1905372299814932963
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
