白交 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
何愷明再次開宗立派!開闢了生成模型的全新正規化——
分形生成模型Fractal Generative Models,首次使逐畫素生成高解析度影像成為可能,論文名字依舊延續以往的大道至簡風格。

團隊將生成模型本身抽象為可複用的“原子模組” 。
透過遞迴地在生成模型中呼叫這些原子生成模組,可以構建出一種自相似的分形架構。
其靈感源於數學中的分形思想。它相當於一個粗糙或零碎的幾何形狀分成數個部分,每一部分都(至少近似地)是整體縮小後的形狀。即具有自相似的性質。
嗯,就是像俄羅斯套娃(Matryoshka)那樣子。

By the way,「俄羅斯套娃」這個詞已經被其他論文用過了,sad。

團隊提出用引數化的神經網路作為分形生成器,從資料中學習這種遞迴法則,實現對高維非序列資料的建模,也可用於材料、蛋白質等。
結果在「逐畫素影像生成」這一任務中表現出色。

看到這張圖,不免讓人想到此前何愷明的代表作之一掩碼自編碼器MAE。
透過對輸入影像的隨機區塊進行掩蔽,然後重建缺失的畫素。

此次團隊也結合MAE的成果探索了一些可能性。目前該成果程式碼已開源。

逐畫素生成高解析度影像
如何使用自迴歸模型作為分形生成器?
首先考慮到目標是對一大組隨機變數的聯合分佈進行建模 ,直接使用單個自迴歸模型的計算量令人望而卻步。
團隊採取的關鍵策略是“分而治之”,將自迴歸模型抽象成一個模組化單元。
由於每個級別的生成器都可以從單個輸入生成多個輸出,因此分形框架可以在只需要線性數量的遞迴級別的情況下實現生成輸出的指數級增長。

最終,在每個分形級別中,自迴歸模型接收來自前一個生成器的輸出,將其與相應的影像塊連線,並使用多個transformer模組為下一個生成器生成一組輸出,逐步從影像塊到畫素細化生成過程。

之所以選擇畫素級影像生成這個任務,是由於原始影像資料具有高維度和複雜性,畫素之間存在豐富的結構模式和相互依賴關係。
這類高維生成問題任務在逐個元素生成資料,但又與長序列建模不同,通常涉及非順序資料,像分子結構、蛋白質、生物神經網路等資料也符合這個特點。
團隊認為分型生成模型不僅是一個計算機視覺方法,還能展示分形方法在處理這類高維非順序資料建模問題上的潛力,為其他資料領域的應用提供參考。

不過還是來看看它在畫素級影像上的表現:
首先是直觀的視覺效果,在ImageNet 256×256資料集上,逐畫素生成一張圖需要1.29秒。

測試指標方面,分形模型在ImageNet 64×64無條件生成上實現了3.14bits/dim的負對數似然,超越此前最佳的自迴歸模型。

在影像質量上,FractalMAR-H 模型達到6.15的FID和348.9的Inception Score。

更值得關注的是,分形架構將計算效率提高到傳統方法的4000倍,逐個畫素生成高解析度影像首次成為可能。

團隊還探索了將掩碼重建與分形生成模型結合起來,實驗發現也可以準確預測被掩蔽的畫素。
此外,它可以有效地從類標籤中捕獲高階語義,並將其反映在預測的畫素中,比如最後一列,把貓的臉替換成狗的臉,這些結果證明了該方法在已知條件下預測未知資料的有效性。

最後附上更多生成結果樣本。

何愷明MIT天團,一作黎天鴻
此次成果是由MIT何愷明團隊和谷歌DeepMind全華人班底完成,並由谷歌提供TPU、GPU資源支援。

一作何愷明的學生黎天鴻。

黎天鴻本科畢業於清華叉院姚班,在MIT獲得了碩博學位之後,目前在何愷明組內從事博士後研究。
他的主要研究方向是表徵學習、生成模型以及兩者之間的協同作用。目標是構建能夠理解人類感知之外的世界的智慧視覺系統。
此前曾作為一作和何愷明開發了自條件影像生成框架RCG,團隊最新的多項研究中他也都有參與。

Qinyi Sun,目前MIT三年級本科生。
範麗傑,清華計算機系校友,去年博士畢業於MIT CSAIL,目前在谷歌DeepMind擔任研究科學家,致力於生成模型和合成資料。
此前曾與黎天鴻共同參與過FLUID的研究——
一個可擴充套件的自迴歸文字轉影像模型,無需VQ。10B引數模型實現SOTA效能。

論文地址:
https://arxiv.org/abs/2502.17437v1
— 完 —
評選報名|2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!

一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!