你好,我是郭震!
NeurIPS,全球最頂級的AI會議,代表當今最頂尖的AI最新研究技術。
能錄得一篇這樣級別的會議,難度不小。如果再在其中榮獲最佳論文,那就相當於登頂珠穆朗瑪峰。
今年NeurIPS的最佳論文屬於中國研究者,屬於北大、位元組,其中第一作者是田某:

他或許對大家有些陌生,不過,一提他在今年攻擊了位元組大模型,他就變得被人所熟知了。
好吧,搞科學的研究員,要想被被普羅大眾所知曉,好像得另闢蹊徑,比如像田某走的路子。
玩笑了。千萬別學!
前段時間被位元組索賠800萬:

在頂會,獲得最佳論文獎,本來如此美好的事情,卻被一時衝動,而變得…,令人唏噓不已。
可謂戲劇拉滿!
此文順便分析下這篇最佳論文,其最大創新在哪裡?high-level idea是什麼?
光看摘要的前半部分,就知道這篇論文不一般,它提出了一種新的影像生成正規化,VAR:

VAR是自迴歸生圖模型,透過“下一尺度預測”,這種多尺度的生成方式更貼合人類感知影像的層次性。
而傳統的擴散模型都基於“下一畫素預測”,進行影像生成。
光憑這點,就知道此論文不一般,具有開創意義,基於下一尺度預測的VAR帶來了哪些影像生成效果的優勢呢?
優勢同樣無比明顯,可以說相當amazing! 基於ImageNet,低畫素向上生成高畫素的影像,是有難度的,但VAR生圖的清晰度優秀:

優勢1:在ImageNet 256×256資料集上的實驗顯示,VAR的FID達到1.73,遠好於基線模型,將近11倍的提升,相當驚豔。
優勢2:VAR展示了類似於大模型的Scaling Laws,Zero-shot的泛化能力。如此霸氣的泛化能力,所帶來的好處也顯而易見,為影像修復、擴充套件和編輯等多工,帶來飛躍。如下,能對影像一頓魔改:

文字:LLM;視覺:VAR,做到與LLM平起平坐,足夠見得VAR的舉足輕重。
優勢3:VAR透過並行生成顯著降低了時間複雜度,相比傳統自迴歸模型,生成速度提升了約20倍,也是相當amazing!
能拿到這樣的大結果,基於的靈感,也是簡單樸素:
不再逐畫素預測,
而是逐尺度預測!
如下論文的用詞,next-scale prediction 或者 next-resolution prediction:

總結來說:
論文的核心idea,一個詞:從粗到細(coarse to fine)
為什麼從粗到細,就能取得這樣好的結果???
想想人類在感知或創作影像時,是怎樣的?
通常是,先把握整體結構(粗略尺度),然後再填充細節(精細尺度)。
VAR就是效仿了這個特點,透過從低解析度到高解析度逐步生成影像,與這一感知過程一致,從而提升了生成的自然性和一致性。
先生成整體佈局,再在區域性進行細化。如下圖所示,r1,r2,r3,畫素粗糙到看不出是什麼,直到細化到rk:

這種是明顯區別於(b) AR,下一影像token的自迴歸方式:

論文展示了VAR 的 scaling laws,如下一共9個子塊,每個子塊的最右下角塊學習的最充分,所以影像最清晰。比如,中間正弦波子塊,最右小角的正弦波影像最清晰:

原因就是每個子塊的x維度是訓練階段(代表模型訓練階段),y維度是訓練層數(代表模型複雜程度,16層,30層等等)
另一個VAR的重要優勢,類似於大模型的zero-shot泛化能力,在其身上也能看到展示:

泛化能力強大了後,影像修改起來就易如反掌,可以一頓魔改:

繼續一頓魔改:

結論:本是人才,可一個魔改後,成了鬼才!
大家要想更好進入這些公司,可以多積累技能,對AI感興趣的,可以去「AI免費學習網」 ,訪問地址如下,160門相關教程,算是比較全面了,全部免費:
https://zglg.work

網站最近上新《大模型開發LangChain》的教程,下面其中一個截圖:

我還寫了一個40+頁的《普通人學AI》.PDF,只需在下面我的公眾號回覆:
AI
,即可免費領取:
為了方便學習,我把學習入口也直接放到下面的「閱讀原文」那裡了,希望這些教程和資料,能幫助到你!
如果覺得對你有用,可以點贊、轉發和在看。謝謝你看我的文章,我們下篇再見!