好傢伙,我真的好傢伙。剛起床就被一個話題砸醒!
被位元組索賠800萬的實習生田柯宇,拿到了NeurIPS的Best Paper??
?????

且看獲獎論文是他在位元組實習期間做的工作,看作者和機構也有bytedance。

論文PDF連結:
https://openreview.net/attachment?id=gojL67CfS8&name=pdf
先是位元組模型訓練遭實習生攻擊一事炸開了鍋,再是前段時間位元組使出了雷霆手段,要求田柯宇賠償損失800萬元和合理支出2萬元,現在又跳出來個頂會NeurIPS的Best Paper的獲獎者。
火上加火!過於傳奇!

不過,但是,今年NeurIPS還沒開獎哇!據悉大會的註冊者可以看到,
我看了下這篇論文的評審連結,審稿人給出的得分是[7, 8, 8, 8]。
openreview連結:https://openreview.net/forum?id=gojL67CfS8
X上還有人說是今年的第六高得分論文,不知真假,NeurIPS會議馬上就要召開了,到時候結果就揭曉了。

隨之,知乎上的這個話題討論也火了。

據公佈,一共有兩篇論文獲得最佳論文獎。
一篇是北京大學、字節跳動研究者共同完成的,也就是田柯宇一作的這篇論文。
另一篇是新加坡國立大學、 Sea AI Lab 研究者共同完成的,論文是 "Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators"。

NeurIPS 2024共收15671篇有效論文投稿,但最終接收率只有25.8%。如果還被評為best paper,那這一論文更是頂級中的頂級。
論文作者團隊來自北京大學和字節跳動,其中田柯宇還是一作。

論文提出了一種新的影像生成正規化 Visual AutoRegressive modeling (VAR) , VAR重新定義了影像上的自迴歸學習,將其視為從粗糙到精細的“下一尺度預測”或“下一解析度預測”。
與傳統的光柵掃描“下一標記預測”不同。VAR更簡單,更直觀,使得自迴歸(AR)變換器能夠快速學習視覺分佈,並且具有良好的泛化能力。

從結果上看,VAR在ImageNet 256×256基準測試中顯著提高了自迴歸(AR)基線的效能,Fréchet Inception Distance (FID)從18.65降低到1.73,Inception Score (IS)從80.4提高到350.2。並且推理速度提高了20倍。
VAR模型還展現出與LLMs相似的scaling規律,即隨著模型大小的增加,測試效能持續提升,且與模型引數或訓練計算量之間存在明顯的冪律關係。
與Diffusion Transformer(DiT)相比,從影像質量(FID/IS)、推理速度、資料效率和模型擴充套件性等多個維度來講,VAR的效能都要更加優秀。
VAR的提出,也是第一次讓GPT風格的自迴歸模型在影像生成方面,超越了擴散模型。
此前,VAR正規化更是一度被人稱為“視覺生成的Scaling Law”。
現在還能在github上找到VAR的開原始碼,截至成稿,星標已經來到了4.5k。

結果,田柯宇剛被位元組索賠,就中了頂會的best paper,那這不是妥妥的龍傲天劇情嗎?三十年河東,三十年河西…
最後,問一個很“知乎”的問題:
如果是你,800萬和NeurIPS的best paper,你選哪個?
參考資料
https://mp.weixin.qq.com/s/Vd4er2lhtC7FuhVquwXYwQ
https://neurips.cc/virtual/2024/events/oral
https://openreview.net/forum?id=gojL67CfS8
關鍵詞
模型
篇論文
影像生成
效能
openreview.net