只因論文“碰瓷”,ICLR2025區域主席直接拒稿!最強rebuttal,成功接收並選為Spotlight!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 | 編輯:KingHZ
【導讀】1%合成數據,就能讓AI模型瞬間崩潰!如此顛覆性發現,只因未引用他人論文,ICLR區域主席直接拒稿,好在作者成功rebuttal,論文最終選為Spotlight。而背後,竟是一樁圖靈獎得主Yann Lecun關注的學界爭議!
ICLR 2025,公開審稿,多級反轉!
只因沒有引用COLM 2024會議的一篇論文,區域主席根據公開評論,竟建議拒絕投稿論文!
雖然最終論文《強模型崩潰》(Strong  Model Collapse)被接受,並選為亮點論文(Spotlight),但過程可謂危險至極!
來自Meta等研究機構證實:1%合成數據,就能讓模型瞬間崩潰。
作者將文章投稿ICLR 2025後,審稿人對這篇論文的評價一致為正面。
區域主席(Area  Chair),基於公開評論建議拒絕該論文,只因缺少對COLM 2024論文的引用。
即便在OpenReview上的私下討論(公眾無法檢視)中,審稿人最終決定,缺少這篇引用不能成為拒絕的唯一依據。
但區域主席推翻了審稿人的意見,建議拒絕了此論文。
收到投訴後,ICLR決定審查此案。
調查後,一致決定支援審稿人的意見,因此最終接受了這篇論文。
任何平均得分高於閾值的論文,將自動考慮作為亮點論文。
評審意見主頁:https://openreview.net/forum?id=et5l9qPUhm
公開評審:李鬼倒打李逵?
對ICLR論文提出疑問的斯坦福大學CS博士生Rylan Schaeffer,他是COLM 2024下列論文的作者。
他強調,ICLR  2025的論文《強模型崩潰》作者,故意不引用COLM 2024論文:
1.他們明確知曉有一篇先前的已釋出工作,直接與他們的敘述和科學主張相矛盾;
2.他們使用了該先前工作中提出的方法論,而同時又侮辱了該工作並未給予應有的致謝。
他堅持認為ICLR  2025投稿論文是故意壓制矛盾證據,混淆對模型崩潰(潛在)危害的理解。
ICLR的作者就是赤裸裸的學術不端,是科學界的恥辱!
特別是對於ICLR沒有引用他寫作的COLM 2024論文,他認為這無法忍受。
我們懇請評審專家和區域主席要求《強模型崩潰》的作者解決以下問題:  
1.此項工作與現有關於避免模型崩潰文獻的關係,  
2.如何解釋看似矛盾的結論產生的不同建模假設,以及哪種假設最能反映現實場景。
評估哪些假設最符合現實場景對於評估這項工作的實際影響至關重要。
在去年,Rylan Schaeffer就表示,如果對模型崩潰(model collapse)有興趣,強烈要求閱讀他們的COLM 2024論文。
反駁:Rylan Schaeffer才是抄襲者
在得到會議程式委員會及歷任主席一致認同後,ICLR論文一作Elvis Dohmatob,在X上公開回應了Rylan Schaeffer的指責,認為Rylan Schaeffer存在嚴重的不當行為:
抄襲我們的先前工作,  
論文內容主要由人工智慧生成(是的,作者將我們的論文輸入到LLM中生成了另一篇論文),  
違反倫理審查委員會(IRB)規定等。
在長時間的雙方溝通中,這些問題逐步被揭露出來。
在帖子後,ICLR 2025官方賬號,澄清了提交論文4488評審的過程,真如開頭所言。

NYU教授還原全過程
去年,《強模型崩潰》的作者Julia Kempe和「李鬼」Rylan Schaeffer多次溝通,公開了論文其他作者的道歉郵件。
特別是,模型崩潰、混合原始資料與合成數據等領域已有很多優秀論文的情況下(包括在《自然》雜誌上發表的文章),當Gerstgrasser等人首次向傳送他們《模型崩潰是不可避免的嗎?》的v1版本時,很少有對一發表論文的相關討論。
甚至有Rylan Schaeffer的合著者表示論文粗製濫造, 就是趕鴨子上架:
他們斯坦福的導師跟他們來往並不密切。
學生趕在截止日期前,馬上提交論文。我們對論文粗製濫造的關切,幾乎被漠視了。
可悲的是,這已經成為他們的文化的一部分。  
至於沒有引用相關論文的原因,我直到現在仍然不明白。
更加驚訝的是,「李鬼」Rylan Schaeffer所謂的「模型坍塌必讀理論」,是Julia Kempe之前定理的一個微不足道的推論,而且Rylan Schaeffer的論文還具有誤導性。
但奇怪的是,這些公式化的表述與論文中的語言相似,符號也古怪地相似:
左:「李逵」的論文符號,右:「李鬼」的論文符號
然而,隨後Julia Kempe等明白了!
在指出了最明顯的遺漏後,「李鬼」論文的作者等人傳送了一份報告,暗示Julia Kempe等人的反饋,被AI用來合成論文。
Julia Kempe等人被當作免費勞動力使用,這令Julia Kempe大開眼界!
但可悲的是,Rylan Schaeffer等人的論文雖被COLM 2024接受,但仍然包含誤導性結論。
在涉及到個人學術聲譽的鬥爭中,Julia  Kempe也得到了同事的支援,甚至得到了圖靈獎得主、AI大佬Yann  Lecun的關注和支援!
模型崩潰與合成數據
雙方的焦點在於「模型崩潰」。
第1點:關於Gerstgrasser等人的論文與先前工作的科學矛盾。
Gerstgrasser等人的論文,並沒有以任何有意義的方式避免模型崩潰。
正方Julia Kempe等人,在ICLR 2025論文中,明確將「模型崩潰」定義為「AI模型效能的重大下降」。
避免模型崩潰意味著:縮小使用真實資料和合成資料訓練時的效能差距。
反方Rylan Schaeffer、Gerstgrasser等人,將避免模型崩潰定義為:「在多次訓練模型時,防止發生遞迴性退化」。
該論文承認,儘管當樣本逐漸積累時,效能退化是有界的,但仍然存在效能損失。
這一定義僅代表了縮小真實資料和合成資料之間差距的部分條件。從這個意義上講,Gerstgrasser等人並未解決或緩解模型崩潰問題。
在關於模型崩潰的大多數文獻中,主流觀點認為,縮小效能差距是避免模型崩潰的主要標準。
從實際角度來看,縮小真實資料與合成數據之間的差距,是避免模型崩潰的更具操作性和相關性的定義。
僅僅確保效能不出現發散,仍然可能導致模型無法匹配合成資料生成器的質量,從而使合成數據對效能造成損害。
只有當效能差距完全縮小時,合成數據的負面影響才能完全減輕。
由於定義和理由上的差異,考慮到縮小效能差距是正確的定義,透過這一廣泛接受的視角,正方Julia Kempe等人已經重新審視了所有關於模型崩潰的相關工作。
第二點:與Gerstgrasser等人的先前互動
不幸的是,公開評論似乎破壞了審稿過程的匿名性。
正反雙方的確有過互動。
以下是該互動的簡要總結:
  1. 技術上不足:Gerstgrasser等人的論文只是增量性的技術貢獻,而且非常薄弱。它不過是對已有論文的已有設定和論點的輕微修改。其結果是已有定理的簡單推論。
  2. 誤導性/不準確的結論:Gerstgrasser等人的論文並未以任何合理的方式解決模型崩潰問題(請參見上文關於定義的討論)。
不幸的是,Gerstgrasser等人,基本上忽視了互動的建設性批評,甚至將評論僅作為腳註,附在論文的末尾。
因此,在目前的狀態下,正方仍然認為Gerstgrasser等人的論文,在科學上並不成立,因此沒有覺得有必要引用。
最終的論文結果,說明榮耀應該歸於Julia kempe等人。
這也與此前領域內專家的意見一致。
參考資料:
https://x.com/dohmatobelvis/status/1911107171078615088
https://x.com/KempeLab/status/1817135401124934089
https://x.com/RylanSchaeffer/status/1911153029509992859

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章