8/8/7分被NeurIPS拒稿,謝賽寧讀博投的首篇論文,10年後獲AISTATS2025時間檢驗獎

機器之心報道
編輯:陳陳、杜偉
5 月 3 日至 5 日,第 28 屆國際人工智慧與統計學會議(AISTATS)在泰國舉辦。

作為人工智慧、機器學習與統計學交叉領域的重要國際會議,自 1985 年創辦以來,AISTATS 致力於促進計算機科學、人工智慧、機器學習和統計學等領域研究者之間的交流與合作。
昨日,會議主辦方公佈了本年度時間檢驗獎,授予 UCSD 與微軟研究院合著的論文《Deeply-Supervised Nets》(深度監督網路),共同一作分別為 Chen-Yu Lee(現為谷歌研究科學家)和 AI 圈所熟知的謝賽寧(現為紐約大學助理教授)。該論文被當年的 AISTATS 接收。
根據 Google Scholar 資料顯示,該論文被引數已經超過了 3000,足可見其含金量。
在得知自己 10 年前的論文獲得 AISTATS 2025 時間檢驗獎之後,謝賽寧分享了更多背後的故事。
他表示,《Deeply-Supervised Nets》是讀博期間提交的第一篇論文,並且有趣的是,這篇論文最初被 NeurIPS 拒稿了(分數為 8/8/7)。那種痛苦一直縈繞在他心頭,也許現在終於可以放下了。他還說到,不會將投頂會比作「抽獎」,但堅持不懈確實能帶來很大的幫助。
最後,謝賽寧寄語同學們:如果你們在最近的論文評審結果出來之後感到沮喪,並正在為下一篇論文做準備,則可以將他的經歷當作一點小小的提醒,繼續前進(就會有收穫)。
同樣地,另外一位共同一作 Chen-Yu Lee 也發文對 10 年前的論文獲得 AISTATS 2025 時間檢驗獎感到自豪,並表示這項研究成果至今仍具有重要意義和影響力。
評論區的網友紛紛發來對謝賽寧論文獲獎的祝賀。
接下來,我們看看這篇來自 10 年前的論文主要講了什麼內容。
論文講了什麼?
  • 論文標題: Deeply-Supervised Nets 
  • 論文地址:https://arxiv.org/pdf/1409.5185
論文摘要:近年來,神經網路(尤其是深度學習)的復興備受關注。深度學習可採用無監督、有監督或混合形式,在影像分類和語音識別等任務中,當訓練資料量充足時,其效能提升尤為顯著。
一方面,分層遞迴網路已展現出自動學習數千乃至數百萬特徵的巨大潛力;另一方面,深度學習仍存在諸多懸而未決的基礎性問題,也引發了學界對其侷限性的擔憂。
論文中表示,在當時深度學習框架存在的問題包括:隱藏層學習到的特徵的透明度和辨別力降低;梯度爆炸和消失導致訓練困難;儘管在理論方面做了一些嘗試,但對演算法行為缺乏透徹的數學理解等。
儘管如此,深度學習能夠在整合框架中自動學習和融合豐富的層次特徵。這得益於研究人員開發出了各種用於微調特徵尺度、步長和收斂速度的方法,還提出了多種技術從不同角度提升深度學習的效能,例如 dropout 、dropconnect 、預訓練和資料增強等。
此外,梯度消失的存在也使得深度學習訓練緩慢且低效 。
本文提出了深度監督網路 (deeply-supervised nets,DSN) 來解決深度學習中的特徵學習問題,該演算法對隱藏層和輸出層都強制進行直接和早期監督。並且還為各個隱藏層引入了伴隨目標(companion objective),將其用作學習過程的附加約束(或新的正則化)。從而顯著提高了現有監督深度學習方法的效能。
此外,該研究還嘗試使用隨機梯度技術為本文方法提供依據。證明了所提方法的收斂速度優於標準方法,得出這一結論的前提是假設最佳化函式具有區域性強凸性(這是一個非常寬鬆的假設,但指向一個有希望的方向)。
這篇論文還提到,文獻 [1] 採用分層監督預訓練策略,而本文提出的方法無需預訓練。文獻 [26] 將標籤資訊用於無監督學習,文獻 [30] 則探索了深度學習的半監督正規化。文獻 [28] 使用 SVM 分類器替代 CNN 傳統的 softmax 輸出層。本文提出的 DSN 框架創新性地支援 SVM、softmax 等多種分類器選擇,其獨特價值在於實現對每個中間層的直接監督控制。
實驗結果表明:無論在 DSN-SVM 與 CNN-SVM 之間,還是 DSN-Softmax 與 CNN-Softmax 之間,本文方法均取得一致性效能提升,並在 MNIST、CIFAR-10、CIFAR-100 及 SVHN 資料集上重新整理當前最優紀錄。
圖 2 (a) 和 (b) 展示了四種方法的結果,DSN-Softmax 和 DSN-SVM 優於它們的競爭 CNN 演算法。圖 2 (b) 顯示了針對不同大小的訓練樣本進行訓練時不同方法的分類誤差(在 500 個樣本時,DSN-SVM 比 CNN-Softmax 提高了 26%)。圖 2 (c) 顯示了 CNN 和 DSN 之間的泛化誤差比較。
表 2 顯示,在 CIFAR-10 和 CIFAR-100 上的效能提升,再次證明了 DSN 方法的優勢。
為了比較 DSN 與 CNN 分別學習到什麼特徵,本文從 CIFAR-10 資料集的十個類別中各選取一個示例影像,執行一次前向傳播,並在圖 (3) 中展示從第一個(底部)卷積層學習到的特徵圖。每個特徵圖僅顯示前 30% 的啟用值。DSN 學習到的特徵圖比 CNN 學習到的特徵圖更直觀。
需要特別說明的是,本框架可相容近期提出的多種先進技術,如模型平均、dropconnect 和 Maxout 等。論文表示透過對 DSN 的精細化工程最佳化,可進一步降低分類誤差。
瞭解更多內容,請檢視原論文。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章