
夕小瑤科技說 原創
作者 | 海野
最近,Anthropic的CEO,Dario Amodei爆了一則大瓜:最早發現Scaling Law的是百度?

事情還得從這裡說起。
11月,在一則關於Dario Amodei的專訪中,他提到了一件事:
2014年,Amodei與吳恩達在百度共事。那時他就觀察到:透過增加網路層數、訓練時間和資料量,模型的表現會顯著提升。隨著模型變得越來越大,它們能夠捕捉到更復雜的語言和認知模式,這一規律不僅適用於語言模型,還適用於影像、影片等其他領域。

這剛剛好就是Scaling Law的內容。也就是說,甚至早在2014年,在百度內部就已經有Scaling Law的共識了?
大家都知道,Scaling Law能夠廣為人知,要歸功於OpenAI團隊在2020年發表的一篇論文 "Scaling Laws for Neural Language Models" 。

論文一經發出,OpenAI把熱度吃的盆滿缽滿。
熱心網友們緊急搜尋歲月史書,終於,Meta的一位研究員爆了個事實:
追溯scaling law研究的起源,最早應該是2017年百度的研究,而不是2020年的OpenAI。

論文標題
:
Deep Learning Scaling Is Predictable, Empirically
論文連結
:
https://arxiv.org/abs/1712.00409
實際上,此前已經出現過許多分析達到期望泛化誤差的樣本複雜性要求的工作,但這些工作不足以準確預測實際應用的誤差縮放規律。
所以,這篇2017年的論文,確實是第一篇 透過大規模實證研究,揭示了深度學習模型的泛化誤差和模型大小與訓練集規模之間存在可預測的冪律關係(Power Law) 的論文。
具體來說——
這篇論文選取了四個機器學習領域(機器翻譯、語言建模、影像處理、語音識別)對應的SOTA模型,並將這些SOTA模型在大型資料集的不同大小的子集上,訓練“超引數縮減”版本的模型,來觀察模型準確性如何隨訓練集大小增長。
他們首先確定一個大型資料集(T),該資料集需要滿足一定條件:被縮減至原有大小的2-3個數量級後,其價值仍能支撐模型架構研究。
確定資料集T後,將T隨機打亂,確保資料分佈的一致性,並將T劃分為不同大小的子集Ti,這些子集的大小跨越幾個數量級,通常以大約2倍的指數增加(例如,T0是0.1%的T,T1是0.2%,T2是0.4%,以此類推)。
在此基礎上,還需要單獨定義一個驗證集V,用於評估所有模型的效能,V需要確保與任何訓練集子集Ti都不重疊。
在設定模型階段,論文在完整的資料集T上覆制了SOTA結果,設定模型(M)的超引數,並移除可能減少模型有效容量的正則化方案(例如權重衰減),以便檢查驗證曲線,找到每個資料集子集Ti過擬合的最小模型大小。
實驗的目標就是,找到在最小子集T0上訓練時,最適合V的M模型變體。
為了找到這個M模型變體,實驗透過約束M模型容量、減少M的超引數,生成一組模型候選M0,並執行隨機蒙特卡洛網格搜尋,找到最合適的M0。
最後,利用隨機搜尋,為T的最小和最大子集找到最佳擬合模型,預測性地增加模型大小,定義更大的Ti+1子集的候選模型集,又在Ti+1上找到最佳擬合的超引數模型。
結果表明,在四個測試的領域中,儘管不同的應用會產生不同的冪律指數和截距,但隨著訓練資料大小的增加,泛化誤差和所需模型大小均呈現冪律縮放。 改進模型只會改變冪律截距,並不影響冪律指數;單一領域的模型呈現出的冪律指數相同。

他們還發現,模型從以最佳猜測為主的小訓練集區域轉變為以冪律縮放為主的區域。如果訓練集足夠大,模型將在以不可約誤差(例如貝葉斯誤差)為主的區域內飽和。
不過,這篇論文使用的是LSTM,而不是Transformer。
並且,論文只提了scaling的現象,沒有把它往“Law(定律)”上面宣傳。
而其中的三位作者 Joel Hestness,Newsha Ardalani, Gregory Diamos,還在2019年為這篇論文還做了後續研究:《Beyond Human-Level Accuracy: Computational Challenges in Deep Learning》。

但很明顯,這兩篇研究都被忽視了。Scaling Law成為大夥日常討論的話題時,幾乎沒人會想到百度,只會想到OpenAI。
而最最最讓人想不到的是,在OpenAI的Scaling Law研究論文中,甚至還引了這兩篇百度的研究論文……
OpenAI論文的相關工作欄是這麼寫的:
Related Work:最近的工作[HNA17],[HAD19]還研究了模型大小和資料大小之間的scaling趨勢。他們的工作可能是文獻中最接近我們的。

HNA17:2017論文 "Deep learning scaling is pre-dictable, empirically" 。
HAD19:2019論文 "Beyond human-level accuracy: Computational challenges in deep learning" 。

結果,百度的兩篇文章沒被發現,反而是OpenAI火了,難道就輸在“沒有把他定義成定律”上嗎?
百度“起了個大早”的AI團隊
我們再回到Amodei提起的“在百度工作時”的話題上。
回到2012年,百度的創始人李彥宏,發現了一篇論文 "ImageNet Classification with Deep Convolutional Neural Networks" ,內容關於如何基於深度卷積神經網路,完成ImageNet資料集的分類驗證工作。
論文作者恰好就是,圖靈獎、諾獎物理學獎得主Geoffrey Hinton,和他的學生。

在看到論文時,李彥宏冒出了一個想法:
這個人我一定要拉過來。
李彥宏聯絡到Hinton,開出了1200萬美元的價格邀請他的團隊一起加入。後續在與谷歌競價時,還開到了4400萬美元(現在大概3.1億元人民幣)。但可惜由於Hinton不願離開美國,最終沒能撬動Hinton加入百度。
不過,李彥宏也沒氣餒,2014年5月,百度正式成立矽谷人工智慧實驗室。
某種程度上,百度可以說是進入AI領域最早的公司了。
美國權威雜誌《麻省理工科技評論》也寫道:
百度將領導一個創新的軟體技術時代,更加了解世界。
成立後,李彥宏立刻拉了一堆耳熟能詳的AI大神參戰:
首先是眾所周知的吳恩達(Andrew Ng)。
實驗室剛成立時,他就被任命為百度首席科學家,全權負責2013年成立的百度深度學習研究院,尤其是負責進行百度大腦計劃。

上述的百度Scaling Law研究,也是由吳恩達一手主持的。
然後就是Dario Amodei。在他從斯坦福大學博士後畢業後,就直接被拉進了百度矽谷人工智慧實驗室,與吳恩達一起參與對語音識別系統的研究。
後來,Amodei又招募了Jim Fan,來百度實習。
Jim Fan 師從“人工智慧教母”李飛飛教授,在斯坦福大學視覺實驗室取得博士學位。研究領域覆蓋多模態、強化學習、計算機視覺、具身智慧等多個領域。
不過,最早沒能招來Hinton,也算是百度的遺憾了。
現在還有本文所述的另一個遺憾——
在這個Scaling Law遭質疑的時間,百度的兩項關鍵研究才進入大眾視野。



參考資料
https://mp.weixin.qq.com/s/Bh8bAhvOeLM3ri7Xs7DlCg
https://arxiv.org/abs/1712.00409