最近,“AI是否放緩了”,成為很多美國AI社群爭論的焦點。
The Information的一篇報道寫道,Pre-Train模型的預訓練“撞牆”了,OpenAl下一代旗艦模型的質量提升幅度,不及之前,因為高質量文字和其他資料的供應量正在減少。原本的Scaling Law(用更多的資料訓練更大的模型)可能無法持續。並且,更先進的模型由於訓練費用暴增,可能在經濟上也不具有可行性。
Ilya Sutskever在接受媒體採訪時,也說:透過擴充套件預訓練——即在訓練AI模型時使用大量未標註資料來理解語言模式和結構的階段——取得的效果已經觸及瓶頸。
隨後,不少科技大佬站出來發聲,強調Scaling Law沒有放緩。比如黃仁勳說:並沒有看到人工智慧Scaling Law遇到障礙,相反出現了測試時計算的新縮放定律。他認為,o1代表了人工智慧行業改進模型的新方法。同時,Anthropic執行長達里奧·阿莫迪週三也表示,自己並沒有看到模型開發放緩的跡象。
Sam Altman發了一條推文:there is no wall(並沒有牆,對應之前的傳言“AI撞牆”)
這些聲音引發了業界對於未來AI發展方向的討論,Scaling Law失效了嗎?如果效果確實下滑了,那應該往什麼新方向發展?或者,如何重新啟用Scaling Law?我們綜合了一些科技大佬、論文的觀點,以求更全面的闡述這個話題,enjoy:
1
AI撞牆了嗎?
從2022年底ChatGPT問世以來,Scaling Law一直是支撐AI指數級增長的理論基礎,在OpenAI的重要論文Scaling Laws for Neural Language Models中,研究者提出了大語言模型遵循“伸縮法則”(scaling law)。
透過研究證明,當我們增加引數規模、資料集規模和延長模型訓練時間,大語言建模的效能就會提高。並且,如果獨立進行,不受其他兩個因素影響時,大模型效能與每個單獨的因素都有一個冪律關係,體現為Test Loss的降低,也就是模型效能提升。

但值得注意的是,Scaling Law並不是真正的物理定律。與摩爾定律一樣,它觀察到半導體的效能大約每兩年翻一番,這與近年來AI效能每六個月左右翻一番的感知相似。
比如a16z的風險投資人Ben Horowitz就表示:“我們正以同樣的速度增加用於訓練AI的GPU數量,但我們根本沒有從中獲得智慧上的改進。”
在近期引起爭議的The Information文章中(隨著GPT提升減速,OpenAI改變策略),就給出了一些頗具爭議的觀點:
-
OpenAI的下一代旗艦模型Orion,並不像前代實現巨大的飛躍,雖然效能會超越現有模型,但相較於從GPT-3到GPT-4的改進,幅度要小得多; -
Scaling Law逐漸放緩的一大原因,就是高質量文字資料越來越少,OpenAI已經成立了一個基礎團隊,來研究如何應對訓練資料的匱乏; -
AI 產業界正將重心轉向初始訓練之後,再對模型進行提升的環節。
與這篇報道同時引起討論的,是一篇論文《Scaling Laws for Precision》,CMU教授Tim Dettmers對此評論道:它是很長一段時間以來最重要的一篇論文,它以強有力的證據表明我們正在達到量化的極限。論文中說:你訓練的標記越多,你需要的精度就越高。這對整個領域和 GPU 的未來有著廣泛的影響。
Tim Dettmers認為:可以說,人工智慧的大部分進步都來自計算能力的提升,而(在最近)這主要依賴於低精度路線的加速(32- > 16 – > 8 位)。現在看來,這一趨勢即將結束。再加上摩爾定律的物理限制,大模型的大規模擴充套件可以說要到頭了。而從我自己的經驗(大量失敗的研究)來看,效率是無法欺騙的。如果量化失敗,那麼稀疏化也會失敗,其他效率機制也會失敗。如果這是真的,那麼我們現在就已經接近最優了。

AI大神Andrej Karpathy(OpenAI創始成員、特斯拉前AI高階總監)也轉發了這條推文
也就是說,Scaling本質上還是擴大算力,在之前AI增長很快的這幾年裡,“大力出奇跡”一直是那根點石成金的“魔法棒”,但如今再用老辦法去做,可能不管用了。未來需要重新尋找,去“點”哪裡的問題,也就是得重新思考,把巨量算力以什麼方式、用在什麼地方。
並且,“資料飢餓”問題也越來越凸顯,它也在限制大模型的迭代速度。在過去幾年的飛速發展中,大模型一直在使用來自網際網路、書籍和各種來源的公開文字等,進行預訓練,而如今這類資料幾乎已被“榨乾”。
據The information報道,在OpenAI的下一代旗艦模型“Orion”中,雖然已經開始嘗試在訓練階段引入AI生成資料,但同時又面臨一個新問題,即Orion最終可能在某些方面與舊型號的大模型相似。
OpenAI研究員Noam Brown在上個月的TED-AI會議上表示,開發更先進的模型在經濟上可能並不可行。特別是如今資料中心昂貴的建造成本,可能也難以支撐起繼續指數型迭代,所需的龐大算力要求。“我們真的要訓練花費數千億美元或數萬億美元的大模型嗎?有時候,Scaling law的正規化也會崩潰。”Noam Brown說。
2
AIlya被忽視的後半句話:
現在的關鍵,是找到在什麼地方去Scaling
Ilya Sutskever在接受路透採訪時的前半句話是:“擴大預訓練規模的結果已經達到穩定狀態”(意思就是撞牆了),但他的後半句話是:“現在的關鍵,是找到在什麼地方去Scaling。”(當然,llya也沒有說未來到底去scaling什麼因子)
最近,Anthropic的CEO Dario Amodei,與Lex Fridman進行了一次對談,也聊到了Scaling law是否放緩的問題,比較好的解答了這個問題,當然他主要站在不認為Scaling law撞牆的那一派。下面我們節選了一些乾貨部分(如果你對這個訪談感興趣,可以去看原影片:Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast https://www.youtube.com/watch?v=ugvHCXCOmm4):

Lex Fridman:今天我們處於 scaling law 的什麼階段?
Dario Amodei:對我來說,真正的轉折點是在2014年到2017年之間,那時我真正確信:透過擴大模型規模,我們就能完成各種複雜的認知任務。
其實 scaling law 在發展的每個階段都會有各種各樣不同的質疑。剛開始我也覺得可能是我錯了,比如 Chomsky 認為,儘管模型可以做到句法分析,但仍然無法理解語義,還有一種觀點認為,句子可以是有意義的,但還是不能讓段落連貫起來。
現在最新的質疑就包括,資料馬上就要耗盡了,或者資料的質量不夠高,或者模型不能進行推理等等。但面對這些質疑,我們每次都能找到解決的辦法,或者持續做scaling就能解決問題。
直到現在,我仍然認為scaling有很多不確定性,我們只能透過歸納推理來判斷未來兩年是否會延續過去 10 年的趨勢。這樣的情況我已經見過太多次了,我認為 scaling 很可能還會繼續下去,只不過其中的奧秘還沒有辦法完全用理論解釋。
Lex Fridman:這裡的 scaling 指的是計算規模更大、資料更多、算力更強嗎?
Dario Amodei:是的,具體來說是 network、raining times 和 data 的線性擴充套件。這就好比一個化學反應一共有三種成分,如果想讓反應順利進行,就需要把這三種成分一起按比例加倍。如果只增加其中一個成分,其他試劑不夠了,反應就會停止。如果能把所有成分都按照相同的比例增加,反應就能繼續進行下去。
Lex Fridman:Scaling law 是不是可以延展到其它更細節的環節?比如可解釋性中也存在 scaling laws,或者 post-train 也存在 scaling law?
Dario Amodei:是的,除了語言以外,到 2020 年底左右,我們又發現同樣的規律在影像、影片、文字到影像、影像到文字、數學等模態下也都適用。在其他我們研究過的模型訓練的環節中,比如 post-train 、新的 resigning models 上,也能看到類似的規律。
Lex Fridman:Scaling 的上限在哪裡?現實世界還有多少複雜的知識需要我們和模型去學習?
Dario Amodei:還沒有人能給出明確答案。
我的一個直覺是,就達到人類的水平這個目標來說,scaling law 還沒有遇到上限。人類能夠理解各種複雜的模式,所以如果我們繼續放大這些模型規模,開發新的訓練方法並擴大它們的能力,至少能讓模型達到人類的水平。問題是,模型是否有可能超越人類的能力,會不會比人類更聰明、更敏銳?這個答案在不同領域可能不一樣。
比如我在 Machines of Loving Grace 這篇文章裡面提到的生物學領域,今天人類才剛剛開始理解生物學的複雜性。
在斯坦福、哈佛、伯克利這樣的學校,可能有一整個系的人都在研究免疫系統或代謝通路,但每個人都只理解其中很小的一部分,研究分工特別地專業化,而且他們也在嘗試把互相之間的研究整合起來。所以,我直覺上會覺得,AI 智慧還有很大的提升空間。
如果說到物質世界的材料,或者人與人之間的衝突,這些問題可能沒有生物學那麼難解決,但問題在於我們也只能做到這個程度,就好比語音識別能聽清的程度是有限的。
所以某些領域的上限可能很接近於人類的水平,而其他領域的上限可能還遠遠沒達到。只有真正搭建好了這些 AI 系統,才能知道上限到底在哪裡,儘管我們可以推測,但不能確定,也很難提前知道答案。
Lex Fridman:如果我們真的遇到了上限,或者 scaling law 放緩了,你認為原因可能會是什麼?
Dario Amodei:我認為可能的原因有幾種。我們這裡所說的上限是指模型還沒有達到人類的水平之前能力就觸頂了的情況。
現在比較普遍的一種觀點是,我們可能會面臨資料不足的限制。我們的確有可能會用完資料,因為網路上的資料量是有限的,資料質量也是個問題,雖然網路上有數百億的詞彙量,但其中很多都是重複的,或者是為了 SEO 而產生的內容,甚至未來可能是 AI 自己生成的文字。所以我認為透過這種方式獲取的資料是有限的。
不過,我們正在研究如何製造合成數據(synthetic data),透過模型生成與現有資料類似的新資料,甚至完全從零開始生成資料。我估計其他公司也在這麼做,比如 DeepMind 就讓 AlphaGo Zero 做 self-play,讓它從完全不會下圍棋到超越人類水平,過程中不需要人類的示例資料。
還有一個方向是 reasoning models,這類模型會進行思維鏈思考,也可以停下來反思自己的思維過程,某種程度上算是另一種結合了 RL 的合成數據。
所以透過合成數據和 resoning models 其中任何一種方法,都可以幫我們解決資料限制的問題。
我們也會發現,即使資料層面沒有遇到調整,在模型的 scaling up 中,模型能力可能也不會一直進步,雖然長期過程中我們都觀察到模型效能會隨著規模變大不斷進步,但可能會在某個時間停止,具體原因我們還不得而知。
一個可能的答案是我們要發明新的架構。過去也遇到過模型數值的穩定性等問題,當時模型效能看起來基本已經不再提升了,但實際上找到合適的解決方案後,效能又會繼續提升。所以我們可能需要新的最佳化的方法或者技術來突破當前的瓶頸,雖然到目前為止我還沒有看到這方面的跡象,但如果 scaling 的進展被明確證實放緩了,那麼原因可能就是缺少新的架構。
Lex Fridman:算力會是 scaling law 的限制嗎?
Dario Amodei:我估計目前主流模型公司的計算規模在 0.33~3 billion 之間,預計明年能提升到幾十億的規模,2026 年可能會超過一百億,到 2027 年,可能會建設上百億規模的計算叢集。這一切都是可以實現的,因為業界有很強的決心,當然,即使達到千億級別的計算規模,算力可能也還不夠,我們要麼需要進一步加大規模,要麼就需要開發更高效的方法,改變現在的 scaling 曲線。
我之所以看好 powerful AI ,其中一個原因就是如果我們繼續沿著當前的曲線發展,模型很快就能接近人類的能力水平。在今天已經被開發出來的 reasoning models 中,有些已經達到了 PhD 或者專業的水平,就 coding 的能力來說,我們最新發布的 Sonnet 3.5 在 SWE-bench 上的表現已經達到了 50% 左右。
今年年初,SOTA 模型在 SWE-bench 上的表現也才只有 3% 到 4%,僅僅在 10 個月內,模型的表現就從 3% 提升到了 50%。再過一年,甚至都不需要一年,可能就會達到 90%。
OpenAI 的 o1 模型已經能夠在研究生級別的數學、物理、生物等領域取得了類似的進展。如果我們繼續沿著這條技能提升的曲線往前走,我認為幾年內這些模型的專業能力就能超過人類的最高水平。但確實存在這條曲線並不一定會一直持續下去的風險。

另一方面,推理也被視為是解決問題的辦法之一。Cohere聯合創始人兼CEO Aidan Gomez(他也是AI領域最具影響力的論文《Attention Is All You Need》的聯合作者),就認為,大語言模型的發展已進入平臺期,而推理能力將成為未來突破口,並將帶來新的商業模式和市場機遇。同時,他也提醒投資者警惕模型價格傾銷。
對於Scaling law放緩的問題,Gomez認為,簡單擴大模型規模帶來的邊際效益正在遞減。以繪畫為例,在大模型發展的初期,如同用大筆觸快速完成基礎構圖,但隨著模型需要處理更精細的任務,就需要越來越細的筆觸來完善細節,模型改進需要的資料也越來越精細,這導致獲取高質量資料的成本越來越高,最終模型的規模化發展,將受限於人類知識的邊界和專家資料的獲取難度。
而下一階段的突破口可能在推理能力方面。Gomez說:推理能力可以讓大模型不僅簡單地記憶輸入輸出對,還可以像人類一樣進行多步驟的思考和推理,解決更復雜的問題。而這,這帶來了一個革命性的變化——企業不必再為提升AI能力,去投入鉅額固定成本,而是可以透過增加推理時間來實現。用通俗的話說,就是從"買更大的算力"變成了"多給AI一點思考時間"。
在AI領域也有不少人持有這樣的觀點,雖然從預訓練來看,Scaling Law可能在放緩,但對於推理層面的Scaling Law,還未被充分挖掘。

最後,想說一段深度學習歷史上的一段小插曲,來做為這個爭議的結尾。
在2022年3月,Gary Marcus發表了“深度學習撞牆了”這個觀點,AI界也陷入了一波爭論。Gary Marcus是Robust.AI的創始人,同時是紐約大學心理學及神經科學教授,在AI領域還是有些分量。
隨後,Geoffrey Hinton、Yann LeCun等人,都站出來駁斥了這個觀點,Yann LeCun說:當代人工智慧的主要技術是深度學習神經網路,這是一種大規模的自學習演算法,擅長識別和利用資料中的模式。從一開始,批評者就過早地認為神經網路已經遇到了不可翻越的牆,但每次都被證明只是一個暫時的障礙。
如今可能也是一樣,就像IIya的後半句話所說:現在的關鍵,是找到在什麼地方去Scaling。
曾經我們訪談過一位AI創業者,他提到的一個信念,很適合我們應對面前的這個坎:“我記得在2016年的時候,那時我還在一家大公司,有一次參加完一個NLP的會議,結束之後充滿了挫敗感,感覺好像這輩子都看不到真正的應用,你也不知道那時的投入到底是不是對的。但我也經常反思,從我過去十幾年對未來的預判裡,我發現AI和機器人整體的發展速度,又是大大超出我的預期了。短期內你永遠會看到很多困難,但這麼多聰明的頭腦,其實在解決一個又一個問題,產生了一個又一個技術突破,就像有一隻巨大的手在促使這個行業往上升。”
References:
1.新智元:Scaling Law撞牆,AI圈炸鍋了!OpenAI旗艦Orion被曝遭遇瓶頸,大改技術路線
2.機器之心:OpenAI大改下代大模型方向,scaling law撞牆?AI社群炸鍋了
3.AI前線:營收翻倍、Blackwell晶片爆單,黃仁勳否認 Scaling Law 失效
4.資訊平權:怎麼理解Ilya說的“AI放緩了”
5.硬AI:這個訪談回應了所有AI焦點問題!
6.機器之心:Scaling Laws終結,量化無用,AI大佬都在審視這篇論文
7.海外獨角獸:Dario Amodei:Scaling Law 還沒遇到上限
也許你還想看:
經緯張穎:2023,不只克服困難而是習慣困難
經緯張穎內部講話:2024,四大關鍵決策
經緯2023年終盤點:Adaptability is the key to thriving
