編輯:蛋醬
眾所周知,人工智慧在過去十五年裡取得了令人難以置信的進步,尤其是在最近五年。
回顧一下人工智慧的「四大發明」吧:深度神經網路→Transformer 語言模型→RLHF→推理,基本概括了 AI 領域發生的一切。
我們有了深度神經網路(主要是影像識別系統),然後是文字分類器,然後是聊天機器人,現在我們又有了推理模型。領域內的進步一直在持續 —— 儘管正規化轉變級別的重大突破並不常見,但我們堅信能在緩慢而穩定的發展中前進。
值得深思的問題來了:下一個重大突破會是什麼?取決於什麼?
康奈爾大學 (科技校區) 博士生 JACK MORRIS 發表了一個新穎的觀點:從 2012 年到現在,AI 的根本性突破並非來自全新的演算法創新,而是來自我們能夠利用的新資料來源和更好的資料利用方式。

部落格地址:https://substack.com/home/post/p-160974493
所以他認為人工智慧的下一個正規化突破可能要依靠影片資料(尤其是 YouTube)和實體世界資料(機器人)。
讓我們看看作者是如何分析的:
事實上,一些研究人員最近提出了「人工智慧的摩爾定律」,即計算機執行某些任務(在這裡指的是某些型別的編碼任務)的能力將隨著時間的推移呈指數級增長:

「人工智慧摩爾定律」。(順便說一句,任何認為到 2025 年 4 月就能在無人干預的情況下執行自主智慧體一小時的人都是在自欺欺人。)
雖然出於種種原因,我並不認同這種說法,但我無法否認人工智慧的進步趨勢。每年,我們的人工智慧都會變得更智慧、更快速、更便宜,而且這種趨勢尚未看到盡頭。
大多數人認為,這種持續的進步來自於學術界(主要是麻省理工學院、斯坦福大學、卡內基梅隆大學)和工業界(主要是 Meta、谷歌和少數中國實驗室)研究界的穩定 idea 供給,同時還有很多在其他地方進行的研究是我們永遠無法瞭解的。
研究方面確實取得了很大進展,尤其是在系統方面。這尤其體現在如何降低模型成本。這裡挑選幾個值得關注的例子:
-
2022 年,斯坦福大學的研究人員提出了 FlashAttention ,這是一種在語言模型中更好地利用記憶的方法,這種方法幾乎在任何地方都有使用;
-
2023 年,谷歌的研究人員開發了推測解碼,所有模型提供商都使用它來加速推理(也是 DeepMind 開發的,貌似是同時進行的);
-
2024 年,一群網際網路狂熱分子開發了 Muon ,它似乎是一個比 SGD 或 Adam 更好的最佳化器,並可能成為未來訓練語言模型的方式;
-
2025 年,DeepSeek 釋出了 DeepSeek-R1 ,這是一個開源模型,其推理能力與人工智慧實驗室(特別是谷歌和 OpenAI)的類似閉源模型相當。
人們在不斷探索,現實也很酷:大家參與的是去中心化的全球化科學研究,研究成果會在 arXiv 、學術會議和社交媒體上公開分享。
如果我們正在進行如此多重要的研究,為什麼有些人認為進展正在放緩?引起人們抱怨的是,最新的兩個大模型 Grok 3 和 GPT-4.5 ,在此前的基礎上僅取得了微小的改進。一個尤為突出的例子是,在最新的數學奧林匹克考試中,語言模型的得分僅為 5%,這表明最近的宣告在報告系統能力時可能被誇大了。
人工智慧「四大發明」
如果我們試圖記錄那些「重大」的突破,那些真正的正規化轉變,它們似乎正在以不同的速度發生。
1. 深度神經網路:深度神經網路在 2012 年 AlexNet 模型贏得影像識別競賽後開始起飛;
2. Transformer + 大語言模型:2017 年穀歌在《Attention Is All You Need》中提出了 Transformer,導致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的誕生;
3. RLHF(基於人類反饋的強化學習):據我所知,最早在 OpenAI 2022 年的 InstructGPT 論文中提出;
4. 推理:2024 年 OpenAI 釋出了 o1,隨後 DeepSeek 釋出了 R1。
其實,這四件事(深度神經網路→Transformer 語言模型→RLHF→推理)就概括了 AI 領域發生的一切:我們有了深度神經網路(主要是影像識別系統),然後是文字分類器,然後是聊天機器人,現在我們有了推理模型(不管那是什麼)。
假設想要實現第五次這樣的突破,研究一下已有的這四個案例可能會有所幫助。
是什麼新的研究 idea 導致了這些突破性事件?所有這些突破的基礎機制在 1990 年代甚至更早就已存在,這並不荒謬。我們正在應用相對簡單的神經網路架構,進行有監督學習(1 和 2)或強化學習(3 和 4)。
交叉熵的有監督學習,即預訓練語言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。強化學習是透過強化學習高頻訓練(RLHF)和推理訓練對語言模型進行後期訓練的主要方法,它出現得稍微晚一些。它的出現可以追溯到 1992 年策略梯度方法的引入(這些 idea 在 1998 年 Sutton & Barto 出版的《強化學習》教科書第一版時就已經存在了)。
如果 idea 不是新的?那什麼是?
這些「重大突破」可以說是我們已知一段時間的東西的新應用。首先,這意味著「下一個重大突破」可能不會來自一個全新的 idea,而是我們已經知道一段時間的東西的重新浮現。
但這裡缺失一個部分 —— 這四次突破中的每一次都使我們能夠從新的資料來源學習:
1. AlexNet 及其後續工作解鎖了 ImageNet,一個大型的分類標籤影像資料庫,推動了計算機視覺十五年來的進步 ;
2. Transformer 解鎖了在「網際網路」上的訓練,以及下載、分類和解析網路上所有文字的競賽(現在看來我們大部分已經完成);
3. RLHF 讓我們可以從表明什麼是「好文字」的人類標籤中學習(主要是一種感覺);
4. 推理似乎讓我們從「驗證器」中學習,比如計算器和編譯器,它們可以評估語言模型的輸出。
提醒自己,這些里程碑中的每一個都標誌著各自的資料來源(ImageNet、網路、人類、驗證器)首次大規模使用。每個里程碑之後都緊隨著一陣瘋狂的活動:研究人員競爭 (a) 從任何可用來源汲取剩餘的有用資料和 (b) 透過新技巧更好地利用已有資料,使我們的系統更高效、對資料需求更少。
預計我們將在 2025 年和 2026 年看到這種趨勢在推理模型中出現,因為研究人員正競相尋找、分類和驗證一切可能被驗證的東西。

研究者建立了 ImageNet (當時最大的網路公共影像集),人工智慧的進步可能是不可避免的。
新 idea 有多重要?
在這些情況下,我們實際的技術創新可能不會產生巨大差異,這一點值得一提。檢視一下反事實。如果我們沒有發明 AlexNet,也許另一種能處理 ImageNet 的架構會出現。如果我們從未發現 Transformer,也許我們會採用 LSTM 或 SSM,或者找到其他全新的方式來從我們在網路上可用的大量有用訓練資料中學習。
這與一些人認為「除了資料之外什麼都不重要」的理論一致。一些研究人員觀察到,對於我們所做的所有訓練技術、建模技巧和超引數調整,總體上產生最大差異的是改變資料。
一個有趣的例子是,一些研究人員致力於使用 Transformer 以外的架構開發一種新的類 BERT 模型。他們花了大約一年時間以數百種不同方式調整架構,並設法創造出一種不同型別的模型(這是一種狀態空間模型或 SSM),當在相同資料上訓練時,其效能與原始 Transformer 大致相當。
這一發現的等價性真正深刻,因為它暗示了我們可能從給定資料集中學習到的東西有一個上限。世界上所有的訓練技巧和模型升級都無法繞過這個冷酷的事實,即從給定的資料集中只能學到這麼多。
也許,對新 idea 的漠不關心就是我們應該從《苦澀的教訓》中得到的。如果資料是唯一重要的東西,為什麼 95% 的人都在研究新方法?
下一個正規化轉變從何而來?
會是 YouTube 嗎?
顯而易見的結論是,我們的下一個正規化轉變不會來自強化學習的改進或一種奇特的新型神經網路,而是會出現在我們解鎖以前未曾訪問或未能適當利用的資料來源時。
許多人正在努力利用的一個明顯資訊源是影片。根據網路上的一個隨機網站,每分鐘約有 500 小時的影片上傳到 YouTube。這是一個荒謬的資料量,比整個網際網路上可用的文字多得多。它也可能是一個更豐富的資訊源,因為影片不僅包含單詞,還包含它們背後的語調以及關於物理和文化的豐富資訊,這些都無法從文字中獲得。
可以肯定地說,一旦我們的模型足夠高效,或者我們的計算機變得足夠強大,谷歌就會開始在 YouTube 上訓練模型。畢竟,他們擁有這個平臺;不利用這些資料為自己謀利將是愚蠢的。
AI 下一個「正規化」的最後一個競爭者是某種具身化的資料收集系統 —— 或者,用普通人的話來說,機器人。目前,我們無法以適合在 GPU 上訓練大型模型的方式從攝像頭和感測器收集和處理資訊。如果我們能夠構建更智慧的感測器或擴充套件我們的計算機直到它們能夠輕鬆處理來自機器人的大量資料湧入,我們可能能夠以有益的方式使用這些資料。
很難說 YouTube、機器人還是其他什麼東西將成為 AI 的下一個大事件。我們現在似乎深深紮根於語言模型陣營,但我們似乎也很快就會用盡語言資料。
但如果我們想在 AI 方面取得進步,也許我們應該停止尋找新想法,開始尋找新資料!
原文連結:https://substack.com/home/post/p-160974493

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]