
新智元報道
新智元報道
編輯:KingHZ
【新智元導讀】你以為GPT-4已經夠強了?那只是AI的「預熱階段」。真正的革命,才剛剛開始——推理模型的時代,來了。這場正規化革命,正深刻影響企業命運和個人前途。這不是一場模型引數的升級,而是一次認知邏輯的徹底重寫。
AI推理模型改變了一切。
而OpenAI早有討論。
最近,他們放出了過去關於推理模型重寫未來的討論。

OpenAI研究員Noam Brown強調了預訓練和推理兩種關鍵的AI正規化,以及模型隨著處理更多資料和計算能力的提升而不斷改進的過程。
這些技術進步不僅加速了模型效能的提升,還在重塑人工智慧基礎設施的戰略和經濟動態。
與此同時,由OpenAI首席經濟學家Ronnie Chatterji等討論探討了人工智慧與國家安全和經濟政策的交叉領域。
這些討論共同強調了人工智慧的雙重軌跡:一方面加速技術進步,另一方面加深其在全球政策、基礎設施和制度治理中的角色。

AI時代,前所未有
第一個出場的是Noam Brown。
他是OpenAI在多智慧體推理領域的研究人員,以共同開發出首個超越人類水平的無限注德州撲克AI,以及首個達到人類水平的策略遊戲《外交官》(Diplomacy)AI而聞名。

多年來AI已經取得了很多很酷、令人印象深刻的成果。
比如說,在1997年,IBM的「深藍」戰勝了國際象棋冠軍Garry Kasparov。

在2011年在《危險邊緣》節目中,IBM的「沃森」奪冠。

在某些特定領域,AI也早就有了不少令人驚豔的成果。
比如,很早以前,美國郵政就開始用光學字元識別技術來分揀郵件;Facebook的人臉識別功能,也已經存在很多年了。

那麼問題來了,像ChatGPT這樣的AI,以及現在所處的AI時代,到底特別在哪裡?
答案其實就在於「通用性」。
最重要的區別在於:以前的AI系統都非常專注於單一任務。
比如在1997年,IBM的「深藍」戰勝Garry Kasparov,但背後可是花了兩年甚至更久的時間,專門訓練AI只為了下好國際象棋。

深藍機組之一
同樣的情況也發生在《危險邊緣》節目上,他們花了好幾年時間,只為了讓AI在節目中表現出色——
但它只會做這一件事,其他什麼都不會。
而現在ChatGPT和如今的AI特別之處就在於它們的「通用性」——
也就是說,它們可以完成很多完全不同的任務,哪怕這些任務並不是特意訓練過的。
這就是我們所處AI新時代真正不同的地方。

Noam Brown接下來強調了兩種關鍵的AI正規化:預訓練正規化和推理正規化。


預訓練正規化
「預訓練正規化」出現得更早,也是最初驅動ChatGPT的核心方式。
最早,這可以追溯到2019年的GPT-2。
它的基本思路其實很簡單:
收集大量文字,包含了網際網路的大部分內容;
然後訓練AI模型來預測一句話中下一個可能出現的詞。
聽起來也許很基礎,但這種方法卻能帶來令人驚訝的智慧水平。
為什麼會這樣呢?
Brown認為原因在於,當把整個網際網路的大量文字輸入給模型,裡面自然就包含多種多樣的內容。
那麼當模型要預測某個語句中的下一個詞時,它必須理解很多上下文資訊,才能做出最準確的判斷。

Ilya Sutskever有個特別形象的說法:
想象一下網路上有一本推理小說,模型已經讀完了整本小說的所有文字,來到結尾的部分。
故事最後,偵探說:「我知道兇手是誰了。兇手就是____。」
這個時候,如果模型要預測這句話中最後那個空白部分,它就必須真正「理解」整部小說的情節。
這就是為什麼僅僅透過「預測下一個詞」的訓練方式,模型就能學到這麼多看似複雜的知識。
這就是預訓練正規化的魅力所在。
而且另一個很關鍵的點在於,它具備很強的通用性——
因為它是基於整個網際網路的海量文字進行訓練的,所以自然能學到各種各樣的知識和語言表達方式。

OpenAI原始信仰:Scaling Law
更令人印象深刻的是,大家已經持續觀察到一個很穩定的趨勢:當在預訓練正規化中投入更多的資料、更多的計算資源、以及更大的模型規模,模型在「預測下一個詞」這項任務上的表現就會變得越來越好。
AI領域有2篇非常著名的論文。


這些研究表明:當擴大模型規模、延長訓練時間、增加訓練資料量之後,模型在完成預測任務時會提升。

這種穩定可控的增長趨勢,正是促使OpenAI決定大規模投入資源、繼續擴充套件模型規模的核心依據。
當然,光是讓模型更會「預測下一個詞」,並不一定就意味著它在使用者真正關心的任務上,比如程式設計,真的變得更強了。
但在實踐中發現:當模型在預測任務上表現越來越好時,它在各種「下游任務」上的表現也會隨之變好,比如寫程式碼、做數學題、回答問題等等。

這其實就是GPT正規化不斷演進的基礎,從GPT-1到GPT-2,一直到現在,模型能力的持續提升。
但正是這種「簡單粗暴」的擴大規模方式,帶來了效能的巨大飛躍——
這就是令人驚喜的地方。
當GPT-3釋出、而且提升的趨勢依然繼續延伸時,AI領域裡很多人都開始認為:
好吧,這就是終點了。我們已經找到了通往超級智慧的道路。我
們只需要不斷擴大模型規模,就能獲得越來越強的智慧。
從理論上講,這是對的。
但關鍵問題在於——這條路的成本非常高昂,而且會迅速飆升。
比如GPT-2的訓練成本,大概在5,000到50,000美元之間,取決於具體怎麼估算。而根據一些公開資料,GPT-4的訓練成本可能高達5,000萬美元左右。
如果還要繼續按照這個方向再擴大幾個數量級,那花費將是天文數字。
而且儘管模型確實變得更聰明瞭,但它離理想中的「通用智慧」仍然還有一段路要走。

這也呼應了Ronnie曾經說過的一點:這個領域發展得非常快。
過去一年裡聽到的一些關於大語言模型(LLM)和「擴充套件正規化」的批評,可能在當時確實是有道理的。
但到了2023年9月,情況發生了變化——
因為人類已經進入了「推理模型」時代。
這就引出了「擴充套件能力」的第二種正規化:推理正規化(reasoning paradigm)。

推理正規化
預訓練的成本已經快速增長,動輒就是上千萬美元,有些訓練甚至花費了上億美元。
雖然理論上還可以繼續往上堆錢,比如投入十億、甚至數十億美元,但到某個點之後,經濟回報就不再划算了。
不過,有一點非常關鍵:雖然訓練的成本越來越高,但實際向模型提問,讓它給你一個答案的花費的「推理成本」,其實仍然很低。
這就為「擴充套件」開闢了一個新的維度。
設想一下,如果大家不再單純依賴擴大訓練量,而是提升模型在「每次回答前進行更深層思考」的能力呢?
這正是o系列模型(比如o1)背後的核心思想。
舉個例子:你向GPT-4提一個問題,它可能只花你一分錢左右。
但如果你問o1同樣的問題,它會「認真思考」很久,也許會花上一分鐘才回答,而成本可能是大約一美元——
具體來說是數量級上的估算,有上下浮動。
但這個一美元的回答,往往會比那一分錢的回答好得多。
這就是推理正規化帶來的全新可能。

右圖展示了推理正規化的實際效果。

數學競賽:AIME
美國數學競賽(AIME),是美國數學奧林匹克國家隊的選拔賽之一。

圖中的縱軸表示準確率,也就是模型在「一次答對」的比例(叫做「pass@1」);橫軸表示模型在回答問題時所消耗的推理計算量(也就是「思考」時間和資源的多少)。
在圖的最左邊,模型幾乎是「秒回」——也就是基本沒怎麼思考;而在最右邊,模型會花上幾分鐘去思考後再作答。
可以明顯看出:隨著模型「思考得越久」,答題準確率就越高,表現也就越好。
這說明推理時間確實能帶來質量的提升。
這提供了全新的「擴充套件維度」——
大家不必再單靠堆大模型、加大訓練成本來提升效能,而是可以透過增加推理時間、花更多資源在「每次思考」上,來獲得更強的結果。
而且最美妙的是,這個維度幾乎還沒有被充分利用。
就像之前說的,GPT-4一次問答成本大約只有一分錢。
但實際上,對於很多人真正關心的問題,他們願意支付遠不止一分錢。
我們現在可以開始探索新的定價——
每次問答成本可以是幾美元、幾十美元,甚至更多,這樣就可以支撐模型進行更深入、更高質量的推理。
目前來看,在競賽數學方面,這是AIME 2024的測試資料。
GPT-4o得分大約是13%,o1 preview模型得分大約是57%,o1得分達到83%。
再來看博士級別的科學問題,也就是上圖最右的GPQA基準測試。
這是一個多項選擇題測試,設計目標是需要具備領域內博士水平才能作答。
人類平均正確率是70%。GPT-4o得分是56%,這個成績已經很出色了。
而o1得分則是78%。
而且,自自從釋出以來,這些成績還在持續提升,而且進步非常迅速:
去年9月,釋出o1 preview;
同年12月,釋出了正式版的o1,並在同月宣佈了還未釋出的o3。
這是AI的重點所在。

AI程式設計:超越人類
關於程式設計競賽的表現,以專業的程式設計競賽平臺Codeforces為例。

GPT-4o的得分只排在第11百分位,也就是說,它的表現只比約11%的頂尖人類程式設計師好。
o1模型的Elo分數是1891,相當於人類選手的第89百分位。
而o3模型的Elo分數超過了2700,已經進入了人類專業程式設計選手的前0.1%,相當於全球第175名的水平。
而且,OpenAI有個內部模型,它的水平已排進了全球前50名。
Brown預測:
到今年年底,OpenAI的模型在程式設計競賽中將會達到超越人類的水平。
而「達到超人類水平」這件事本身並不新鮮,AI過去也做到過很多次。
但o3模型特別的地方在於:它不僅僅在程式設計競賽中表現優秀,它在很多工上都表現得非常出色。
而在編碼任務基準測試Swebench Verifie,o3得分達到了72%。
這意味著這個模型即使不是專門為了程式設計訓練的,也已經具備了強大的實際編碼能力,對現實世界的經濟活動會帶來很大影響。
AI進步太快了:六個月前還存在的問題,但現在已經不成立了。

AI與經濟
Aaron Ronnie Chatterji是OpenAI的多一位首席經濟學家。
目前,他是杜克大學的Mark Burgess & Lisa Benson-Burgess傑出教授,專注於學術、政策與商業交匯的領域。
他曾在拜登政府任職,擔任白宮CHIPS協調員以及國家經濟委員會代理副主任。在此之前,他曾任美國商務部首席經濟學家,以及白宮經濟顧問委員會的高階經濟學家。

他認為就像當前世界在多個維度上已經出現的分裂趨勢一樣,AI也不例外。
如果輕易接受這樣分裂的世界,可能會帶來兩個風險:
一是OpenAI可能會在一些關鍵市場失去信譽,而這些市場正是它努力爭取信任的地方;
二是OpenAI很可能會失去一些關鍵的人才。
因此,在堅持價值觀的同時,如何在其中找到平衡,是這次討論中的一個重要主題。
OpenAI非常國際化,因此,當不同地區開始採用不同型別的技術、而超級大國之間的技術競爭加劇時,這讓很多人感到不安。

AI的經濟影響與意義
從總體上來看,OpenAI內部討論的結論是:AI正在從根本上重塑企業格局。

但這種轉型並不只是關於取代人類或企業本身的問題,而更像是一場「技術化競賽」。
這種轉型發生在各類企業中——包括《財富》500強、大中小型企業等各個層級。
他們的討論主要從三個維度展開:
第一,AI取代人類。
這裡的關鍵問題其實不是{AI會不會取代人類},而是「AI將如何增強或取代人類的角色」。這才是大家真正需要思考的方向。
第二,AI取代公司。
與其說是AI創業公司會取代傳統企業,不如說是一場誰更能有效採納和整合AI的競賽。
比如在銀行業,大家就可以看到這種分化趨勢:一些銀行擁有技術人才,正在積極投資AI;而另一些仍依賴傳統主機系統(mainframes),開始藉助AI推動現代化轉型。
企業必須作出選擇:要麼走在AI轉型的前列,要麼就被甩在後面。
第三,從個人或企業的視角出發來看如何落地AI。
誰能真正理解並應用最新的AI技術,誰就能取得成功。AI的影響範圍涵蓋技術支援、運營效率、戰略決策等多個方面。
所以,關鍵的問題是:企業的AI旅程是什麼?
你現在處在什麼階段?
兩年後你希望達到什麼樣的水平?
這正是許多企業在思考的問題。
這趟旅程並不是簡單地購買AI工具、獲取許可證那麼簡單,而是要把AI嵌入整個價值鏈中,實現深度融合。
參考資料:
https://forum.openai.com/public/videos/ai-economics-in-the-forum-2025
