編者按:近日,中國人工智慧實驗室 DeepSeek 給美國矽谷帶來的震撼不斷持續,其最新發布的低成本推理大模型 R1 在效能上比肩 OpenAI 的 o1,且完全開源,引發了人們對美國在人工智慧領域的全球領先地位是否正在縮小的擔憂。許多人感嘆,“DeepSeek 真的會改變全世界 AI 的競爭格局”,並對大型科技公司尤其是 OpenAI 在建設人工智慧模型和資料中心方面的鉅額投入發出質疑。
然而,據一位專注於 AI 領域的分析師 Alberto Romero 最新曝出,其實 OpenAI 的“GPT-5 已經真實存在,推向大眾創造不了相應的經濟價值,才不公佈。”他在一篇邏輯鏈條極為完整的文章《This Rumor About GPT-5 Changes Everything》中提出了這樣的結論,並引發熱議。Romero 指出,AI 廠商們幾乎耗盡了可用於預訓練的全部高質量資料來源。那幫頂尖 AI 廠商開始守護自己的寶貴知識,不再對外分享成果。假如有 3 億人在使用你的 AI 產品,那短短一週的運營開支就會直接讓絕大多數企業資金鍊斷裂。
有網友認同其看法,表示“也許緊隨 o1 之後的 o3 是基於完整 GPT-5 的推理模型,而 o1 則基於 4o 或 GPT-5 的另一個提煉。顯然,o3 的使用費會高得多,這證明了執行完整 GPT-5 的更高推理成本是合理的。”還有網友提出,“一旦一家 AI 公司擁有了類似 AGI 的東西,他們就不會發布它,因為可以用它來統治市場。”
值得注意的是,OpenAI 的核心人才去年來接連出走,高層人員變動也十分頻繁。此前前 OpenAI 安全研究員丹尼爾·科科塔洛透露,OpenAI 在開發 AGI 方面已接近成功,但似乎並未準備好應對隨之而來的所有挑戰。此前多次公開談到重視安全問題的 OpenAI 首席科學家 Ilya Sutskever 和 RLHF 發明者之一 Jan Leike 在 GPT-4o 釋出第二天相繼離開 OpenAI。之後在 GPT-4o 全量上線的第二天,OpenAI CTO Mira Murati 也走了,還帶著研究主管 Bob McGrew 和研究副總裁 Barret Zoph 一起。
我們在不改變作者原意的基礎上對 Alberto Romero 的文章進行了編譯,以饗讀者,以下為全文。
如果告訴大家,GPT-5 已經真實存在,各位會怎麼想?如果 GPT-5 不單真實存在,而且正在我們看不到的地方塑造世界,又該如何?這裡不妨提出這樣的假設:OpenAI 已經開發出了 GPT-5,但決定只在內部執行,因為這樣的投資回報要遠高於將其釋出給上千萬 ChatGPT 使用者。畢竟這樣他們獲得的回報就不只是金錢,而是其他更寶貴的東西。
本文將整理我掌握的一切資料,嘗試證明這個猜想的合理性。先讓我澄清一下:這純粹是個人猜測。所有證據均公開透明,並不存在任何洩密或者內幕傳言之類予以支援。事實上,這篇文章既是分享的結果,也是我構建理論的過程記錄。再次重申,我並沒有獲取內部訊息的許可權,畢竟能接觸到的人肯定受到保密協議的約束。唯一能用來說服大家的,就是接下來的邏輯鏈條。
當然,我的想法很可能大錯而特錯,如果讀完全文各位有什麼意見或者反饋,也請在評論區中友好討論。
在討論 GPT-5 之前,我們先要從同樣未能如約亮相的 Anthropic Claude Opus 3.5 聊起。
如大家所知,三大 AI 研發機構 OpenAI、Google DeepMind 還有 Anthropic 都發布了一系列搭配不同價效比組合的模型方案。OpenAI 拿出了 GPT-4o、GPT-4o mini 以及 o1/o1-mini 等;Google DeepMind 的陣容是 Gemini Ultra、Pro 以及 Flash;Anthropic 則帶來了 Claude Opus、Sonnet 以及 Haiku。他們的目標非常明確:迎合儘可能多的客戶群體。有些企業願意不計成本來追求更高的效能表現;也有一些企業更關注成本效益,希望以相對低廉的價格享受接近頂尖的模型效能;另外一些公司則關注價格親民、效能說得過去的解決方案。到這裡,一切還算和諧順暢。
但 2024 年 10 月發生了一件怪事:當時大家都以為 Anthropic 會公佈 Claude Opus 3.5 以作為對 GPT-4o(2024 年 5 月推出)的回應。但相反,他們在 10 月 22 日只拿出了 Claude Sonnet 3.5 的更新版本(人們稱之為 Sonnet 3.6)。於是問題來了,Opus 3.5 去哪了?Anthropic 陣營似乎壓根沒有能夠跟 GPT-4o 正面抗衡的選手。這可太奇怪了。下面來看當時大眾討論與 Opus 3.5 實際釋出情況的具體時間表:
-
10 月 28 日,我在帖子中表示“有傳言稱 Sonnet 3.6……其實是備受期待的 Opus 3.5 訓練失敗之後的某個中間檢查點版本。”同樣是在 10 月 28 日,r/ClaudeAI subreddit 上出現了一篇文章稱“Claude 3.5 Opus 已遭廢棄”,並附有指出 Anthropic 模型頁面的連結。可截至今天,該頁面仍無隻言片語提到過 Opus 3.5。有人猜測剔除 Opus 3.5 是一項戰略舉措,目的是避免在即將到來的融資輪之前失去投資者們的信任。
-
11 月 11 日,Anthropic 的 CEO Dario Amodei 在 Lex Fidman 的播客上否認他們已經放棄 Opus 3.5,並闢謠稱“雖然沒有確切的日期,但據我們所知,Claude 3.5 Opus 的釋出計劃仍然存在。”很謹慎、很含糊,但意思很明確。
-
11 月 13 日,彭博社發表評論證實了早先的傳聞:“經過訓練之後,Anthropic 發現 3.5 Opus 在評估中的效能優於舊版本,但考慮到模型大小以及構建和執行的成本,其表現未能達到應有水平。”這可能也是 Dario 未給出確切釋出日期的理論,儘管 Opus 3.5 的訓練順利完成,但最終結果卻令人失望。請注意,其中的重點並不是絕對效能,而是相較於實際效能的成本投入。
-
12 月 11 日,半導體專家 Dylan Patel 和他的 Semianalysis 團隊給出了最後一次反轉,也終於把所有線索編織成了一個連續且合理的解釋:“Anthropic 完成了對 Claude 3.5 Opus 的訓練,而且效能表現良好並進行了適當擴充套件……但該公司最終並未釋出。相反,該公司決定使用 Claude 3.5 Opus 生成合成資料並進行獎勵建模,藉此在使用使用者資料的同時顯著改進 Claude 3.5 Sonnet 的效能水平。”
簡而言之,Anthropic 確實訓練出了 Claude Opus 3.5,但由於效能達不到內外部對“Opus 3.5”這個名頭的期待,他們最終選擇放棄。Dario 認為換種訓練方式應該可以改善結果,所以稱計劃仍在繼續但未給出明確日期。彭博社則證實,Opus 3.5 的效能比現有模型更好,但不足以證明其推理成本(即使用者需要承擔的使用價格)的合理性。Dylan 和他的團隊則從神秘的 Sonnet 3.6 與莫名失蹤的 Opus 3.5 之間發現了某種關聯:後者在公司內部被用於生成合成資料,用以改善前者的效能表現。
於是我們整理出了這樣的邏輯關係:

使用功能強大、價格昂貴的模型來生成資料,藉此提升其他功能稍弱、但價格更便宜的模型的效能,這樣的過程被稱為蒸餾。作為一類常規實踐,蒸餾技術能夠幫助 AI 廠商改進其小體量模型,順利擺脫對於高成本預訓練的過度依賴。
蒸餾有多種實現方法,這裡我們不做過多討論。大家只需要明確一點:充當“教師”的強模型會將“學生”模型從“小、便宜、快但弱”轉變為“小、便宜快且強”。
由此來看,蒸餾技術幾乎讓強模型成為一座金礦。Dylan 也解釋了 Anthropic 使用 Opus 3.5 來幫助改進 Sonnet 3.6 的合理性:新版 Sonnet 與舊版相比,推理成本並未發生巨大變化,但模型效能卻迎來了顛覆性提升。因此相較於直接釋出蒸餾之後價效比更高的 3.5 Sonnet,3.5 Opus 確實成了個在經濟意義上非常尷尬的版本。
接下來再回到成本問題:蒸餾可以降低推理成本,同時提高效能。而 Anthropic 之所以選擇不釋出 Opus 3.5,是因為除了效能未達預期,其在內部也確能發揮更大價值。(Dylan 認為這也是開源社群能夠快速追趕 GPT-4 的原因——各開源大模型能夠從 OpenAI 的這座富礦中汲取能量。)
於是結論就很明確了,Sonnet 3.6 不僅成本更低,而且已經能夠代表最先進的水平,甚至超過了 GPT-4o。Anthropic 中端模型的表現優於 OpenAI 的旗艦產品,這大機率要歸功於有 Opus 3.5 參與的蒸餾過程(當然也可能還有其他原因,畢竟 5 個月對於 AI 大模型來說已經是段很長的週期了)。突然之間,人們意識到高成本並不一定對應著高效能。
OpenAI 掌門人 Sam Altman 也親自發出警告,稱“越大越好”的時代已經結束。可這也意味著那幫頂尖 AI 廠商開始守護自己的寶貴知識,不再對外分享成果 。 引數數量不再是衡量效能的可靠指標,我們只能將關注點轉移到基準效能上。最後一次正式披露引數規模的 OpenAI 模型是 2020 年的 GPT-3,為 175B 引數。到 2023 年 6 月,有會議稱 GPT-4 將是一套混合專家模型,共擁有約 1.8 萬億引數。Semianalysis 隨後在一份評估中具體證實了這一點,得出結論稱 GPT-4 擁有 1.76 萬億引數,而時間已經來到 2023 年 7 月。
直到一年半之後的 2024 年 12 月,專注於 AI 未來影響的 EpochAI 組織研究員 Ege Erdil 才估算出,一大批行業領先的 AI 模型(其中包括 GPT-4o 和 Sonnet 3.6)其實比 GPT-4 要小得多(但二者在基準測試中的表現均優於 GPT-4):當前的頂尖模型,例如原始 GPT-4o 以及 Claude 3.5 Sonnet 可能在規模上比 GPT-4 小一個數量級,其中 4o 擁有約 200B 引數,3.5 Sonnet 約有 400B 引數……當然這只是我粗略得出的結論,實際情況可能在上下兩倍之間浮動。
他還深入解釋了在 AI 廠商未公佈任何架構細節的前提下,自己是如何得出這個數字的。但這對本文討論的問題並不重要,最關鍵的是一個答案正漸漸浮現:Anthropic 和 OpenAI 似乎都遵循著類似的軌跡——他們的最新模型不僅比上一代更強,而且更小也更便宜。我們基本可以肯定 Anthropic 是透過將 Opus 3.5 蒸餾成 Sonnet 3.6 來實現這個目標,那麼 OpenAI 又是怎麼做到的?

有人可能認為,Anthropic 選擇蒸餾方法是因為他們遇到了特殊情況,即 Opus 3.5 的直接訓練結果令人失望。但事實上,其他廠商也基本走上了類似的道路。Google DeepMind 和 OpenAI 都報告稱其最新訓練模型的效能低於預期(但請注意,低於預期並不代表性能更差)。造成這種情況的具體原因我們姑且不論,畢竟原因可能是資料不足造成的收益遞減、Transformer 架構的固有侷限、預訓練 Scaling Law 停滯不前等。總而言之,Anthropic 遇上的情況其實非常普遍。
但還記得彭博社的報道嗎?效能指標的好壞僅取決於成本。Edge 就解釋了具體原因:
ChatGPT/GPT-4 熱潮帶來的需求激增和生成式 AI 的加速普及,導致各 AI 廠商承受著鉅額虧損,幾乎無法正常經營。這種情況促使各方都迫切希望降低推理成本(雖然訓練只須執行一次,但推理成本卻與使用者數量和使用頻率成正比增長)。假如有 3 億人在使用你的 AI 產品,那短短一週的運營開支就會直接讓絕大多數企業資金鍊斷裂。
從這個角度看,OpenAI 的思考邏輯跟 Anthropic 肯定是完全相同的。蒸餾技術之所以有效,就是因為它能將這兩大現實挑戰轉化成同一項優勢:透過為人們提供更小的模型來解決推理成本問題,同時停止釋出大體量模型以避免因效能達不到公眾預期而遭受批評。
Ege 認為,OpenAI 還可能選擇了另外一種方法:過訓練。其基本思路是在比最優計算量更多的資料之上再訓練一個小模型:“當推理成為模型執行的大部分、或者核心成本來源時,最好在更多 token 上再訓練較小的模型。”但現在來看過訓練這條路其實走不通,根據馬斯克和 Ilya Sutskever 前段時間的說明,各 AI 廠商幾乎耗盡了可用於預訓練的全部高質量資料來源。
於是只能再次迴歸蒸餾。Ego 總結稱,“我認為 GPT-4o 和 Claude 3.5 Sonnet 很可能都是從更大的模型當中蒸餾而來。”到目前為止,整個推測過程都讓我們愈發相信,OpenAI 正出於同樣的原因(效能不佳 / 成本控制)、以同樣的方式(蒸餾)重複著 Anthropic 在 Opus 3.5 上做過的一切(訓練後不公佈)。那麼,OpenAI 的類似模型在哪裡、可能的名頭是什麼?

說到這裡,我們已經完成了對 Anthropic Opus 3.5 故事的回溯,再把從中得出的蒸餾方法轉移到了 OpenAI 這邊,認為二者都面臨類似的難題、自然很可能選擇類似的解法。然而這套理論中又出現了新的障礙:由於 OpenAI 是行業先驅,所以他們可能面臨著 Anthropic 等競爭對手未曾遇到過的關隘。
其中一大核心障礙,就是訓練 GPT-5 的硬體要求。Sonnet 3.6 的效能與 GPT-4o 相當,但釋出時間滯後了五個月。所以我們可以假設 GPT-5 恐怕效能更強、但體量也要更大,於是對應著更高的訓練成本與推理成本。也許整個訓練週期要耗費 5 億美元左右,甚至讓人懷疑當前的硬體到底能不能做得到。
Ege 再次給出了重要指示:能做到,但也僅限於訓練階段。為 3 億使用者提供如此龐大的推理服務,則根本沒有可能性:理論上講,即使只借助目前的硬體,也足以支撐起比 GPT-4 大得多的模型:比如 50 倍於 GPT-4 的巨型版本,擁有約 100 萬億引數,同時以每百萬輸出 token 3000 美元和每秒 10 到 20 個 token 的速度提供服務。然而要做到這一點,這些大模型就必須證明自己確實能為客戶創造相應的經濟價值。
很明顯,哪怕是對微軟、谷歌或者亞馬遜(分別是 OpenAI、DeepMind 和 Anthropic 背後的金主)來說,承擔這等水平的推理成本都不具備合理性。那麼 AI 廠商要如何解決這個問題?思路很簡單:要想將擁有數萬億引數的模型推向大眾,就得證明能創造相應的經濟價值。既然創造不了,那就不公佈 。
於是乎,“比現有產品效能更好”和“但沒有先進到足以證明其鉅額執行成本的合理性”就成了兩個並行條件。事實上,此前《華爾街日報》報道 GPT-5 和彭博社報道 Opus 3.5 時,也都給出了驚人相似的一致結論。由於最終結果令人失望,廠商們決定將其保留在內部作為大型“教師”模型,負責蒸餾出較小的“學生”模型,再將後者實際推向市場。於是我們就得到了 Sonnet 3.6 和 GPT-4o/o1,又便宜又好的效果讓使用者們相當滿意。
所以哪怕大家仍然在期待著 Opus 3.5 和 GPT-5 的橫空出世,也不會影響到 AI 廠商們靠現有服務賺得盆滿缽滿。
說到這裡,其實我還沒有完全說服自己。雖然一切證據都與結論並不衝突,但合理跟真相之間仍然隔著十萬八千里。所以接下來,我要再給大家補充點別的資訊。
還有其他證據表明 OpenAI 在以這種方式運營嗎?除了低於預期的效能和可能造成損失之外,他們還有什麼理由要把 GPT-5 藏起來?我們能從 OpenAI 高管們對於 GPT-5 的公開宣告中找到哪些蛛絲馬跡?他們一再推遲模型釋出,難道不會給公司聲譽造成風險嗎?畢竟 OpenAI 是 AI 革命的先驅力量,而 Anthropic 只要摸著石頭過河就行。很多事情 Anthropic 可以做,並不代表 OpenAI 也能有樣學樣。
說到錢,讓我們來挖掘一點關於 OpenAI 和微軟合作伙伴關係的相關細節。首先就是大家都知道的事實:AGI 條款。在 OpenAI 關於其組織結構的博文中提出了五項治理條款,用以描述其運作方式以及與非營利組織、董事會和微軟之間的關係。其中第五條將 AGI 定義為“在最具經濟價值的工作上擁有超越人類能力的高度自主系統”,並確定一旦 OpenAI 董事會聲稱已經實現 AGI,“此類系統將被排除在與微軟間的 IP 許可及其他商業條款之外,現有條款內容僅適用於 AGI 之前的技術。”
不用說,兩家公司都不希望合作關係破裂。OpenAI 雖然設定了這一條,但也會盡一切努力避免實施。其中一種方法就是推遲釋出可能被標記為 AGI 的系統。很多朋友會質疑,“但 GPT-5 不可能已經實現了 AGI 吧?”這裡我就要聊聊第二個不為人知的秘辛了:OpenAI 和微軟對於 AGI 設有一條秘密定義,雖然與科學目的無關,但在法律上構成了二者合作關係的基礎:AGI 應是一套“可以產生至少 1000 億美元利潤”的 AI 系統。
如果 OpenAI 以 GPT-5 尚未準備好為藉口將其私藏,那麼除了控制成本和防止公眾的強烈抨擊之外,至少還能實現另外一個效果:避免宣告 GPT-5 是否符合前面提到的這條 AGI 定義。雖然 1000 億美元利潤確實是個恐怖的數字,但沒有什麼能阻止雄心勃勃的客戶以其為基礎建立新業務、賺取新利潤。而另一方面,我們也幾乎可以肯定:如果 OpenAI 預計 GPT_5 每年能夠帶來 1000 億美元(約合 7245.1 億元人民幣)的經濟性收入,那他們應該不會介意執行 AGI 條款並直接跟微軟分道揚鑣。
大多數公眾對於 OpenAI 不釋出 GPT-5 的情況都有如下假設:不釋出 GPT-5,是因為效能還達不到預期。哪怕真的不夠好,內部版本的 GPT-5 也大機率比我們在當前市面上能接觸到的大模型更好。畢竟一套不計成本、只求效能的模型,跟現在這些需要以低成本方式服務 3 億使用者的模型之間,肯定存在著天壤之別。之前他們之所以允許我們訪問模型,是因為他們需要普通使用者的資料。但現在情況不同了,他們甚至不單想要錢——那是微軟的目標,OpenAI 想要的是通用人工智慧 AGI、想要超級人工智慧 ASI,更想要青史留名、征服整個世界。

感謝大家的耐心,文章已經接近尾聲。相信看了這麼多,我提出的論據已經基本指向一個可能性很高的結論:OpenAI 也許正在內部執行 GPT-5,就如同 Anthropic 在內部執行 Opus 3.5 一樣。OpenAI 甚至根本不打算釋出 GPT-5,能亮出來給公眾看的最強成果也就是 ChatGPT o 系列和 Claude Sonnet 系列模型。
隨著 OpenAI 對於 Scaling Law 的探索愈發深入,GPT-5 需要突破的預期門檻也越來越高。而且,現在就連我們的資料都沒多大價值了。訓練新的基礎模型(GPT-5、GPT-6 乃至更多)對於 OpenAI 內部來說肯定是有意義的,只是不一定要作為產品推出。對這家 AI 先驅來說,唯一重要的目標就是繼續為下一代模型產出更好的資料。
從現在開始,這些基礎模型可能會在後臺執行,幫助其他模型實現單憑一己之力無法完成的壯舉。這就如同一位隱居深山的世外高人,哪怕我們無緣得見,也終會看到其徒子徒孫在江湖上大放異彩。

而且即使 GPT-5 最終釋出,影響其實也並不大。畢竟到那個時候,OpenAI 和 Anthropic 肯定已經意識到他們掌握了絕對的領先地位,不必擔心自己偶爾露出的一點高招對其江湖地位構成威脅。
可能正因為如此,OpenAI 才會在短短三個月之內從 o1 釋出到了 o3,後續還可能繼續推出 o4 和 o5。同樣的,他們也才會在社交媒體上表現得如此興奮,因為他們找到了一種新的、更強大的生態閉環。
所以,千萬別以為接近 AGI 意味著我們能隨意訪問到越來越強大的 AI、享受到越來越先進的自主技術。唯一可以相信的,就是他們的模型會愈發領先。而每一代新模型的推出,都是在為他們的技術火箭新增新的噴射引擎。
至於事實是否真的如此,就讓時間給我們答案吧。
原文連結:
https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything
宣告:本文為 InfoQ 翻譯,未經許可禁止轉載。
新春到,福氣到
百萬拼手氣紅包
同時到
新的一年,極客時間祝您
好巳發生,事事順
來抽個拼手氣紅包,博個好彩頭
0 門檻、100% 到手、即領即用
掃碼立即開紅包
