觀點博弈:我們還應該期待AGI嗎?

作者 | DWARKESH PATEL
譯者 | 劉雅夢
策劃 | 褚杏娟
如果我們能夠繼續擴大大型語言模型(LLMs++)的規模(並因此獲得更好、更通用的效能),那麼有理由期待到 2040 年(或更早)出現強大的人工智慧(AI),它能夠實現大多數認知勞動的自動化,並加速進一步的 AI 進展。然而,如果規模擴大不起作用,那麼通往 AGI 的道路似乎會更長、更難走,原因我在文章中有解釋。
為了深入思考關於規模化正反兩方面的論據,我虛構了兩個角色——堅信者和質疑者,基於他們之間的辯論寫了這篇文章。
我們會耗盡資料嗎?
 質疑者:
即使嚴肅對待那些唾手可得的規模化擴充套件曲線,也意味著我們需要 1e35 次浮點運算(FLOPs) 來構建一個足夠可靠且智慧的 AI,以撰寫一篇科學論文(這是 AI 需要具備的能力的基本要求,以便在規模化變得不可行之後,自動推進進一步的 AI 研究還能繼續前進)【1】。這意味著我們需要的資料需比我們現在擁有的要多 5 個數量級(orders of magnitude,OOM)【2】
我擔心的是,當人們聽到“差了 5 個數量級”時,他們的理解是,“哦,我們的資料量只比我們需要的少了 5 倍——我們只需要在資料效率上取得幾次 2 倍的提升,我們就成功了”。畢竟,朋友之間差幾個數量級算什麼呢?
不,差了 5 個數量級意味著我們的資料量比我們需要的少了 10 萬倍。的確,我們會得到資料效率更高的演算法。多模態訓練將會為我們提供更多的資料,此外,我們可以在多個週期中回收令牌(token) 並使用課程學習。但是,即使我們假設這些技術可能會帶來最慷慨的一次性改進,它們也不會為我們提供指數級的資料增長,以跟上這些擴充套件法則(Scaling Laws)所要求的計算能力指數級增長。
然後人們說,我們會以某種方式讓自我對弈 / 合成數據(self-play/synthetic data)發揮作用。但自我對弈存在兩個非常棘手的挑戰:
  • 評估: 自我對弈在 AlphaGo 中很有效,因為該模型可以根據具體的獲勝條件來判斷自己(“我贏了這局圍棋嗎?”)。但新穎的推理並不具備具體的獲勝條件。因此,正如你所預料的那樣,大型語言模型(LLMs)到今天還無法糾正自己的推理錯誤。
  • 計算:所有這些數學 / 編碼方法都傾向於使用各種型別的樹搜尋,即你需要在每個節點上反覆執行 LLM。對於圍棋獲勝這個相對有限的任務來說,AlphaGo 所需的計算預算是驚人的——現在想象一下,你需要在所有可能的人類思維空間中搜索,而不是在圍棋的走法空間中搜索。為了讓自我對弈工作所需的所有額外計算,加上已經需要用來擴充套件引數本身的驚人計算增加(計算量 = 引數 * 資料)。使用人類思維水平的 1e35 次浮點運算來估計,我們需要在目前最大的模型基礎上增加 9 個數量級(OOMs)的計算量。當然,你可以從更好的硬體和更好的演算法中獲得改進,但你真的能得到完全等同於 9 個數量級的改善嗎?
 堅信者:
如果你對規模效應起作用的主要反對意見僅僅是資料的缺乏,你的直覺反應不應該是,“看起來我們本可以透過擴大 Transformer++ 的規模來創造出 AGI,但我猜我們會先耗盡資料。”
你的反應應該是,“天哪,如果網際網路更大,只需用 幾百行 Python 程式碼就能編寫出一個基本結構的模型,透過擴大規模居然能夠創造出一個具有人類水平智慧的思維。這是世界上的一個瘋狂事實,即讓大量的計算變得智慧竟然如此容易。”
LLM“效率低下”的例子大多隻是一些無關緊要的電子商務垃圾內容【3】。我們透過在下一個 token 預測上訓練它們來加劇這種無能——這種損失函式與我們希望智慧代理在經濟中完成的實際任務幾乎無關。儘管我們實際想要的能力與我們訓練這些模型所用的糟糕損失函式和資料之間的交集微乎其微,但我們只要把 微軟年收入 的 00.03% 投入對網際網路的大規模抓取中,就可以產生一個嬰兒級的通用人工智慧(baby-AGI),也就是所謂的 GPT-4。
因此,考慮到目前為止 AI 的進展都是這麼簡單易行,如果合成數據也能發揮作用,我們也不應該感到驚訝了。畢竟,“模型只是想要學習”。
GPT-4 已經發布 8 個月了。其他人工智慧實驗室也只是剛剛得到了他們自己的 GPT-4 級模型。這意味著所有的研究人員現在才開始嘗試讓自我對弈與當前代的模型一起工作(看起來他們中的一個可能已經 成功了)。因此,到目前為止,我們還沒有公開證據表明合成數據能夠在大規模上發揮作用,但這並不意味著它不能成功。
畢竟,當你的基礎模型足夠強大,至少有時候能夠得出正確答案時,強化學習(RL)就會變得更加可行(現在你可以獎勵模型在完成一連串的思考過程所需的 1/100 次,例如進行一次擴充套件的數學證明,或編寫完成一個完整拉取請求(pull request)所需的 500 行程式碼)。很快你的 1/100 成功率就會變成 10/100,然後是 90/100。現在你嘗試 1000 行程式碼的拉取請求,模型不僅有時會成功,而且它還能在失敗時進行自我批評。依此類推……。
事實上,這種合成數據的自舉(bootstrapping)過程似乎與人類進化幾乎直接類似。我們的靈長類祖先 幾乎沒有證據表明 他們能夠快速辨別和應用新的洞察力。但是,一旦人類發展出了語言,就有了這種類似於 LLM 的合成數據 / 自我對弈迴圈的 基因 / 文化 共同進化過程,在這種迴圈中,模型變得更加智慧,以便更好地理解相似副本的複雜符號輸出。
自我對弈並不要求模型能夠完美地判斷自己的推理過程。它們只需在評估推理時比從零開始做推理要好即可,這顯然已經是事實了——比如看看憲法人工智慧(Constitutional AI),或者僅僅與 GPT 互動幾分鐘,你就能注意到它似乎更擅長解釋為什麼你寫的是錯誤的,而不是自己獨立得出正確的答案)【4】
幾乎所有與我交談過的大型人工智慧實驗室的研究人員都非常有信心,他們都非常確信他們能夠讓自我對弈發揮作用。當我問他們為什麼這麼確定時,他們停頓了一下,好像急於解釋自己的所有想法。但隨後他們想起了保密的重要,於是說:“我不能告訴你具體的細節,但就我們可以在這裡嘗試的東西而言,有很多唾手可得的成果。”或者,正如 Dario Amodei(Anthropic 執行長)在播客中告訴我的那樣:
Dwarkesh Patel:你提到資料可能不是約束條件。你為什麼會這樣認為?
Dario Amodei :這裡有多種可能性,出於某些原因,我不能深入討論細節,但是世界上有很多資料來源,並且生成資料的方法也有很多。我猜這不會是一個障礙。也許如果它是一個障礙會更好,但它不會成為障礙。
質疑者:
憲法人工智慧(Constitutional AI)、強化學習人類反饋(RLHF)以及其他強化學習 / 自我對弈(RL/self-play)設定擅長髮揮潛在能力(或在能力不佳時加以抑制)。但是目前還沒有人能證明有一種方法可以透過強化學習(RL)來實際提高模型的底層能力。
如果某種自我對弈 / 合成數據的方法行不通,你就徹底完蛋了——沒有其他方法可以繞過資料瓶頸。新的架構極不可能提供解決方案。您需要一個比 LSTM 到 Transformer 時代更大的樣本效率提升。LSTM 早在 90 年代就被髮明出來了。因此,你需要的飛躍比我們在過去 20 多年裡所經歷的要大的多,當時深度學習中所有唾手可得的成果都是最容易實現的。
你從那些對 LLM 規模化持有情感或經濟利益的人那裡得到的共鳴,並不能取代我們目前完全缺乏證據的現狀,即證明強化學習(RL)能夠解決資料上存在的多個數量級(OOM)短缺的問題。
此外,LLM 似乎需要如此驚人的大量資料才能得出如此平庸的推理能力,這一事實表明它們根本沒有實現泛化。如果這些模型不能用人類在 2 萬年內內能接觸到的資料量接近人類水平的表現,我們應該考慮到即使是 20 億年的資料量也可能是不夠的。你不能透過給飛機加更多的噴氣燃料使其到達月球。
到目前為止,
擴大規模真的有效嗎?
 堅信者:
在效能基準測試上,效能已經持續提升了 8 個數量級。在計算量增加百萬倍的情況下,模型效能的損失已經精確到小數點後許多位了。
在 GPT-4 技術報告中,它們表示,它們能夠“根據使用相同方法訓練的模型,但使用的計算量最多比 GPT-4 少 1 萬倍”來預測最終 GPT-4 模型的效能。
我們應該假設,在過去的 8 個數量級(OOM)中如此一貫有效的趨勢,在接下來的 8 個數量級中也將是可靠的。透過進一步擴大 8 個數量級的規模獲(或者考慮到從演算法和硬體進步中獲得的免費效能提升,相當於效能上的 8 個數量級擴大)所能達到的效能,可能會產生足以加速人工智慧研究的模型。
 質疑者:
但當然,我們實際上並不直接關心下一個詞(token)預測的效能。在這個損失函式上,模型已經超越了人類。我們想弄清楚這些在下一個 token 預測上的規模擴充套件曲線,是否真的與通用性的真正進步相對應。
 堅信者:
隨著這些模型規模的擴大,它們在廣泛的任務上的效能會得到持續且可靠地提升,這一點透過 MMLU、BIG-bench 和 HumanEval 等基準測試得到了衡量。
 質疑者:
但是你真的嘗試過隨機檢視一些 MMLU 和 BigBench 問題嗎?它們幾乎都只是谷歌搜尋的首選命中結果。這些都是對記憶力的良好測試,而不是對智力的測試。以下是我從 MMLU 隨機挑選的一些問題(記住,這些是多項選擇題,模型只需從 4 個選項中選擇正確的答案即可):
問:根據貝爾的理論,評估一種行為在道德上是否被允許的第二步是找出
答:禁止它的道德規則是否是真正的道德規則。
問:對於自發過程,以下哪一項始終是正確的?
答:系統加上週圍環境的總熵增加。
問:比爾·克林頓出生時,美國總統是誰?
答:哈里·杜魯門
一個模型經過網際網路文字的訓練,充滿了各種隨機事實,它恰好記住了許多隨機事實,這有什麼值得稱讚的嗎?為什麼這能在某種程度上表明了智力或創造力?
即便是在這些人為設計且相互獨立的基準測試上,效能似乎也已經達到了平臺期。據估計,谷歌新推出的 Gemini Ultra 模型的計算量比 GPT-4 多處了近 5 倍。但在 MMLU、BIG-bench 和其他標準基準測試上,它的效能幾乎與 GPT-4 相當。
在任何情況下,常用的基準根本不能衡量長期任務的表現(比如你能在一個月的時間內完成一項工作嗎),在這方面,基於下一個詞(token)預測訓練的 LLM 幾乎沒有有效的資料點可供學習。事實上,正如我們在 SWE-bench 上看到的那樣(這一測試衡量 LLM 是否能夠自主完成拉取請求),它們在整合長期複雜資訊方面表現得非常糟糕。GPT-4 的得分僅為 1.7%,而 Claude 2 的得分稍高一些,為 4.8%。
我們似乎有兩種型別的基準測試:
  • 一種是測量記憶、回憶和插值的模型(MMLU、BIG-bench、HumanEval),這些模型似乎已經達到甚至超過了普通人的水平。這些測試顯然不能很好地代表智力,因為即使是規模極大主義者也不得不承認,目前模型比人類笨得多。
  • 另一種是能真正衡量自主解決長時間跨度或困難抽象問題能力的模型(SWE-bench、ARC),這些模式甚至還沒有開始執行。
當一個模型在經過了相當於 2 萬年人類輸入量的訓練後,仍然不明白如果 Tom Cruise 的母親是 Mary Lee Pfeiffer,那麼 Mary Lee Pfeiffer 的兒子就是 Tom Cruise?或者其答案極其依賴於問題的提問方式和順序?對於這個模型,我們應該如何評價呢?
因此,我們現在甚至不值得去問規模擴大是否會繼續有效——我們甚至似乎沒有證據表明到目前為止規模擴大是有效的。
 堅信者:
Gemini 似乎是一個奇怪的地方,讓人預期會有一個高原期。GPT-4 顯然突破了質疑者對聯結主義和深度學習的所有預註冊批評【5】。對 Gemini 與 GPT-4 效能的更合理解釋僅僅是谷歌還沒有完全趕上 OpenAI 的演算法進展。
如果深度學習和 LLM 存在一些基本的硬性上限,那麼我們難道不應該在它們開始發展常識、早期推理和跨抽象思考的能力之前就看到這一點嗎?有什麼直觀的理由預期在一般推理和高階推理之間存在一些頑固的限制呢?
考慮一下 GPT-4 比 GPT-3 好了多少。這只是放大了 100 倍的規模。這聽起來好像有很多,但當你考慮到這比我們可以在這些模型上進行的額外規模擴大要小得多時,就不那麼驚人了。在我們觸及到世界 GDP 的 1% 之前,我們負擔得起 GPT-4 進一步擴大 10000 倍的規模(即 GPT-6 水平)。而且這還是在我們沒有考慮預訓練計算效率提升(Mixture-of-Experts、Flash Attention)、新的訓練後置方法(RLAI、思維鏈微調、自我對弈等)以及硬體改進之前。其中每因素都將單獨為效能貢獻與多個數量級的原始規模擴大所能達到的一樣多效果(它們過去一直這樣做)。將所有這些因素加在一起,你可能可以將 GDP 的 1% 轉化成 GPT-8 水平的模型。
對於社會願意在新的通用技術上投資多少的背景來說:
  • 英國鐵路投資在 1847 年達到頂峰時,佔 GDP 的比例達到了驚人的 7%。
  • “在 1996 年電信法(Telecommunications Act)生效後的五年裡,電信公司在鋪設光纖電纜、增加新交換機和建設無線網路方面投資了 5000 多億美元(按今天的價值計算,幾乎接近一萬億美元)。”
有可能 GPT-8(也就是一個性能放大了 1 億倍的 GPT-4 模型)只會比 GPT-4 稍微好一點,但我不明白為什麼你會期待這種情況,因為我們已經看到模型能夠透過更小的規模來理解如何思考以及世界是什麼樣子。
那接下來的故事你就知道了——數以百萬計的 GPT-8 副本編碼核心的改進,找到更好的超參,為微調提供大量高質量反饋等等。這使得開發 GPT-9 變得更便宜、更容易……把這個過程外推到奇點。
模型理解這個世界嗎?
 堅信者:
這是微軟研究院在其 Sparks of AGI 論文中發現的眾多令人震驚的發現之一。它們發現,GPT-4 可以編寫 LaTex 程式碼來繪製一隻獨角獸。我們已經習慣了這樣的事情,以至於我們不會停下來思考這些例子說明了什麼問題。據推測,LaTex 中的動物圖畫並不是 GPT-4 訓練語料庫的一部分。然而,GPT-4 已經發展出了一個內在的表徵,理解了獨角獸的模樣,並且能夠利用其對 LaTex 程式設計的熟練技能來描繪它僅在語言形式中遇到的概念。我們看到 GPT-4 做了一些如果沒有世界模型顯然無法做到的事情(如果它不理解獨角獸的樣子,它怎麼能弄清楚如何在 LaTex 中描繪一隻獨角獸呢)【6】
為了預測下一個詞(token),LLM 必須自學世界上所有的規律性,這些規律效能導致一個詞拼接另一個詞。為了預測《自私的基因》(Selfish Gene)一書中一段文字的下一段,需要理解以基因為中心的進化論觀點,為了預測一部新短篇小說中的下一章節,需要理解人類角色的心理,等等。
如果你對 LLM 進行程式碼訓練,它會在語言推理方面變得更好。現在,這確實是一個非常令人震驚的事實。這告訴我們,該模型已經從閱讀大量程式碼中提取出了一些深層次的關於如何思考的通用理解能力——不僅表明語言和程式碼之間存在一些共享的邏輯結構,而且無監督的梯度下降可以提取這種結構,並利用它來更好地進行推理。
梯度下降試圖找到最有效的資料壓縮方法。最有效的壓縮也是最深刻、最強大的。對物理教科書最有效的壓縮——那種可以幫助你預測書中被截斷的論證可能會如何繼續的壓縮——就是對底層科學解釋的深刻內化理解。
 質疑者:
智慧涉及(除其他外)壓縮的能力。但壓縮本身並不代表智慧。愛因斯坦之所以聰明,是因為他能提出相對論,但在我看來,愛因斯坦 + 相對論並不是一個更有意義的智慧系統。說柏拉圖與我 + 我的知識相比是個白痴沒有意義,因為他沒有我們現代人對生物學或物理學的理解。
因此,如果 LLM 只是由另一個過程(隨機梯度下降)製作的壓縮,那麼我不知道為什麼這會告訴我們有關 LLM 自身製作壓縮的能力(因此,為什麼這能告訴我們關於 LLM 的智慧的任何資訊)【7】
 堅信者:
為什麼規模化必須持續發揮作用並不需要一個無懈可擊的理論解釋。我們對熱力學的完整理解是在蒸汽機發明後的一個世紀才發展起來的。在技術發展的歷史中,通常的模式是發明先於理論,我們應該預期智慧也是如此。
並沒有某條物理定律表明摩爾定律必須繼續下去。事實上,總是有新的實際障礙暗示著摩爾定律的終結。然而,每隔幾年,臺積電(TSMC)、英特爾(Intel)、AMD 等公司的研究人員就會想出解決這些問題的辦法,併為這一持續了數十年的趨勢注入了額外的生命力。
你可以在計算和資料瓶頸、智慧的真實本質和基準測試的脆弱性等問題上做盡心理上的思維體操。或者你可以直接看看那條該死的趨勢線。
結    論
別再扮演其他人格了。這是我的個人看法。
如果在過去的幾年裡你一直是一個規模化的堅信者,我們所見到的進步就會顯得更加合理。你可以講述一個故事,該故事是關於怎樣用某種成語庫或查詢表來解釋 GPT-4 驚人的表現可能永遠不會泛化的。但這是一個沒有任何懷疑者預註冊過的故事。
舉個例子,我要為質疑者提供的一個論據是,LLM 還沒有建立起新的聯絡,這些聯絡能夠導致新的發現。如果一個愚蠢的人能像 LLM 一樣記住很多東西,他們就能做到這一點。老實說,我認為這是最令人信服的質疑點之一,其他許多人也有同樣的看法。然而就在幾天前,谷歌宣佈其 FunSearch 設定有了新的數學發現【8】。如果你是一個質疑者,你很可能已經一次又一次的經歷過這些了。
至於那些堅信者,像 Ilya、Dario、Gwern 等人早在 12 年前或多或少地闡明瞭我們因規模化而導致的緩慢起飛。
看起來相當明顯,一定程度的規模化可以讓我們實現變革性的人工智慧——也就是說,如果你在這些規模化曲線上實現了不可約減的損失,那麼你就製造出了一種足夠聰明的人工智慧,可以自動化大多數認知勞動(包括製造更聰明的人工智慧所需的勞動)。
但生活中的大多數事情實際上都比理論上要困難得多,而且許多理論上可行的事情也會因為這樣或那樣原因(核聚變、飛行汽車、奈米技術等)而變得難以解決。如果自我對弈 / 合成數據不起作用,模型看起來就麻煩了——你永遠也無法接近柏拉圖式的不可約減的損失。此外,預期規模化能繼續發揮作用的理論依據尚不明確,而且規模化似乎能帶來更好效能的基準的普遍性也存在爭議。
我暫定的機率是 70%:規模化 + 演算法進步 + 硬體進步,將使我們能在 2040 年實現人工通用智慧(AGI)。30%:質疑者是對的——LLM 和任何大致類似的東西都完蛋了。
我可能錯過了一些關鍵的證據——人工智慧實驗室根本沒有釋出那麼多的研究成果,因為任何關於“人工智慧科學”的見解都會洩露與構建 AGI 相關的想法。我的一個朋友是其中一個實驗室的研究員,他告訴我,他很懷念大學時寫一堆論文的習慣——如今,沒有什麼值得一讀的文章發表了。出於這個原因,我認為我不知道的事情也會縮短我的預測時間。
附    錄
以下是一些額外的注意事項。我覺得我對這些主題的理解還不夠充分,無法完全理解它們對規模化意味著什麼。
 模型會獲得基於洞察力的學習嗎?
在更大的規模上,模型將自然而然地發展出更高效的元學習方法——只有當你擁有一個大型的過引數化模型,並且超過了訓練它在資料上嚴重過度擬合的點時,才會發生理解(grokking)現象。理解(grokking)似乎與我們的學習方式非常相似。我們有如何對新資訊進行分類的直覺和心智模型。隨著時間的推移及新的觀察,這些心智模型本身也會發生變化。在如此多樣化的資料上進行梯度下降將選擇最通用和最能外推的電路。因此,我們得到了理解(grokking)——最終我們將獲得基於洞察力的學習。
質疑者:
神經網路也擁有理解(grokking)能力,但它比人類實際整合新的解釋性洞察的效率要低幾個數量級。如果你告訴一個孩子太陽是太陽系的中心,這會立即改變他對夜空的理解。但你不能只把一本哥白尼的書輸入到一個未經任何天文學訓練的模型中,然後讓它立即將這種洞察納入到未來的所有相關輸出中。奇怪的是,模型必須在如此多的不同上下文下中多次聽到資訊才能“理解”(grok)出潛在的概念。
不僅模型從未展示過洞察力學習,而且考慮到我們用梯度下降訓練神經網路的方式,我不明白這種學習是如何成為可能的——我們對每個例子都進行了一系列非常微妙的微調,希望足夠多的微調能慢慢地將它們推向正確的山頂。基於洞察力的學習需要立即從海平面拖拽到珠穆朗瑪峰的頂峰。
 靈長類動物的進化是否提供了規模化的證據?
支持者:
我敢肯定,你可以在黑猩猩的認知中發現各種令人尷尬的脆弱性,這些脆弱性遠比逆轉詛咒更可怕。這並不意味著靈長類動物的大腦存在一些無法透過增加 3 倍規模加上一些微調來修復的基本限制。
事實上,正如 Suzana Herculano Houzel 所 展示 的那樣,人類大腦的神經元數量與和人類大腦質量相當的靈長類動物大腦所擁有的神經元數量一樣多。齧齒動物和食蟲動物的大腦具有更糟糕的 Scaling 法則——在這些目中,大腦相對較大的物種的神經元比你根據它們大腦質量預期的要少得多。
這表明,與其他物種的大腦相比,有些靈長類動物的神經架構在可擴充套件性方面確實更為出色,類似於 Transformers 比長短期記憶網路(LSTM)和遞迴神經網路(RNN)具有更好的擴充套件曲線。進化論在設計靈長類動物大腦時吸取了(或者至少偶然發現了)這個慘痛的教訓,並且靈長類動物競爭的利基環境極大地獎勵了智力的邊際增長(你必須理解所有這些來自你的雙眼視覺、能使用對立拇指工具的手、以及其他能與你交流的聰明猴子的資料)。
【1】這似乎是你需要的計算量,你需要擴大當前模型的規模,使其足以編寫一篇科學手稿長度的輸出,這些輸出與人類可能寫的內容沒有什麼區別。
【2】假設按照 Chinchilla 的最優擴充套件方式(這大致意味著,為了有效擴充套件計算資源,額外計算資源的一半應該來自於增加的資料量,另一半來自於增加的引數)。你可以嘗試以非最優的方式訓練 Chinchilla,但這可以幫助你彌補輕微的資料不足,而不是 5 個數量級的短缺。
【3】堅信者繼續說道:與人類相比,大型語言模型(LLMs)在樣本利用效率上確實不高(GPT-4 在其訓練過程中接觸到的資料遠比一個人從出生到成年看到的資料要多得多,但它遠沒有我們聰明)。但我們沒有考慮已經編碼到我們基因組中的知識——這是一個經過數億年的進化,利用比 GPT-4 所見過的所有資料還要多得多的資料訓練出來的微小而濃縮的提煉物。
【4】實際上,如果評估器也是愚笨的 GPT-4 級別模型,對於這種自我對弈迴圈可能會更好。在生成對抗網路(GANs)中,如果鑑別器比生成器強大得多,那麼它就會停止向生成器提供任何反饋,因為它無法給出雖然不完美但方向正確的訊號。
【5】例如,Pinker 在 這裡 列出了一系列限制,這些限制是像神經網路這樣的聯結主義架構在嘗試表示語言規則時是必須屈服的。乍一看(我強調這只是第一印象)GPT-4 似乎逃脫了所有這些所謂的限制。而 Pinker 在 這裡 指出了 ChatGPT 中缺乏常識的問題,而這一問題在一個月後 GPT-4 釋出時得到了修復。
【6】堅信者繼續說道:在玩具環境中,我們有能力探究 Transformer 的內部結構,我們實際上可以看到它們開發的世界模型。研究人員訓練了一個 Transformer 來預測一種名為“奧賽羅”的類似象棋的棋盤遊戲中的下一步行動。該模型不會接收任何關於遊戲規則或棋盤結構的指令,它得到的只是一堆遊戲記錄。所以你要做的就是向原始的 Transformer 中提供一堆遊戲記錄序列,比如“E3 D3…”。研究人員發現,只需在模型輸入遊戲記錄後讀取模型的權重,就可以重建棋盤的狀態。這證明,該網路僅透過閱讀一些原始文字記錄,就開發了一個強大的遊戲內部表徵。
【7】質疑者繼續說道:“智慧 = 壓縮”的框架似乎也不夠精細,無法區分隨機梯度下降(SGD)透過在平滑的損失景觀中爬坡找到語義規律,以及愛因斯坦在等同錯誤的眾多排列和變體中挑選出相對論正確方程式的差異。我看不出有什麼理由認為 SGD 可以找到後者相對論的“壓縮”,因此可以像愛因斯坦那樣聰明。
【8】你可能會爭辯說,針對數學和程式設計的 FunSearch 設定具有緊密的反饋迴圈和具體的獲勝條件,而其他領域不太可能共享這些條件。但這更多的是我想向你們指出的心理體操。
原文連結:
https://www.dwarkeshpatel.com/p/will-scaling-work
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。

相關文章