OpenAI聯創：RLHF是超級智慧的秘密武器

編譯：Lavida

編輯：Siqi

排版：Doro

本文編譯自 Dwarkesh Patel 對 John Schulman 的訪談。John Schulman 是 OpenAI 聯合創始人、研究科學家，他領導了 ChatGPT 專案，在 OpenAI 內部長期負責模型 post-traning ，在 Ilya 和 Jan Leike 離開 OpenAI 後，下一代模型安全性風險相關的研究也會由 John Schulman 來接替負責。John Schulman 的研究主要集中在 RLHF 相關領域，他曾提出 RLHF 是 ChatGPT 成功的秘密武器。

本次訪談中，John Schulman 主要分享了自己關於模型訓練的最新認知。John 認為 post-training 是模型變得越來越聰明的重要原因，GPT-4 的 Elo 分數之所以能比第一代 GPT 高出 100 分也和 post-traning 的提升相關，在未來的模型訓練中，post-traning 需要被分配到更多的計算資源。

對於下一階段模型訓練的問題上。John Schulman 認為模型能力的提升應該集中在如何處理連續任務上，今天的模型還只能解決人類 5 分鐘左右完成的任務，而接下來 AI在執行和管理複雜的長時間任務上的能力還會再提升，比如可以不依賴 API 介面直接讀懂網站內容、進而完成任務。他還認為，資料瓶頸的問題有可能被誇大了，短期內看不到資料瓶頸。未來隨著瓶頸的到來，pre-training 的方式也會逐步升級。

以下為本文目錄，建議結合要點進行針對性閱讀。

👇

01 模型將解鎖哪些新能力？

02 如何安全地部署AGI？

03 RLHF 與模型的邏輯推理

04 ChatGPT 的誕生

05 AI 能幫人類管理公司嗎？

06 RLHF 研究的最新進展

01.

模型將解鎖哪些新能力？

Dwarkesh Patel：從宏觀角度來看，pre-training 和 post-training 的主要任務分別是什麼？二者的主要區別是？

John Schulman：pre-training 階段主要是讓模型學習網際網路上的網頁、程式碼等等各種內容，並且讓模型做到能模仿這些內容，模型在預訓練後已經能生成很模擬的網頁。同時這個模型還需要做最大化對數機率（maximize log probability）的訓練，主要是為了讓模型能在給定一系列 token 之後準確地預測下一個 token。因為我們的訓練目標是最大化這些預測的對數機率，所以這個模型在機率分配上會非常精確。也就是說，它不僅可以生成網路上的各種內容，還能為這些內容賦予相應的機率值。

pre-training 階段後的基礎模型能夠扮演各種角色，生成多種不同型別的內容。進入到 post-training 階段之後，我們通常就會針對一個更具體的應用場景進行最佳化，比如讓模型做聊天助手。在這個場景下，模型的目標不再是簡單地模仿一個人，而是要能夠回答使用者的問題或執行使用者的指令，提供幫助。我們最佳化的目標也變成了生成使用者會喜歡並且覺得有用的輸出，而不僅僅是複製網路上的原始內容。

是 GPT-4.5 和 GPT-5 比預期的來得慢，之前以為 Claude-3 釋出之後 OpenAI 就會發新模型了，但現在 SOTA 模型已經易主一個月了，所以 AGI 的戰線可能會被拉長。第二點是 Sora 比預期來的要早，這意味著今年大家對多模態的理解和生成的進步幅度都會很大，將會解鎖很多新東西，但多模態能不能帶來智慧和 AGI 還是一個很強的非共識。第三點就是 Elon Musk 加入了開源，開源模型能力的水位線會被提升很多， xAI 的人才密度很強， GPU 也足，這會決定了很多後面模型公司的生死線。

當然還有一點就是英偉達的股價，去年這個時候預計會漲，但沒想到能漲 3 倍這麼多。大家都覺得 AGI 很大，但是還是低估了這個浪的大小。所以更加明顯的一個感覺是英偉達還是這輪 AGI 最關鍵的一環，短期老黃可能是比 Sam 要重要的。

Dwarkesh Patel：現在的模型更多都還是chatbot，今年年底前模型會解鎖哪些新能力？五年後會變成什麼樣？

John Schulman：在接下來的一兩年裡，模型會解鎖比現在更加複雜和深度的能力。舉個例子，未來的模型不僅能提供如何編寫某個函式的建議，還能獨立完成整個程式設計專案。只需要給出 high-level 的指令，模型就能夠自主進行編碼、檔案編寫、測試，甚至還能根據測試結果進行迭代最佳化。

Dwarkesh Patel：也就是說新功能解鎖的關鍵點在於模型將能夠長時間連續執行任務，比如說寫很多個檔案程式碼，這個過程中會發生哪些變化？

John Schulman：首先需要結合各種訓練方法，讓模型去做比現在更難的任務。現在大多數訓練資料都是讓模型一次只執行一個步驟，未來我們會更多地訓練模型去做多步驟連續任務。這對於包括 RL 在內的所有訓練都適用，不管是要在最終輸出還是每個步驟上進行監督，只要是連續任務訓練都能幫助提升模型效能。這個領域現在還很新，所以短期內還有不少容易實現的目標（low hanging fruits）。

此外，隨著效能的提升，未來模型也會更擅長糾錯和處理特殊情況，在出現問題時更好地自我糾正。模型的樣本效率也會變得更高，即使只有少量資料，或透過從其他能力中泛化，模型也能夠迅速調整並回到正軌。相比之下，現在的模型在遇到問題時可能會卡住，完全不知道做什麼。

Dwarkesh Patel：可以詳細解釋一下泛化能力是怎麼幫助模型回到正軌的嗎？為什麼這兩個概念可以被聯絡在一起？

John Schulman：它們之間的確沒有直接聯絡。通常我們在訓練過程中都只有有限的資料來完成所有任務，但如果能收集到一個多樣化的資料集，就能直接覆蓋各種不同的情況。如果模型有很強的泛化能力，就算只有一兩個示例，也能透過泛化之前在 pre-training 資料中看到的內容來自適應，調回正確的路徑。如果模型的泛化能力較差，就需要大量的資料才能正常工作，而且還得在一些專業領域或技能上投入大量精力做訓練。如果模型更強大，是有可能在沒有任何額外訓練資料的情況下正確執行任務的。

Dwarkesh Patel：現在的模型執行連續任務的複雜度差不多是人五分鐘能完成的，我們的目標是讓模型能夠執行一個人需要一小時才能完成的任務，然後是一星期、一個月，以此類推，要實現這每一次進步是不是都需要增加 10 倍計算量，類似於目前 pre-training 環節的 scaling law？還是會有一個更簡化的過程，可以實現更高的樣本效率，直接處理持續好幾年的任務？

John Schulman：從 high-level 角度看，我同意要執行長期的連續任務確實需要模型具備更高的智慧，也會讓訓練成本更高。但除非我們能超精確地設定實驗引數，或者說按照特定的方式設計實驗，我不敢說存在一個清晰的 scaling law。模型可能最終會出現一些階段性的轉變，在智慧程度達到一定水平後開始具備處理連續任務的能力。

打個比方，當我們為未來做短期或長期計劃時，思考方式會完全不同嗎？我覺得人們即使是為從一個月到一百年的不同時間尺度做規劃，依然是用相同的方式思考，並不是像強化學習訓練裡一樣，要關心折扣因子（拾象注：discount factor，在 ML 領域用來決定一個智慧體在做出決策時，應該如何權衡即時獎勵與未來獎勵）之類的因素。

透過語言，我們可以描述所有不同的時間尺度，制定相應計劃。在當下，我們可以嘗試朝著目標努力取得進展，無論是一個月後還是十年後。我不知道未來模型能不能實現相變（phase transition），但我覺得模型會具有類似能力，能適應不同時間尺度。

Dwarkesh Patel: 你的意思是說現在的模型已經和最有智慧的人類一樣聰明瞭，但它們在執行連續任務時可能沒辦法一直保持和專案目標一致，比如程式碼寫到一半開始走偏。如果透過連續任務的 RL 能夠顯著提高模型在時間連貫性上的能力，那模型是不是可以達到與人類相同的水平？如果不能，在模型到能規劃並執行一年期的專案之後，我們還需要解決哪些問題？

John Schulman：現在一切都還是未知數，比如一旦開始這種強化學習，會實現什麼樣的效果，進展速度怎麼樣，都存在不確定性。我不認為僅僅透過這樣的訓練就能立即解決所有問題，模型可能還存在一些其他的小缺陷，這些問題會導致模型沒辦法很好地處理問題，或做出比人類更糟糕的決策。所以我並不期望這種方法能一下解鎖所有能力，但即使是在執行連續任務方面的一些小改進，也可能產生很深遠的影響。

Dwarkesh Patel：你覺得透過強化學習來提高模型連貫性的這個目標可行嗎？模型已經透過 pre-training 獲得了各種表徵能力，未來還能透過連續任務 RL 執行連續任務，除了這些還有哪些挑戰可能是我們沒有考慮到的？

John Schulman：我能想到的問題可能還有模型該怎麼像人類專家一樣，在處理不同任務的時候能根據經驗做判斷，更好地把握審美、處理比較模糊的問題，在做研究類工作時這些因素會特別重要。另外模型的使用環境也會存在一些限制，比如能不能使用產品的使用者介面，能不能和物理世界互動，或者擁有某些資訊的訪問許可權。總的來說的確會有很多實際的障礙，雖然這些問題短期內就能被解決，但一開始確實會拖慢進度。

Dwarkesh Patel：在模型進行過多模態資料訓練後，以後為 AI 設計的網頁和現在為人類設計的網頁 UI 會有什麼不同嗎？AI 會怎麼用優勢彌補劣勢？

John Schulman：這個問題很有意思。我覺得一旦模型的視覺能力得到提升，它們就會像人類一樣用視覺來瀏覽網站，所以我們不需要現在就改造升級網頁的 UI。還有一些網站能很明顯地因為 AI 能訪問而受益，我們可能需要為這些網站設計更好的 AI 使用者體驗，但具體要怎麼去貼合 AI 的特性來改造網站互動現在還不確定。如果我們的模型仍然更擅長處理文字而不是從影像中提取文字，也許就需要為模型提供清晰、基於文字的介面，並且明確出所有可以互動的元素。但我覺得並不需要把整個網際網路完全重新設計，到處都加上 API 介面，我們可以讓模型直接來使用和我們相同型別的使用者介面。

Dwarkesh Patel：回到前面說的，模型能夠透過 pre-training 具備更高的樣本效率，在遇到新挑戰或困難時找到解決辦法，你曾經見過最有力的泛化和遷移學習的例證是什麼？未來模型能力的一大關鍵點似乎就是能多大程度泛化，在你過去的經驗中，模型有沒有透過泛化學到過你意料之外的東西？

John Schulman：在 post-training 階段確實有一些很有意思的例子。大家都知道，即便模型所有 finetune 都用英語資料進行，模型也會自動遷移到其他語言場景，並且也表現得不錯。比如你在英語資料上訓練一個 assistant，它也能用西班牙語和你互動。也許有時候在決定是用英語還是西班牙語回覆的時候，它會出現混亂，但通常都是用對應語言去回覆 prompt。模型能夠自動適應和改變不同語言給出回答，這是泛化的一個很好的體現。我們在多模態資料上也看到了類似的現象，比如如果只給模型做了文字的 finetune，它會自動遷移到影像這個模態上。

在 ChatGPT 早期，模型不能很好地理解自身的限制，比如它會認為可以給你發郵件或幫你叫車，然後扮演助手的角色說“我已經發了郵件”，但實際並沒有真的傳送。我們當時很想解決這個問題，就開始收集一些資料，雖然最後收集的資料量不多，只有 30 個左右，但這些資料對改善模型的行為非常有效。透過這些示例，模型學會了哪些是它不能做的事情。這種訓練方式讓模型能夠更好地泛化到其他它未經訓練的功能上，在各種情況時給出更合理的回答。

Dwarkesh Patel：假設我們有一個能在較長時間保持行為連貫性的模型，如果不考慮其他問題，在下一個階段我們能訓練出一個接近人類水平的模型嗎？它能像真實人類同事那樣與我們互動、完成任務嗎？這個過程中可能會遇到哪些問題？

John Schulman：我很難準確說出來瓶頸會是什麼。除了執行任務的連貫性之外，模型在和人類互動時還存在各種問題，比如很難深入思考事物，或者關注使用者提出的具體問題，所以我不認為僅僅改善一點連貫性就足以實現 AGI。

02.

如何安全地部署AGI？

Dwarkesh Patel：如果明年或者之後實現了 AGI，你們接下來會有什麼計劃？

John Schulman：如果 AGI 比預期來得更快，我們肯定需要更加謹慎地對待，比如在非常確信可以安全處理這些問題之前，可能需要在訓練和部署上放慢腳步。我們需要對 AGI 要做什麼、能做什麼有一個非常清晰的認識。在很多方面，我們對模型的理解仍然處於初級階段。

我所說的“謹慎”是指，暫停訓練更聰明的模型，或者在訓練環節下一代模型是要相當小心，比如需要確保模型在沙盒環境中是安全的，另外，在模型的部署規模上要十分審慎。

Dwarkesh Patel：我們假設這麼一個情形：AGI 明年就出現了，並且 AGI 的發展不只是在 OpenAI，所有其他公司也擁有類似的能力，這也是我們假設 AGI 這麼快出現的原因。在這種情況下會發生什麼？除了 OpenAI 之外的其他公司可能會做什麼？

John Schulman：這個涉及到博弈論，一下想清楚還是挺難的。首先，我不認為這種情況會在明年發生，當然提前討論一下也是好事，我猜可能需要兩到三年的時間。然後是需要各個公司之間協調一致，尤其是大廠之間，大家需要對部署或未來訓練的限制達成共識，否則就會出現競賽，每個人都想爭先，這就可能會犧牲掉安全性。

Dwarkesh Patel：如果各公司之間的協商需要暫停模型部署的話，這個過程會持續到什麼時候？是直到我們搞清楚模型的內部運作和行為機制嗎？

John Schulman：我們可以暫停對模型做進一步訓練，也可以暫停部署，還可以儘量避免可能帶來更高風險的一部分訓練。我們會制定一些合理的規則，或者提供一個限制相關風險的行動指南。

Dwarkesh Patel：限制風險是為了什麼？AI 的智慧潛能遲早會被釋放出來，假設兩年後我們成功開發出 AGI，可能會引起大家的普遍恐慌，那個時候公司又不再繼續研發和部署 AI 了，在這個階段我們是在等什麼，需要做好哪些準備？

John Schulman：我現在還沒有一個很好的答案，如果能像我說的那樣友好協商肯定是最好。畢竟搭建這些模型需要大量的資本投入，而且有很多複雜的東西要考慮，並不是每個人都能在家裡造這些東西，有能力去訓練最大型模型的公司也很少，所以這種協商我感覺是有可能實現的，只是我不知道該怎麼在長時間內維持這種平衡。不過一旦達到平衡，就沒什麼大問題了。

Dwarkesh Patel：如果未來有了很多智慧體能夠上雲統一部署、集中協調，那時人類將怎樣從中受益？

John Schulman：如果我們能讓所有相關方都協調一致，並且 alignment 的技術問題也解決好了，那時我們就可以部署高智慧水平的 AI，把這些 AI 作為人們意志的延伸，同時也防止它們被過度濫用，這樣就能讓 AI 得到安全有效地部署，幫助科學進步和社會的繁榮。

Dwarkesh Patel：讓我們做一個最好的假設，假如所有相關方在那時都決定暫停部署 AI，先確認好我們部署的模型價值觀和人類完全對齊，不會突然搞一場政變，或者煽動其他人來這麼做，那麼我們該怎麼證明模型確實是安全且對齊的呢？

John Schulman：我覺得更安全穩妥的方式是能漸進式地部署更智慧的模型，而不是要求所有相關方都必須協調一致，然後嚴格控制研究的進展，保證最後安全釋出，因為這種情況下模型的潛能會被束縛，沒辦法充分釋放。所以最好是能形成一個持續迭代，逐步推出效能更優的產品的過程。在這個過程中，我們要確保對每一個迭代的安全性和 alignment 都充滿信心，這種信心與系統能力的提升也是匹配的。這樣如果在過程中出現了讓人擔憂的狀況，我們就可以及時放慢步伐，這是我希望的發展方向。

如果模型能力出現了很明顯的跳變式跨越，就會帶來一個問題，即“我們要如何保證產品已經足夠安全到可以釋出了？”，我沒辦法給出一個適應所有情況的答案，但為了讓這種風險更可控，就需要進行大量的模擬部署測試，比如紅隊測試。這樣的測試應該設計成比實際部署中計劃的操作更極端和容易失敗的情況，來確保模型最終操作的安全性。

還需要建立一個有效的監控系統，能夠在部署的系統出現問題時迅速發現。這可能得建立一個機制來專門監督已經部署的 AI 模型，觀察它們的行為，並尋找可能的異常跡象。然後還需要多層次的防禦措施，這需要模型本身表現得非常規範，具備無可挑剔的道德信念，同時也要也要確保系統能夠抵禦任何嚴重的誤用風險。

Dwarkesh Patel：開始進行連續任務的強化學習時，應該跟蹤哪些關鍵指標和訊號來及時發現系統的跨越式進展，並確保能夠安全部署？該怎麼在廣泛部署模型之前及時發現這種跳變式跨越？

John Schulman：在訓練模型的過程中我們需要做大量評估，尤其是潛在智慧水平非常高的 AI 模型。現在我們還不需要太擔心，因為現在讓模型執行連續任務還是個挑戰，但一旦模型的智慧到了高水平的時候就必須謹慎，包括對模型做大量評估，檢測有沒有不當行為，確保模型充分 alignment，防止出現背離預期的行為。另外，還需要警惕模型能力有沒有出現跳變式跨越。

在訓練 AI 模型時，還要確保資料或訓練方式不會讓模型出現相反的行為。在用 RLHF 方法訓練模型的時候，我們能感覺到模型在非常智慧時還是很安全，因為它的主要目標是生成令人滿意的文字，除此之外並不“關心”世界上的其他事情。如果模型需要執行一系列很複雜的、涉及工具的操作，那它可能就會做一些對人類來說不合理的行為來達到目標，但它的主要動機仍然是能最終產出高質量的結果。

在工具收斂（instrumental convergence）的討論中，一個經常被提到的觀點是模型可能希望統治世界，然後編出一個特別牛的程式碼來顛覆我們的世界。比如我們讓模型寫一個 Flask 應用，它可能會想：“好的，但首先我得統治世界。” 舉這個具體的例子可能有點抽象，不過如果命令模型“賺錢”，那它就有可能會出現一些不道德的行為。

💡

工具收斂（instrumental convergence）是 AI 領域的一個理論概念，由哲學家和 AI 研究者尼克·博斯特羅姆提出，指即使是具有不同最終目標的智慧系統，在追求其目標的過程中可能會表現出一些共通的行為傾向或策略。具體來說，這些智慧系統可能會自然而然地採取某些行為來增加它們實現任何目標的能力，例如積累資源、提高自身智慧、防止自我關閉等。這些行為被認為是“工具性的”，因為它們不是系統的最終目標，而是達成這些目標的手段。

03.

RLHF 與模型的邏輯推理

Dwarkesh Patel：在今天模型的發展過程中，RLHF 不僅僅影響了 chatbot 的“人格”，也教會了模型選擇輸出什麼、以什麼樣的形態輸出。如果把 RLHF 對模型訓練的這些影響對映到人類心理學上的話，你覺得 RLHF 起到了什麼樣的功能？是驅動力、目標還是某種衝動？

John Schulman：人類的動機和目標其實和 AI 有相似的地方，比如我們在追求目標時，往往會努力達到某種特定的狀態，儘量避免和目標不符的狀態。當然我們對動機或目標的理解不止這些，還包括實現目標時獲得的滿足感等等。這些因素主要和學習演算法的過程更相關，並不是模型已經訓練完成固定模式之後的行為。

雖然不確定這種類比是不是貼切，但一定程度上，模型確實以某種有意義的方式擁有了“動機”和“目標”。以 RLHF 為例，模型在這個過程中的目標是最大程度地獲得人類的認可，這種認可透過獎勵模型（reward model）來衡量。實際上，模型努力產出的是人們可能會喜歡並認為正確的結果。

Dwarkesh Patel：我瞭解到模型提高推理能力的途徑主要有兩種。一種是生成不同的思維鏈（CoT），選擇能夠帶來正確答案的路徑。在部署前，模型會基於這些有效的思考路徑進行訓練；另外一種是在部署時用大量計算進行推理，模型在這種場景下可以和自己對話。你覺得哪種更接近高推理水平模型會採用的訓練方法？這樣的推理能力是因為模型進行了大量的推理計算，還是因為訓練過程中特別強調了邏輯推理效能的提升？

John Schulman：推理在這裡可以被定義為在測試階段需要進行某種計算或邏輯推演的任務。按照這個定義，推理任務涉及到在測試時進行的逐步計算過程，還有在訓練階段進行的大量實踐，所以我覺得把這兩種方法結合起來能達到最佳的效果。

Dwarkesh Patel：現在的模型主要有兩種學習方式，一種是包含 pre-training 和 post-training 的訓練階段，大部分訓練計算資源會集中在 pre-training 上，主要用來處理數萬億的 token。但人類很難處理這麼龐大的資訊量，這顯然也不是最高效的學習方式。另一種學習方式是上下文學習，這種方法的樣本效率更高，但每次遇到新的上下文都會丟掉之前學到的東西。是否存在一種介於大規模 pre-training 訓練和上下文學習之間的訓練方法，這樣既能保留之前的學習成果，又能避免處理海量資料的低效率？

John Schulman：你說的這個能力不僅僅是指模型在訓練時從資源中學習，然後在專業領域進行 finetune，還涉及到模型透過自己的推理能力來拓展知識，弄清楚該學習什麼，這確實是現在的模型缺失的東西。現在大家還沒有在生成能完成所有任務的單一模型和上下文學習之間的中間地帶上投入太多，一部分原因可能是我們一直在大幅增加上下文長度，所以沒太多動力去探索這件事。如果你能夠擴充套件到十萬或百萬級別的上下文，那實際上已經相當豐富了，所以這對於系統的總體能力來說並不是真正的限制因素。

finetune 也有可能幫助增強這個能力，finetune 和上下文學習所帶來的能力在某種程度上是互補的。我想象中未來我們的模型不僅能夠線上學習，而且還具備認知技能，比如能夠自我反思，或者主動尋找新知識來填補知識空白。

Dwarkesh Patel：你說的這些能力是模型可以同時具備的嗎？會不會有一種新的訓練方法，能夠整合多種訓練需求和處理方式，讓 AI 在單一的訓練過程中能夠同時進行連續任務和其他型別的訓練？這些連續任務訓練和中期記憶訓練是同時進行的還是分開進行的？模型已經具備足夠的智慧來完成連續任務並獲得獎勵了嗎？

John Schulman：其實我們在完成連續任務的過程中也是在學習，要完成一個涉及許多步驟的任務，唯一的方法就是擁有一個在學習過程中不斷更新的學習與記憶系統。短期記憶和長期記憶之間存在一個連續的過渡，當我們開始更多地關注長期的連續任務時，對 Chatbot 或 AI 的需求會變得更加明顯。將大量資訊放入上下文中可以明顯改善效果，因為現代模型能夠處理的上下文長度已經非常長，另外 finetune 也有可能會有幫助。

至於自省和主動學習的能力，這可能會自然地從模型對自己知識的認知能力中發展出來。模型確實對自己知道什麼有一定的校準能力。這就是為什麼模型不會嚴重地產生 hallucination，它們對自己的侷限性有一定的理解，這種能力同樣可以用於主動學習。

04.

ChatGPT 的誕生

Dwarkesh Patel：我想再多瞭解一些你在 OpenAI 的經歷。你曾經領導了 ChatGPT 的開發，你是在什麼時候意識到 LLM 是未來的方向，以及 chatbot 會是正確的產品形態的？這整個過程是怎麼樣的？

John Schulman：在 ChatGPT 之前，OpenAI 已經開發過一些能夠遵循指令的模型（instruction following models）。早期我們的基礎模型需要人們給出非常詳細精確的 prompt，還要配上一些示例，但這些模型本質上只是自動補全工具，實際很難用。OpenAI 的團隊一直在嘗試簡化這些基礎模型的操作難度，讓它們能夠直接回答使用者的問題，而不是反過來提更多問題，所以我們後來在早期模型基礎上做了進一步改進開發，使用起來會更簡單。這些是最初部署在 API 中的模型，或者說在 GPT-3 之後，它們代表了最新一代的模型。

那個時候已經有很多人在思考和醞釀 chatbot 了。Google 發了一些論文，比如 LaMDA 和更早的 Meena。他們當時做的 chatbot 更像是專門為聊天任務定製的基礎模型，特別擅長聊天。從論文的例子來看，這些 bot 主要是娛樂應用，模型會扮演某個角色，假裝自己就是那個角色，但它的功能性並不強，比如重構程式碼這種肯定做不了。

我還做過一個 WebGPT 的專案，這個專案主要是研究怎麼透過網路瀏覽和資訊檢索來解答問題。但在使用過程中需要使用者不斷提出後續問題，以及模型再回問來確認使用者意圖和需求。所以在我們完成這個專案的 V 1 版本後，下一代要用對話式的產品模式已經很明晰了。我們從那個時候開始用 GPT-3.5 開發對話聊天助手。GPT-3.5 的訓練是在 2022 年初完成的，它的文字和程式碼能力很強。很快，團隊發現 GPT-3.5 在輔助寫程式碼上的表現相當出色，這是讓我們感到很興奮的一點。

當時團隊一年裡的大部分時間裡都在做這個專案，但後來我們減少了對瀏覽功能的側重，因為模型內部的知識已經非常豐富，瀏覽功能並不是最吸引人的部分。我們當時把這個產品給朋友和家人用了一段時間，也在考慮要公開發布。

GPT-4 就是在 2022 年的 8 月完成了訓練。GPT-4 是 OpenAI 的旗艦專案，特別強調指令遵循能力，因為這些是會被實際部署到生產環境中的模型。這些模型的首次 finetune 使用了完整的技術棧，並且表現出色，所以大家對它們期望極高。儘管這些模型有時能產生令人驚豔的輸出，它們的可靠性還是存在問題，有時會出現明顯的錯誤或 hallucination，所以 GPT-4 還不是最終的進化完成體，不過綜合能力已經非常優秀了。

在那之後，大家暫時忘記了 chat 這個分支。我們繼續研究，把指令型資料（通常用來訓練 AI 執行特定的任務）和聊天資料（更側重於模擬人類間自然對話的資料）混合在一起，希望能夠結合這兩個東西的優點，創造出一個既可以處理具體任務又能流暢聊天的模型。但從結果看來說，顯然是 chat 模型使用起來更簡單，它能夠更好地瞭解並處理自己的潛在侷限性，這是我在開發過程中最激動的事情之一，因為這說明一些人認為的語言模型的固有缺陷，實際上可以透過一些直接的方法得到解決。

指令型模型中的一些任務，比如“complete this text， but in a nice or helpful way（以友好和能有幫助的方式補全這段文字）”本身的描述是不夠明確清晰的，這會讓模型難以執行，也增加了資料標註者的困難。而 chat 模型則更加直觀，人們對於一個能給我們幫助的 bot 該具備哪些行為特點有自然的預期，也會讓 chat 模型在理解任務和執行上更簡單和準確。因此，這類模型能夠展現出更連貫的特徵和更穩定的行為。

Dwarkesh Patel：這是不是說所有人用你開源的 fine-tuning API 都能訓練出一個像 ChatGPT 這樣的模型？

John Schulman：也不能完全這麼說。假如我們當時開放了 GPT-3.5 的 finetune 服務，別人或許能夠做出來一個與 ChatGPT 相當接近的產品，但這不是說僅僅透過一輪完全基於人工合成數據的 finetune 就能達到這樣的效果，而是需要進行多輪的迭代。

如果沒有進行過我們所做的 RL，那可能需要採用一種迭代的監督式微調的方法，在這種方式下需要人工編輯模型生成的輸出。但即使是在高質量的人類生成資料上做訓練，模型也難以完美擬合這些資料，因為這些資料可能包含了模型能夠輸出的內容。所以這種迭代式監督 finetune 應該類似於 RL，如果能做到，也許最終效果能非常接近 ChatGPT 的效果，但這絕對沒那麼簡單。

我們還發布了另一個用 RL 訓練的遵循指令的模型，是在 ChatGPT 釋出之前不久推出的。如果在這個透過 RL 訓練的模型上做套殼，弄成一個聊天介面，可能它的表現也會相當不錯，但這個模型和 ChatGPT 有些不同，它主要擅長寫作和詩歌創作，在瞭解自己的限制、事實準確度這些方面不如 ChatGPT。

Dwarkesh Patel：你曾經說過對 GPT-2 印象非常深刻，後來的 GPT-3.5 相比你 2019 年的預期來說是快了還是慢了？

John Schulman：GPT-2 釋出之後的發展速度超出了我的預期，我開始非常相信 scaling 和 pre-training 是個不錯的方向，但 GPT-2 還沒讓我完全確定這個東西會帶來革命性的改變。真正讓我改變看法，再到後來調整我和團隊研究方向的是 GPT-3 。在 GPT-3 出來之後，我們團隊聚在一起說“那就讓我們看看用這個語言模型能做點什麼吧”。

Dwarkesh Patel：假設我們前面討論的 RL 技術未來和更智慧的模型協作能帶來更好的表現，以後在 pre-training 與 post-training 之間，計算資源比例是不是會明顯向 post-training 傾斜？

John Schulman：這麼說有一定道理。現在模型生成的內容質量遠遠超過了網路上的大部分內容，所以更合理的方式是讓模型“自主思考”，而不是僅僅模仿網路上的內容，這是基於第一性的原理來說的。我們在 post-training 環節有很多進步，未來我們也會繼續延用這個技術，而且有可能增加在這方面投入的計算資源。

Dwarkesh Patel：相比 GPT 的初代版本，GPT-4 的 Elo score 要高出一百分左右，這個提升完全是因為你說的 post-training 帶來的嗎？

John Schulman：是的，大部分是來自 post-training。模型的能力提升來自於許多不同的維度，我們考慮了資料的質量和數量，對整個部署和收集新資料的過程做了更多的迭代。像改變收集的註釋型別等等因素疊加在一起，才帶來了計算能力的大幅提升。

Dwarkesh Patel：你覺得擅長做強化學習研究和實踐的人需要具備哪些特質和技能？我瞭解到這個過程是極其細緻繁瑣的，該怎麼培養調整資料引數和設定有效學習環境的直覺和能力？

John Schulman：我在很多個相關技術領域都有豐富的經驗，從我研究生階段就開始研究的 RL 演算法，到資料收集、標註流程，還有和語言模型的互動等等。我總結下來的經驗是，在強化學習上表現出色的人，一般都對整個技術棧都有一定的瞭解，並且對不同環節都有很強的好奇心；既要有經驗主義精神，讓實驗來重新整理你的觀點，同時也要從基礎原理出發去思考，比如說，如果發現某個學習機制有效，那應該思考理想的資料收集型別是什麼？類似這種問題就要多想想。

Dwarkesh Patel：因為 GPT-4 釋出以後基本沒有出現過明顯更好的模型，有人懷疑 AI 馬上要遇到瓶頸了，他們覺得實際上這些模型並沒有那麼好的泛化能力，以後會遇到一個“資料瓶頸”（data wall），而越過這個壁壘所能解鎖的能力，比如說記憶大量的 pre-training 資料語料庫，並不能幫助開發出比 GPT-4 更智慧的模型，你認同這個觀點嗎？還有延續我們前面提到的從西班牙語到英語的泛化話題，模型能實現不同領域（如程式設計到語言推理）以及模態（如文字到影片）之間的遷移嗎？如果在大量影片和影像上做訓練，模型能透過合成數據變得更聰明嗎？還是說解鎖的能力主要侷限於訓練的時候用了什麼型別的資料集和標籤？

John Schulman：首先，我們真的要遇到所謂的資料瓶頸了嗎？我不建議大家過度解讀從 GPT-4 釋出到現在的這段時間，因為訓練新一代模型還有各種準備工作都需要時間，我不會過度引申這個時間代表的意義。雖然有限的資料量確實帶來了一些挑戰，但我覺得我們不會馬上就遇到資料瓶頸。不過隨著我們逐漸接近這個極限，我估計 pre-training 的方式會發生變化。

關於不同型別的 pre-training 資料對模型泛化能力的影響，這個問題的研究特別困難，因為我們沒那麼多資源做好幾個不用的預訓練模型出來，或者訓練出來一個 GPT-4 規模大小的模型，再在這個規模上進行消融研究（拾象注：ablation studies，指透過系統地移除或修改模型的一部分，比如資料型別、模型結構等來觀察這些變化對模型效能的影響），但可以考慮使用規模較小的 GPT-2 或 GPT-3，用不同的資料組合進行訓練，看看結果如何。我的瞭解是目前還沒有公開的消融研究結果涉及到程式碼資料和推理效能，我對相關的研究結果是很感興趣的。

Dwarkesh Patel：模型的智慧程度隨著規模增加會不斷提高，如果在 GPT-2 級別的模型上做消融實驗，最後發現遷移效果不明顯，這種結果能作為 GPT-4 級別的模型做類似遷移效果的參考嗎？

John Schulman：不能簡單地推斷說在 GPT-2 規模上轉移效果不佳，那在更大規模的模型上也會如此。大型模型也許能夠學習到更好的共同表徵（shared representation），並且學習進行正確的計算處理，而較小的模型可能更多地依賴於記憶。

Dwarkesh Patel：為什麼更大規模的模型即使在用相同或更少的資料做訓練時，智慧水平仍然很高？

John Schulman：我覺得還沒人能給出一個完美的解釋，告訴我們模型引數數量增加時的 scaling law 什麼樣，我也不確定有沒有關於這個問題最合適的思維框架。更大的模型肯定會有更大的容量，理論上可以達到更低的損失。

我可以簡單解釋一下為什麼更大的模型樣本效率更高。可以把模型想象為由許多不同的計算單元或“電路”組成的集合，模型的最終輸出是這些平行計算電路結果的加權組合。在殘差網路中，增加模型的“寬度”（即層中的單元數或通道數）可以類似於增加“深度”（層數），如果模型更“寬”，也就是有更多的計算單元，這些單元可以並行地學習和處理不同的資訊，那就增加了至少有一個計算單元正確猜測或解決問題的機率，最終達到提高模型整體效能的目的。

像混合模型（mixture models）或乘法權重更新演算法（multiplicative weight update algorithms）就是這個工作原理，一般是由一個加權組合的“專家”（拾象注：指模型中的不同計算單元或模組）系統組成，透過學習到的“門控”機制（gating）來決定不同專家的輸出如何組合。我剛才的說法可能不是很準確，但你可以理解為類似的概念。模型規模增加本質上就是提高了找到正確函式的機會。

當然，我們並不是簡單地將完全獨立的函式進行線性組合，更像是有一個函式庫，可能以各種方式將這些函式串聯起來。在更大的模型中，雖然有許多計算單元在大多數時間裡可能是休眠狀態，但模型的大規模提供了更大的空間來尋找那些在特定情況下非常有用的計算單元或電路。

05.

AI會在未來充當CEO嗎？

Dwarkesh Patel：假設未來某個時間點我們解鎖了 RL 的長期規劃能力，你覺得之後 RL 技術會如何發展？比如說效能表現如何，面臨哪些限制因素，會出現哪些新模態，以及會在什麼時候被解鎖等等。

John Schulman：我覺得在不久的將來就會有新模態出現。透過 pre-training 和 post-training 的結合，模型的能力會持續提升，並帶來新的應用場景和可能性。現在 AI 在經濟中的佔比並不大，只有很小一部分工作能夠從 AI 中受益，未來這個比例會提高，不僅是因為模型效能的提升，還因為人們會找到更多把 AI 整合到不同流程中的方法。所以即使模型一直保持在現在這個水平，模型的實際應用場景也會有很明顯的增加。

AI 未來將有更廣泛的應用場景，執行更復雜的技術任務，比如程式設計、執行連續任務和協助研究工作等等。我希望我們能借助 AI 加速科學發展，因為理論上模型可以理解一個特定領域的所有文獻，篩選大量資料，這是我們人類沒耐心做到的。在這個過程中人類應該一直保持主導地位，讓各種 AI 助手幫助解決各種問題。以後每個人都將擁有這些 AI 助手，幫助自己完成更多工作。

Dwarkesh Patel：現在的 AI 主要都是起一個輔助作用，未來 AI 將會在各種事情上超越人類，幫我們完成工作，甚至管理整個公司，這個過程會是一個順利平穩的過渡嗎？到那個時候，模型能繼續與使用者需求和期望保持高度 alignment，讓我們足夠信任模型來管理公司嗎？

John Schulman：我們不該急著讓 AI 馬上去管理公司，就算 AI 已經先進到能獨立成功地經營企業，我們還是希望有人類來監督關鍵決策，並負責做出最終決策。其實這其中也涉及到一些選擇問題，人類未來也依然各有各的想法，各有希望 AI 去完成的目標。除非這些意圖被明確地編進模型中，AI 本身並不具有任何內在的慾望。所以，即使 AI 變得極其強大，我依然希望人類是指導 AI 行為和決策的主導者。

Dwarkesh Patel：未來公司內是不是還會存在 Amdahl's law 的現象？也就是說，即使 AI 能顯著提升企業中的大多數流程的效率，整個企業的效率仍然會被那些最慢的、可能依然需要人類參與的流程所限制。如果一家公司選擇在所有需要人類監督的事務中保證人類的參與，那它可能會被採取全自動化策略的其他公司淘汰。如果一個國家選擇這樣的發展路徑，那就可能會被其他國家超越。這樣下去保持人類參與其中的計劃還具有可持續性嗎？

💡

阿姆達爾定律（Amdahl's law）：計算機科學概念，由 Gene Amdahl 在 1967 年提出，指系統的最大效能提升受限於系統中最慢的部分。即使系統的大部分部件速度提升了很多倍，整個系統的效能仍然會被最慢的那個部分所限制。

John Schulman：如果我們合理希望保持人類的參與，但結果表明，那些有人類參與的公司相比完全沒有人類參與的公司完全沒有競爭力，那我們肯定需要法規來禁止完全不包含人類參與的公司存在。

Dwarkesh Patel：那可能就涉及到要明確界定哪些是最關鍵的、需要人類參與的流程。既然需要對每一家單獨的公司做好監管，還需要各國的協作，那是不是應該在模型部署之前就先解決好這個問題？這樣在成立以這些模型為基礎的公司時，這個公司就能沒有人類參與也能照常運作，這種情況下我們該怎麼確保能夠監控每家公司？如果有些國家決定就是不讓人類參與會發生什麼情況？

John Schulman：要實現這點，要麼是讓所有國家都同意監管框架，要麼就是讓所有的模型 infra 廠商或供應商同意監管的要求，這絕對很難做到。其實這都是我們對未來的一種展望，在真正到那個時候之前，很難想象會是什麼樣子。比如說，我們真的有信心說 AI 運營的公司在各方面都會更優秀嗎？我們真的覺得模型大多數時間都表現得不錯，只是偶爾因為樣本效率不足出故障嗎？可以想想模型處理一些棘手情況的時候表現怎麼樣。

AI 運營的公司其實會面臨更高的極端風險，因為它們更有可能出現大規模故障。還會有一些實際問題需要考慮，這些問題對後續發展會起到決定性作用。如果這種情況下讓人類來負責的話，可能也會對激勵機制有些改變。

假設最終證明 AI 在管理一切方面都更出色，並且也完全道德上可信賴，在管理和負責任方面做得比人類還好，我們也完全解決了 alignment 問題，那麼也許讓 AI 來運營公司是可以接受的，但現在說還太早。我們更有可能面臨的情況是，AI 從短期來看錶現得不錯，但仍然存在一些嚴重的問題。實際上我們是出於一些實際情況的考慮，才更傾向於在近期保證人類能參與其中的。

Dwarkesh Patel：也就是說這是人類現在必須透過 RLHF 解決的問題，必須廣泛調查並收集好各種群體的偏好，因為未來在我們有更先進的 AI 模型時，確保模型和人類偏好一致的問題會更難。我們在說希望終極形態的、能代替人類管理公司的 AI 模型能與人類目標保持一致時，究竟是指什麼？是指 AI 能夠理解並執行使用者的具體指令，還是指 AI 的行為能夠達到讓 OpenAI 的利益相關方滿意的結果？

John Schulman：如果 AI 模型被用在風險更高的場景，那麼我們必須重新考慮該怎麼用不同的方式利用 RLHF 技術。我們可能還沒準備好，或者現有的方法還不足以應對這些挑戰，需要在不同利益相關者的需求之間做出平衡。

我們之前發了一個檔案叫 Model Spec，主要是關於我們希望模型在 API 和 ChatGPT 中的行為方式，解決不同利益相關方之間的衝突。我們的利益相關者包括終端使用者（直接使用 ChatGPT 或其他 APP 的人）、開發人員（使用 API 為其他使用者提供服務的人）、平臺（如 OpenAI，我們不希望模型讓我們面臨法律風險），還有更廣泛的人類社會（包括那些不是使用者或客戶的人）。

有些使用者可能會要求模型執行我們認為對其他人有害的操作。在這種情況下，我們就不得不拒絕執行。當然上面說的順序並不一定是優先順序順序，只是我們考慮的四類主要利益相關者。以後我們可能還會考慮模型本身作為一個利益相關者，但我們目前還沒有走到這一步。

這些不同的利益相關者有時可能會提出相互衝突的要求，我們必須確定好如何解決這些衝突，這並不是個簡單的任務，必須權衡不同的考量。我們的主要指導原則是希望模型主要遵循使用者的指令，對使用者和開發人員有所幫助。但當用戶提出與其他人的幸福或生活方式發生衝突的要求時，我們就必須阻止這種情況發生。我們希望模型主要成為人們意志的延伸，執行使用者的指令，但不想太過於家長式，而是保持中立，不強加觀點。

06.

RLHF 研究的最新進展

Dwarkesh Patel：下面讓我們聊聊科研相關的問題。社科領域有很多研究成果都很難復現，你覺得機器學習領域，有多少研究是真正紮實的科學，又有多少可能是類似社科領域為了讓結果更顯著而操縱資料的 p-hacking？

John Schulman：目前確實存在一些對 ML 研究批評的聲音，但其實機器學習領域的學術環境還是比較健康的，尤其是和社科這樣的其他學科相比。機器學習研究大部分都是基於實際應用，要真正出成果。如果研究成果很難被複制，那很快就會被大家忘記。

現在僅僅引用他人論文中的資料是不夠的，研究人員通常需要嘗試復現別人的研究方法，然後在相同的資料集上做測試，驗證方法的有效性和可重複性。如果一個研究方法實現起來非常困難或者結果難以重複，這種方法很可能會被學術界遺忘，所以很多研究人員會開源他們的研究。當然，這個領域也有一些不好的激勵機制，比如故意選用較低的基線方法做比較，或者故意增加方法的數學計算複雜度。但總體上，我覺得這個領域正在不斷進步。我希望能夠有更多的科學研究去深入理解事物的本質，而不僅僅是在基準測試上不斷改進和提出新方法。最近在這方面已經有了一定的進展，但仍需要更多的努力，這對整個學術界的發展都有好處。

另外，我非常期待看到更多使用基礎模型進行模擬社會科學的研究。模型包含了對整個世界的機率分佈描述，可以設定一個模擬問卷或對話來觀察與其他不同特徵和變數的相關性。如果研究人員能夠透過不同方式 prompt 基礎模型並觀察相關性，來複制社會科學中的一些顯著成果，比如道德基礎理論等，會是非常酷的事。

Dwarkesh Patel：你提到的是斯坦福的哪個實驗？是阿希從眾實驗嗎？如果能用語言模型來複現這個實驗還是很有意思的。下面我想聊聊在大型實驗室中進行的其他研究，這些研究中有多少是因為計算效率提高，有多少隻是源於訓練過程更加穩定和更完善的 infra？從 GPT-4 釋出之後，現在我們可以在相同的計算資源下訓練出更優秀的模型了嗎？還是說，在開發 GPT-5 的過程中雖然確保了整個訓練過程更好、更具可擴充套件性，但並不意味著現在可以用 GPT-3.5 的預算去訓練出 GPT-4？

John Schulman：我們在提升效率方面一直都有進展。其實當我們用單一維度（1 D）效能指標來衡量時，不同的改進措施之間可以相互替代，來達到相似的結果的。比如 pre-training 和 post-training 都能提升效能指標，只是它們會呈現出各自的特點。但最終，如果以單一維度來衡量，這些不同的改進措施是能相互替代的。以人類評估為例，在輸出更接近我們期望的結果這方面，我們確實在 pre-training 和 post-training 兩方面都有很多進步，也切實地提高了模型的表現。

Dwarkesh Patel：RLHF 對提升模型的實用性非常重要，所以說它限制了模型的功能可能並不準確，但這樣訓練出來的模型一旦被用在 chatbot 上，似乎都有一種類似的表達方式，比如說喜歡 “delve into things”，喜歡用 bullet point，語言風格比較正式和枯燥。還有人抱怨這些模型缺乏創造力，只能創作押韻的詩，寫不出不押韻的詩，到最近這種情況才有改變。這些表現是不是由於因為 RLHF 中的某個環節導致的？如果真是這樣，那是因為評分員，還是因為損失函式的設計？為什麼所有的 chatbot 都會呈現出這種風格？

John Schulman：在訓練過程中我們其實有很大空間來做不同的嘗試，最近我們也在努力讓生成的文字更加有趣。比如最近 ChatGPT 的個性已經有了一些改進，和使用者閒聊的時候會更有意思，不那麼機械。

模型會有一些共同的特點，比如很愛用“delve”這個詞，這是個挺有意思的現象，我發現自己最近也在使用這個詞，不知道是不是從模型那裡學來的。另外可能還存在一些無意導致的資訊蒸餾（unintentional distillation），比如說公司僱人做資料標註，但這個人直接把任務扔給了他最愛用的 chatbot 模型，再把結果貼上回來，這也許是為什麼各個模型之間的風格會趨向一致。

另外一些模型顯示出來的特徵其實就是人們喜歡的方式，比如大家確實喜歡 bullet point 和結構化的回答，喜歡從模型那裡得到大量資訊。我們現在也還不清楚這些特徵中有多少是由於 post-training 過程中特定的選擇和設計造成的，又有多少是因為大家真的喜歡這樣的回答。

Dwarkesh Patel：模型生成的文字確實經常比使用者希望的要長很多，有可能是因為標註的時候評分員更傾向於詳盡的回答，這是不是也是模型 pre-training 方式的固有缺陷？因為模型沒有經常遇到停止序列（stop sequence），導致模型在沒有明確停止訊號時一直生成下去？

John Schulman：我覺得這可能是人類在標註過程中看到的資訊太片面造成的。現在的模型訓練一般都是一條一條地去做訓練，而不是整個互動過程一起標註，所以很多單條資訊會因為可能性更多、資訊更豐富，在評分員眼裡看起來更“完整”，同時比較簡短的回答，或者說只回答了澄清問題的回答會被當作不夠“完整”。

另外還有一個問題是使用者的偏好會不會隨著模型輸出文字的速度而變化。如果使用者要坐在那等模型一個個地生成 token，那使用者肯定會希望它能直入主題。但如果模型能夠一次性提供一大段文字，那使用者就沒那麼在乎答案裡是不是包含了模板，或者說有沒有他們本來想一帶而過的內容，相反會更願意這樣一次性擁有完整的資訊。

Dwarkesh Patel：獎勵模型（reward model）是最接近人類期望和偏好的一個集合。我在想未來還會有更智慧的模型，這些模型應該能夠理解和執行《聯合國人權宣言》這樣相對複雜的的道德和法律框架，但另一方面，你也提到過我們的很多偏好和價值觀是非常微妙的，可能更適合用成對偏好（pairwise preferences）的方式來表達。那對於以後 GPT-6 或 GPT-7 這樣更先進的語言模型，我們是該直接給出書面的行為準則，還是應該繼續讓模型用這種更偏潛意識的方法理解偏好？

John Schulman：這個問題很好，偏好模型（preference model）確實能夠學到很多使用者偏好的細節，這些細節很難在一本指南手冊裡說清楚。我們當然可以出一個包含很多例項的指南，像 Model Spec 就是這樣，裡面附上了很多示例和解釋，但現在我們也還沒明確到底怎樣是呈現描述偏好的最優格式（optimal format）。

我的想法是，即使原始資料集非常龐大，總結出來的偏好並不清晰，理論上我們也可以記錄下來要點，總結出一個簡短的紀要。更大規模的模型確實能自主學習到很多東西，比如哪些是使用者會覺得有用的部分，同時他們可能會掌握一些複雜的道德理論。當然，模型仍然有很大的空間去適應不同的風格或不同的道德觀念。

假設我們要寫一個 doc 文件來做好模型的 alignment 的話，那我們要做的就是確定一種特定的風格和道德觀念，用一份非常詳細的文件來規定模型怎麼符合我們的要求。

Dwarkesh Patel：你覺得公司應該怎麼給 post-training 的模型建立護城河？現在公司之間主要是透過模型的規模來拉開優勢，有些公司已經解決了處理大量資料時遇到的各種複雜的問題，這會成為他們未來的一個顯著優勢嗎？

John Schulman：模型的開發和維護是一個極其複雜的過程，需要很多具備專業技能的人來完成，還涉及到大量行業的隱性知識和對公司組織的瞭解，這就是公司的護城河。在訓練完成後，還要讓模型具備人們想要的各種功能也很複雜，需要各方面的投入以及過去 R&D 的積累，這同樣是護城河，因為不是所有公司都能快速有這些資源。一般情況下在 pre-training 階段投入最大的公司，在 post-training 階段也會保持之前的高標準。

不過模型也不是完全不可複製，有些方法會讓我前面說的這些優勢沒那麼明顯，比如對模型做蒸餾，或者直接克隆出來一個新模型，然後用別人的模型做裁判來進行效能比較。一般大公司都不會這麼做，因為這違反了服務條款政策，也很傷自尊，但我猜一些小公司可能會這樣來快速追趕行業裡領先的公司。

Dwarkesh Patel：模型的評分員一般都是什麼背景？比如來自哪裡，政治傾向和知識水平什麼樣？

John Schulman：我們的評分員來自世界各地，背景差異很大，主要來自美國，我們會根據不同的任務或專案需求找具有對應技能的評分員，比如去類似 Upwork 的平臺看看都有什麼人在找遠端零工。

我們會針對寫作或 STEM（指 Science、Technology、Engineering 和 Mathematics）等等不同的任務來找專門的人，比如負責 STEM 任務的評分員主要來自印度或其他中低收入國家，但負責英文寫作的人就主要來自美國。有時候，我們還需要給一些專案僱不同領域的專家。有些評分員真的非常有才華，他們的工作產出和我們的研究人員一樣出色，而且比我們更細心，所以可以說我們現在的評分員團隊還是非常專業和盡責的。

Dwarkesh Patel：現在關於模型發展有一種“停滯論”（plateau narrative）的說法，有人認為模型在特定任務上的表現主要取決於監督式 fine-tuning 資料集裡的標籤匹配得是不是準確，這是真的嗎？模型可以教我怎麼用 FFmpeg 嗎？整個訓練是類似於有個人在監督輸入，判斷需要新增哪些命令標誌，再由評分員進行匹配嗎？需要找到具有各個領域專業知識的評分員嗎？如果真的需要的話，那我覺得以後會越來越難提高模型的智慧水平，耗時也會增加。

John Schulman：我們並不需要這麼做，因為泛化可以讓模型獲得很多能力。基礎模型已經在大量的文件、程式碼、shell 指令碼等上進行了 pre-training，包括 FFmpeg 的手冊頁和許多 Bash 指令碼，只需要給基礎模型提供少量準確的示例 prompt，就能讓它回答類似的問題。即使模型沒有在 STEM 的資料上進行訓練，只通過訓練一個偏好模型，它也能泛化到 STEM 領域。所以我們不僅不需要 FFmpeg 的具體使用示例，甚至在進行程式設計相關的任務時，也不一定需要具體的程式設計訓練，因為模型已經具備一定的處理能力。

Dwarkesh Patel：你前面提到正在對更加多元的資料進行訓練，這些模型將能夠理解螢幕內容，互動方式也會更加連貫，同時也計劃做連續任務的 RL，讓模型成為 agent 融入我們的 workflow，具體來說這個互動形態會是什麼樣的？在今年年底或明年，會出現能透過螢幕與我們協作的助手嗎？那之後會有什麼樣的發展？

John Schulman：我確實希望技術朝著這個方向發展，現在我還不確定哪種形式會是最好的。我覺得有可能會是電腦上的一個助手，類似於以前的 Clippy，或者更像是一個雲端的同事，這一點我們之後會搞清楚，大家應該各種形態都會嘗試一下。

我希望未來的模型可以更符合人們心中一個助理或者同事的形象，可以和它們分享日常工作，而不是僅僅提出一個問題就完了。這個助手還可以跟進我們的長期專案，對相關的每個細節瞭如指掌，甚至能主動提建議。我們沒準還可以讓它幫忙提醒關鍵時間節點，跟進進展。現在的模型還普遍缺乏主動性，我希望以後的模型能夠從現在單純的一次性問答，類似搜尋引擎的用法，轉變為能和模型一起合作完成整個專案。在這種合作中，模型能夠了解我們負責的所有事物，主動提出建議，或者在後臺執行。

Dwarkesh Patel：你覺得你的工作什麼時候會被取代？

John Schulman：取代我的工作嗎？可能五年吧。