LLM進化分岔口：多模態、成本、程式碼推理

01.

模型更新

OpenAI

主線 1：成本下降

LLM 大模型的成本下降趨勢是非常明確的，在 GPT-3.5 和 GPT-4 的模型定價上都體現得尤其明顯。4o 的模型設計初衷除了大家熟知的多模態之外，就是為了推理成本最佳化而設計的。在這基礎上，甚至 4o-mini 可以再下降 33 倍的成本，這個成本下降幅度是非常驚人的。我們相信未來隨著時間推進和工程 infra 的最佳化，4o 模型可能還有 10 倍的成本下降空間，很多當前模型能力下的 use case 都能迎來 ROI 打正的時刻。

同時值得一提的是，OpenAI 推出了新的 batch API 方案：API 不即時返回結果，而是在未來 24 小時內返回結果，這能使 API 價格打對摺。

這適用於對時間不敏感的大批次任務，可以大量節省成本。

這個方法能降成本是因為目前的即時推理中 long context 和短的會放在一個 batch 中處理浪費很多資源，而降低即時效能夠將相 context length 放在一起計算來降低成本。

OpenAI 還沒有推出 Anthropic 使用的 prompt caching，不確定是否已經用類似方式進行降本了：Claude 在 long context 下可以透過把部分常用 prompt 存在快取中來節省 90% 成本，降低 85% latency。這個方法在 RL 技術路線下會非常有用，因為模型 self-play 探索時會有大量重複 context。

另外 4o 對多語言資料的 tokenizer 效率提升，也能帶來更低的成本。多語種在壓縮過程中的 token 消耗量都顯著降低，例如一句話原本需要 34 箇中文 token，現在 24 個就能夠實現。

主線 2：多模態互動能力提升

模型能力角度上，OpenAI 在今年上半年最大的進展在多模態能力上：

理解側

1）GPT-4o 模型的釋出實現了端到端的多模態能力，在語音對話和多模態能力上有明顯提升的同時，降低了成本且沒有降低推理能力。其語音功能至今仍未大面積推出， advanced mode 還在緩慢 roll out 中。

speech-to-text: 顯著領先於 Whisper。端到端模型在語音上顯示出了一定的 emergent capability，比如何時能打斷並介入與使用者的對話。等大規模鋪開後在語音陪伴等場景的 PMF 可能迎來新一波的機會。

視覺理解： 顯著高於其他模型，但沒有出現多模態 unify 帶來的智慧湧現。影片資料的信噪比太低，在當前架構下和文字資料放在一起，並沒有帶來顯著的多模態智慧，這是多模態理解領域上需要解決的問題。

生成側：

a. 在 vision 方面釋出了 Sora 影片生成模型，Sora 釋出後影片生成領域的 SOTA 暫時收斂到了 DiT 架構。由於 Sora 目前還在 demo 階段，我們預期下半年會發布給公眾使用。

b. 4o 模型作為一個端到端生成模型，也在探索用端到端 autoregressive 的方式生成圖片。

Anthropic

主線 1：模型推理能力增強

2024 年上半年，Anthropic 在 Claude 模型系列上取得了顯著進展。3 月 4 日，公司推出了 Claude 3 系列，包括 Opus、Sonnet 和 Haiku 三個版本，每個版本都針對不同的應用場景和需求進行了最佳化。President Daniela Amodei 在最近的一次公開分享中提到，他們設計時的想法是：

• Opus 為複雜推理、研究場景設計。Opus 是第一個超越 GPT-4 的模型，但定價偏高性價比差。

• Sonnet 是為企業常用需求如 RAG 設計的，可能是因此第一個做了 3.5 版本。

• Haiku 是為即時性強的客服等對話場景設計（由此推測，他們也可能在 voice 領域推出端到端模型）。

6 月 21 日 Anthropic 又釋出了 Claude 3.5 Sonnet，進一步提升了模型的效能和能力。Anthropic 還預告將在 2024 年晚些時候推出 Claude 3.5 系列，包括 Haiku 和 Opus 版本。

Opus 版本是最值得期待的，看其是否能夠大幅超越 GPT-4 的推理水平。

在效能方面，Claude 模型取得了很大進步。Claude 3.5 Sonnet 在很多領域的表現超越了 GPT-4，特別是在研究生級推理和程式設計能力方面。直到 9 月，其他所有模型的更新都無法在 Coding 和複雜推理能力上超越 Sonnet 3.5。其 coding 能力提升也帶來了一系列 AI coding 產品的實現：Cursor 作為 IDE 的開發體驗一下子流暢了很多，甚至 Websim 這樣在上半年看起來是 toy project 的產品在現在也有了不錯的效果。背後原因都是 Claude Sonnet 3.5 能生成上百行的可靠程式碼，而之前的 SOTA 模型只能生成 20 行左右。

模型的其他維度能力也在各個 use case 得到了全面擴充套件。Claude 3.5 Sonnet 的推理速度是 Claude 3 Opus 的兩倍，可以處理 200K token 的上下文視窗，相當於約 500 頁文件的內容。多模態能力也得到顯著增強，特別是在視覺理解方面，包括圖表解讀和從不完美影像中準確轉錄文字的能力。

主線 2：模型擬人能力增強

Anthropic 首次在 Claude 3 系列中引入了"性格訓練"（Character Training），這項能力是在 post training 加入的。這項創新旨在賦予模型良好的性格特徵，透過生成資料和自我排序來內化這些特徵。這不僅提高了模型的吸引力和互動性，使用者反饋也表明與模型的對話變得更加有趣。

訓練方式：首先要求 Claude 生成各種與特定性格特徵相關的人類訊息——例如，關於價值觀的問題或關於 Claude 自身的問題。然後向 Claude 展示這些性格特徵，並讓它針對每條訊息產生符合其性格的不同回應。之後，Claude 會根據每個回應與其性格的契合程度對這些回答進行排序。透過對這些回答的排序訓練一個偏好模型，我們可以教導 Claude 內化其性格特徵，而無需人類的互動或反饋。

儘管這個訓練流程僅使用 Claude 自身生成的合成數據，但構建和調整這些特徵仍然是一個相對手動的過程，需要人類研究人員密切檢查每個特徵如何改變模型的行為。

這個方向結合他們的 interpretability 的研究，可以看到他們在模型的可控性上下了很多功夫。

使用者評價

我們也收集了一系列使用者對 4o 模型和 Claude 3.5 的使用者使用評價：

GPT-4o 優勢：

• 速度快，響應迅速：在 iOS 應用中使用 GPT-4o 時，幾乎感覺不到延遲，能夠實現類似即時對話的體驗。

• 多模態能力強：GPT-4o 有更完備的語音對話和圖片識別能力，且語音識別準確度、對話智慧度很高，還有創作圖片的能力。

• 在一般對話和簡單任務中表現良好。

• ROI 高：使用者普遍表示，對於需要頻繁使用 AI 但預算有限的情況，GPT-4o 提供了很好的價效比。

GPT-4o 劣勢：

• 在複雜推理、數學和程式設計任務中表現不佳：例如有使用者提到在使用 GPT-4o 編寫 C++的型別定義時，4o 不能特別好的理解複雜需求。

• 輸出冗長，常忽視簡潔指令：即使使用者明確要求簡短回答，GPT-4o 仍傾向於提供詳細解釋，有時甚至重寫整個段落/程式碼塊而非只給出必要修改。

• 在專業問題下不如早期的 GPT-4 版本：一些使用者提到在處理特定領域的專業問題時，GPT-4o 的表現不如早期的 GPT-4 模型，可能和其模型進行量化降成本有關。

Claude 3.5 Sonnet 優勢：

• 在複雜推理、長文字處理和程式設計方面表現優異：多位使用者提到 Claude 在處理 C#和 C++等程式語言的複雜任務時表現出色，能夠準確理解和執行復雜指令。

• 更好地遵循複雜指令：使用者發現 Claude 能夠準確執行多步驟任務，如在學術研究中按特定格式生成報告並同時進行資料分析。

• 創意寫作和人性化交流能力強使用者表示 Claude 能夠更好地捕捉和模仿特定的寫作風格，產生的內容往往更貼近人類作者的水平。

• 在 C#、C++等特定程式語言中表現出色：一位使用者提到，在使用 Claude 重寫 C#方法時，生成的程式碼通常可以直接使用。

Claude 3.5 Sonnet 劣勢：

• 模型外部能力侷限：Claude 無法生成影像，沒有即時網路搜尋功能，也沒有語音互動的能力。

• 某些使用者反映最近效能有所下降：有使用者提到 Claude 在某些特定領域的回答質量不如以前準確，可能是由於成本最佳化導致的。

02.

產品進展

OpenAI

使用者資料上漲：多模態帶動互動創新，4o 讓產品再度擴圈。

1）ChatGPT 用量隨 4o 的釋出大幅增長：

a. OpenAI 的訪問量自 2023 年 5 月達到峰值後，因為暑假開始下降，後續變進入波動，直到今年 5 月 GPT-4o 釋出後再次飆升，在 2024 年 6 月的訪問量達到 2.9 億次，比 2024 年 5 月增長了 15.6%，而 2024 年 5 月則比歷史最高值增長了 40%（2023 年 5 月），GPT-4o 對使用者量的拉動是極為明顯的。

b. 去年訪問量在夏季下降，今年沒有出現這種趨勢，主要得益於 GPT-4o 推出，OpenAI 能夠持續保留和吸引新使用者。（一定程度上也得益於 GPT-4o 多模態能力使得 ChatGPT 進一步向生活場景拓展，而非僅僅是一個效率工作產品）。但節日趨勢在其他產品上還是明視訊記憶體在的：C.AI 流量上升，Perplexity 流量下降。

c. 截止到今年 6 月的 Web MAU 約為 2.3 億，移動端 DAU 約為 320 萬。

2）放在搜尋引擎語境下，ChatGPT 的用量持續超越 Bing 和 Perplexity，與 Google 仍有量級上的差距，但開始逐漸蠶食傳統搜尋引擎的心智。

儘管 Google 整體搜尋份額還比較穩定在 91%+，但其桌面端被拿份額的趨勢比較明顯，美國和全球資料都是這個趨勢。ISI 釋出了一份報告介紹他們對 1000 多名消費者的調查結果。他們注意到，從6月到8月，Google 作為首選搜尋引擎的份額從80%下降到74%，而ChatGPT的份額從1%增加到8%。

• 6 月份 ChatGPT / Perplexity 流量略降，Claude 有個跳漲，和 Sonnet 3.5 模型能力顯著提升有關。

3）對 AI 產品流量和商業模式的思考

a. 在 AI 時代流量最大的產品不一定產生最大的價值，完成任務的難度更重要。這個觀點的前提是廣告模式不是 AI 時代最後的 business model。

b. 大模型公司的商業模式不比移動網際網路簡單，更像傳統零售的庫存模式：資源都分配給訓練使用者用不上產品，那就是庫存積壓；資源給推理太多模型能力跟不上，是庫存短缺。

c. 目前看到的大模型公司商業模式，要明顯比網際網路廣告和軟體訂閱的商業模式差很多。後兩者最重要的特徵是 ① 提供服務的邊際成本幾乎是零，或是持續顯著下降。② 黏性/使用者留存極強。意味著企業只要投入建立平臺/軟體產品及獲客，後續收入的利潤率極高，且持續性很強。大模型無論是 API 還是訂閱制，定價端很難提價，而隨著模型能力增強，使用者query/任務會更加複雜，服務使用者需求的成本還可能是上升的。

從生產力助手到 Agent 探索：

feature 更新和收購併行

根據 chatgpt 今年 1 月-7 月的產品升級，可以發現如下幾個趨勢，他們是明顯在從生產力助手往 agent 方向在探索：

• 新的互動模式已經有了雛形，在日常生活中的應用場景大大擴寬：透過對多模態能力的不斷強化，目前能夠對圖片進行解讀、翻譯和推薦、即時語音交流、螢幕讀取功能。

• 工作效率產品逐漸完善：針對資料分析需求，ChatGPT 新增了與雲端儲存服務如 Google Drive 和 Microsoft OneDrive 的直接整合，以及即時表格互動和可定製的圖表功能。

• 在逐步搭建生態系統，儘可能多的平臺整合：與蘋果等大平臺的整合，推出桌面版，提升了在不同作業系統和應用中的可用性和使用者接觸點。

• memory 功能加入：目前還只是把文字內容總結成簡單的一個標籤放進 system prompt。下一步結合 Rockset 的收購可能為外部網際網路和每個使用者的聊天記錄建立 index，做到更強的個性化。

同時也值得分析一下他們是收購三家公司的價值，和他們實現 agent 的願景高度相關：

1）Rockset（2024 年 6 月收購）：

Rockset 是一家專注於即時分析資料庫的公司，以其先進的資料索引和查詢能力而聞名，成立於 2016 年。OpenAI 收購 Rockset 的戰略動機主要是為了增強其檢索基礎設施。這將使 OpenAI 能夠提供更強大和高效的資料處理能力，特別是在即時搜尋和 RAG 上。此次收購預計將顯著提升 OpenAI 在資料 retrieval、分析和檢索方面的能力，使其 AI 解決方案更加強大，能更好地響應即時資料需求。這也增強了 OpenAI 在與其他 AI 模型提供商和全棧生成 AI 平臺競爭時的技術實力。

此外，未來的 agent 中最關鍵的工程設計在於 memory 的設計，前面這套在 RAG 和 search 的方案也可以用在未來 agent 的記憶機制上。

2）Multi（原 Remotion，2024 年 6 月收購）：

Multi 是一家開發即時協作工具的初創公司，允許使用者共享螢幕並在編碼等任務上協同工作。OpenAI 收購 Multi 的戰略目的是利用其技術來增強遠端協作能力和 AI 驅動的內容摘要功能。這與 OpenAI 透過 AI 改善團隊協作和生產力的更廣泛目標相一致。這次收購的一個重要意義可能是實現未來人與 AI agent 在螢幕前的共同協作。

3）Global Illumination（2023 年 8 月收購）：

Global Illumination 是一家專注於創意工具、基礎設施和數字體驗的公司，由來自 Instagram、Facebook、YouTube、Google、Pixar 和 Riot Games 的前關鍵設計師創立。收購 Global Illumination 的目的是增強 OpenAI 的核心產品，包括 ChatGPT。此外我們也猜想，他們之前的產品也可能適合成為 virtual agent 的進行強化學習的互動環境。

Anthropic

互動：Artifact 時軟體生成 task engine 的早期形態

Artifacts 是我們使用 Claude 產品時會出現的動態 workspace，能把我們需要完成的任務轉換成程式碼，並用程式碼的方式來實現基礎的任務。我們可以認為它是 OpenAI Code Interpreter 基礎上對 UI/UX 的創新。

Claude 團隊給 Artifact 的未來定位是企業團隊將能夠安全地將他們的知識、文件和正在進行的工作集中在一個 Artifact 這個 workspace 中進行互動，而 Claude 則根據需求作為 copilot 對這個workspace 進行互動。所以可以認為 Artifact 是 Anthropic 團隊對下一代 AI-native 協作平臺和工作流的想象。

在實際使用場景中，現在還是開發者使用 artifact 製作初步程式碼比較多：

• 示例一：一行 prompt 製作日曆 app，artifact 直接呈現出 code 和 UI，不需要自己動手寫基礎程式碼

• 示例二：上傳一本書後，邊讀邊透過 artifact 總結每一頁的內容

Agent 探索：

還在 tool use 階段，未來 roadmap 可期

Tool use 能力的提升標誌著 Anthropic 在 agent 技術上比較穩健的一次進步。2024 年 5 月，Anthropic 為 Claude 3 系列模型增加了與外部工具和 API 互動的能力，這一進展大大拓展了模型的實用性。這項功能使得 Claude 能夠執行更為複雜和實際的任務，不再侷限於純粹的文字生成。使用者只需用自然語言描述他們的需求，Claude 就能智慧地選擇合適的工具並執行相應的操作。這種自然語言介面大大降低了使用門檻，使得即使非技術背景的使用者也能輕鬆地利用 AI 的強大能力。

Anthropic 展示的 agent 應用場景涵蓋了多個領域，充分體現了其技術的廣泛適用性和潛力。首先，在資料處理方面，Claude 能夠從非結構化文字中提取結構化資料，這對於自動化資料錄入和分析具有重要意義。其次，Claude 可以將自然語言請求轉換為結構化 API 呼叫，這大大簡化了系統間的互動過程。在資訊檢索方面，Claude 能夠透過搜尋資料庫或使用 Web API 來回答問題，提供即時且準確的資訊。對於日常任務自動化，Claude 可以透過軟體 API 執行簡單任務，提高工作效率。

其中最特別的一個例子是 Claude 能夠協調多個快速子 agent 來完成細粒度任務，這是複雜任務的分解和並行處理的未來方向。這種階梯式的模型分工方法可能涉及多個專門化的 agent 協同工作，每個 agent 負責特定的任務或領域。這種架構不僅能提高整體系統的效率和靈活性，還能更好地處理複雜的多步驟任務。透過讓不同的子代理各司其職，系統可以更有效地利用資源，並且能夠根據任務的需求動態調整工作流程。

Anthropic 在官網公佈了他們的未來方向，其中他們對 agent 的長期規劃是宏大而全面的：

• 知識融合（結合多個領域的交叉知識）

• 超越現有訓練資料、本科生水平的知識推理

• 自主執行端到端科研專案

• 提出新假設和設計的能力

• 隱性知識（只能透過在實驗室中的學徒制獲得的那種知識）

• 需要做出連續決策才能實現的 long horizon task

• 自動化資料分析

這些能力的實現都會和我們期待的 agent 有著方向上的匯合。仔細看會發現 Anthropic 對 AI 的期待很多都落在軟體和科學發現上。

03.

人才更新

OpenAI

OpenAI 依舊保持快速增長狀態，已經從純粹的 AI Lab 演進至更加工程、產品、收入導向的公司。公司目前有 400 名以上的 Researcher，超過 1200 位非研究類員工，包含工程、銷售、產品、後臺支援等，對比 2023 的 770 人增加近乎一倍。

從招聘側重點看，近三個月，有 460 人新加入 OpenAI，其中 Member of Technical Staff 依舊佔主要，共有 130 人，偏工程類員工佔整體 MTS new hire 的 80%。Go-to-market 是招聘數量第二多的團隊，新招聘 46 人。產品新招聘 24 人，其中包括新加入的 CPO Kevin Weil。

離開的關鍵人才

•Ilya 於 2024 年 5 月與 SuperAlignment Co-lead Jan Leike 接連離職。Ilya 在離職後創辦了 SSI，致力於構建安全超級智慧。而 GPT-4 的核心人物 Jakub 接任了 Chief Scientist 的角色。Ilya 對於 OpenAI 是指明方向的靈魂人物。但也有觀點是 Ilya 的遠見對於 OpenAI 初期帶來很大幫助，但在 OpenAI 已經明確遠期方向後，Illya離開的影響並不大。

•同樣為 OpenAI 早期靈魂人物的 Greg 會休假至年底後再回歸公司。

•Andrej Karpathy 在加入 OpenAI 一年後於 2024 年 2 月離開 OpenAI，離職後創辦 Eureka Labs 的 AI 課程教育公司，自己擔任講師幫助學生更好理解 AI 與 LLM 訓練。

•John Schulman 離開 OpenAI 加入 Anthropic。晉升為 alignment lead 前，John 曾是 reinforcement learning team lead，是 RLHF 的開創者，確定了 OpenAI RL 的路線。John 是 OpenAI 創始團隊之一，師從 Pieter Abbeel。離開 OpenAI 後，John 加入 Anthropic。

•Jan Leike 跟隨 Ilya 一同離職後加入 Anthropic，繼續負責 Alignment 方向工作。John Schulman 和 Jan Leike 的加入意味著 OpenAI 的研究路線圖對於 Anthropic 團隊幾乎是一張明牌。

•Peter Deng 作為 Product VP 離開 OpenAI，Kevin Weil 作為 OpenAI 新加入的 CPO 繼續領導 OpenAI 的產品工作。Kevin 在加入 OpenAI 前為 Meta Diem、Instagram 的 VP of product，在 Instagram 任職期間幫助 Instagram 在與 Snap 競爭階段獲得優勢。從 Peter 的離職也能感受到 OpenAI 對新產品開發落地的激程序度。

•Aleksander Madry 於一年前從 MIT 教職暫時離開，加入 OpenAI 創辦 Preparedness 團隊，目標是透過理論研究幫助 OpenAI 提前控制可能發生的重大風險。Aleksander 於 2024 年 7 月離開，接任者為 Joaquin Quiñonero Candela，加入 OpenAI 半年時間，先前在 Meta 帶領 Responsible AI 團隊近九年。

•Jeffrey Wu 是 GPT- 2 的核心貢獻者，參與了 GPT 的可解釋性、可拓展監督方向的工作。也作為核心參與了 InstructGPT 這一 RLHF 的重要專案。Jeffrey 於 OpenAI 任職 6 年，於 2024 年 7 月離職，加入 Anthropic。

•Yuri Burda 是 OpenAI reasoning team 的創始成員之一，負責 OpenAI 的數學方向研究，並於早期專案：Dota、Codex 中有核心貢獻。離開 OpenAI 後 Yuri 加入 Anthropic。

值得關注的新團隊和崗位

我們也觀察到 OpenAI 出現了一些新的小組：

1）Solution Architect

在 Success Team 下新增了 Solutions Architect 團隊，隸屬於 Success Team 下。目前整體團隊大約 20 人，均為一年內加入 OpenAI，對 Enterprise 提供整體部署解決方案。Solutions Architect 團隊源於 OpenAI 的策略調整：OpenAI 為了防禦 Azure 捆綁銷售策略下的折扣定價，承諾可以為大客戶根據需求定製軟體。

2）叢集硬體

OpenAI 從 0 到 1 搭建了新的硬體團隊。從團隊配置看，更像是計劃搭建資料中心叢集所需要的人才。目前硬體團隊還是一個不到 10 人的小團隊，由 Richard Ho 帶領。Richard 先前於 Google 任職近十年，是 Google TPU 的 Senior Engineer Director。先前有報告提及 OpenAI 至少要等到 2025 年才可以自己開發晶片，並且目前在與博通商討合作設計的形式，Richard 做為 Google TPU 的負責人，在 OpenAI 的定位會是 lead 起 co-design 任務的角色。

Richard 團隊內，Reza Khiabani 先前於 Tesla Dojo、Google TPU 負責資料中心液冷方向工作。Xin Li 先前於 Google 負責資料中心電源工作。

3）投資了 Opal 團隊

此外，消費硬體層面，OpenAI 於 2024 年 8 月投資了 Opal，有可能在之後一起合作 AI 硬體。Opal 的產品為高畫質攝像頭，並且十分重視設計。

Opal 於 2020 年成立，是一個 15 人的小團隊。創始團隊為 Uber 背景。CEO Veeraj Chugh 在創辦 Opal 前於 Uber 任職 3 年，先後負責 Uber Freight、Uber New Mobility 的產品運營工作。Co-founder Stefan Sohlstrom 是設計背景出身，2014 年作為第 5 號員工加入 Plaid，擔任 Plaid 的 Head of Design。2017 年開始於 Uber Freight 從設計職責轉換成產品經理，成為 Uber Freight Shipper Platform 的產品 Head。

4）Model Behavior scientist

對於 Model Behavior 研究人員的招募可能揭示 OpenAI 希望增強模型的可控性並且希望能夠發展新的互動方式，同時提升模型的創造能力。

5）mid-training scientist

Mid-training 已經被正式定義為一個新的訓練階段。其主要環節可能包括一些比較接近模型基本能力的 alignment，與 human feedback 離得相對遠、更靠前。

Anthropic

2024 年以來，公司人數從 300 人增加至 500 人左右。2024 起，公司招聘共 180 名新的 Member of Technical Staf，使 Anthropic 整體 Member of Technical 數量達到約 260 人，其中 90 名 Researcher，210 名 Engineer。Anthropic 的第二大招聘重心為產品團隊，2024 年前，Anthropic 的產品團隊共 10 人，而今年已經是接近 30 名，包含產品經理、Product Partnerships / Marketing 相關員工的團隊。

Anthropic 和 OpenAI 相比更看重 Alignment、可解釋性、AI 社會影響三個方向研究，也是 Anthropic 官網上 Research 部分的三個主要構成部分。

可解釋性團隊由 Shan Carter 帶領，現已經是 20 餘人的團隊。Shan 先前於 OpenAI、Google Research 工作，主要負責可解釋性方向研究，曾與 Co-founder Chris Olah 於 Google 時參與 Google 重要可解釋性研究：The building blocks of interpretability。

可解釋性團隊在 Claude3 釋出後發了一篇新論文：Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet，突破了模型的透明度並且建立了新解決黑盒問題的機制。

除了前面提到的幾位從 OpenAI 離職的幾位早期重要 researchers 之外，還有這樣幾位重要 OpenAI / DeepMind 出身的重要科學家加入：

• Pavel Izmailov 自 2023 年 6 月加入 OpenAI，工作一年後離開加入 Anthropic。於 OpenAI 期間 Pavel 是 superalignment 的成員，加入 Anthropic 也有大機率與 Jan 繼續合作 alignment 方向工作。

• Steven Bills 於 2022 年 3 月加入 OpenAI，是 superalignment 團隊的成員，參與了 OpenAI 釋出 GPT 後的可解釋性研究：Language models can explain neurons in language models。

• David Choi：David 於 2017 年至 2023 年 12 月於 Deepmind 擔任 Staff Research Engineer。先前是 Deepmind 的 AlphaCode Co-lead，是 Deepmind 在 2022 年時的核心程式碼生成模型。David 在 agent 方向的研究可以追溯至 2019 年與 xAI 的 Igor 共為一作的 AlphaStar 論文。

• Jascha Sohl-Dickstein：Diffusion model 核心一作，曾是 Google 的首席科學家。於 2024 年 1 月加入 Anthropic，此外，Jascha 曾釋出了 Score-based SDE，構建了生成 Diffusion 模型理論的框架。

Anthropic 產品團隊最大的更新是新 CPO 的加入。Mike Krieger 原先是 Instagram 的 Co-founder & CTO，經歷了在 Instagram 被收購後從只有 6 位全棧工程師成長到包含 300 位工程師的 full function 工程團隊的過程。Mike 於 2021 年時與 Instagram CEO Kevin 開始做 AI 新聞推送創業 ARTIFACT，於 2024 年 5 月停止專案，加入 Anthropic。Mike 本身的經歷和 Anthropic 經歷了只有 80+人的小團隊，但創造出了 SOTA 模型，之後迅速擴張的過程非常相符。加入 Anthropic 後 Mike 帶領 Claude APP，以及企業服務的產品工程、管理、設計工作。

Anthropic 的產品團隊自 2024 年也快速擴張，目前 30 位產品成員大多數來自於 Stripe、Google、AWS 三家誕生了出色的 enterprise 產品的公司。

Artifacts

Artifacts 是 Mike 加入 Anthropic 後負責的新產品，外部對 Artifacts 的評價是“又懂模型、又懂產品的人做出的產品”，對比 OpenAI “網際網路風格”的產品會更 AI-native。而 Artifacts 的名字和 Logo，都與 Mike 先前創業專案 ARTIFACT 高度相似。

Mike 的 Artifact 專案

Artifacts 與 Claude 的 Logo

與 Mike 一同加入的還有先前共創 Artifact 的工程師 Justin Bisignano。Justin 2020 年加入 Instagram 團隊任安卓工程師，所寫的程式碼支援了 20 億使用者。2022 年 7 月加入 Artifact 任職至 2024 年 4 月後加入 Anthropic，負責 Claude 的產品工程方向工作。

04.

研究更新

OpenAI

Prover-Verifier Games improve legibility of language model outputs

新的訓練方法：OpenAI 開發了一種稱為"Prover-Verifier Games"的新訓練方法，旨在平衡模型的效能和可讀性。

解決關鍵問題：這種方法解決了之前模型在效能和可讀性之間存在的權衡問題。過去，注重可讀性可能導致幻覺（hallucination），而過度注重正確性則可能降低可讀性。

訓練機制：

• 使用一個強大的模型（prover）和一個較弱的模型（verifier）。

• verifier 經過訓練，預測 prover 生成解決方案的正確性。

• prover 被指示扮演"helpful"或"sneaky"角色，分別生成正確或錯誤的高分解決方案。

• 透過多輪訓練，verifier 不斷學習識別錯誤解決方案，迫使 prover 探索新策略。

意義：

• 透過 multi-agent 分工的方式實現，在減少人類直接干預的情況下，實現對超智慧 AI 系統的對齊。

CriticGPT, Finding GPT-4’s mistakes with GPT-4

• 基於 GPT-4 開發的模型，旨在發現 ChatGPT 程式碼輸出中的錯誤。

• 實驗表明，使用 CriticGPT 輔助的人在程式碼審查中，60%的情況下表現優於沒有輔助的人。

研究意義：

• OpenAI 正在努力將類似 CriticGPT 的模型整合到他們的 RLHF（Reinforcement Learning from Human Feedback）標註流程中。

• 這將為他們的訓練人員提供明確的 AI 輔助。

侷限性和未來發展方向：

• 目前 CriticGPT 主要針對較短的 ChatGPT 答案進行訓練。

• 未來需要開發能夠幫助訓練人員理解長期和複雜任務的方法，以便監督未來的 AI 代理。

• 模型仍存在幻覺問題，有時訓練人員會因這些幻覺而做出錯誤標註。

• 當前研究主要關注可在一處指出的錯誤，未來需要解決分散在多個部分的錯誤。

• CriticGPT 的輔助能力有限：對於極其複雜的任務或響應，即使是有模型輔助的專家也可能無法正確評估。

長期目標：

• 開發能夠處理長文字的能力。

• 最終目標是使用這種技術來監督 AI agent 的訓練。

Anthropic

Scaling Monosemanticity, Extracting Interpretable Features from Claude 3 Sonnet

• 使用機器學習中“dictionary learning”的方式，並藉助訓練大模型的 scaling law techniques，將這個技術沿用到大模型上，從中 isolate 出大模型啟用神經元的 pattern，解讀模型啟用神經元的方式。文章中提到探索了幾種能力：

◎ 針對不同 entities（景點如 golden gate，抽象概念如程式 bugs，gender bias），神經元被啟用，並且是 multilingual 和 multim – modal 的。

◎ 可以根據啟用神經元方式的不同，計算特徵之間的“distance”，做近鄰計算。

◎ 可以人為改變特徵被啟用的方式，會直接影響模型生成的答案。也能從中發現一些模型可能被潛在啟用的不好的方向，為之後監控這些潛在威脅提供了工具。

• Anthropic 真正做到了 interpretability 的 scale-up：使用 sparse autoencoder 來做到解讀神經網路中的 feature。之前主要使用數學統計模型無法 scale-up，sparse autoencoder 的稀疏性可以很好的捕捉到一些關鍵點，其他不關鍵資訊在 vector 中都不會啟用。

• 對比 OpenAI 的可解釋性工作：

◎OpenAI 的研究較為淺層，主要捕捉 LLM 的行為模式；Anthropic 的研究更深入，挖掘到了不同單詞和實體在神經元啟用上的規律。

◎Anthropic 的研究透過干預可以直接改變模型的輸出結果，而 OpenAI 的研究主要停留在觀察層面。

這幾篇研究可以看出一些對 RL 方向研究的端倪，也可以發現 Anthropic 團隊對可解釋性的追求是更強的，很可能他們未來會給予可解釋性設計更多的模型可控性feature。我們也期待這些研究能帶來下一波 AI-native use case 的解鎖。