LLM進化分岔口:多模態、成本、程式碼推理

01.
模型更新
OpenAI
主線 1:成本下降
LLM 大模型的成本下降趨勢是非常明確的,在 GPT-3.5 和 GPT-4 的模型定價上都體現得尤其明顯。4o 的模型設計初衷除了大家熟知的多模態之外,就是為了推理成本最佳化而設計的。在這基礎上,甚至 4o-mini 可以再下降 33 倍的成本,這個成本下降幅度是非常驚人的。我們相信未來隨著時間推進和工程 infra 的最佳化,4o 模型可能還有 10 倍的成本下降空間,很多當前模型能力下的 use case 都能迎來 ROI 打正的時刻。
同時值得一提的是,OpenAI 推出了新的 batch API 方案:API 不即時返回結果,而是在未來 24 小時內返回結果,這能使 API 價格打對摺。

這適用於對時間不敏感的大批次任務,可以大量節省成本。

這個方法能降成本是因為目前的即時推理中 long context 和短的會放在一個 batch 中處理浪費很多資源,而降低即時效能夠將相 context length 放在一起計算來降低成本。

OpenAI 還沒有推出 Anthropic 使用的 prompt caching,不確定是否已經用類似方式進行降本了:Claude 在 long context 下可以透過把部分常用 prompt 存在快取中來節省 90% 成本,降低 85% latency。這個方法在 RL 技術路線下會非常有用,因為模型 self-play 探索時會有大量重複 context。
另外 4o 對多語言資料的 tokenizer 效率提升,也能帶來更低的成本。多語種在壓縮過程中的 token 消耗量都顯著降低,例如一句話原本需要 34 箇中文 token,現在 24 個就能夠實現。
主線 2:多模態互動能力提升
模型能力角度上,OpenAI 在今年上半年最大的進展在多模態能力上:
理解側
1)GPT-4o 模型的釋出實現了端到端的多模態能力,在語音對話和多模態能力上有明顯提升的同時,降低了成本且沒有降低推理能力。其語音功能至今仍未大面積推出, advanced mode 還在緩慢 roll out 中。
speech-to-text: 顯著領先於 Whisper。端到端模型在語音上顯示出了一定的 emergent capability,比如何時能打斷並介入與使用者的對話。等大規模鋪開後在語音陪伴等場景的 PMF 可能迎來新一波的機會。
視覺理解: 顯著高於其他模型,但沒有出現多模態 unify 帶來的智慧湧現。影片資料的信噪比太低,在當前架構下和文字資料放在一起,並沒有帶來顯著的多模態智慧,這是多模態理解領域上需要解決的問題。
生成側:
a. 在 vision 方面釋出了 Sora 影片生成模型,Sora 釋出後影片生成領域的 SOTA 暫時收斂到了 DiT 架構。由於 Sora 目前還在 demo 階段,我們預期下半年會發布給公眾使用。
b. 4o 模型作為一個端到端生成模型,也在探索用端到端 autoregressive 的方式生成圖片。
Anthropic
主線 1:模型推理能力增強
2024 年上半年,Anthropic 在 Claude 模型系列上取得了顯著進展。3 月 4 日,公司推出了 Claude 3 系列,包括 Opus、Sonnet 和 Haiku 三個版本,每個版本都針對不同的應用場景和需求進行了最佳化。President Daniela Amodei 在最近的一次公開分享中提到,他們設計時的想法是 :
• Opus 為複雜推理、研究場景設計。Opus 是第一個超越 GPT-4 的模型,但定價偏高性價比差。
 Sonnet 是為企業常用需求如 RAG 設計的,可能是因此第一個做了 3.5 版本。
• Haiku 是為即時性強的客服等對話場景設計(由此推測,他們也可能在 voice 領域推出端到端模型)。
6 月 21 日 Anthropic 又釋出了 Claude 3.5 Sonnet,進一步提升了模型的效能和能力。Anthropic 還預告將在 2024 年晚些時候推出 Claude 3.5 系列,包括 Haiku 和 Opus 版本。

Opus 版本是最值得期待的,看其是否能夠大幅超越 GPT-4 的推理水平。

在效能方面,Claude 模型取得了很大進步。Claude 3.5 Sonnet 在很多領域的表現超越了 GPT-4,特別是在研究生級推理和程式設計能力方面。直到 9 月,其他所有模型的更新都無法在 Coding 和複雜推理能力上超越 Sonnet 3.5。其 coding 能力提升也帶來了一系列 AI coding 產品的實現:Cursor 作為 IDE 的開發體驗一下子流暢了很多,甚至 Websim 這樣在上半年看起來是 toy project 的產品在現在也有了不錯的效果。背後原因都是 Claude Sonnet 3.5 能生成上百行的可靠程式碼,而之前的 SOTA 模型只能生成 20 行左右。
模型的其他維度能力也在各個 use case 得到了全面擴充套件。Claude 3.5 Sonnet 的推理速度是 Claude 3 Opus 的兩倍,可以處理 200K token 的上下文視窗,相當於約 500 頁文件的內容。多模態能力也得到顯著增強,特別是在視覺理解方面,包括圖表解讀和從不完美影像中準確轉錄文字的能力。
主線 2:模型擬人能力增強
Anthropic 首次在 Claude 3 系列中引入了"性格訓練"(Character Training),這項能力是在 post training 加入的。這項創新旨在賦予模型良好的性格特徵,透過生成資料和自我排序來內化這些特徵。這不僅提高了模型的吸引力和互動性,使用者反饋也表明與模型的對話變得更加有趣。

訓練方式:首先要求 Claude 生成各種與特定性格特徵相關的人類訊息——例如,關於價值觀的問題或關於 Claude 自身的問題。然後向 Claude 展示這些性格特徵,並讓它針對每條訊息產生符合其性格的不同回應。之後,Claude 會根據每個回應與其性格的契合程度對這些回答進行排序。透過對這些回答的排序訓練一個偏好模型,我們可以教導 Claude 內化其性格特徵,而無需人類的互動或反饋。
儘管這個訓練流程僅使用 Claude 自身生成的合成數據,但構建和調整這些特徵仍然是一個相對手動的過程,需要人類研究人員密切檢查每個特徵如何改變模型的行為。
這個方向結合他們的 interpretability 的研究,可以看到他們在模型的可控性上下了很多功夫。
使用者評價
我們也收集了一系列使用者對 4o 模型和 Claude 3.5 的使用者使用評價:
GPT-4o 優勢:
• 速度快,響應迅速:在 iOS 應用中使用 GPT-4o 時,幾乎感覺不到延遲,能夠實現類似即時對話的體驗。
 多模態能力強:GPT-4o 有更完備的語音對話和圖片識別能力,且語音識別準確度、對話智慧度很高,還有創作圖片的能力。
 在一般對話和簡單任務中表現良好。
• ROI 高:使用者普遍表示,對於需要頻繁使用 AI 但預算有限的情況,GPT-4o 提供了很好的價效比。
GPT-4o 劣勢:
 在複雜推理、數學和程式設計任務中表現不佳 :例如有使用者提到在使用 GPT-4o 編寫 C++的型別定義時,4o 不能特別好的理解複雜需求。
 輸出冗長,常忽視簡潔指令:即使使用者明確要求簡短回答,GPT-4o 仍傾向於提供詳細解釋,有時甚至重寫整個段落/程式碼塊而非只給出必要修改。
 在專業問題下不如早期的 GPT-4 版本:一些使用者提到在處理特定領域的專業問題時,GPT-4o 的表現不如早期的 GPT-4 模型,可能和其模型進行量化降成本有關。
Claude 3.5 Sonnet 優勢:
 在複雜推理、長文字處理和程式設計方面表現優異:多位使用者提到 Claude 在處理 C#和 C++等程式語言的複雜任務時表現出色,能夠準確理解和執行復雜指令。
 更好地遵循複雜指令:使用者發現 Claude 能夠準確執行多步驟任務,如在學術研究中按特定格式生成報告並同時進行資料分析。
 創意寫作和人性化交流能力強 使用者表示 Claude 能夠更好地捕捉和模仿特定的寫作風格,產生的內容往往更貼近人類作者的水平。
 在 C#、C++等特定程式語言中表現出色:一位使用者提到,在使用 Claude 重寫 C#方法時,生成的程式碼通常可以直接使用。
Claude 3.5 Sonnet 劣勢:
 模型外部能力侷限:Claude 無法生成影像,沒有即時網路搜尋功能,也沒有語音互動的能力。
 某些使用者反映最近效能有所下降:有使用者提到 Claude 在某些特定領域的回答質量不如以前準確,可能是由於成本最佳化導致的。
02.
產品進展
OpenAI
使用者資料上漲:多模態帶動互動創新,4o 讓產品再度擴圈。
1)ChatGPT 用量隨 4o 的釋出大幅增長:
a. OpenAI 的訪問量自 2023 年 5 月達到峰值後,因為暑假開始下降,後續變進入波動,直到今年 5 月 GPT-4o  釋出後再次飆升,在 2024 年 6 月的訪問量達到 2.9 億次,比 2024 年 5 月增長了 15.6%,而 2024 年 5 月則比歷史最高值增長了 40%(2023 年 5 月),GPT-4o 對使用者量的拉動是極為明顯的。
b. 去年訪問量在夏季下降,今年沒有出現這種趨勢,主要得益於 GPT-4o 推出,OpenAI 能夠持續保留和吸引新使用者。(一定程度上也得益於 GPT-4o 多模態能力使得 ChatGPT 進一步向生活場景拓展,而非僅僅是一個效率工作產品)。但節日趨勢在其他產品上還是明視訊記憶體在的:C.AI 流量上升,Perplexity 流量下降。
c. 截止到今年 6 月的 Web MAU 約為 2.3 億,移動端 DAU 約為 320 萬。
2)放在搜尋引擎語境下,ChatGPT 的用量持續超越 Bing 和 Perplexity,與 Google 仍有量級上的差距,但開始逐漸蠶食傳統搜尋引擎的心智。
儘管 Google 整體搜尋份額還比較穩定在 91%+,但其桌面端被拿份額的趨勢比較明顯,美國和全球資料都是這個趨勢。ISI 釋出了一份報告介紹他們對 1000 多名消費者的調查結果。他們注意到,從6月到8月,Google 作為首選搜尋引擎的份額從80%下降到74%,而ChatGPT的份額從1%增加到8%。
 6 月份 ChatGPT / Perplexity 流量略降,Claude 有個跳漲,和 Sonnet 3.5 模型能力顯著提升有關。
3)對 AI 產品流量和商業模式的思考
a. 在 AI 時代流量最大的產品不一定產生最大的價值,完成任務的難度更重要。這個觀點的前提是廣告模式不是 AI 時代最後的 business model。
b. 大模型公司的商業模式不比移動網際網路簡單,更像傳統零售的庫存模式:資源都分配給訓練使用者用不上產品,那就是庫存積壓;資源給推理太多模型能力跟不上,是庫存短缺。
c. 目前看到的大模型公司商業模式,要明顯比網際網路廣告和軟體訂閱的商業模式差很多。後兩者最重要的特徵是 ① 提供服務的邊際成本幾乎是零,或是持續顯著下降。② 黏性/使用者留存極強。意味著企業只要投入建立平臺/軟體產品及獲客,後續收入的利潤率極高,且持續性很強。大模型無論是 API 還是訂閱制,定價端很難提價,而隨著模型能力增強,使用者query/任務會更加複雜,服務使用者需求的成本還可能是上升的。
從生產力助手到 Agent 探索:
feature 更新和收購併行
根據 chatgpt 今年 1 月-7 月的產品升級,可以發現如下幾個趨勢,他們是明顯在從生產力助手往 agent 方向在探索:
• 新的互動模式已經有了雛形,在日常生活中的應用場景大大擴寬:透過對多模態能力的不斷強化,目前能夠對圖片進行解讀、翻譯和推薦、即時語音交流、螢幕讀取功能。
 工作效率產品逐漸完善:針對資料分析需求,ChatGPT 新增了與雲端儲存服務如 Google Drive 和 Microsoft OneDrive 的直接整合,以及即時表格互動和可定製的圖表功能。
 在逐步搭建生態系統,儘可能多的平臺整合:與蘋果等大平臺的整合,推出桌面版,提升了在不同作業系統和應用中的可用性和使用者接觸點。
 memory 功能加入:目前還只是把文字內容總結成簡單的一個標籤放進 system prompt。下一步結合 Rockset 的收購可能為外部網際網路和每個使用者的聊天記錄建立 index,做到更強的個性化。
同時也值得分析一下他們是收購三家公司的價值,和他們實現 agent 的願景高度相關:
1)Rockset(2024 年 6 月收購):
Rockset 是一家專注於即時分析資料庫的公司,以其先進的資料索引和查詢能力而聞名,成立於 2016 年。OpenAI 收購 Rockset 的戰略動機主要是為了增強其檢索基礎設施。這將使 OpenAI 能夠提供更強大和高效的資料處理能力,特別是在即時搜尋和 RAG 上。此次收購預計將顯著提升 OpenAI 在資料 retrieval、分析和檢索方面的能力,使其 AI 解決方案更加強大,能更好地響應即時資料需求。這也增強了 OpenAI 在與其他 AI 模型提供商和全棧生成 AI 平臺競爭時的技術實力。
此外,未來的 agent 中最關鍵的工程設計在於 memory 的設計,前面這套在 RAG 和 search 的方案也可以用在未來 agent 的記憶機制上。
2)Multi(原 Remotion,2024 年 6 月收購):
Multi 是一家開發即時協作工具的初創公司,允許使用者共享螢幕並在編碼等任務上協同工作。OpenAI 收購 Multi 的戰略目的是利用其技術來增強遠端協作能力和 AI 驅動的內容摘要功能。這與 OpenAI 透過 AI 改善團隊協作和生產力的更廣泛目標相一致。這次收購的一個重要意義可能是實現未來人與 AI agent 在螢幕前的共同協作。
3)Global Illumination(2023 年 8 月收購):
Global Illumination 是一家專注於創意工具、基礎設施和數字體驗的公司,由來自 Instagram、Facebook、YouTube、Google、Pixar 和 Riot Games 的前關鍵設計師創立。收購 Global Illumination 的目的是增強 OpenAI 的核心產品,包括 ChatGPT。此外我們也猜想,他們之前的產品也可能適合成為 virtual agent 的進行強化學習的互動環境。
Anthropic
互動:Artifact 時軟體生成 task engine 的早期形態
Artifacts 是我們使用 Claude 產品時會出現的動態 workspace,能把我們需要完成的任務轉換成程式碼,並用程式碼的方式來實現基礎的任務。我們可以認為它是 OpenAI Code Interpreter 基礎上對 UI/UX 的創新。
Claude 團隊給 Artifact 的未來定位是企業團隊將能夠安全地將他們的知識、文件和正在進行的工作集中在一個 Artifact 這個 workspace 中進行互動,而 Claude 則根據需求作為 copilot 對這個workspace 進行互動。所以可以認為 Artifact 是 Anthropic 團隊對下一代 AI-native 協作平臺和工作流的想象。
在實際使用場景中,現在還是開發者使用 artifact 製作初步程式碼比較多:
• 示例一:一行 prompt 製作日曆 app,artifact 直接呈現出 code 和 UI,不需要自己動手寫基礎程式碼
• 示例二:上傳一本書後,邊讀邊透過 artifact 總結每一頁的內容
Agent 探索:
還在 tool use 階段,未來 roadmap 可期
Tool use 能力的提升標誌著 Anthropic 在 agent 技術上比較穩健的一次進步。2024 年 5 月,Anthropic 為 Claude 3 系列模型增加了與外部工具和 API 互動的能力,這一進展大大拓展了模型的實用性。這項功能使得 Claude 能夠執行更為複雜和實際的任務,不再侷限於純粹的文字生成。使用者只需用自然語言描述他們的需求,Claude 就能智慧地選擇合適的工具並執行相應的操作。這種自然語言介面大大降低了使用門檻,使得即使非技術背景的使用者也能輕鬆地利用 AI 的強大能力。
Anthropic 展示的 agent 應用場景涵蓋了多個領域,充分體現了其技術的廣泛適用性和潛力。首先,在資料處理方面,Claude 能夠從非結構化文字中提取結構化資料,這對於自動化資料錄入和分析具有重要意義。其次,Claude 可以將自然語言請求轉換為結構化 API 呼叫,這大大簡化了系統間的互動過程。在資訊檢索方面,Claude 能夠透過搜尋資料庫或使用 Web API 來回答問題,提供即時且準確的資訊。對於日常任務自動化,Claude 可以透過軟體 API 執行簡單任務,提高工作效率。
其中最特別的一個例子是 Claude 能夠協調多個快速子 agent 來完成細粒度任務,這是複雜任務的分解和並行處理的未來方向。這種階梯式的模型分工方法可能涉及多個專門化的 agent 協同工作,每個 agent 負責特定的任務或領域。這種架構不僅能提高整體系統的效率和靈活性,還能更好地處理複雜的多步驟任務。透過讓不同的子代理各司其職,系統可以更有效地利用資源,並且能夠根據任務的需求動態調整工作流程。
Anthropic 在官網公佈了他們的未來方向,其中他們對 agent 的長期規劃是宏大而全面的:
 知識融合(結合多個領域的交叉知識)
 超越現有訓練資料、本科生水平的知識推理
 自主執行端到端科研專案
 提出新假設和設計的能力
 隱性知識(只能透過在實驗室中的學徒制獲得的那種知識)
 需要做出連續決策才能實現的 long horizon task
 自動化資料分析
這些能力的實現都會和我們期待的 agent 有著方向上的匯合。仔細看會發現 Anthropic 對 AI 的期待很多都落在軟體和科學發現上。
03.
人才更新
OpenAI
OpenAI 依舊保持快速增長狀態,已經從純粹的 AI Lab 演進至更加工程、產品、收入導向的公司。公司目前有 400 名以上的 Researcher,超過 1200 位非研究類員工,包含工程、銷售、產品、後臺支援等,對比 2023 的 770 人增加近乎一倍。
從招聘側重點看,近三個月,有 460 人新加入 OpenAI,其中 Member of Technical Staff 依舊佔主要,共有 130 人,偏工程類員工佔整體 MTS new hire 的 80%。Go-to-market 是招聘數量第二多的團隊,新招聘 46 人。產品新招聘 24 人,其中包括新加入的 CPO Kevin Weil。
離開的關鍵人才
Ilya 於 2024 年 5 月與 SuperAlignment Co-lead Jan Leike 接連離職。Ilya 在離職後創辦了 SSI,致力於構建安全超級智慧 。而 GPT-4 的核心人物 Jakub 接任了 Chief Scientist 的角色。Ilya 對於 OpenAI 是指明方向的靈魂人物。但也有觀點是 Ilya 的遠見對於 OpenAI 初期帶來很大幫助,但在 OpenAI 已經明確遠期方向後,Illya離開的影響並不大。
同樣為 OpenAI 早期靈魂人物的 Greg 會休假至年底後再回歸公司。
Andrej Karpathy 在加入 OpenAI 一年後於 2024 年 2 月離開 OpenAI,離職後創辦 Eureka Labs 的 AI 課程教育公司,自己擔任講師幫助學生更好理解 AI 與 LLM 訓練。
John Schulman 離開 OpenAI 加入 Anthropic。晉升為 alignment lead 前,John 曾是 reinforcement learning team lead,是 RLHF 的開創者,確定了 OpenAI RL 的路線。John 是 OpenAI 創始團隊之一,師從 Pieter Abbeel。離開 OpenAI 後,John 加入 Anthropic。
Jan Leike 跟隨 Ilya 一同離職後加入 Anthropic,繼續負責 Alignment 方向工作。John Schulman 和 Jan Leike 的加入意味著 OpenAI 的研究路線圖對於 Anthropic 團隊幾乎是一張明牌。
Peter Deng 作為 Product VP 離開 OpenAI,Kevin Weil 作為 OpenAI 新加入的 CPO 繼續領導 OpenAI 的產品工作。Kevin 在加入 OpenAI 前為 Meta Diem、Instagram 的 VP of product,在 Instagram 任職期間幫助 Instagram 在與 Snap 競爭階段獲得優勢。從 Peter 的離職也能感受到 OpenAI 對新產品開發落地的激程序度。
Aleksander Madry 於一年前從 MIT 教職暫時離開,加入 OpenAI 創辦 Preparedness 團隊,目標是透過理論研究幫助 OpenAI 提前控制可能發生的重大風險。Aleksander 於 2024 年 7 月離開,接任者為 Joaquin Quiñonero Candela,加入 OpenAI 半年時間,先前在 Meta 帶領 Responsible AI 團隊近九年。
Jeffrey Wu 是 GPT- 2 的核心貢獻者,參與了 GPT 的可解釋性、可拓展監督方向的工作。也作為核心參與了 InstructGPT 這一 RLHF 的重要專案。Jeffrey 於 OpenAI 任職 6 年,於 2024 年 7 月離職,加入 Anthropic。
Yuri Burda 是 OpenAI reasoning team 的創始成員之一,負責 OpenAI 的數學方向研究,並於早期專案:Dota、Codex 中有核心貢獻。離開 OpenAI 後 Yuri 加入 Anthropic。
值得關注的新團隊和崗位
我們也觀察到 OpenAI 出現了一些新的小組:
1)Solution Architect
在 Success Team 下新增了 Solutions Architect 團隊,隸屬於 Success Team 下。目前整體團隊大約 20 人,均為一年內加入 OpenAI,對 Enterprise 提供整體部署解決方案。Solutions Architect 團隊源於 OpenAI 的策略調整:OpenAI 為了防禦 Azure 捆綁銷售策略下的折扣定價,承諾可以為大客戶根據需求定製軟體。
2)叢集硬體
OpenAI 從 0 到 1 搭建了新的硬體團隊。從團隊配置看,更像是計劃搭建資料中心叢集所需要的人才。目前硬體團隊還是一個不到 10 人的小團隊,由 Richard Ho 帶領。Richard 先前於 Google 任職近十年,是 Google TPU 的 Senior Engineer Director。先前有報告提及 OpenAI 至少要等到 2025 年才可以自己開發晶片,並且目前在與博通商討合作設計的形式,Richard 做為 Google TPU 的負責人,在 OpenAI 的定位會是 lead 起 co-design 任務的角色。
Richard 團隊內,Reza Khiabani 先前於 Tesla Dojo、Google TPU 負責資料中心液冷方向工作。Xin Li 先前於 Google 負責資料中心電源工作。
3)投資了 Opal 團隊
此外,消費硬體層面,OpenAI 於 2024 年 8 月投資了 Opal,有可能在之後一起合作 AI 硬體。Opal 的產品為高畫質攝像頭,並且十分重視設計。
Opal 於 2020 年成立,是一個 15 人的小團隊。創始團隊為 Uber 背景。CEO Veeraj Chugh 在創辦 Opal 前於 Uber 任職 3 年,先後負責 Uber Freight、Uber New Mobility 的產品運營工作。Co-founder Stefan Sohlstrom 是設計背景出身,2014 年作為第 5 號員工加入 Plaid,擔任 Plaid 的 Head of Design。2017 年開始於 Uber Freight 從設計職責轉換成產品經理,成為 Uber Freight Shipper Platform 的產品 Head。
4)Model Behavior scientist
對於 Model Behavior 研究人員的招募可能揭示 OpenAI 希望增強模型的可控性並且希望能夠發展新的互動方式,同時提升模型的創造能力。
5)mid-training scientist
Mid-training 已經被正式定義為一個新的訓練階段。其主要環節可能包括一些比較接近模型基本能力的 alignment,與 human feedback 離得相對遠、更靠前。
Anthropic
2024 年以來,公司人數從 300 人增加至 500 人左右。2024 起,公司招聘共 180 名新的 Member of Technical Staf,使 Anthropic 整體 Member of Technical 數量達到約 260 人,其中 90 名 Researcher,210 名 Engineer。Anthropic 的第二大招聘重心為產品團隊,2024 年前,Anthropic 的產品團隊共 10 人,而今年已經是接近 30 名,包含產品經理、Product Partnerships / Marketing 相關員工的團隊。
Anthropic 和 OpenAI 相比更看重 Alignment、可解釋性、AI 社會影響三個方向研究,也是 Anthropic 官網上 Research 部分的三個主要構成部分。
可解釋性團隊由 Shan Carter 帶領,現已經是 20 餘人的團隊。Shan 先前於 OpenAI、Google Research 工作,主要負責可解釋性方向研究,曾與 Co-founder Chris Olah 於 Google 時參與 Google 重要可解釋性研究:The building blocks of interpretability
可解釋性團隊在 Claude3 釋出後發了一篇新論文:Scaling Monosemanticity:  Extracting Interpretable Features from Claude 3 Sonnet,突破了模型的透明度並且建立了新解決黑盒問題的機制。
除了前面提到的幾位從 OpenAI 離職的幾位早期重要 researchers 之外,還有這樣幾位重要 OpenAI / DeepMind 出身的重要科學家加入:
 Pavel Izmailov 自 2023 年 6 月加入 OpenAI,工作一年後離開加入 Anthropic。於 OpenAI 期間 Pavel 是 superalignment 的成員,加入 Anthropic 也有大機率與 Jan 繼續合作 alignment 方向工作。
 Steven Bills 於 2022 年 3 月加入 OpenAI,是 superalignment 團隊的成員,參與了 OpenAI 釋出 GPT 後的可解釋性研究:Language models can explain neurons in language models。
 David Choi:David 於 2017 年至 2023 年 12 月於 Deepmind 擔任 Staff Research Engineer。先前是 Deepmind 的 AlphaCode Co-lead,是 Deepmind 在 2022 年時的核心程式碼生成模型。David 在 agent 方向的研究可以追溯至 2019 年與 xAI 的 Igor 共為一作的 AlphaStar 論文。
 Jascha Sohl-Dickstein:Diffusion model 核心一作,曾是 Google 的首席科學家。於 2024 年 1 月加入 Anthropic,此外,Jascha 曾釋出了 Score-based SDE,構建了生成 Diffusion 模型理論的框架。
Anthropic 產品團隊最大的更新是新 CPO 的加入。Mike Krieger 原先是 Instagram 的 Co-founder & CTO,經歷了在 Instagram 被收購後從只有 6 位全棧工程師成長到包含 300 位工程師的 full function 工程團隊的過程。Mike 於 2021 年時與 Instagram CEO Kevin 開始做 AI 新聞推送創業 ARTIFACT,於 2024 年 5 月停止專案,加入 Anthropic。Mike 本身的經歷和 Anthropic 經歷了只有 80+人的小團隊,但創造出了 SOTA 模型,之後迅速擴張的過程非常相符。加入 Anthropic 後 Mike 帶領 Claude APP,以及企業服務的產品工程、管理、設計工作。
Anthropic 的產品團隊自 2024 年也快速擴張,目前 30 位產品成員大多數來自於 Stripe、Google、AWS 三家誕生了出色的 enterprise 產品的公司。
Artifacts
Artifacts 是 Mike 加入 Anthropic 後負責的新產品,外部對 Artifacts 的評價是“又懂模型、又懂產品的人做出的產品”,對比 OpenAI “網際網路風格”的產品會更 AI-native。而 Artifacts 的名字和 Logo,都與 Mike 先前創業專案 ARTIFACT 高度相似。
Mike 的 Artifact 專案
Artifacts 與 Claude 的 Logo
與 Mike 一同加入的還有先前共創 Artifact 的工程師 Justin Bisignano。Justin 2020 年加入 Instagram 團隊任安卓工程師,所寫的程式碼支援了 20 億使用者。2022 年 7 月加入 Artifact 任職至 2024 年 4 月後加入 Anthropic,負責 Claude 的產品工程方向工作。
04.
研究更新
OpenAI
Prover-Verifier Games improve legibility of language model outputs
新的訓練方法:OpenAI 開發了一種稱為"Prover-Verifier Games"的新訓練方法,旨在平衡模型的效能和可讀性。
解決關鍵問題:這種方法解決了之前模型在效能和可讀性之間存在的權衡問題。過去,注重可讀性可能導致幻覺(hallucination),而過度注重正確性則可能降低可讀性。
訓練機制:
 使用一個強大的模型(prover)和一個較弱的模型(verifier)。
 verifier 經過訓練,預測 prover 生成解決方案的正確性。
 prover 被指示扮演"helpful"或"sneaky"角色,分別生成正確或錯誤的高分解決方案。
 透過多輪訓練,verifier 不斷學習識別錯誤解決方案,迫使 prover 探索新策略。
意義:
 透過 multi-agent 分工的方式實現,在減少人類直接干預的情況下,實現對超智慧 AI 系統的對齊。
CriticGPT, Finding GPT-4’s mistakes with GPT-4
 基於 GPT-4 開發的模型,旨在發現 ChatGPT 程式碼輸出中的錯誤。
 實驗表明,使用 CriticGPT 輔助的人在程式碼審查中,60%的情況下表現優於沒有輔助的人。
研究意義:
 OpenAI 正在努力將類似 CriticGPT 的模型整合到他們的 RLHF(Reinforcement Learning from Human Feedback)標註流程中。
 這將為他們的訓練人員提供明確的 AI 輔助。
侷限性和未來發展方向:
 目前 CriticGPT 主要針對較短的 ChatGPT 答案進行訓練。
 未來需要開發能夠幫助訓練人員理解長期和複雜任務的方法,以便監督未來的 AI 代理。
 模型仍存在幻覺問題,有時訓練人員會因這些幻覺而做出錯誤標註。
 當前研究主要關注可在一處指出的錯誤,未來需要解決分散在多個部分的錯誤。
 CriticGPT 的輔助能力有限:對於極其複雜的任務或響應,即使是有模型輔助的專家也可能無法正確評估。
長期目標:
 開發能夠處理長文字的能力。
 最終目標是使用這種技術來監督 AI agent 的訓練。
Anthropic
Scaling Monosemanticity, Extracting Interpretable Features from Claude 3 Sonnet
• 使用機器學習中“dictionary learning”的方式,並藉助訓練大模型的 scaling law techniques,將這個技術沿用到大模型上,從中 isolate 出大模型啟用神經元的 pattern,解讀模型啟用神經元的方式。文章中提到探索了幾種能力:
針對不同 entities(景點如 golden gate,抽象概念如程式 bugs,gender bias),神經元被啟用,並且是 multilingual 和 multim – modal 的。
 ◎ 可以根據啟用神經元方式的不同,計算特徵之間的“distance”,做近鄰計算。
可以人為改變特徵被啟用的方式,會直接影響模型生成的答案。也能從中發現一些模型可能被潛在啟用的不好的方向,為之後監控這些潛在威脅        提供了工具。
 Anthropic 真正做到了 interpretability 的 scale-up:使用 sparse autoencoder 來做到解讀神經網路中的 feature。之前主要使用數學統計模型無法 scale-up,sparse autoencoder 的稀疏性可以很好的捕捉到一些關鍵點,其他不關鍵資訊在 vector 中都不會啟用。
 對比 OpenAI 的可解釋性工作:
OpenAI 的研究較為淺層,主要捕捉 LLM 的行為模式;Anthropic 的研究更深入,挖掘到了不同單詞和實體在神經元啟用上的規律。
Anthropic 的研究透過干預可以直接改變模型的輸出結果,而 OpenAI 的研究主要停留在觀察層面。
這幾篇研究可以看出一些對 RL 方向研究的端倪,也可以發現 Anthropic 團隊對可解釋性的追求是更強的,很可能他們未來會給予可解釋性設計更多的模型可控性feature。我們也期待這些研究能帶來下一波 AI-native use case 的解鎖。
排版:Doro
延伸閱讀

相關文章