深度|AnthropicCEO萬字長文:DeepSeek不是我們的對手,鎖死晶片出口才能保證美國領導下的單極世界

圖片來源:Anthropic
週三,Anthropic 執行長達里奧·阿莫迪 (Dario Amodei) 釋出了一篇長文,對DeepSeek 的成功是否威脅到了美國,以及意味著美國對人工智慧晶片的出口管制不起作用的爭論進行了分析。
以下是原文翻譯,文中的“我”指代達里奧·阿莫迪。
圖片來源:Dario Amodei
幾周前,我主張美國加強對華晶片出口管制。自那以後,中國人工智慧公司 DeepSeek 至少在某些方面以更低的成本接近美國前沿人工智慧模型的效能。
在這裡,我不會關注 DeepSeek 是否對 Anthropic 等美國人工智慧公司構成威脅(儘管我確實認為,許多關於它們對美國人工智慧領導地位構成威脅的說法都被大大誇大了)1。相反,我將關注 DeepSeek 的釋出是否會破壞晶片出口管制政策的理由。我認為不會。事實上, 我認為它們使出口管制政策比一週前更加重要2
出口管制有一個至關重要的目的:讓美國走在人工智慧發展的前沿。需要明確的是,這不是避開美國和中國之間競爭的方法。歸根結底,如果我們想獲勝,美國的人工智慧公司必須擁有比中國更好的模式。我們不應該在沒有必要的情況下將技術優勢拱手讓給中國。

人工智慧發展的三大動力

在我提出政策論點之前,我將描述理解AI系統的三個至關重要的基本動態:
  1. 擴充套件定律(Scaling Laws)。人工智慧的一個特性(我和我的聯合創始人 在 OpenAI 工作時是第一批記錄下來的)是,在其他條件相同的情況下, 擴大人工智慧系統的訓練範圍可以全面改善一系列認知任務的結果。例如,一個價值 100 萬美元的模型可能解決 20% 的重要編碼任務,價值 1000 萬美元的模型可能解決 40%,價值 1 億美元的模型可能解決 60%,等等。這些差異在實踐中往往會產生巨大的影響——另一個 10 倍可能對應於本科生和博士生技能水平之間的差異——因此公司正在大力投資訓練這些模型。
  2. 改變曲線。這個領域不斷湧現出大大小小的想法,使事情變得更加有效或高效:這可能是模型架構的改進(對當今所有模型使用的 Transformer 基本架構進行調整),也可能只是一種在底層硬體上更有效地執行模型的方法。新一代硬體也有同樣的效果。這通常改變曲線:如果創新是 2 倍的“計算乘數”(CM),那麼它可以讓您以 500 萬美元而不是 1000 萬美元的價格獲得 40% 的編碼任務;或者以 5000 萬美元而不是 1 億美元的價格獲得 60% 的編碼任務,等等。
    每個前沿 AI 公司都會定期發現許多這樣的 CM:通常是小型的(~1.2 倍),有時是中型的(~2 倍),偶爾也會發現非常大的(~10 倍)。由於擁有更智慧系統的價值如此之高,這種曲線的轉變通常會導致公司 在訓練模型上花費更多,而不是更少:成本效率的提高最終完全用於訓練更智慧的模型,僅受公司財務資源的限制。人們自然會被“一開始很貴,然後會變得更便宜”的想法所吸引——好像人工智慧是一個質量恆定的單一事物,當它變得更便宜時,我們會使用更少的晶片來訓練它。
    但重要的是縮放曲線:當它移動時,我們只是更快地遍歷它,因為曲線末端的價值是如此之高。2020 年,我的團隊發表了一篇論文,指出由於演算法進步導致的曲線變化約為每年 1.68 倍。自那以後,這一速度可能已經大大加快;它也沒有考慮到效率和硬體。
    我猜今天的數字可能是每年約 4 倍。另一個估計是在這裡。訓練曲線的變化也會改變推理曲線,因此多年來,在模型質量保持不變的情況下,價格大幅下降。例如,比原始 GPT-4 晚 15 個月釋出的 Claude 3.5 Sonnet 在幾乎所有基準測試中都勝過 GPT-4,同時 API 價格降低了約 10 倍。
  3. 轉變正規化。每隔一段時間,正在擴充套件的底層內容就會發生一些變化,或者在訓練過程中會新增一種新的擴充套件型別。從 2020 年到 2023 年,擴充套件的主要內容是預訓練模型:在越來越多的網際網路文字上訓練模型,並在其基礎上進行少量其他訓練。2024 年,使用強化學習(RL) 訓練模型以生成思維鏈的想法已成為擴充套件的新焦點。
    Anthropic、DeepSeek 和許多其他公司(也許最值得注意的是 9 月份釋出了 o1 預覽模型的 OpenAI)發現,這種訓練極大地提高了某些選定的、客觀可衡量的任務(如數學、編碼競賽)以及類似於這些任務的推理的效能。
    這種新正規化涉及從普通型別的預訓練模型開始,然後在第二階段使用 RL 新增推理技能。重要的是,由於這種型別的強化學習是新的,我們仍處於擴充套件曲線的早期階段:對於所有參與者來說,在第二個強化學習階段花費的金額都很小。花費 100 萬美元而不是 10 萬美元就足以獲得巨大的收益。
    各家公司現在正在迅速將第二階段的規模擴大到數億甚至數十億美元,但重要的是要明白,我們正處於一個獨特的“交叉點”,其中有一個強大的新正規化處於擴充套件曲線的早期階段,因此可以快速獲得巨大收益。

DeepSeek 的模型

上述三個動態可以幫助我們瞭解 DeepSeek 最近的釋出。大約一個月前,DeepSeek 釋出了一個名為“ DeepSeek-V3 ”的模型,這是一個純粹的預訓練模型 即上文第 3 點中描述的第一階段。然後上週,他們釋出了“ R1 ”,其中增加了第二階段。從外部無法確定這些模型的所有內容,但以下是我對這兩個版本的最佳理解。
DeepSeek-V3實際上是真正的創新, 一個月前就應該引起人們的注意(我們確實注意到了)。作為預訓練模型,它似乎在一些重要任務上的表現接近4個最先進的美國模型,同時訓練成本大大降低(儘管我們發現 Claude 3.5 Sonnet 在其他一些關鍵任務上的表現尤其好)。DeepSeek 團隊透過一些真正的、令人印象深刻的創新實現了這一點,這些創新主要集中在工程效率上。在管理稱為“鍵值快取”的方面以及使一種稱為“專家混合”的方法比以前更進一步方面,都有特別創新的改進。
然而,仔細觀察是很重要的:
  1. DeepSeek 不會“以 600 萬美元完成美國 AI 公司花費數十億美元完成的任務”。我只能代表 Anthropic 發言,但 Claude 3.5 Sonnet 是一箇中型模型,訓練成本高達幾千萬美元(我不會給出確切數字)。此外,3.5 Sonnet的訓練方式並未涉及更大或更昂貴的模型(與一些傳言相反)。Sonnet 的訓練是在 9-12 個月前進行的,DeepSeek 的模型是在 11 月/12 月進行的,而 Sonnet 在許多內部和外部評估中仍然遙遙領先。因此,我認為一個公平的說法是“ DeepSeek 生產的模型接近 7-10 個月前美國模型的效能,成本要低得多(但遠不及人們建議的比例) ”
  2. 如果成本曲線下降的歷史趨勢是每年約 4 倍,這意味著現在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由於 DeepSeek-V3 比美國前沿模型更差——假設在擴充套件曲線上差約 2 倍,我認為這對 DeepSeek-V3 來說相當慷慨——這意味著如果 DeepSeek-V3 的訓練成本比一年前開發的當前美國模型低約 8 倍,這將是完全正常的,完全“符合趨勢”。
    我不會給出一個數字,但從前面的要點可以清楚地看出,即使你從表面上看 DeepSeek 的訓練成本,它們充其量也符合趨勢,甚至可能甚至不符合趨勢。例如,這比原始 GPT-4 到 Claude 3.5 Sonnet 推理價格差異(10 倍)要小,而且 3.5 Sonnet 是一個比 GPT-4 更好的模型。 所有這些都表明,DeepSeek-V3 並不是一項獨特的突破,也不是從根本上改變 LLM 經濟的東西;它是持續成本降低曲線上的一個預期點。
    這次的不同之處在於,第一個展示預期成本降低的公司是中國公司。 這種情況從未發生過,具有地緣政治意義。然而,美國公司很快就會效仿——他們不會透過複製 DeepSeek 來做到這一點,而是因為他們也在實現成本降低的通常趨勢。
  3. DeepSeek 和美國 AI 公司都擁有比他們訓練主要模型時更多的資金和晶片。額外的晶片用於研發以開發模型背後的理念,有時用於訓練尚未準備好的大型模型(或需要多次嘗試才能正確)。據報道 — — 我們不能確定它是否屬實 — — DeepSeek 實際上擁有 50,000 個 Hopper 代晶片6,我猜這大約是美國主要 AI 公司所擁有晶片的 2-3 倍(例如,它比 xAI“ Colossus ”叢集少 2-3 倍)7。這 50,000 個 Hopper 晶片的成本約為 10 億美元。 因此,DeepSeek 作為一家公司的總支出(與訓練單個模型的支出不同)與美國 AI 實驗室並沒有太大差別。
  4. 值得注意的是,“縮放曲線”分析有些過於簡單化,因為模型之間存在一定差異,各有優缺點;縮放曲線數字是一個粗略的平均值,忽略了很多細節。我只能談論 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅長編碼,並且擁有精心設計的與人互動的風格(許多人用它來獲得個人建議或支援)。在這些任務和其他一些任務上,DeepSeek 根本無法與之相比。這些因素沒有出現在縮放數字中。
R1是上週釋出的模型,它引發了公眾的強烈關注(包括 Nvidia 股價下跌約 17% ),但從創新或工程角度來看,它遠不如 V3 那麼有趣。它增加了第二階段的訓練——強化學習,如上一節第 3 點所述——並且基本上覆制了 OpenAI 對 o1 所做的事情(它們的規模似乎相似,結果也相似) 8
但是,因為我們處於擴充套件曲線的早期階段,所以只要從強大的預訓練模型開始,多家公司都可以生產這種型別的模型。在 V3 的情況下生產 R1 可能非常便宜。因此,我們處於一個有趣的“交叉點”,暫時有幾家公司可以生產出好的推理模型。隨著每個人都在這些模型的擴充套件曲線上進一步向上移動,這種情況將迅速不再成立。

出口管制

以上只是我感興趣的主要話題的序言:對華晶片出口管制。鑑於上述事實,我認為情況如下:
  1. 有一種趨勢是,公司在訓練強大的人工智慧模型上投入了越來越多的資金 ,儘管曲線會定期發生變化,訓練特定水平的模型智慧的成本會迅速下降。只是訓練越來越智慧的模型的經濟價值是如此之大,以至於任何成本收益幾乎都會立即被吃掉——它們被重新投入到製作更智慧的模型中,而我們最初計劃花費的成本與此相同。
    在美國實驗室尚未發現的情況下,DeepSeek 開發的效率創新將很快被美國和中國的實驗室應用於訓練價值數十億美元的模型。這些模型的表現將優於他們之前計劃訓練的價值數十億美元的模型——但他們仍將花費數十億美元。這個數字將繼續上升,直到我們擁有在幾乎所有事情上都比幾乎所有人類更聰明的人工智慧。
  2. 製造出在幾乎所有方面都比人類更聰明的人工智慧將需要數百萬個晶片,數百億美元(至少),而且最有可能在 2026-2027 年實現。DeepSeek 的釋出不會改變這一點,因為它們大致處於預期的成本降低曲線上,而這一直被計入這些計算中。
  3. 這意味著,在 2026-2027 年,我們可能會陷入兩個截然不同的世界。在美國,多家公司肯定會擁有所需的數百萬個晶片(成本高達數百億美元)。問題是中國是否也能獲得數百萬個晶片9
    如果可以的話,我們將生活在一個兩極世界,美國和中國都擁有強大的人工智慧模型,這將推動科學技術的極速進步——我稱之為“資料中心的天才國家”。兩極世界不一定會無限期保持平衡。即使美國和中國在人工智慧系統方面勢均力敵,中國以其龐大的工業基礎,可以幫助中國在全球舞臺上佔據主導地位,不僅是在人工智慧領域,而是在所有領域。
    如果中國無法獲得數百萬個晶片,我們將(至少暫時)生活在一個單極世界,只有美國及其盟友擁有這些模型。目前尚不清楚單極世界是否會持續下去,但至少存在這樣一種可能性,即由於人工智慧系統最終可以幫助製造更智慧的人工智慧系統,暫時的領先優勢可以轉化為持久的優勢。因此,在這個世界上,美國及其盟友可能會在全球舞臺上佔據主導地位並保持長期領先。
  4. 只有嚴格執行出口管制11才能阻止中國獲得數百萬晶片,因此也是決定我們最終是進入單極世界還是兩極世界最重要的因素。
  5. DeepSeek 的表現並不意味著出口管制失敗。正如我上面所說,DeepSeek 擁有中等到大量的晶片,因此他們能夠開發並訓練出強大的模型也就不足為奇了。他們的資源限制並不比美國 AI 公司嚴重,出口管制也不是促使他們“創新”的主要因素。他們只是非常有才華的工程師,並展示了為什麼中國是美國的有力競爭對手。
  6. DeepSeek 也沒有表明管制總是有漏洞。10 億美元的經濟活動可以隱藏,但很難隱藏 1000 億美元甚至 100 億美元。100 萬個晶片在物理上也很難走私。
    看看 DeepSeek 目前報道的晶片也是有啟發性的。根據 SemiAnalysis 的說法,這是 H100、H800 和 H20 的混合體,總計 5 萬個。自發布以來,H100 就被出口管制禁止,所以如果 DeepSeek 有任何晶片,它們一定不是透過正規渠道來的(請注意,Nvidia 已聲 DeepSeek 的進展“完全符合出口管制”)。H800 在 2022 年第一輪出口管中是被允許的,但在 2023 年 10 月管制 時被禁止,所以這些晶片可能是在禁令之前發貨的。H20 的訓練效率較低,取樣效率較高——雖然我認為應該禁止,但仍然被允許。
    所有這些都表明,DeepSeek 的 AI 晶片群中似乎有相當一部分是由尚未被禁止(但應該被禁止)的晶片。這表明出口管制確實在發揮作用和適應:漏洞正在被堵塞如果我們能夠足夠快地堵塞它們,我們也許能夠增加美國領導單極世界的可能性。
鑑於我關注的是出口管制和美國國家安全,我想明確一點。我不認為 DeepSeek 本身是對手,重點也不是特別針對他們。在他們接受的採訪中,他們看起來像是聰明、好奇的研究人員,只是想開發有用的技術。
但出口管制是我們防止中國追趕美國的最有力工具之一 。認為技術越來越強大、價效比越來越高是解除出口管制的理由的想法是完全沒有道理的。
腳註
[1] 在本文中,我不會對西方模型的提煉報告持任何立場。在這裡,我只是相信 DeepSeek 的說法,他們按照論文中說的方式進行訓練 。
[2] 順便說一句,我認為 DeepSeek 模型的釋出對 Nvidia 來說顯然不是壞事,而他們的股價因此而出現兩位數(約 17%)的下跌令人費解。這次釋出對 Nvidia 來說不是壞事的理由甚至比對 AI 公司來說不是壞事的理由更明顯。但我在這篇文章中的主要目標是捍衛出口管制政策 。
[3] 準確地說,它是一個預訓練模型,其中包含推理正規化轉變之前模型中典型的少量 RL 訓練 。
[4] 它在一些非常狹窄的任務上表現更強 。
[5] 這是DeepSeek 論文中引用的數字 ——我只是照單全收,並不懷疑這部分內容,只是與美國公司模型訓練成本的比較,以及訓練特定模型的成本(600 萬美元)與研發總成本(高得多)之間的區別。然而,我們也不能完全確定 600 萬美元——模型大小是可驗證的,但其他方面(如代幣數量)則不可驗證 。↩
[6] 在一些採訪中 ,我說他們有“50,000 塊 H100”,這是對報道的一個微妙的錯誤總結,我想在這裡糾正一下。迄今為止,最知名的“Hopper 晶片”是 H100(我猜想指的是它),但 Hopper 還包括 H800 和 H20,據報道 DeepSeek 擁有這三種晶片的混合,總計 50,000 塊。這並沒有改變太多情況,但值得糾正。當我談論出口管制時,我會更多地討論 H800 和 H20。↩
[7] 注:由於出口管制,我預計這一差距在下一代叢集中會大大擴大 。
[8] 我懷疑 R1 受到如此多關注的主要原因之一是它是第一個向 使用者展示模型所展現的思路推理的模型(OpenAI 的 o1 僅顯示最終答案)。DeepSeek 表明使用者對此很感興趣。需要明確的是,這是一個使用者介面選擇,與模型本身無關。
[9] 中國自己的晶片短期內無法與美國製造的晶片競爭。 
參考資料:
[1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-controls
歡迎掃碼加群參與討論
———END——–
我們相信認知能夠跨越階層,
致力於為年輕人提供高質量的科技、資本和商業內容。
青投創新,新型科創產業服務平臺,以科技、人才、資本為核心,透過內容出版、資料支援、產業諮詢、科技轉化等業務,為科技人才創業專案提供孵化及加速賦能服務,助力國家科技興國計劃。

相關文章