AnthropicCEO最新萬字長文:不認為DeepSeek本身是對手,美國要加強晶片出口管制

今天凌晨,Anthropic CEO Dario Amodei 在 X 平臺釋出了一篇萬字長文,回應了近期圍繞在 DeepSeek 的諸多風波事件。
在這篇部落格中,Amodei 表示不認為 DeepSeek 本身是對手,但同時卻又喊話美國要加強晶片出口管制。
面對 Amodei 疑似「破防」的行為,X 網友在評論區貼臉輸出:

附上原文編譯:
幾周前,我曾提出應加強美國對華晶片出口管制。如今,中國 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美國最前沿的 AI 模型。
在這篇文章中,我不會討論 DeepSeek 是否真的威脅到 Anthropic 等美國 AI 企業(儘管我認為,關於中國 AI 取代美國領導地位的某些說法被誇大了)¹。
相反,我想探討一個問題:DeepSeek 的技術突破是否削弱了對晶片出口管制的必要性?我的答案是否定的。事實上,我認為這反而更加凸顯了出口管制的重要性²。
出口管制的核心目標是確保國家在 AI 發展中保持領先。需要明確的是,管制政策並不是為了迴避中美 AI 競爭。
最終,如果美國及其他國家希望在 AI 領域佔據主導地位,就必須擁有比中國更先進的模型。但與此同時,我們也不應該在可以避免的情況下,讓中國政府獲得技術優勢。
AI 發展的三大核心動態
在討論政策問題之前,我想先介紹 AI 系統的三個關鍵發展動態,這對理解 AI 產業至關重要:
1. 縮放規律(Scaling Laws)
AI 領域的一個核心規律是,隨著訓練規模的擴大,模型的表現會持續平穩提升。我和我的聯合創始人在 OpenAI 工作時,就曾率先記錄並驗證過這一現象。簡單來說,在其他條件相同的情況下,增加訓練計算量(compute)會讓 AI 在各種認知任務上的表現更好。例如:
價值 100 萬美元 的 AI 可能能解決 20% 的關鍵程式設計任務
價值 1000 萬美元 的 AI 可能能解決 40%
價值 1 億美元 的 AI 可能能解決 60%
這些差異在實際應用中會帶來巨大影響——計算量增加 10 倍,可能意味著 AI 水平從本科生提升到博士生。因此,各家公司都在投入鉅額資金訓練更強的模型。
2. 計算效率提升(Shifting the Curve)
AI 領域不斷湧現出各種大大小小的創新,使得 AI 訓練和推理更加高效。這些創新可能涉及模型架構改進(例如對 Transformer 結構的最佳化)、更高效的計算方式(提升硬體利用率)以及新一代 AI 計算晶片。
這些最佳化會整體提升 AI 的訓練效率,也就是「Shifting the Curve」:
如果某項技術帶來 2 倍的計算提升(Compute Multiplier,CM),那麼原本需要 1000 萬美元 訓練出的 40% 程式碼解決能力,現在只需要 500 萬美元;原本 1 億美元 的 60% 程式碼解決能力,現在只需要 5000 萬美元。
各大 AI 公司不斷發現這樣的 CM 提升:
小幅最佳化(約 1.2 倍):常見的微調最佳化
中等最佳化(約 2 倍):架構改進或演算法最佳化
大幅最佳化(約 10 倍):重大技術突破
由於 AI 智慧水平的提升價值極高,這種效率提升通常不會降低總訓練成本,反而會促使企業投入更多資金,訓練更強的模型。許多人誤以為 AI 會像傳統產品那樣「先貴後便宜」,但 AI 並不是一個固定質量的商品——當計算效率提高後,行業不會減少計算消耗,而是更快地追求更強的 AI。
在 2020 年,我的團隊發表了一篇論文,指出演算法進步帶來的計算效率提升速度約為每年 1.68 倍。但目前這一速度可能已經加快到每年 4 倍,並且這一估算還未考慮硬體進步的影響。
3. 推理成本的降低(Inference Cost Reduction)訓練效率的提升同樣會影響 AI 推理(即模型在執行時的計算成本)。過去幾年,我們已經看到 AI 的推理成本持續下降,同時效能不斷提升。例如 Claude 3.5 Sonnet(釋出於 GPT-4 之後 15 個月),在幾乎所有基準測試上都超越了 GPT-4,但其 API 價格僅為 GPT-4 的 1/10。
3、正規化轉變(Shifting the Paradigm)
AI 訓練的擴充套件方式並非一成不變,有時核心擴充套件物件會發生變化,或者訓練過程中會引入新的擴充套件方法。
在 2020-2023 年間,AI 訓練的主要擴充套件方向是預訓練模型,這些模型主要基於大規模網際網路文字資料進行訓練,在此基礎上進行少量額外的微調訓練,以提升特定能力。
進入 2024 年,利用強化學習(Reinforcement Learning, RL)訓練模型生成思維鏈(Chain of Thought, CoT) 成為 AI 訓練的新焦點。
Anthropic、DeepSeek,以及 OpenAI(2024 年 9 月釋出的 o1-preview 模型)等公司發現,這種訓練方式可以顯著提升模型在某些客觀可衡量任務上的表現,特別是在數學推理、程式設計競賽、以及類似數學和程式設計的複雜邏輯推理。
新的訓練正規化採用兩階段方法,先訓練傳統預訓練模型,使其具備基礎能力。其次,透過強化學習(RL) 增強模型的推理能力。
由於這種 RL 訓練方法仍然較新,當前所有公司在 RL 階段的投入都較少,因此仍處於早期規模化階段。僅從 10 萬美元擴充套件到 100 萬美元的訓練投入,就能帶來巨大效能提升。
企業正在迅速推進 RL 訓練的擴充套件,預計很快將達到數億美元甚至數十億美元級別。目前,我們正處於一個獨特的「交叉點」(crossover point),AI 訓練正在經歷重要的正規化轉變,由於 RL 訓練仍處於早期擴充套件階段,因此可以在短時間內實現快速效能突破。
DeepSeek 的模型
上述三大 AI 發展動態可以幫助我們理解 DeepSeek 最近釋出的模型。
大約一個月前,DeepSeek 推出了「DeepSeek-V3」,這是一個純預訓練模型,即前文第 3 點中提到的第一階段模型。隨後,上週他們又釋出了 「R1」,在 V3 的基礎上增加了第二階段訓練。雖然外界無法完全瞭解這些模型的內部細節,但以下是我對這兩次釋出的最佳理解。
DeepSeek-V3 才是 DeepSeek 近期的真正創新,早在一個月前就值得引起關注(我們當時確實注意到了)。
作為一個純預訓練模型,DeepSeek-V3 在某些關鍵任務上的表現接近美國最先進的 AI 模型,但訓練成本要低得多。(不過,我們發現 Claude 3.5 Sonnet 在某些關鍵任務上仍然明顯更強,特別是現實世界中的程式設計能力。)
DeepSeek 團隊能夠做到這一點,主要依賴於一系列真正出色的工程創新,特別是在計算效率最佳化方面,包括「鍵-值快取」(Key-Value Cache)管理的創新最佳化,提高了模型在推理過程中的效率,以及對「專家混合模型」(Mixture of Experts, MoE)技術的突破性應用,使其在大規模 AI 模型中的表現優於以往。
然而,我們需要更仔細地分析:
DeepSeek 並沒有「用 600 萬美元⁵完成了美國 AI 公司花費數十億美元才能做到的事情」。就我能代表的 Anthropic 而言,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本為幾千萬美元(具體數字我不會透露)。此外,關於 3.5 Sonnet 訓練過程中使用了更大、更昂貴的模型的傳言並不屬實。Sonnet 的訓練是在 9 到 12 個月前進行的,而 DeepSeek 的模型是在去年 11 月至 12 月訓練的。
儘管如此,Sonnet 在許多內部和外部評測中仍然明顯領先。因此,更準確的說法應該是:「DeepSeek 以相對較低的成本訓練出了一個接近 7 到 10 個月前的美國模型效能的模型,但成本遠沒有人們所說的那麼低。」
如果按照過去的趨勢,AI 訓練成本每年大約下降 4 倍,那麼在正常情況下——比如 2023 年和 2024 年的成本下降趨勢——我們可以預期,現在的模型訓練成本應該比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的效能仍然遜色於這些美國最前沿的模型——大約差 2 倍(這個估計對 DeepSeek-V3 來說已經相當慷慨了)。這意味著,如果 DeepSeek-V3 的訓練成本比一年前的美國頂級模型低 8 倍,那也是正常的,符合趨勢的,並不是什麼意外突破。
事實上,DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理價格下降幅度(10 倍)還要小,而 3.5 Sonnet 本身比 GPT-4 還要強。這一切都說明,DeepSeek-V3 既不是技術上的革命性突破,也沒有改變大語言模型(LLM)的經濟模式,它只是符合現有成本下降趨勢的一個正常案例。
不同之處在於,這次率先實現預期成本下降的是一家中國公司。這在歷史上是第一次發生,因此具有重要的地緣政治意義。不過,美國 AI 公司很快也會跟上這一趨勢,而且它們並不是透過複製 DeepSeek 來實現的,而是因為它們自身也在沿著既定的成本下降曲線前進。
無論是 DeepSeek 還是美國 AI 公司,現在都擁有比訓練它們現有主力模型時更多的資金和晶片。這些額外的晶片被用於研發新的模型技術,有時也會用於訓練尚未釋出、或者需要多次嘗試才能完善的大型模型。
據報道(儘管我們無法確認其真實性),DeepSeek 實際上擁有 50000 片 Hopper 代 GPU⁶,而我估計這大約是美國主要 AI 公司 GPU 規模的 1/2 到 1/3(例如,這個數量比 xAI 的「Colossus」叢集少 2 到 3 倍)⁷。這 50000 片 Hopper GPU 的成本大約在 10 億美元左右。
因此,DeepSeek 作為一家公司(而不僅僅是某個單一模型的訓練費用)的總投入,並沒有與美國 AI 研究實驗室有巨大的差距。
值得注意的是,「擴充套件曲線」(scaling curve)的分析其實有些過於簡化了。不同的模型各有特點,擅長的領域也不同,而擴充套件曲線的數值只是一個粗略的平均值,忽略了許多細節。
就我所瞭解的 Anthropic 的模型而言,正如我之前提到的,Claude 在程式碼生成和與使用者進行高質量互動方面表現極佳,許多人甚至將其用於個人建議或支援。在這些方面,以及其他一些特定任務上,DeepSeek 根本無法與之相比,而這些差距並不會直接反映在擴充套件曲線的資料中。
上週釋出的 R1 讓公眾高度關注,並導致英偉達股價下跌約 17%。但從創新或工程角度來看,R1 遠不如 V3 令人興奮。
R1 只是在訓練中增加了第二階段——強化學習(這一點在上一部分的 #3 中有提到),本質上是對 OpenAI 在 o1 版本中的方法的復現(兩者的規模和效果似乎相近)⁸。不過,由於目前仍處於擴充套件曲線的早期階段,多家公司都有可能訓練出類似的模型,前提是它們有一個強大的預訓練基礎模型。
在 V3 現有的基礎上訓練出 R1 可能成本非常低。因此,我們正處於一個有趣的「交叉點」:在這個階段,多個公司都能訓練出優秀的推理能力模型。但這種情況不會持續太久,隨著模型繼續沿擴充套件曲線向上發展,這種「門檻較低」的視窗期將很快結束。
晶片出口管制
以上分析其實只是為我真正關注的話題做鋪墊——對中國的晶片出口管制。結合前面的事實,我認為當前的情況如下:
AI 訓練的趨勢是,企業會投入越來越多的資金來訓練更強大的模型。雖然訓練同等智慧水平模型的成本在不斷下降,但 AI 模型的經濟價值實在太高,因此節省下來的成本幾乎立即被重新投入,以訓練更強大的模型,而整體支出仍然保持在原來的高額水平。
DeepSeek 研發的效率最佳化方法,如果美國實驗室還沒有掌握,那麼很快也會被美中雙方的實驗室應用於訓練價值數十億美元的 AI 模型。這些新模型的表現將比原本計劃訓練的多億美元級模型更強,但投入依然會是數十億美元,並且這個數字還會持續上升,直到 AI 智慧水平超越幾乎所有人在幾乎所有領域的能力。
要打造這樣比幾乎所有人都更聰明的 AI,需要數百萬顆晶片、至少數百億美元的資金,並且最有可能在 2026-2027 年實現。DeepSeek 的最新發布並不會改變這個趨勢,因為它們的成本下降幅度仍然在預期範圍內,這一點早已納入行業的長期計算。
這意味著,到 2026-2027 年,世界可能會出現兩種截然不同的局面,在美國,多家公司肯定會擁有所需的數百萬顆晶片(成本高達數百億美元)。問題在於,中國是否也能獲得數百萬顆晶片⁹。
如果中國能夠獲得數百萬顆晶片,我們將進入一個雙極世界(bipolar world),即美國和中國都擁有強大的 AI 模型,推動科學技術以前所未有的速度發展——我稱之為「資料中心裡的天才國家」(countries of geniuses in a datacenter)。
但雙極世界未必會長期保持平衡。即使中美 AI 技術暫時相當,中國可能會投入更多的人才、資金和精力來將 AI 技術應用於軍事領域。再加上中國龐大的工業基礎和軍事戰略優勢,這可能使中國不僅在 AI 領域取得主導地位,甚至在全球各個領域佔據領先。
如果中國無法獲得數百萬顆晶片,我們至少暫時會進入一個單極世界(unipolar world),即只有美國及其盟友掌握最先進的 AI 模型。這個單極局面是否會持續並不確定,但至少有可能出現這樣一種情況:由於 AI 系統可以幫助構建更強的 AI,短暫的領先可能會被轉化為長期優勢¹⁰。在這種情況下,美國及其盟友可能會在全球舞臺上取得決定性並長期的主導地位。
因此,嚴格執行的出口管制¹¹是阻止中國獲取數百萬顆晶片的唯一有效手段,也是決定世界最終是單極還是雙極格局的最重要因素。
DeepSeek 的成功並不意味著出口管制失效。正如我之前所說,DeepSeek 實際上擁有相當可觀的晶片資源,因此他們能夠開發並訓練出強大的模型並不令人意外。他們在資源上並沒有比美國 AI 公司受到更大的限制,出口管制也並不是促使他們「創新」的主要原因。他們只是非常優秀的工程師,而這正說明了中國在 AI 領域是美國的嚴峻競爭對手。
DeepSeek 的成功也並不意味著中國可以一直透過走私獲得所需的晶片,或者出口管制存在無法堵住的漏洞。我認為,出口管制從來就不是為了阻止中國獲得幾萬顆晶片。10 億美元的經濟活動可以隱藏,但 100 億美元甚至 10 億美元的活動就難以掩蓋了,而要偷偷運送上百萬顆晶片在物理上也可能極為困難。
我們還可以看看目前 DeepSeek 被報道所擁有的晶片型別。據 SemiAnalysis 分析,DeepSeek 現有的 50000 片 AI 晶片是 H100、H800 和 H20 的混合。
H100 自推出以來就受到出口管制的限制,因此如果 DeepSeek 擁有 H100,那它們必然是透過走私獲得的。(不過,值得注意的是,英偉達曾表示 DeepSeek 的 AI 進展「完全符合出口管制規定」)。
H800 在 2022 年最初的出口管制政策下仍可出口,但在 2023 年 10 月政策更新後被禁止,因此這些晶片可能是在禁令生效前運送的。
H20 在訓練方面效率較低,但在推理(取樣)方面更高效,目前仍允許出口,但我認為它也應該被禁止。
綜上所述,DeepSeek 擁有的 AI 晶片主要包括目前尚未被禁(但應該被禁)的晶片、在被禁之前獲得的晶片、可能透過走私獲取的少量晶片。
這實際上表明瞭出口管制正在發揮作用,並且在不斷調整最佳化:如果出口管制完全無效,DeepSeek 現在很可能會擁有一整批頂級的 H100 晶片。然而,事實並非如此,這說明政策正在逐步堵住漏洞。如果我們能夠足夠快地加強管控,就可能阻止中國獲得數百萬顆晶片,從而提高美國維持 AI 領先地位、形成單極世界的可能性。
關於出口管制和美國國家安全,我想明確一點:
我並不認為 DeepSeek 本身是對手,我也不是專門針對這家公司。從他們接受採訪時的表現來看,DeepSeek 的研究人員看起來像是聰明、充滿好奇心的工程師,他們只是想開發出有用的技術。
出口管制是我們最強有力的手段之一,能夠阻止這種情況發生。有人認為,AI 技術變得越來越強、價效比越來越高,是一個應該放鬆出口管制的理由——但這完全沒有道理。
腳註
1 關於模型蒸餾:在這篇文章中,我不對有關 DeepSeek 是否對西方模型進行蒸餾的報道發表任何看法。我僅基於 DeepSeek 論文中提供的資訊,假設他們確實按照自己所述的方式訓練了模型。
2 DeepSeek 的釋出並不影響英偉達:事實上,我認為 DeepSeek 模型的釋出顯然不會對英偉達造成負面影響,而英偉達股價因此下跌約 17% 讓我感到困惑。從邏輯上講,DeepSeek 的釋出對英偉達的影響甚至比對其他 AI 公司的影響還要小。但無論如何,我這篇文章的主要目的是為出口管制政策辯護。
3 關於 R1 訓練方式的細節:更精確地說,R1 是一個預訓練模型,並且僅進行了少量的強化學習(RL)訓練,這種做法在推理正規化變革前的模型中很常見。
4 DeepSeek 在某些特定任務上表現較強:但這些任務範圍非常有限。
5 關於 DeepSeek 論文中提到的「600 萬美元訓練成本」:這個資料是 DeepSeek 論文中引用的,我在這裡暫且接受,並不對其真實性提出質疑。不過,我質疑的是將此與美國 AI 公司的訓練成本直接對比的合理性。600 萬美元僅指訓練某個具體模型的成本,但 AI 研發的整體成本要遠遠高於這個數字。此外,我們也無法完全確定 600 萬美元的真實性——雖然模型規模可以驗證,但訓練時使用的 token 數量等因素卻難以核實。
6 關於 DeepSeek 現有晶片的更正:在一些採訪中,我曾說 DeepSeek 擁有 「50,000 片 H100」,但這實際上是對相關報道的不準確概括,在此更正。H100 是目前最知名的 Hopper 架構晶片,所以我當時假設報道所指的就是 H100。但實際上,Hopper 系列還包括 H800 和 H20,DeepSeek 擁有的是這三種晶片的混合,總數為 50000 片。雖然這個事實並不會改變整體情況,但仍值得澄清。我在討論出口管制時會更詳細地分析 H800 和 H20 的問題。
10 出口管制的目標:這裡需要明確一點,目標並不是剝奪中國從 AI 科技進步中獲益的機會——AI 在科學、醫療、生活質量等領域的突破,理應造福所有人。真正的目標是防止這些國家在軍事領域取得主導地位。
附上報道相關連結:

https://darioamodei.com/on-deepseek-and-export-controls

https://x.com/DarioAmodei/status/1884636410839535967


相關文章