OpenAI稱掌握DeepSeek違規證據,AnthropicCEO發萬字長文喊話美國加強管制

最近的 DeepSeek 陷入了多事之秋。
據外媒金融時報報道,OpenAI 稱有證據表明,中國 AI 公司 DeepSeek 藉助 OpenAI 的模型來開發自己的開源 AI 產品,此舉可能違反了 OpenAI 的服務條款。
在 AI 行業,透過「蒸餾」技術來開發新模型較為常見。但 OpenAI 認為 DeepSeek 的行為已經超出了可接受的範圍,因為他們是在利用 OpenAI 的技術來打造一個競品。
截至發稿時,對於這些指控的具體細節,OpenAI 目前拒絕作出進一步說明。
而在昨日,彭博社報道稱,OpenAI 及其合作伙伴微軟對去年使用 OpenAI API 的若干賬戶展開調查,並切斷了涉嫌進行模型蒸餾的賬戶訪問許可權,理由同樣是這些行為違反了服務條款。
一波未平,一波又起。
據外媒 TechCrunch 報道,DeepSeek 近期向美國專利商標局(USPTO)提交了商標申請,希望註冊其 AI 聊天機器人、產品和工具的品牌。然而,它的申請晚了一步。
就在 36 小時前,一家名為 Delson Group Inc.的特拉華州公司率先提交了「DeepSeek」商標的申請。
Delson Group 聲稱自 2020 年起就一直在銷售「DeepSeek」品牌的 AI 產品。該公司在商標申請中登記的地址是庫比蒂諾的一處住宅,創始人兼 CEO 為 Willie Lu。
有趣的是,Lu 與 DeepSeek 的創始人梁文峰同為浙江大學校友。根據 Lu 的 LinkedIn 資料,他自稱是斯坦福大學的「半退休」諮詢教授,同時擔任美國聯邦通訊委員會(FCC)顧問,職業生涯主要聚焦無線通訊領域。
TechCrunch 調查發現,Lu 還以「DeepSeek」品牌在拉斯維加斯舉辦名為「AI 超級智慧」(AI Super-Intelligence)的教育課程,門票起價 800 美元。該課程的網站也被列在 Delson Group 的商標申請檔案中,並宣稱 Lu 在資訊通訊技術(ICT)和人工智慧(AI)領域有約 30 年的經驗。
當 TechCrunch 透過商標申請檔案中的電子郵件聯絡 Lu 時,他表示願意在加州帕洛阿爾託或薩拉託加見面討論。但在進一步的置評請求中,Lu 未作回應。
透過 USPTO 的商標審理和上訴委員會(TTAB)資料庫查詢可以發現,Delson Group 此前曾與多家知名企業發生過二十多起商標糾紛,包括 GSMA、騰訊和 TracFone Wireless。該公司曾主動放棄或取消部分商標申請,但也成功註冊了一些商標。
更廣泛的 USPTO 商標資料庫搜尋顯示,Delson Group 已註冊了 28 個商標,其中包括一些知名中國企業的品牌。例如,該公司註冊了「吉利」(Geely)和「中國移動」(China Mobile)的商標,這些品牌分別屬於中國的汽車製造商和香港的電信巨頭。
這種模式表明,Delson Group 可能存在「商標囤積」(Trademark Squatting)行為,即搶先註冊商標,以便日後出售或利用品牌知名度牟利。
目前來看,DeepSeek 在美國的商標權益處於不利地位。根據美國法律,首個使用商標的公司通常被視為該商標的合法所有者,除非能證明對方是惡意註冊(bad faith registration)。
智慧財產權律師、Gerben IP 事務所創始人 Josh Gerben 在接受 TechCrunch 採訪時表示,Delson Group 在多方面佔據優勢:
申請時間更早(比 DeepSeek 早 36 小時提交);
聲稱自 2020 年起已開始使用該品牌(DeepSeek 的商標申請中稱其成立於 2023年);
擁有可驗證的 AI 相關活動(包括培訓課程和網站)。
Gerben 指出,Delson Group 甚至可以提出「反向混淆(Reverse Confusion)」訴訟,主張 DeepSeek 的迅速崛起會導致公眾誤認為 DeepSeek 才是商標的真正所有者。此外,Delson Group 還可以起訴 DeepSeek,要求其停止在美國市場繼續使用「DeepSeek」品牌。
「DeepSeek 可能真的面臨嚴重的商標問題,」Gerben 表示,「Delson Group 作為潛在的「在先權利持有者」(prior rights holder),可能有很強的商標侵權訴訟理由。」
值得一提的是,DeepSeek 並不是唯一一家在商標問題上遇到麻煩的 AI 公司。比如 OpenAI 曾試圖註冊「GPT」商標,但在去年 2 月被 USPTO 駁回,理由是該詞過於通用。
包括我們之前也報道過,OpenAI 目前仍在與科技企業家 Guy Ravine 就「Open AI」商標進行法律糾紛,Ravine 聲稱自己早在 2015 年(OpenAI成立之年)就已提出這一商標概念,並希望打造一個「開源」AI 平臺。
另外,今天凌晨,Anthropic CEO Dario Amodei 在 X 平臺釋出了一篇萬字長文,回應了近期圍繞在 DeepSeek 的諸多風波事件。
面對 Amodei 的疑似破防的行為,X 網友在評論區貼臉輸出:

Anthropic CEO:不認為 DeepSeek 本身是對手,美國要加強晶片出口管制
幾周前,我曾提出應加強美國對華晶片出口管制。如今,中國 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美國最前沿的 AI 模型。
在這篇文章中,我不會討論 DeepSeek 是否真的威脅到 Anthropic 等美國 AI 企業(儘管我認為,關於中國 AI 取代美國領導地位的某些說法被誇大了)¹。
相反,我想探討一個問題:DeepSeek 的技術突破是否削弱了對晶片出口管制的必要性?我的答案是否定的。事實上,我認為這反而更加凸顯了出口管制的重要性²。
出口管制的核心目標是確保國家在 AI 發展中保持領先。需要明確的是,管制政策並不是為了迴避中美 AI 競爭。
最終,如果美國及其他國家希望在 AI 領域佔據主導地位,就必須擁有比中國更先進的模型。但與此同時,我們也不應該在可以避免的情況下,讓中國政府獲得技術優勢。
AI 發展的三大核心動態
在討論政策問題之前,我想先介紹 AI 系統的三個關鍵發展動態,這對理解 AI 產業至關重要:
1. 縮放規律(Scaling Laws)
AI 領域的一個核心規律是,隨著訓練規模的擴大,模型的表現會持續平穩提升。我和我的聯合創始人在 OpenAI 工作時,就曾率先記錄並驗證過這一現象。簡單來說,在其他條件相同的情況下,增加訓練計算量(compute)會讓 AI 在各種認知任務上的表現更好。例如:
價值 100 萬美元 的 AI 可能能解決 20% 的關鍵程式設計任務
價值 1000 萬美元 的 AI 可能能解決 40%
價值 1 億美元 的 AI 可能能解決 60%
這些差異在實際應用中會帶來巨大影響——計算量增加 10 倍,可能意味著 AI 水平從本科生提升到博士生。因此,各家公司都在投入鉅額資金訓練更強的模型。
2. 計算效率提升(Shifting the Curve)
AI 領域不斷湧現出各種大大小小的創新,使得 AI 訓練和推理更加高效。這些創新可能涉及模型架構改進(例如對 Transformer 結構的最佳化)、更高效的計算方式(提升硬體利用率)以及新一代 AI 計算晶片。
這些最佳化會整體提升 AI 的訓練效率,也就是「Shifting the Curve」:
如果某項技術帶來 2 倍的計算提升(Compute Multiplier,CM),那麼原本需要 1000 萬美元 訓練出的 40% 程式碼解決能力,現在只需要 500 萬美元;原本 1 億美元 的 60% 程式碼解決能力,現在只需要 5000 萬美元。
各大 AI 公司不斷發現這樣的 CM 提升:
小幅最佳化(約 1.2 倍):常見的微調最佳化
中等最佳化(約 2 倍):架構改進或演算法最佳化
大幅最佳化(約 10 倍):重大技術突破
由於 AI 智慧水平的提升價值極高,這種效率提升通常不會降低總訓練成本,反而會促使企業投入更多資金,訓練更強的模型。許多人誤以為 AI 會像傳統產品那樣「先貴後便宜」,但 AI 並不是一個固定質量的商品——當計算效率提高後,行業不會減少計算消耗,而是更快地追求更強的 AI。
在 2020 年,我的團隊發表了一篇論文,指出演算法進步帶來的計算效率提升速度約為每年 1.68 倍。但目前這一速度可能已經加快到每年 4 倍,並且這一估算還未考慮硬體進步的影響。
3. 推理成本的降低(Inference Cost Reduction)訓練效率的提升同樣會影響 AI 推理(即模型在執行時的計算成本)。過去幾年,我們已經看到 AI 的推理成本持續下降,同時效能不斷提升。例如 Claude 3.5 Sonnet(釋出於 GPT-4 之後 15 個月),在幾乎所有基準測試上都超越了 GPT-4,但其 API 價格僅為 GPT-4 的 1/10。
3、正規化轉變(Shifting the Paradigm)
AI 訓練的擴充套件方式並非一成不變,有時核心擴充套件物件會發生變化,或者訓練過程中會引入新的擴充套件方法。
在 2020-2023 年間,AI 訓練的主要擴充套件方向是預訓練模型,這些模型主要基於大規模網際網路文字資料進行訓練,在此基礎上進行少量額外的微調訓練,以提升特定能力。
進入 2024 年,利用強化學習(Reinforcement Learning, RL)訓練模型生成思維鏈(Chain of Thought, CoT) 成為 AI 訓練的新焦點。
Anthropic、DeepSeek,以及 OpenAI(2024 年 9 月釋出的 o1-preview 模型)等公司發現,這種訓練方式可以顯著提升模型在某些客觀可衡量任務上的表現,特別是在數學推理、程式設計競賽、以及類似數學和程式設計的複雜邏輯推理。
新的訓練正規化採用兩階段方法,先訓練傳統預訓練模型,使其具備基礎能力。其次,透過強化學習(RL) 增強模型的推理能力。
由於這種 RL 訓練方法仍然較新,當前所有公司在 RL 階段的投入都較少,因此仍處於早期規模化階段。僅從 10 萬美元擴充套件到 100 萬美元的訓練投入,就能帶來巨大效能提升。
企業正在迅速推進 RL 訓練的擴充套件,預計很快將達到數億美元甚至數十億美元級別。目前,我們正處於一個獨特的「交叉點」(crossover point),AI 訓練正在經歷重要的正規化轉變,由於 RL 訓練仍處於早期擴充套件階段,因此可以在短時間內實現快速效能突破。
DeepSeek 的模型
上述三大 AI 發展動態可以幫助我們理解 DeepSeek 最近釋出的模型。
大約一個月前,DeepSeek 推出了「DeepSeek-V3」,這是一個純預訓練模型,即前文第 3 點中提到的第一階段模型。隨後,上週他們又釋出了 「R1」,在 V3 的基礎上增加了第二階段訓練。雖然外界無法完全瞭解這些模型的內部細節,但以下是我對這兩次釋出的最佳理解。
DeepSeek-V3 才是 DeepSeek 近期的真正創新,早在一個月前就值得引起關注(我們當時確實注意到了)。
作為一個純預訓練模型,DeepSeek-V3 在某些關鍵任務上的表現接近美國最先進的 AI 模型,但訓練成本要低得多。(不過,我們發現 Claude 3.5 Sonnet 在某些關鍵任務上仍然明顯更強,特別是現實世界中的程式設計能力。)
DeepSeek 團隊能夠做到這一點,主要依賴於一系列真正出色的工程創新,特別是在計算效率最佳化方面,包括「鍵-值快取」(Key-Value Cache)管理的創新最佳化,提高了模型在推理過程中的效率,以及對「專家混合模型」(Mixture of Experts, MoE)技術的突破性應用,使其在大規模 AI 模型中的表現優於以往。
然而,我們需要更仔細地分析:
DeepSeek 並沒有「用 600 萬美元⁵完成了美國 AI 公司花費數十億美元才能做到的事情」。就我能代表的 Anthropic 而言,Claude 3.5 Sonnet 是一箇中等規模的模型,訓練成本為幾千萬美元(具體數字我不會透露)。此外,關於 3.5 Sonnet 訓練過程中使用了更大、更昂貴的模型的傳言並不屬實。Sonnet 的訓練是在 9 到 12 個月前進行的,而 DeepSeek 的模型是在去年 11 月至 12 月訓練的。
儘管如此,Sonnet 在許多內部和外部評測中仍然明顯領先。因此,更準確的說法應該是:「DeepSeek 以相對較低的成本訓練出了一個接近 7 到 10 個月前的美國模型效能的模型,但成本遠沒有人們所說的那麼低。」
如果按照過去的趨勢,AI 訓練成本每年大約下降 4 倍,那麼在正常情況下——比如 2023 年和 2024 年的成本下降趨勢——我們可以預期,現在的模型訓練成本應該比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的效能仍然遜色於這些美國最前沿的模型——大約差 2 倍(這個估計對 DeepSeek-V3 來說已經相當慷慨了)。這意味著,如果 DeepSeek-V3 的訓練成本比一年前的美國頂級模型低 8 倍,那也是正常的,符合趨勢的,並不是什麼意外突破。
事實上,DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理價格下降幅度(10 倍)還要小,而 3.5 Sonnet 本身比 GPT-4 還要強。這一切都說明,DeepSeek-V3 既不是技術上的革命性突破,也沒有改變大語言模型(LLM)的經濟模式,它只是符合現有成本下降趨勢的一個正常案例。
不同之處在於,這次率先實現預期成本下降的是一家中國公司。這在歷史上是第一次發生,因此具有重要的地緣政治意義。不過,美國 AI 公司很快也會跟上這一趨勢,而且它們並不是透過複製 DeepSeek 來實現的,而是因為它們自身也在沿著既定的成本下降曲線前進。
無論是 DeepSeek 還是美國 AI 公司,現在都擁有比訓練它們現有主力模型時更多的資金和晶片。這些額外的晶片被用於研發新的模型技術,有時也會用於訓練尚未釋出、或者需要多次嘗試才能完善的大型模型。
據報道(儘管我們無法確認其真實性),DeepSeek 實際上擁有 50000 片 Hopper 代 GPU⁶,而我估計這大約是美國主要 AI 公司 GPU 規模的 1/2 到 1/3(例如,這個數量比 xAI 的「Colossus」叢集少 2 到 3 倍)⁷。這 50000 片 Hopper GPU 的成本大約在 10 億美元左右。
因此,DeepSeek 作為一家公司(而不僅僅是某個單一模型的訓練費用)的總投入,並沒有與美國 AI 研究實驗室有巨大的差距。
值得注意的是,「擴充套件曲線」(scaling curve)的分析其實有些過於簡化了。不同的模型各有特點,擅長的領域也不同,而擴充套件曲線的數值只是一個粗略的平均值,忽略了許多細節。
就我所瞭解的 Anthropic 的模型而言,正如我之前提到的,Claude 在程式碼生成和與使用者進行高質量互動方面表現極佳,許多人甚至將其用於個人建議或支援。在這些方面,以及其他一些特定任務上,DeepSeek 根本無法與之相比,而這些差距並不會直接反映在擴充套件曲線的資料中。
上週釋出的 R1 讓公眾高度關注,並導致英偉達股價下跌約 17%。但從創新或工程角度來看,R1 遠不如 V3 令人興奮。
R1 只是在訓練中增加了第二階段——強化學習(這一點在上一部分的 #3 中有提到),本質上是對 OpenAI 在 o1 版本中的方法的復現(兩者的規模和效果似乎相近)⁸。不過,由於目前仍處於擴充套件曲線的早期階段,多家公司都有可能訓練出類似的模型,前提是它們有一個強大的預訓練基礎模型。
在 V3 現有的基礎上訓練出 R1 可能成本非常低。因此,我們正處於一個有趣的「交叉點」:在這個階段,多個公司都能訓練出優秀的推理能力模型。但這種情況不會持續太久,隨著模型繼續沿擴充套件曲線向上發展,這種「門檻較低」的視窗期將很快結束。
晶片出口管制
以上分析其實只是為我真正關注的話題做鋪墊——對中國的晶片出口管制。結合前面的事實,我認為當前的情況如下:
AI 訓練的趨勢是,企業會投入越來越多的資金來訓練更強大的模型。雖然訓練同等智慧水平模型的成本在不斷下降,但 AI 模型的經濟價值實在太高,因此節省下來的成本幾乎立即被重新投入,以訓練更強大的模型,而整體支出仍然保持在原來的高額水平。
DeepSeek 研發的效率最佳化方法,如果美國實驗室還沒有掌握,那麼很快也會被美中雙方的實驗室應用於訓練價值數十億美元的 AI 模型。這些新模型的表現將比原本計劃訓練的多億美元級模型更強,但投入依然會是數十億美元,並且這個數字還會持續上升,直到 AI 智慧水平超越幾乎所有人在幾乎所有領域的能力。
要打造這樣比幾乎所有人都更聰明的 AI,需要數百萬顆晶片、至少數百億美元的資金,並且最有可能在 2026-2027 年實現。DeepSeek 的最新發布並不會改變這個趨勢,因為它們的成本下降幅度仍然在預期範圍內,這一點早已納入行業的長期計算。
這意味著,到 2026-2027 年,世界可能會出現兩種截然不同的局面,在美國,多家公司肯定會擁有所需的數百萬顆晶片(成本高達數百億美元)。問題在於,中國是否也能獲得數百萬顆晶片⁹。
如果中國能夠獲得數百萬顆晶片,我們將進入一個雙極世界(bipolar world),即美國和中國都擁有強大的 AI 模型,推動科學技術以前所未有的速度發展——我稱之為「資料中心裡的天才國家」(countries of geniuses in a datacenter)。
但雙極世界未必會長期保持平衡。即使中美 AI 技術暫時相當,中國可能會投入更多的人才、資金和精力來將 AI 技術應用於軍事領域。再加上中國龐大的工業基礎和軍事戰略優勢,這可能使中國不僅在 AI 領域取得主導地位,甚至在全球各個領域佔據領先。
如果中國無法獲得數百萬顆晶片,我們至少暫時會進入一個單極世界(unipolar world),即只有美國及其盟友掌握最先進的 AI 模型。這個單極局面是否會持續並不確定,但至少有可能出現這樣一種情況:由於 AI 系統可以幫助構建更強的 AI,短暫的領先可能會被轉化為長期優勢¹⁰。在這種情況下,美國及其盟友可能會在全球舞臺上取得決定性並長期的主導地位。
因此,嚴格執行的出口管制¹¹是阻止中國獲取數百萬顆晶片的唯一有效手段,也是決定世界最終是單極還是雙極格局的最重要因素。
DeepSeek 的成功並不意味著出口管制失效。正如我之前所說,DeepSeek 實際上擁有相當可觀的晶片資源,因此他們能夠開發並訓練出強大的模型並不令人意外。他們在資源上並沒有比美國 AI 公司受到更大的限制,出口管制也並不是促使他們「創新」的主要原因。他們只是非常優秀的工程師,而這正說明了中國在 AI 領域是美國的嚴峻競爭對手。
DeepSeek 的成功也並不意味著中國可以一直透過走私獲得所需的晶片,或者出口管制存在無法堵住的漏洞。我認為,出口管制從來就不是為了阻止中國獲得幾萬顆晶片。10 億美元的經濟活動可以隱藏,但 100 億美元甚至 10 億美元的活動就難以掩蓋了,而要偷偷運送上百萬顆晶片在物理上也可能極為困難。
我們還可以看看目前 DeepSeek 被報道所擁有的晶片型別。據 SemiAnalysis 分析,DeepSeek 現有的 50000 片 AI 晶片是 H100、H800 和 H20 的混合。
H100 自推出以來就受到出口管制的限制,因此如果 DeepSeek 擁有 H100,那它們必然是透過走私獲得的。(不過,值得注意的是,英偉達曾表示 DeepSeek 的 AI 進展「完全符合出口管制規定」)。
H800 在 2022 年最初的出口管制政策下仍可出口,但在 2023 年 10 月政策更新後被禁止,因此這些晶片可能是在禁令生效前運送的。
H20 在訓練方面效率較低,但在推理(取樣)方面更高效,目前仍允許出口,但我認為它也應該被禁止。
綜上所述,DeepSeek 擁有的 AI 晶片主要包括目前尚未被禁(但應該被禁)的晶片、在被禁之前獲得的晶片、可能透過走私獲取的少量晶片。
這實際上表明瞭出口管制正在發揮作用,並且在不斷調整最佳化:如果出口管制完全無效,DeepSeek 現在很可能會擁有一整批頂級的 H100 晶片。然而,事實並非如此,這說明政策正在逐步堵住漏洞。如果我們能夠足夠快地加強管控,就可能阻止中國獲得數百萬顆晶片,從而提高美國維持 AI 領先地位、形成單極世界的可能性。
關於出口管制和美國國家安全,我想明確一點:
我並不認為 DeepSeek 本身是對手,我也不是專門針對這家公司。從他們接受採訪時的表現來看,DeepSeek 的研究人員看起來像是聰明、充滿好奇心的工程師,他們只是想開發出有用的技術。
出口管制是我們最強有力的手段之一,能夠阻止這種情況發生。有人認為,AI 技術變得越來越強、價效比越來越高,是一個應該放鬆出口管制的理由——但這完全沒有道理。
腳註
1 關於模型蒸餾:在這篇文章中,我不對有關 DeepSeek 是否對西方模型進行蒸餾的報道發表任何看法。我僅基於 DeepSeek 論文中提供的資訊,假設他們確實按照自己所述的方式訓練了模型。
2 DeepSeek 的釋出並不影響英偉達:事實上,我認為 DeepSeek 模型的釋出顯然不會對英偉達造成負面影響,而英偉達股價因此下跌約 17% 讓我感到困惑。從邏輯上講,DeepSeek 的釋出對英偉達的影響甚至比對其他 AI 公司的影響還要小。但無論如何,我這篇文章的主要目的是為出口管制政策辯護。
3 關於 R1 訓練方式的細節:更精確地說,R1 是一個預訓練模型,並且僅進行了少量的強化學習(RL)訓練,這種做法在推理正規化變革前的模型中很常見。
4 DeepSeek 在某些特定任務上表現較強:但這些任務範圍非常有限。
5 關於 DeepSeek 論文中提到的「600 萬美元訓練成本」:這個資料是 DeepSeek 論文中引用的,我在這裡暫且接受,並不對其真實性提出質疑。不過,我質疑的是將此與美國 AI 公司的訓練成本直接對比的合理性。600 萬美元僅指訓練某個具體模型的成本,但 AI 研發的整體成本要遠遠高於這個數字。此外,我們也無法完全確定 600 萬美元的真實性——雖然模型規模可以驗證,但訓練時使用的 token 數量等因素卻難以核實。
6 關於 DeepSeek 現有晶片的更正:在一些採訪中,我曾說 DeepSeek 擁有 「50,000 片 H100」,但這實際上是對相關報道的不準確概括,在此更正。H100 是目前最知名的 Hopper 架構晶片,所以我當時假設報道所指的就是 H100。但實際上,Hopper 系列還包括 H800 和 H20,DeepSeek 擁有的是這三種晶片的混合,總數為 50000 片。雖然這個事實並不會改變整體情況,但仍值得澄清。我在討論出口管制時會更詳細地分析 H800 和 H20 的問題。
10 出口管制的目標:這裡需要明確一點,目標並不是剝奪中國從 AI 科技進步中獲益的機會——AI 在科學、醫療、生活質量等領域的突破,理應造福所有人。真正的目標是防止這些國家在軍事領域取得主導地位。
附上報道相關連結:

https://techcrunch.com/2025/01/29/deepseek-might-have-a-trademark-problem-in-the-u-s/

https://darioamodei.com/on-deepseek-and-export-controls

https://x.com/DarioAmodei/status/1884636410839535967


相關文章