DeepSeek引爆的一場技術裂變:中美AI權力遊戲白熱化,矛盾蔓延全球

作者 | Stratechery
譯者 | 核子可樂
策劃 | Tina
Stratechery 的這篇萬字長文全面梳理了 DeepSeek 相關的核心問題,包括 V3 和 R1 的意義、對英偉達的影響、以及是否應當進行監管等關鍵議題。此外,文章深入探討了 DeepSeek 高效且開源的模型對大型科技公司的影響。微軟和亞馬遜將因此受益,蘋果將在邊緣推理能力方面獲利,而 Meta 則因推理成本的降低受惠。相比之下,谷歌可能因業務商品化趨勢加劇及 TPU 優勢減弱而面臨損失。
整篇文章尊重事實,邏輯清晰,論述客觀理性。我們已將其翻譯,以下為全文。
關於 DeepSeek,
我們需要了解的一切
最近幾天,DeepSeek 可謂攪動風雲、震盪乾坤。今天咱們就來系統聊聊關於這位後起之秀的一切。
圍繞 DeepSeek,激起了無數關於由純強化學習構建思維鏈、知識蒸餾大放異彩、低成本下打造頂尖模型的可能性以及美國晶片禁令影響的討論。但令人意外的是,DeepSeek 的火爆也引發了更底層的廣泛衝擊,甚至為中美兩國的科技發展格局勾勒出新的可能性。
之前有沒有哪些事件能跟 DeepSeek 相提並論?
有的。2023 年 9 月,華為宣佈推出搭載中芯國際製造的 7 奈米晶片的 Mate 50 Pro。關注技術資訊的朋友肯定了解,這款晶片的存在其實早有預兆:中芯國際一年之前就曾製造過一款 7 奈米晶片,而臺積電也單憑 DUV(深紫外)光刻技術就實現了 7 奈米晶片量產(在後續 7 奈米迭代晶片中則首次開始使用 EUV 極紫外光刻技術)。甚至在幾年之前,英特爾也實現了單憑 DUV 製造 10 奈米(對打臺積電 7 奈米工藝)的晶片,只是良品率無法保證。所以綜合種種過往情報,只要在良品率方面稍作放寬,中芯國際利用現有裝置量產 7 奈米晶片完全在情理之中。
真正讓人意外的是,美國政府方面對此做出的過度反應。晶片禁令範圍開始急劇擴大,最終導致拜登政府將晶片銷售轉為許可制。很明顯,當政者既不瞭解晶片生產的複雜性,也沒有預料到華為 Mate 60 Pro 居然迅速實現了自主可控。這一波 DeepSeek 事件的情況也差不多,與其說是技術成就本身令人震撼,倒不如說是 DeepSeek 打破了很多人之前根深蒂固的刻板印象。
那麼,DeepSeek 到底證明了什麼?
這波討論的核心,在於 R1 大模型的釋出。這是一款類似於 OpenAI o1 的推理模型,但不少相關細節早在聖誕節期間釋出的 V3 公告中就可見端倪,特別是在訓練成本層面。而 V3 模型中的一系列突破,實際早在去年 1 月釋出的 V2 模型時就已有展露。
所以說,衝突的核心在於 OpenAI 給我們塑造了錯誤的大模型訓練認知?
這只是其二,稍後我們會聊聊 OpenAI 最大的“遺毒”所在。
那就從一切的起源說起:V2 模型是什麼,又為何如此重要?
DeepSeek V2 模型引入了兩大重要突破:DeepSeekMoE 與 DeepSeekMLA,這裡的 MoE 是指“混合專家”。以 GPT-3.5 為例,不少大模型在訓練和推理過程中都會啟用整個模型;但事實證明,對於當前主題來說模型中的很多部分並非必要。因此 MoE 會將模型拆分為多個“專家”,只針對特定問題激發必要專家;GPT-4 就是一款 MoE 模型,據信共包含 16 個專家,每專家對應約 110B 引數。
DeepSeekMoE 在 V2 中的實現對這一概念做出了重要創新,包括以更細粒度方式對專業專家和通用型共享專家進行區分。更關鍵的是,DeepSeekMoE 還引入了訓練期間的負載均衡與路由新方法;傳統上,MoE 會增加訓練中的通訊開銷以換取更高的推理效率,但 DeepSeek 的新方法也讓訓練效率同樣更上一層樓。
DeepSeekMLA 則是個更大的突破。推理過程中最大的限制之一就是記憶體佔用量:除了需要將模型載入到記憶體中,我們還需要載入整個上下文視窗。上下文視窗特別特別消耗記憶體,這是因為每個 token 都對應一個鍵及其對應值。DeepSeekMLA——也就是多頭潛在注意力——能夠壓縮鍵值儲存量,從而大大降低推理期間的記憶體佔用量。
還是聽得有點雲裡霧裡……
總之只需要明確一點:這些具體技術突破直到 V3 版本開始正式成熟,增加了新的負載均衡方法(進一步降低通訊開銷)和訓練中的多 token 預測(進一步實現訓練步驟密集化,把開銷壓得更低),因此讓 V3 的訓練成本來到令人震驚的低廉水平。DeepSeek 宣稱其模型訓練只消耗了 278.8 萬個 H800 GPU 時,以每 GPU 時 2 美元成本計算,僅僅為 557.6 萬美元。
這似乎低得不可思議。
DeepSeek 在 V3 論文中明確表示,這些成本僅針對最終訓練週期,不包括其他前期準備工作:
最後,我們要再次澄清 DeepSeek-V3 訓練過程的經濟成本。表 1 對此進行了彙總,良好的成績來自我們高度最佳化演算法、框架及硬體之間的協同設計。在預訓練階段,在每萬億個 token 上訓練 DeepSeek V3 只需要 18 萬個 H800 GPU 時,就是說在我們包含 2048 張 H800 GPU 的叢集上,僅需 3.7 天。因此,我們的預訓練階段在兩個月之內順利完成,共耗費 266.4 萬個 GPU 時。再加上上下文長度擴充套件的 11.9 萬個 GPU 時和後訓練的 0.5 萬個 GPU 時,DeepSeek V3 的完整訓練僅耗費 278.8 萬個 GPU 時。假設 H800 GPU 的租賃價格為每 GPU 時 2 美元,則我們的總訓練成本僅為 557.6 萬美元。請注意上述成本僅涵蓋 DeepSeek V3 的正式訓練階段,不涉及與架構、演算法或資料相關的先前研究與消融實驗相關成本。
也就是說,單靠 557.6 萬美元是不足以重現 DeepSeek 的。
還是很難相信這樣的數字……
實際上,誰質疑就該由誰舉證。至少在瞭解了 V3 架構之後,實在沒理由繼續懷疑。
DeepSeekMoE 的效率極其驚人:V3 擁有 671B 引數,但活躍專家中每 token 只需計算 37B 引數,相當於每 token 對應 3333 億次浮點運算。這裡還要提到另一項 DeepSeek 創新:雖然引數是以 BF16 或 FP32 的精度進行儲存,但在計算時會降低至 FP8 精度;而 2048 張 H800 GPU 的算力容量為 3.97 百億億次,即 397 億億次浮點運算。同時,訓練集由 14.8 萬億個 token 組成;因此計算下來,就能發現 280 萬個 H800 時確實足以完成 V3 模型訓練。再次強調,這只是最後一輪執行的成本、而非總成本,但數字本身是絕對合理的。
Scale AI 公司 CEO Alexandr Wang 說,DeepSeek 手裡有 5 萬張 H100。
我不知道他是從哪得到的訊息,估計是 Dylan Patel 在 2024 年 11 月 釋出的推文,其中提到 DeepSeek 擁有“超過 5 萬張 Hopper GPU”。沒錯,H800 確實也算 Hopper GPU,只是受美國禁令限制,其記憶體頻寬要比 H100 低得多。
而且很明顯,前面提到的很多創新都是為了克服 H800 相較於 H100 記憶體頻寬不足這一先天頑疾。另外,如果真的對前面提到的數字進行驗證,大家就會發現 DeepSeek 其實還留有算力餘量;這是因為 DeepSeek 專門對每張 H800 上的 20 個處理單元(總計 132 個)進行了程式設計,專門用於管理跨晶片通訊。這在 CUDA 層面根本就做不到,所以 DeepSeek 不得不下探到 PTX,也就是英偉達 GPU 的低階指令集,類似於組合語言。這樣的最佳化深度堪稱瘋狂,也只在使用 H800 的情況下才有意義。
與此同時,DeepSeek 還要留出 GPU 資源支援模型的推理服務——這裡需要的硬體量甚至要遠遠超過訓練階段。
那這是不是違反了晶片禁令?
完全沒有,晶片禁令管控的是 H100,但 H800 除外。之前,人人都誤以為訓練頂尖模型必須要依託於更大的晶片間記憶體頻寬。而 DeepSeek 針對這個方向入手,透過模型結構與基礎設施最佳化順利克服了難題。
再次強調,DeepSeek 在模型設計過程中做出的所有決策,都只在使用閹割版 H800 GPU 時才有意義。如果 DeepSeek 手中真的握有 H100,他們可能會使用更大的訓練叢集,完全沒必要揪著頻寬不足做這麼深層的最佳化。
所以說,V3 是一款頂尖模型?
絕對能跟 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 掰掰手腕,而且似乎比 Llama 家族的旗艦級模型還更勝一籌。就目前的情況看,DeepSeek 很可能對這些主流頂尖模型進行了蒸餾,利用得到的高質量 token 支援 V3 模型的訓練。
蒸餾是什麼?
所謂蒸餾,是一種從模型當中提取理解成果的方法。我們可以將輸入傳送至教師模型並記錄輸出,再用這些輸出來訓練學生模型。GPT-4 Turbo 就是用這樣的方式脫胎於原版 GPT-4。對於企業來說,在自家模型上進行蒸餾難度更低,畢竟擁有完全訪問權嘛。但透過別家廠商開放的 API 以相對笨拙的方式實現蒸餾也沒問題,甚至單純經由聊天客戶端同樣能夠實現。
蒸餾顯然違反了各家大模型的服務條款,但唯一的阻止方法就是封禁 IP、限制訪問速率之類。而且大家心知肚明,誰家的模型訓練不蒸餾別家的大模型呢?也正因為如此,才會有越來越多的模型在質量上愈發趨近 GPT-4o。這裡要強調一句,我們並不確定 DeepSeek 是否蒸餾了 4o 或者 Claude,但坦率地講,不這麼做反而才是有違行業慣例。
靠蒸餾提升質量,對頂尖模型來說好像不是好事……
這事要分兩面看。從積極角度出發,OpenAI、Anthropic 和谷歌幾乎肯定會用蒸餾的方式來最佳化自家面向消費者的應用級推理模型;而從消極的一面來看,主流 AI 大廠承擔了訓練前沿技術的全部成本,其他人則可以直接搭便車。
事實上,這可能也是微軟和 OpenAI 關係愈發疏離的核心經濟因素。微軟希望為自家客戶提供推理服務,但對資助 1000 億美元的資料中心來訓練頂尖模型卻熱情不高,畢竟由此帶來的技術優勢維持不了多久就會被他人“抄去”,大大貶損千億投入的真實回報。
就是因為這點,各大科技巨頭的股價才會應聲狂跌嗎?
從長遠來看,DeepSeek 用實力證明的模型商品化與低成本推理,對科技巨頭其實是件好事。如果微軟真能以極低的成本為客戶提供推理任務,那就能大大減少在資料中心和 GPU 層面的支出;換個角度講,隨著推理成本的降低,受眾群體也將迅速擴張。另一位大贏家則是亞馬遜:總的來講,亞馬遜雲科技並沒能打造出自家的專屬高質量模型;但如果有頂尖開源模型以遠低於預期的成本過來支援,那麼直接貫徹拿來主義就好。
蘋果同樣可以從中獲利。推理對於記憶體容量需求的大幅降低,使得邊緣推理用例更具可行性,而蘋果擁有著市面上最好的終端硬體。Apple Silicon 使用統一記憶體,意味著 CPU、GPU 和 NPU(神經處理單元)可以訪問共享記憶體池,因此蘋果的高階硬體平臺實際上擁有著最強大的消費級推理晶片(英偉達遊戲 GPU 的最大視訊記憶體為 32 GB,而蘋果晶片則高達 192 GB)。
但要說獲益最大的,還得是 Meta。AI 的發展對於 Meta 旗下的各條業務線都有積極的推進什麼作用,而實現這一願景的核心障礙就是推理成本。也就是說,要想繼續保持領先地位,Meta 必須找到大幅降低訓練、特別是推理成本的可行路徑。而 DeepSeek 的成果,證明這條路徑真實存在。
另一方面,谷歌的情況可能比較被動。硬體要求的降低削弱了谷歌從自家 TPU 中獲取的相對優勢。更重要的是,零成本推理的新時代也讓更多產品有望取代谷歌搜尋。當然,谷歌自己的推理成本也會隨之降低,所以是憂是喜仍在未定之天。
別跑題哦,之前問提各大巨頭為什麼股價下跌,但你卻忙著憧憬未來!
我講的是長期影響,而當前的種種波動只是暫時變化,頂多算 R1 釋出掀起的點點漣漪。
終於說到 R1 了,具體聊聊吧。
R1 是類似於 OpenAI o1 那樣的推理模型。它能夠深入思考問題併產生更高質量的結果,特別是在編碼、數學和邏輯等領域。
那 R1 要比 V3 更強、更讓人眼前一亮嗎?
前面之所以一直在討論 V3,是因為當前很多討論和爭議的根源都來自於它。而 R1 之所以引人注目,則是因為在它前面市面上就只有 o1 這棵推理獨苗,也是 OpenAI 維持其市場領導者地位的典型標誌。
R1 在好幾個重要方面都打破了 o1 的神話。首先,它確實存在,證明 OpenAI 並沒有什麼無法為他人掌握的魔力。其次,R1 與 DeepSeek 家的其他模型一樣,都對外開放權重(之所以對其「開源」身份有爭議,主要是集中在未開放訓練資料上)。就是說大家無需向 OpenAI 付費,也能在自己的伺服器甚至本地裝置上執行 R1,大大降低推理成本。
DeepSeek 是怎麼開發出 R1 的?
DeepSeek 實際上開發了兩款模型:R1 和 R1-Zero。我個人覺得 R1-Zero 其實更重要,下面援引 DeepSeek 的論文:
在本文中,我們邁出了使用純強化學習(RL)提高語言模型推理能力的第一步。我們的目標是探索大語言模型在不借助任何監督資料的情況下,發展出推理能力的潛在可能性,且重點關注大模型透過純強化學習過程的自我進化。具體來講,我們使用 DeepSeek-V3-Base 作為基礎模型,並使用 GRPO 作為強化學習模型以提高模型在推理方面的效能。在訓練過程中,DeepSeek-R1-Zero 自然而然地展現出諸多強大且有趣的推理行為。經過數千個強化學習步驟之後,DeepSeek-R1-Zero 在推理基準測試上表現出超強的效能。例如,其 AIME 2024 的 pass@1 得分從 15.6% 提升至 71.0%;在配合多數投票法之後,其得分進一步提升至 86.7%,與 OpenAI-o1-0912 的表現相當。
強化學習是一種技術手段,強調為機器學習模型設定大量資料與獎勵函式。經典的例子就是 AlphaGo,DeepMind 為該模型輸入了圍棋規則,並以刻比賽作為獎勵函式,而後放手讓模型自主解決其他所有問題。眾所周知,這種方法比其他強調人為介入的技術效果更好。
但迄今為止,大語言模型一直依賴於帶有人類反饋的強化學習(RLHF)——即人類參與其中、幫助指導模型,在獎勵不明顯的情況下引導其做出艱難選擇。RLHF 正是 GPT-3 躍升為 ChatGPT 的關鍵創新方法,將原本囈語夢話般的輸出轉化為格式良好、簡潔清晰的段落。
然而,R1-Zero 放棄了人類反饋的部分,純粹採用強化學習。DeepSeek 為該模型提供一組數學、編碼和邏輯問題,並設定了兩個獎勵函式:其一用於獎勵正確答案,其二用於獎勵思考過程中的正確格式。此外,這項技術本身還非常簡單:DeepSeek 並不會逐步評估(過程監督)或者搜尋所有潛在答案(AlphaGo 就屬於這一類),而是鼓勵模型一次嘗試多個不同答案,再根據兩條獎勵函式對其進行評分。
一款能夠自主開發推理與思維鏈的模型就此誕生,DeepSeek 甚至在其中觀察到了“頓悟時刻”:
在 DeepSeek-R1-Zero 訓練期間,我們觀察到了一種特別有趣的現象,即“頓悟時刻”。如表 3 所示,頓悟時刻出現在模型的中間版本。在此階段,DeepSeek-R1-Zero 透過重新評估其初始方法學會了為問題分配更多思考時間。這種行為不僅證明模型的推理能力在不斷增強,同時也有力展現出強化學習產出預料之外的複雜結果的可能性。
這代表的不僅是模型自身的“頓悟時刻”,更是觀察其行為的研究人員們的“頓悟時刻”。這一瞬間,強化學習的魅力與潛能得到充分體現:我們無需明確指導模型如何解決問題,而只需為其提供正確激勵,它就會自主探索出高階問題的解決策略。“頓悟時刻”再次明確提醒我們,強化學習完全有可能在 AI 系統中啟發出新的智慧水平,為未來自主程度更高、適應性更強模型的誕生鋪平道路。
這也是自生成式 AI 浪潮興起以來,我們學到的最重要的一課:不需要教 AI 如何推理,只需提供充足的計算和資料資源,它自己就能掌握!
更準確地講,R1-Zero 表現出了類似於推理的能力,只是具體方式無法為人類所理解。讓我們回到論文:
然而,DeepSeek-R1-Zero 也遇到了可讀性、語言雜糅等挑戰。為了解決這些問題並進一步提高推理效能,我們釋出了 DeepSeek-R1,強調將少量冷啟動資料與多階段訓練管線結合起來。具體來講,我們首先收集了數千條冷啟動資料來微調 DeepSeek-V3-Base 模型。之後,我們執行面向推理的強化學習,例如 DeepSeek-R1-Zero。在強化學習接近收斂之後,我們透過對檢查點進行拒絕取樣以建立新的 SFT 資料,同時輔以 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督資料,藉此重新訓練 DeepSeek-V3-Base 模型。在使用新資料進行微調之後,檢查點經歷了額外的強化學習過程,充分考慮到各類提示詞應用場景。完成這些步驟之後,我們獲得了名為 DeepSeek-R1 的檢查點,其效能與 OpenAI-o1-1217 基本相當。
這似乎跟 OpenAI 當初開發 o1 的流程頗為相似:DeepSeek 從大量思維鏈示例出發以建立模型,確保其能夠學習適合人類使用的格式,而後進行強化學習以增強其推理能力,再輔以一系列編輯與細化步驟。最終得到的,就是一款在能力上幾乎與 o1 不相上下的強大推理模型。
這再次表明 DeepSeek 從蒸餾當中獲益良多,R1 的訓練過程和誕生幾乎就是標準的蒸餾模板。這本身就是一種重要收穫:現在 AI 模型能夠教導 AI 模型,就如同上一次工業革命期間機器能夠製造出更強的機器。
那我們是不是離通用人工智慧(AGI)越來越近了?
看起來確實如此。這也解釋了為什麼軟銀集團願意為 OpenAI 提供資金,但微軟不願意。歷史的轉折點似乎越來越近,而誰能率先衝線,誰就能獲得難以想象的回報。
但現在不是 R1 略佔優勢嗎?
這倒不一定,我覺得人們對 R1 的表現有點言過其實。R1 確實能跟 o1 比劃比劃,但其功能中仍存在不少缺陷,似乎也證明了它就是從 o1-Pro 中蒸餾而來。與此同時,OpenAI 那邊又公佈了 o3,一款更加強大的推理模型。DeepSeek 在效率方面確實是最強王者,但距離絕對領先還有很長的路要走。
既然如此,為什麼人們一幅驚惶失措的樣子?
我覺得這背後有很複雜的原因。首先,人們之前一直覺得中國在軟體方面落後於美國,而這次在前沿 AI 領域迎頭趕上不啻於一記當頭棒喝。事實上,中國其實擁有極其成熟的軟體開發行業,而且在 AI 模型構建方面也一直表現出色。
其次就是 V3 的低訓練成本和 DeepSeek 低推理成本讓人意外。這對我個人來講也是份巨大的驚喜,但數字本身又合情合理。訊息一齣,大家對於英偉達穩固的江湖地位產生了懷疑,懷疑情緒又進一步引起了市場震盪。
第三,儘管晶片禁令看似狠辣,但仍擋不住 DeepSeek 邁向成功的腳步。雖然眾說紛紜,但我個人認為 DeepSeek 很可能就是依靠合法進口的晶片達成了這個目標。
那買了英偉達股票的朋友應該害怕嗎?
不好說,但 DeepSeek 的成功確實對英偉達造成了雙重衝擊。目前,英偉達想要維持其天價市值,依靠的是兩大護城河:
  • CUDA 是所有大語言模型開發者的首選語言,而 CUDA 僅適用於英偉達晶片。
  • 英偉達在將多塊晶片組合成大型虛擬 GPU 的能力方面,擁有著巨大的領先優勢。
這兩條護城河相互纏繞,共同構成了堅固的防禦工事。前面也提到過,如果 DeepSeek 能夠用上 H100,就可以構建更大的叢集來訓練自己的模型,而這也是更簡單、更符合邏輯的直觀選擇。但他們用不上,對中國合法出口的 H800 GPU 頻寬受限,因此 DeepSeek 被迫在模型架構和訓練基礎設施方面做出一系列深層最佳化。至於美國這邊的實驗室,因為英偉達一直在釋出更強大的 GPU 系統來滿足需求,所以他們根本不需要花太多時間考慮最佳化。就是說,最省時省力的辦法就是向英偉達付費。然而,DeepSeek 剛剛證明了另一條技術路線的可行性:在較弱的硬體和較低的記憶體頻寬之下,深度最佳化完全可以產生顯著效果。換言之,純粹砸錢採購英偉達頂尖硬體並不是開發高質量大模型的唯一方法。
需要強調的是,有三大因素仍然牢牢支撐著英偉達的業務體系。首先,如果把 DeepSeek 的方法應用在 H100 或者即將推出的 GB100 上,其能力會提升到何種程度?有人找到了更高效的計算方式,並不代表多堆算力就沒用了。其次,從長遠來看,更低的推理成本應該會拉動更高的普及率。微軟公司 CEO Satya Nadella 還專門深夜釋出推文做出說明:
傑文斯悖論又來了!隨著 AI 技術越來越高效和普及,我們將見證其使用量猛增,成為一種供永遠不足以應求的商品。
第三,像 R1 和 o1 這樣的推理模型,原則上仍然是在用更多算力來換取更強的效能。AI 靠更多計算資源實現自身提升的發展本質並沒有變化,所以英偉達仍然可以從中受益!
但必須承認,壞訊息也是有的。至少在短期之內,DeepSeek 那強大的效率和廣泛普及可能會讓人們對英偉達之前過度樂觀的發展敘事產生懷疑。模型和基礎設施最佳化的回報也表明,探索替代性推理實現方法可以帶來顯著回報。例如,在獨立 AMD GPU 上執行推理可能更為合理,這就回避了 AMD 陣營相對較差的晶片間通訊能力。此外,推理模型在英偉達之外的專用型推理晶片上,也將擁有更好的效益表現。
簡而言之,英偉達的優勢地位不會動搖;只能說市場反應是非更改的,英偉達股價震盪體現的更多是新增變數帶來的不確定性,並且在人群之間不斷被傳播和放大。
那麼,晶片禁令還有用嗎?
簡單來講,考慮到美國在軟體領域的領先地位正迅速消失,晶片禁令的重要性只會更加突出。軟體和專有技術無法被禁運,但擁有物理實體的晶片可以,美國有充分的理由不允許其進入中國。
與此同時,我們也應當客觀承認,此前的晶片禁令似乎反而導致了 DeepSeek 的深度創新。此外,這些創新不僅會滲透至經由走私渠道外流的英偉達晶片或者閹割版晶片(如 H800),還會延伸至華為的 Ascend 昇騰晶片。更粗暴地講,如今英偉達股價暴跌的起點,就在於當初的晶片禁令。
更令人擔心的還有晶片禁令背後的畸形心態:美國不再透過鼓勵創新來參與國際競爭,而是透過否定創新來維持領先地位。沒錯,這在短期之內可能有所幫助——畢竟如果算力更強,那麼 DeepSeek 的表現沒準會更好——但從長遠來看,這也為美國佔據主導地位的晶片和半導體行業的整體衰落埋下了禍根。
就像現在的 AI 模型?
AI 模型確實是個典型案例。文章開頭,我就提到後面會具體講講 OpenAI 的最大“遺毒”,這就是拜登於 2023 年簽發的 AI 行政命令。我曾經評論稱:
重點在於:如果接受了靠監管手段幫助領先者繼續保持領先這個邏輯,大家就能很快意識到,天天在政府層面鼓吹 AI 威脅論的反而就是那幫在 AI 領域佔據了優勢的早期贏家。雖然他們的擔憂還不足以阻止整個行業的發展,但從收效來看,這首先表明他們都是負責任的從業者、是那種關注公益並願意呼籲監管的好人;其次,如果能夠藉此機會順便打壓一下那幫潛在競爭對手,那就更好了。
沒錯,這裡說的就是 OpenAI,當然也適用於舊金山周邊的廣泛 AI 社群。多年以來,正是這幫致力於構建並控制 AI 的傢伙們天天大呼小叫,強調自己擔心 AI 的潛在威脅。正是出於對這些所謂“危險”的考慮,他們才在 2019 年釋出 GPT-2 時讓 OpenAI 成了“CloseAI”:
由於擔心大語言模型會被用於大規模生成欺騙性、偏見性或者辱罵性語言,我們只發布了較小版本的 GPT-2 及部分取樣程式碼。我們不會發豈有此理資料集、訓練程式碼或者 GPT0-2 模型權重……這是為了避免某些研究人員重現並開源我們的成果。我們希望用這樣的釋出策略限制重現和開源速度,讓整個 AI 社群有更多時間認真討論此類系統可能造成的影響。
我們還認為,政府應當考慮擴大或啟動一些計劃,以更系統的方式監控 AI 技術的社會影響和傳播,並衡量此類系統的能力進展。如果繼續實施,這些努力可以為 AI 實驗室和政府在釋出決策並圍繞 AI 制定廣泛指導時提供更好的證據基礎。
看看,多麼傲慢、狂妄而且無知:短短六年之後,世界上就出現了人人可用而且效率明顯更高的模型。OpenAI 這套經由美國政府強制執行的控制策略已經徹底失敗。與此同時,由於頂尖模型拒絕開放權重,有多少創新不得不中道崩殂?總而言之,我們都知道大廠們花了無數時間和精力去遊說政府為其建立強制性的政策護城河,而 DeepSeek 的出現瞬間摧毀了這些障壁,讓更多人意識到巨頭們本該把這部分資源投入到實際創新當中。
所以,你不擔心 AI 引發世界末日?
我能理解很多人對此抱有憂慮,但前面提到,我們正處於 AI 訓練 AI 並自主學習推理的階段。而且必須承認,這列火車一旦動起來就不會再停下了。既然如此,開放才顯得如此重要且迫切:與其讓某個不負責任的董事會統治所有人,還不如讓這個世界孕育出更多 AI 方案。
既然如此,為什麼中方要開源他們的模型?
確實,DeepSeek 就選擇了開源路線,公司 CEO 梁文鋒在一次採訪中提到,開源是吸引人才的關鍵:
面對顛覆性技術,閉源創造的護城河始終是暫時的。即使是 OpenAI 的閉源方法,也無法阻止其他人迎頭趕上。所以我們決定把價值錨定在自身團隊上——我們的同事在過程中迅速成長、積累專業知識並形成以創新為中心的組織結構和文化體系。這才是我們真正的護城河。
事實上,開源和發表論文並不會造成真正的損失。對於技術人才來說,讓他人追隨自己的創新成果是這個世界上最有成就感的事情。而且開源更多是一種文化行為、而非商業行為,為開源做貢獻能夠贏得尊重。所以願意參與開源專案的企業,也會在文化上得到優秀人才的肯定。
採訪中,記者向梁文鋒提出這樣一個問題:
如今的 DeepSeek 明顯籠罩著一層理想主義光環,不禁讓人想起早期的 OpenAI,那時他們也在走開源路線。您以後會轉向閉源嗎?畢竟 OpenAI 和 Mistral 都經歷了這樣的轉變。我們不會轉向閉源,因為我們認為建立強大技術生態系統才是重中之重。
這不只是純粹的理想主義。如果把大模型看作商品——也確實是這樣——那麼要想長期維持差異化優勢,就必須擁有優越的成本結構,而這正是 DeepSeek 乃至中國在所主導的各個產業當中秉持的一貫原則。這也跟大多數美國企業對於差異化優勢的看法相反,美方總是強調依靠差異化優勢維持更高的溢價和利潤率。
那麼,OpenAI 是不是快完了?
這可不一定。ChatGPT 的出現讓 OpenAI 意外成為一家消費科技廠商,或者說一家做產品的廠商。有了這條途徑,OpenAI 可以把自己的成果嵌入到訂閱服務和廣告營銷中去,在具有商品化潛力的模型之上建立起可持續的消費者業務。因此,把握住這種可持續性,就意味著 OpenAI 始終擁有 AI 決賽圈的入場券。
另一方面,Anthropic 可能才是最近這段時間最大的輸家。DeepSeek 在蘋果 App Store 中排名第一,而 Claude 在矽谷以外的關注度則仍然極其有限。雖然其 API 業務有所好轉,但半途而廢,API 業務才最容易受到這股已經勢不可擋的商品化趨勢的衝擊(請注意,OpenAI 和 Anthropic 的推理成本明顯比 DeepSeek 高得多,之前能生存是因為他們擁有更大的利潤空間,但這種空間正在急速萎縮)。
所以說,DeepSeek 帶來的全都是壞訊息嘍?
絕對不是。我認為 DeepSeek 其實是給每個人提供了一份豐厚的新年禮物。最大的贏家,一定是那些能夠以幾乎免費的方式享受頂尖 AI 產品和服務的消費者與企業。從長遠來看,傑文斯悖論將成為主流,讓每個能用上 AI 的人都成為時代發展的受益者。
除此之外,大型消費科技公司也將從中獲益。在 AI 免費的新時代,產品和分銷渠道才是核心資源,而這些公司已經牢牢把握住了消費的出口。
中國也將成為大贏家,而且我相信這種優勢會隨著時間推移而逐漸顯現。這不僅體現在中國人能夠更順暢地使用 DeepSeek,這位後起之秀在與美國領先 AI 實驗室的競爭中取得相對領先,應該也會進一步激發中國的創新能力,讓更多人意識到自己在世界最頂尖的競技場上也有一戰之力。
現在壓力來到了美國這邊,是時候做出選擇了。最直接的選項當然就是繼續加大防禦力度,例如推動晶片禁令擴大化,並對晶片和半導體裝置實施許可形式的嚴格監管;當然,美國也可以放下架子,在承認自己已經並非絕對領先的同時全身心投入到新一輪競爭當中。不要再鼓吹焦慮、也不要再為設立監管壁壘而奔走遊說了——勇敢選擇正確的道路,清除組織體系中與達成技術勝利無關的一切垃圾。拒絕競爭,美國只會慢性死亡;參與競爭,就還有一半的獲勝機會。而如果美國未來能夠復興,應當感謝 DeepSeek 這家來自中國、此前寂寂無名的公司。
原文連結:
https://stratechery.com/2025/deepseek-faq/
宣告:本文為 InfoQ 翻譯,未經許可禁止轉載。
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章