橫空出世的AI應用DeepSeek，何以引爆全球？

2 月 8 日，QuestMobile 資料顯示，DeepSeek 的手機應用日活躍使用者數已經突破了 3000 萬，成為史上最快達成這一里程碑的應用。很多朋友可能也感受到了，在春節假期結束之後，DeepSeek 的伺服器仍然繁忙。在一月底，DeepSeek 就登頂了全球 149 個國家和地區的 App Store。而這時候距離他們推出手機上的應用，只過去了兩週。

和國內其他的 AI 公司相比，DeepSeek 此前受到的關注並不多，這家公司成立於2023年，背後是在股票市場的私募巨頭幻方。但是最近兩個月，DeepSeek 連續釋出了 v3 和 r1 兩個模型，有行業人士認為，DeepSeek 的 v3 可以和 GPT-4o 對標， r1 則和 OpenAI 的 o1 能力接近。OpenAI 的首席研究官 Mark Chen 在社交媒體上承認，DeepSeek 獨立發現了一些 OpenAI o1 模型的核心 idea。

風險投資機構 a16z 創始人 Marc Andreessen 甚至把 R1 稱為「人工智慧的 Sputnik 時刻」，其中 Sputnik 是前蘇聯於 1957 年先於美國發射的人造衛星。

▲ Marc Andreessen 發表在 X 上的言論 | 圖源：X

為什麼 DeepSeek 引起了全球關注？

知名網際網路分析師 Ben Thompson 認為，DeepSeek r1 所展現出的一些技術突破，實際上在之前的 v3、v2 等模型上就已經出現了。比如 DeepSeek 參照 GPT-4 的技術路線，引入了mixture of experts ，混合專家模型。GPT-3.5 會在訓練和推理期間啟用整個模型，然而在使用的過程中，並不是模型的每個部分都是必要的。混合專家模型將整個模型分成多個「專家」，只啟用那些必要的部分，像是 OpenAI 的 GPT-4 就是一個擁有 16 個專家的模型。而 DeepSeek 的混合專家模型，把專家的領域細分得更精細，專家水平提高的同時，DeepSeek 還引入了共享專家的概念，減少專家之間出現重複的知識，這也就導致了 DeepSeek 的模型不僅可以在訓練時更高效、使用時速度也會更快。

▲ 混合專家模型介紹 | 圖源：huggingface

DeepSeek r1 是全球大部分使用者接觸的第一個推理模型，在 DeepSeek r1 之前，想要使用推理模型，只能每個月向 OpenAI 支付會員費來使用 o1 模型。按照 OpenAI 的說法，推理模型可以識別、糾正自己的錯誤。還能將棘手的步驟分解為更簡單的步驟。當目前的方法不起作用時，AI 學會了嘗試不同的方法。這個過程顯著提高了模型的推理能力。

第一財經雜誌的分析認為，這類思考過程同時也是各個人工智慧公司想要保密的重要資料資產。如果在 ChatGPT 中詢問它的 o1 模型是如何思考的，幾次之後，OpenAI可能就會警告要撤銷賬號了。但是 DeepSeek 會把 AI 思考的過程完全地展示出來，甚至還加入了搜尋功能，可以檢索外部的資訊。DeepSeek 表示，他們在訓練 r1 的過程中，沒有采用業界的傳統方法，也就是「基於人類反饋的強化學習」，而是去掉了其中人類反饋的部分，儘管訓練初期的效果並不理想，但是隨著訓練的推進，模型可以不斷進化，自己開發更高階的解答策略。

和其他 AI 開發者相比，DeepSeek 有一項優於傳統方法的新技術：MLA，全稱是Multi-Head Latent Attention，也就是多頭潛在注意力機制，這項技術大大降低了推理過程中的記憶體使用量。這也使得 DeepSeek 回答使用者問題的速度更快，成本更低。實際上在去年的 8 月，DeepSeek 就大幅度降低了 API 介面的費用，引發百度、位元組等公司跟進，開啟了大模型的價格戰，DeepSeek 創始人梁文峰表示，他們的原則是不貼錢，但也不賺取暴利。下調後價格在成本之上，稍微有點利潤。

▲ 在 DeepSeek-V2 的基礎上，DeepSeek-V3採用了 MLA 和 DeepSeekMoE 來實現高效推理和經濟的訓練策略，以減輕確保負載均衡所帶來的效能下降。 | 圖源：DeepSeek 技術文件

DeepSeek 公開的資訊顯示，他們的 V3 模型，單次的訓練成本不到 600 萬美元，大幅低於其他開源模型。不過 600 萬美元的金額並不是 DeepSeek 的全部成本，這其中既不包含他們購買晶片的開支、人員的工資，也沒有模型開發的前期費用。

知名半導體研究機構 Semianalysis 認為，DeepSeek 在硬體上的支出遠超過 5 億美元。他們為了開發新的架構，在模型開發過程中，花費了大量資金進行測試。

即便如此，DeepSeek 的低成本也引發了美國 AI 行業的震動。彭博的報道顯示，一些美國 AI 公司把錢當成是自己公司的護城河，因為其他公司很難募集到幾十億、上百億的美金，而 DeepSeek 的出現打破了這種局面，他們在成本不高的情況下，也可以訓練出領先的 AI 模型，美國公司不再是 AI 領域的必勝者。

根據彭博的報道，一般來說，開源指的是原始碼可以自由獲取的軟體，任何人都可以使用或修改。與之相對應的閉源則意味著開發者控制程式碼、使用者無法修改，並且在技術方面的透明度比較低。

DeepSeek 採用了開源的路線，任何人都可以在自己的伺服器或裝置上部署 DeepSeek 的模型，相比之下 OpenAI、Anthropic 和 Google 等美國 AI 公司的研究幾乎完全保密的，圖靈獎得主楊立昆表示，DeepSeek 的成果展現了開源的力量。

梁文峰此前在接受 36Kr 的採訪時表示，選擇開源是因為在顛覆性的技術面前，閉源形成的護城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超。開源也可以幫助他們吸引技術人才。

彭博的分析認為，開源模型可以免費使用，能夠推動人工智慧更廣泛地使用，而開發成本降低還能促進創新。根據路透社的報道，部分歐洲的初創公司已經從 ChatGPT 切換到 DeepSeek，來構建自己的產品。

可以說 DeepSeek r1 的釋出，讓過年的中國人忙著和 AI 對話，那麼 DeepSeek 還對整個行業產生了哪些影響呢？

緊隨 DeepSeek，OpenAI 推出了新的推理模型 o3-mini，還向付費使用者推出了一種深度研究模式，讓 ChatGPT 在網際網路上進行多步驟的研究，最終完成一項複雜的任務，還能讓使用者看到 ChatGPT 「思考」的過程。

同樣開源了自家模型的 Meta，則陷入了恐慌，根據 The information 的報道，Meta 設立了幾個專門的研究小組，深入的研究 DeepSeek 的模型，並以此改進 Meta 自己的模型。

Anthropic 的創始人 Dario Amodei 認為 DeepSeek 的成就被誇大了，但他也在號召美國加強AI晶片的出口管制。

▲ 各家 AI 模型的訓練-能力比 | 圖源：U.S. Global Investors

1 月 27 日，受到 DeepSeek 的影響，美國科技股蒸發了近一萬億美元，其中英偉達的股價暴跌 17%，市值減少了 6000 億美元，這也是全球歷史上一家公司單日市值減少的最大紀錄。

部分投資者擔心 DeepSeek 的出現會顯著降低 AI 訓練的成本，因此拋售英偉達的股票。不過微軟執行長納德拉在社交平臺引用「傑文斯悖論」，認為提高效率反而可能增加資源的總消耗量。也就是說 DeepSeek 降低了訓練成本、提高了 AI 晶片的效率，反而使得技術的普及更加廣泛，而 AI 應用的普及反而會增加對 AI 晶片的需求。

此外，在一眾科技公司股價下跌的同時，蘋果的股價反而出現了上漲，有分析師認為，和其他科技巨頭相比，蘋果更側重於在自己的產品上整合大模型，而不是進行 AI 的開發。與此同時，AI 資料中心導致了對電力需求的增加，微軟、亞馬遜等多家公司甚至計劃使用核能為自己的資料中心供電，DeepSeek 還導致了一眾能源公司的股價下跌。

不過，DeepSeek 在爆火的同時，也引發了一系列爭議，比如美國公司 Scale AI 的執行長 Alexandr Wang 在接受 CNBC 採訪時聲稱，DeepSeek 擁有5萬塊英偉達 H100 晶片，DeepSeek 違反了美國的晶片禁運政策，才取得了模型突破。不過網際網路分析師 Ben Thompson 認為，DeepSeek 在設計模型時的思路，針對的是效能更低的 H800 晶片；如果 DeepSeek 能夠使用 H100，他們可能會採用不同的最佳化思路。

除了晶片問題，OpenAI 表示 DeepSeek 可能在訓練時透過蒸餾使用 OpenAI 的資料，DeepSeek 違反了 OpenAI 的使用者條款。不過彭博的專欄作家 Matt Levine 認為，DeepSeek 使用 OpenAI 的資料，實際上和 OpenAI 使用未授權的書籍、雜誌來訓練模型本質上是類似的。儘管 OpenAI 已經和眾多的出版機構達成了授權協議，但是OpenAI 和紐約時報的訴訟仍在進行中，對於 AI 訓練時使用資料的智慧財產權問題，各個國家的法律仍然沒有明確的判斷標準。美國科技部落格 Techdirt 創始人 Mike Masnick 認為，OpenAI 指控他人使用自己的資料，同時認為這樣的行為是侵權，是十分可笑的。

DeepSeek 作為一家中國公司，還面臨著海外的政策風險。根據華爾街日報的報道，2 月 6 日，美國國會兩黨的議員計劃提出一項法案，想要禁止在美國政府的裝置上使用 DeepSeek。