‍DeepSeek爆火背後，必須看清的3大趨勢

內容來源：量子教育，企業人才培養優質內容及創新解決方案服務商。

分享嘉賓：陳暘，阿里雲MVP，清華大學計算機博士。

高階筆記達人 | 李雲責編 | 柒排版 | 拾零第 8840篇深度好文：7662字 | 20 分鐘閱讀

宏觀趨勢

筆記君說：

春節前夕，DeepSeek-R1模型公佈開源，下載量迅速登上了免費榜榜首。隨後，引起了美國資本市場的大波動，算力巨頭英偉達出現了股價暴跌17%的罕見跌幅……

開源後的DeepSeek到底對資本、科技產生了何種影響？是什麼讓其具有這麼大的能量？我們如何擁抱DeepSeek帶來的新AI時代？繼DeepSeek之後，AI將有什麼新的趨勢？

這篇文章，將由清華大學計算機博士、阿里雲MVP（人工智慧領域最有價值專家）陳暘為我們一一解讀上述問題。

一、DeepSeek的影響力

1.對手惶恐，資本青睞

2025年1月20日，DeepSeek-R1模型正式公佈；1月26日在中國區、美國區蘋果App Store中的免費榜上同時衝到了第一名。

隨後，美國資本市場出現大幅波動，標準普爾500指數在10天內跌幅接近10%。英偉達股票在1月27日當天暴跌了17%，美股主要科技公司(英偉達、微軟、Meta、亞馬遜等)市值共計蒸發上萬億美元。

在DeepSeek-R1出現前，算力是大模型訓練的關鍵因素，美國限制中國使用英偉達的顯示卡，因此大家普遍會認為美國在AI大模型的領先優勢是“斷層式”的，這也是美國對華科技限制採取“小院高牆”戰略的底層邏輯。

DeepSeek用少量的顯示卡訓練出了與其媲美的模型，相當於打破了美國對華在人工智慧領域的戰略限制。

就連OpenAI的CEO山姆奧特曼也重新思考了OpenAI的開源戰略，迅速推出了o3-mini模型，在使用中開放了思考推理過程。

在這之前，OpenAI並不是完全開源的，我們只能使用o1模型，現在我們也可以使用其o3模型進行更深入的思考。

透過OpenAI o3 mini與DeepSeek R1的使用對比，可以發現DeepSeek-R1的思考時間更長，思考邏輯更完整，推理結果更好。

同時，DeepSeek會將推理過程完整地展現出來，而OpenAI以前不會展示思考的過程，而思考的過程其實非常有價值的。

今年1月，美國宣佈“星際之門”計劃，軟銀向OpenAI投資400億美元，用於OpenAI對星際之門的承諾，投後估值達3000億美元；而具有對標OpenAI能力的DeepSeek，同樣受到國內近百家資本的青睞，對其表達了投資意向，可以預見DeepSeek的估值將會上到一個新的高度。

2.DeepSeek開源，行業爭相部署

在DeepSeek宣佈開源R1之後，各個行業都開始整合或部署DeepSeek的相關模型。

國內的華為雲、百度智慧雲、阿里雲、騰訊雲、京東雲、火山引擎以及三大運營商等雲平臺都相繼部署了DeepSeek的R1/V3等模型。

國外的亞馬遜、微軟、英偉達、AMD等平臺也快速地將DeepSeek R1/V3模型部署或整合到相關的產品和服務上。

在產業端，吉利、嵐圖、東風、廣汽、智己、長城、寶駿、零跑等車企也宣佈與DeepSeek進行融合，未來智駕上也可以體驗到與DeepSeek的互動。

金融領域，國泰君安、國金證券、興業證券、廣發證券等證券機構進行了本地化部署和除錯，應用於行業研究、市場研判、風險管理、資訊檢索、文件處理等多種場景。

當然，部署與開發完成還需一定的測試過程，但也體現出各個行業不甘落後的狀態，也說明與先進的大模型融合使用將是大勢所趨。

二、DeepSeek撕破了算力面紗

1.DeepSeek的完全版與蒸餾版

DeepSeek完全版的尺寸是671B，由於採用創新的MOE架構，在推理過程中啟用少部分引數，因此推理速度更快，所需訓練資源更小。

DeepSeek蒸餾版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多個尺寸。它選了兩個開源模型進行訓練，國內是Qwen2.5，國外則選用了Llama，蒸餾模型更小更快，但能力相對弱一些。

對於效能要求不太高、GPU資源有限的企業，蒸餾版是一個更優選擇。因為完全版需要的視訊記憶體是496GB，而R1：1.5B只需要2G視訊記憶體、R1：7B也只需要8G視訊記憶體，最高的R1：70B蒸餾版也只需要128G視訊記憶體，大幅降低了私有化部署的資源要求。

2.蒸餾技術路線，讓DeepSeek R1效能大幅提升

在R1模型之前，DeepSeek推出V3通用模型，在推理速度上相較歷史模型有了大幅提升。一度在大模型主流榜單中，位於開源模型榜首，與世界最先進的閉源模型也不分伯仲。

而V3模型最大的特點是訓練成本極低，需要的顯示卡數量和訓練時間較於OpenAI只是一個零頭。

2024年12月，V3模型正式推出，但當時並沒有太大波瀾。

而以V3模型為基礎，透過新的獎勵機制GRPO(group relative policy optimization),並使用規則類驗證機制自動對輸出進行打分，在一個多月時間內訓練出了DeepSeek-R1模型，效能堪比GPT-o1模型，使R1迅速火出了圈。而R1模型與V3模型相比，其效能也有了大幅提升。

R1模型遵循MIT License（一種非常寬鬆的開源許可協議，允許使用者自由地使用、修改、分發和商業化軟體或模型。）,允許使用者透過蒸餾技術藉助R1訓練其他模型。

相比之下，Meta Llama的License相對嚴格，雖然LLaMA3是開源的，但許可協議限制了商業用途和對模型的修改，比如新的模型如果使用LLaMA,需要名稱上帶有LLaMA標識。

DeepSeek-R1上線API,對使用者開放思維鏈輸出，因此一經發布，多家企業就宣佈融合DeepSeek-R1的各個版本，因為是完全開源的模型，在版權上就減少了不少風險。

在開源DeepSeek-R1-Zero和DeepSeek-R1兩個660B模型的同時，透過DeepSeek-R1的輸出，蒸餾了6個小模型，其中32B和70B模型在多項能力上實現了對標0penAlo1-mini的效果.

3.DeepSeek的創新策略及產生的效果

① 創新策略

第一，引入MLA(Multi-Head Latent Attention)。

在“All you need is attention”的背景下，傳統的多頭注意力(MHA，Multi-Head Attention)的鍵值(KV)快取機制事實上對計算效率形成了較大阻礙。縮小KV快取(KV Cache)大小，並提高效能，在之前的模型架構中並未得到很好的解決。

DeepSeek引入了MLA，一種透過低秩鍵值聯合壓縮的注意力機制，在顯著減小KV快取的同時提高計算效率。低秩近似是快速矩陣計算的常用方法，在MLA之前很少用於大模型計算。

從大模型架構的演進情況來看，Prefill和KV Cache容量瓶頸的問題正一步步被新的模型架構攻克，巨大的KV Cache正逐漸成為歷史(實際上在2024年6月釋出的DeepSeek-V2就已經很好的降低了KV Cache的大小)。

第二，創新使用了DeepSeek-MoE架構策略。

V3使用了61個MoE(Mix of Expert混合專家)block，雖然總引數量很大，但每次訓練或推理時只激活了很少鏈路，訓練成本大大降低，推理速度顯著提高。

第三，DeepSeek採用混合精度框架。

在不同的區塊裡使用不同的精度來儲存資料。我們知道精度越高，記憶體佔用越多，運算複雜度越大。

DeepSeek在一些不需要很高精度的模組，使用很低的精度FP8儲存資料，極大的降低了訓練計算量。

② 創新策略帶來的效果

第一，計算速度快，成本低。

架構設計方面：DeepSeek MoE架構在推理時僅啟用部分專家，避免了啟用所有引數帶來的計算資源浪費；MLA架構透過降秩KV矩陣，減少了視訊記憶體消耗。

訓練策略方面：在訓練過程中採用多token預測(MTP)目標，即在每個位置上預測多個未來token，增加了訓練訊號的密度，提高了資料效率。

在訓練中，對於佔據大量計算量的通用矩陣乘法(GEMM)操作，採用FP8精度執行；同時，透過細粒度量化策略和高精度累積過程，解決了低精度訓練中出現的量化誤差問題。

第二，推理能力強大。

強化學習驅動：DeepSeek-R1透過大規模強化學習技術顯著提升了推理能力。在數學、程式碼和自然語言推理等任務上表現出色，效能與OpenAl的o1正式版相當。

長鏈推理(CoT)技術：DeepSeek-R1採用長鏈推理技術，其思維鏈長度可達數萬字，能夠逐步分解複雜問題，透過多步驟的邏輯推理來解決問題。

三、如何高效使用DeepSeek？

1.DeepSeek的多種使用方式及其表現

第一種，直接訪問DeepSeek官網。雖然免費，但由於訪問量過大，表現極不穩定。

第二種，在GitHub上下載cherry Studio（或者一些其它工具），使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不穩定的情況。

第三種，使用Cherry Studio+第三方雲廠商DeepSeek API做本地部署。使用第三方雲廠商的DeepSeekAPI穩定很多，相比官方API價格也便宜。

Cherry部署之後，除了DeepSeek，還可以使用OpenAI、月之暗面、智譜清言等API。

假設我們來解一道高考數學題：設集合A中的元素皆為無重複數字的三位正整數，且元素中任意兩者之積皆為偶數，求集合中元素個數的最大值是多少？

這是一個非常複雜、難度較大的問題，如果採用通義千問等通用大模型，大機率得不出正確答案，而DeepSeek透過分步驟的長鏈深度思考，一步步給出了正確答案。

2.簡單應用：DeepSeek+知識庫

以構建投資研究框架為例，我們來展示用DeepSeek+知識庫的使用。

第一步，配置embedding模型。嵌入模型，把知識庫進行向量化，並進行快速檢索；選擇嵌入模型（可以使用矽基流動），在Cherry Studio設定中，設定對應的API Key。

第二步，整理知識庫。在Cherry studio的知識庫中，配置投研報告知識庫，上傳相關投研報告（處理知識庫主要用到文字，所以知識庫支援PDF、PPT、Excel、word等多種文字檔案）。完成後，你就在本地有了知識庫。

第三步，在智慧對話助手中，選擇對應的知識庫。

最後一步，針對知識庫進行提問。可以看到，DeepSeek會進行長鏈思考並展現思考過程。

需要注意，雖然雲廠商不會主動收集你的資料，但並不能100%保證資料安全，對於企業的敏感資料（如財務、營銷資料），建議進行本地私有化部署。

3.複雜應用：DeepSeek+Cursor

知識庫並不能完全展現DeepSeek的深度思考能力，藉助於其它工具（如Cursor）可以完成更復雜的任務，如物理世界的小球碰撞實驗。

首先，我們在Cursor的【File->Preferences->Cursor Settings】中設定DeepSeek-r1和DeepSeek-v3模型。

然後，在openAI API Key中進行設定（這裡採用openAI的協議），可以使用自定義的模型。

設定好DeepSeek-r1和DeepSeek-v3模型之後，接下來就可以在Cursor中選擇該模型進行程式設計。

我們看一個實際的例子：一個紅色的小球在三角區域內運動，碰到邊界就反彈，編寫一個HTML網頁。

Cursor會新建一個工程，動態展示程式設計結構。而DeepSeek在長鏈思考之後，編寫出HTML程式碼，但程式碼執行可能不符合要求，需要進一步調整，調整的過程我們也只需發出語言（文字對話）指令。

調整過程如下：

基於之前的思考，幫我完善HTML。（動作：DeepSeek思考並完善HTML程式碼。效果：HTML樣式有了調整，但是小球還是會飛出三角區域，需要進一步調整。）

小球彈了之後，彈出去了啊，幫我檢查程式碼……

考慮小球的重力，以及三角區域的支撐力，小球的彈力進行完善……

每次執行，小球可以從隨機的任意方向丟擲……

小球的彈力大一些……

最後到地面都垂直彈跳了，不是應該還會滾動麼，就是有水平的速度……

下面增加一個重新整理按鈕，可以重新執行這個HTML……

中文顯示是亂碼，另外考慮到手機顯示，頁面需要做自適應……

經過多次調校，DeepSeek終於生成了符合我們要求的HTML程式碼，並在Cursor工程中進行效果演示。

透過上面的演示，我們發現，即使不懂程式碼，也可以透過DeepSeek來完成機器程式設計，獲得期望的效果。

4.這一次，AI真的“智慧”了

從AlphaGo與圍棋世界冠軍李世石大戰開始，人工智慧逐漸介入我們的生活。機器第一次能進行自主思考，完成簡單（其實戰勝世界冠軍這個任務並不簡單）任務。

在發展中的人工智慧也一度被我們吐槽為“人工智障”，但從OpenAI開始，人工智慧逐漸會處理一些複雜任務了，而DeepSeek展現出了超越普通人的長思維鏈路，我們不得不感嘆：AI真的“智慧”了。

可見，在學習過程中，對於複雜任務的處理有一個逐漸成熟的過程，一切都可以從最簡單的開始。當你具備了一些常見的思考、自我更新、自我迭代的能力，就可以完成一些更有價值的作品。

比如，如果你是一名投資分析師，會用哪種AI助手來輔助完成投研報告呢？如果用通用大模型（相當於文科生）寫報告，可能也會完成任務，但顯然缺乏嚴謹的邏輯推理過程。

因此可能帶來市場的盲目跟投或者瘋狂踩踏，而DeepSeek的R1模型的嚴謹推理過程，可以勝任你的助手了。

四、DeepSeek掀桌子

打通了另一條路

1.李飛飛50美金復刻R1模型

在R1及其蒸餾模型推出後，李飛飛團隊用不到50美金的雲計算費用，成功訓練出了一個名為s1的推理模型。該模型在數學和編碼能力中的表現，與0penAI的o1和DeepSeek-R1等尖端推理模型不相上下。

s1模型的訓練只用了1000個樣本資料，具體過程是：使用Gemini對這1000個樣本完善推理過程，然後對Qwen模型進行監督微調。

訊息出來，在網路上一度刷屏。但我們也要了解這個模型成功的背景：

其一，s1模型是站在巨人的肩膀上，在阿里Qwen和谷歌Gemini大模型進一步訓練得到的；

其二，成本之所以低，是因為只使用了1000個樣本（對於企業來說，1000個樣本可能足夠了，但對於訓練完整的大模型是不可能的），透過26分鐘花費50美金，達到了一個比較理想的推理效果（與o1相差不大）。

也就是說，在每個企業中，未來大家都有機會用1000個樣本經過精細訓練就可能達到類似效果。

如果稍微展開，可以發現s1模型背後有自己的獨特方法論：

首先，資料集的構建有三個標準（難度、多樣性和質量），從這三個標準出發，挑選了1000個問題及對應的推理路徑。

S1的資料集包含了不同領域，如數學競賽、物理競賽，並且新增了兩個原創資料集；s1-prob和s1-teasers,分別涵蓋了機率問題和定量交易面試中的難題。

其次，採用了預算強制技術。這是一種控制測試時計算的技術，透過強制終止或延長模型的思考過程(透過新增“wait”字串)，使模型有機會重新檢查答案，從而可能糾正錯誤的推理步驟。

在預算強制技術下，有三個強制策略。

其一，設定思考時間限制：當模型開始處理一個問題時，首先為其設定了一個最大思考時間(以token數量衡量)。如果模型在這個時間內完成了思考並準備給出答案，則按照正常流程進行。

其二，強制結束思考過程：如果模型生成的思考token超過了預設的最大值，系統會強行終止模型的思考過程。這通常是透過新增一個特殊的end-of-thinking token delimiter實現的，促使模型停止進一步的推理，並轉向生成最終答案。

其三，鼓勵更深入的探索：如果希望模型花更多的時間來考慮一個問題，可以抑制end-of-thinking token delimiter的生成，並在當前的推理路徑後面追加“wait”字串=>為了讓模型有機會重新評估其先前的推理步驟，可能會糾正一些快速但不準確的回答。

2.繼DeepSeek後的AI趨勢

趨勢一：小模型將成為主流(大模型蒸餾）。

透過蒸餾技術將大型模型的推理能力成功遷移到小型模型中，顯著提升了小型模型的效能（DeepSeek-R1-Distil-Qwen-7B在AIME 2024競賽中擊敗了32B模型）。

趨勢二：使用合成數據進行訓練成為主流。

雖然蒸餾資料是公開的秘密，但很多表現不是蒸餾能解釋的。比如v3的中文能力，很多用詞和表達方式非常接地氣，可能是用了資料合成方法做的預訓練。

趨勢三：AI模型將自我迭代（強化學習新正規化）。

讓模型自己出題自己做，自己檢查。第一步：模型自己出題（比如100萬道）；第二步，模型自己檢查對錯；第三步，篩選驗證對的內容，將結果與思維鏈合成新的資料。

比如在100萬道題目中，模型檢查後發現有1萬道能驗證是對的，那麼解出這1萬道題的思維鏈就成了新的訓練資料。透過不斷迭代，探索出之前人類沒有探索到的地方(類似AlphaGo-Zero戰勝AlphaGo)。

*文章為作者獨立觀點，不代表筆記俠立場。

主辦方簡介——

量子教育，核心管理團隊來自浙江大學，秉承「以知識推動創新·讓客戶更具價值」的使命，連結全球優質教育培訓資源，促進知識的創新、傳播與共享。自2017年成立以來，已成功打造知識IP3000+，線上課程累計曝光150億+，全網粉絲2600萬+，為690+家大型國央企、金融機構及上市公司等500強企業提供優質內容資源、創新解決方案等人才培養創新服務。