一文了解DeepSeek及應用場景

阿里妹導讀

本文詳細介紹了DeepSeek及其應用場景，涵蓋了大模型的發展歷程、基本原理和分類（通用與推理模型）。文章分析了DeepSeek的具體特性、效能優勢、低成本訓練與呼叫特點，以及其技術路線（如MoE、MLA架構），並與競品進行了對比。此外，還探討了DeepSeek在金融風控等領域的應用前景。

一、大模型發展回顧

1.1. 大模型發展歷程

從OpenAI看大模型發展趨勢

2024年5月，OpenAI釋出了GPT-4o，模型能夠處理和生成文字、影像和音訊。GPT-4o 在語音、多語言和視覺基準測試中取得了最先進的成果，創造了語音識別和翻譯的新紀錄。

2024年7月，OpenAI釋出了GPT-4o mini，取代 ChatGPT 介面上的 GPT-3.5 Turbo，API 成本顯著降低，適用於企業、初創公司和開發者。

2024年9月，OpenAI 釋出了 o1-preview（更適合推理任務）和 o1-mini（更適合程式設計任務）模型，這些模型設計為在生成回答時花費更多時間思考，從而提高準確性。

2024年12月，OpenAI 釋出了 o1，比 o1-preview 更智慧、更快，功能更多（比如多模態功能）

2025年2月，OpenAI 釋出了o3-mini，o3-mini在大多數情況下o3-mini比o1-mini產生更準確、更清晰的答案，同時響應更快，其平均響應時間為7.7秒，較o1-mini的10.16秒提升了24%。

2025年2月9日，OpenAI釋出全新的智慧體-deep research，可以進行網路瀏覽和資料分析，可以利用推理來搜尋、解釋和分析網際網路上的大量文字、影像和PDF檔案，並根據蒐集的資訊進行靈活調整。

2025年2月9日，OpenAI表示內部已達到了GPT-4.5，表示接下來的重點是高能力的推理模型、多模態以及智慧體。

2025年2月28日，OpenAI釋出GPT-4.5，最大、知識最豐富、情商最高的大模型。

*GPT-4o的o表示omni，意為“全知全能的”；o1/o3的o表示OpenAI.

從OpenAI的發展過程看大模型的發展趨勢：

GPT-x系列: 更強的通用能力；
GPT-4o等：多模態輸入輸出能力；
o系列: 推理模型，複雜推理能力, CoT；
-mini: 更低成本、更快響應速度；
deep research等: 大模型agent；

1.2. 大模型基本原理

大模型是如何構建的？

引用論文 Large Language Models: A Survey [1]

Step 1: 準備資料和資料清洗。資料集源於網頁、書籍、部落格、知乎、百科等。
Step 2: 分詞，轉化為模型可用於輸入的token
Step 3: 位置編碼
Step 4: 進行模型預訓練，即輸入文字，讓模型做next token prediction等任務。

Step 5: 透過SFT等手段微調和指令微調, 教會大模型如何對話和完成特定任務
Step 6: 透過RLHF等手段進一步對齊人類偏好，引入人類反饋，指導模型最佳化方向，生成更加符合人類需求，緩解有害性和幻覺的問題
Step 7: 透過貪心搜尋等生成策略，逐步生成下一個詞
Step 8: 最佳化與加速訓練推理過程

核心的三個步驟: 預訓練，有監督微調和人類反饋強化學習。

1.3. 推理模型與通用模型

大模型發展至今，可以分為: 通用大模型與推理大模型。

通用大模型: 適用於大多數任務，側重於語言生成、上下文理解和自然語言處理，而不強調深度推理能力。此類模型通常透過對大量文字資料的訓練，掌握語言規律並能夠生成合適的內容，但缺乏像推理模型那樣複雜的推理和決策能力。
推理大模型: 在傳統模型基礎上，強化推理、邏輯分析和決策能力。

思維鏈(Chain of Thought, CoT)透過要求/提示模型在輸出最終答案之前，顯式輸出中間逐步的推理步驟這一方法來增強大模型的算數、常識和推理的效能。從該角度，可以將大模型的正規化分為兩類: 機率預測（快速反應模型）和鏈式反應（慢速思考模型），前者適合快速反饋，處理即時任務，後者透過推理解決複雜問題。

一個例子，問: 1+2+3+4+5+6+7+8+9+10=多少，直接告訴我答案

快速反應模型回答：

慢速思考模型回答:

二、DeepSeek

2.1. DeepSeek是什麼

DeepSeek（深度求索）是中國的人工智慧公司，成立於 2023 年7月，由知名量化資管巨頭幻方量化創立，專注於探索通用人工智慧(artificial general intelligence，AGI）的實現路徑，主攻大模型研發與應用。
DeepSeek-V3是其開源的通用自然語言處理模型，對標GPT-4o.
DeepSeek-R1是其開源的推理模型，擅長處理複雜任務，對標OpenAI o1 / o1-mini.

DeepSeek主流模型的競品對標

2.2. DeepSeek可以做什麼

直接面向用戶或者支援開發者，提供智慧對話、文字生成、語義理解、計算推理、程式碼生成補全等應用場景，支援聯網搜尋與深度思考，同時支援文字上傳，能夠掃描讀取各類檔案及圖片的文字內容。

2.3. DeepSeek的模型對比

2.3.1. DeepSeek模型發展史

資料來源: 彩雲之南公眾號，浙商證券研究所。[相關連結2]

我們常說的DeepSeek的大模型，是指當前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3與R1的對比與選擇

總結: 不考慮呼叫成本，複雜推理任務（例如數學、程式碼等）或者希望獲取思維鏈，優先DeepSeek-R1；內容創作、文字生成等優先DeepSeek-V3。

DeepSeekV3與DeepSeek-R1的對比

選擇V3和R1的指南

2.3.3. 競品-OpenAI的大模型

*o3-mini的一個介紹: [3], o1-mini的一個介紹: [4], GPT-4o的一個介紹: [5], GPT-4o-mini的一個介紹: [6]

2.3.4. 競品-通義千問的大模型

引用: 通義千問官網[7]

2.4. DeepSeek為什麼大火

2.4.1. 效能優越

DeepSeek-v3推斷速度快:吐字速度從v2的20TPS提升到60TPS.
DeepSeek-v3效能優越: 在目前大模型主流榜單中，DeepSeek-V3 在開源模型中位列榜首，與世界上最先進的閉源模型不分伯仲。

DeepSeek R1專注於推理能力，尤其是密集推理任務（reasoning-intensive tasks)，比如程式碼、數學、科學、邏輯推理這些帶有明確答案的良定義的問題。DeepSeek R1在數學、程式碼、自然語言推理等任務上效能可比肩OpenAI o1模型正式版

在AIME 2024數學基準測試中，DeepSeek R1得分率79.8%，OpenAI o1得分率79.2%。

在MATH-500基準測試中，DeepSeek R1得分率97.3%，OpenAI o1得分率96.4%。

頓悟(Aha)時刻: 單純的RL（沒有顯式地提供CoT資料，而是告訴模型先思考，再回答）就可以激發模型產出帶有長思維鏈（甚至是反思）的回覆的能力，在DeepSeek-R1-zero訓練過程中，在某個特定階段，模型突然學會了重新評估自己的初始方法，併為複雜問題分配更多的思考時間。這個時刻不僅標誌著模型能力的質的飛躍，也是研究者們的重大發現，它展示了強化學習在培養AI自主思考和問題解決能力方面的巨大潛力。

蒸餾小模型：在R1的釋出中，同時探索瞭如何將大模型的推理能力高效地蒸餾到小模型中，使用DeepSeek-R1生成80萬條訓練樣本，直接對開源的小模型（如Qwen和Llama系列）進行微調，開源了方便本地部署的一眾蒸餾小模型。

*AIME 2024: 數學題,涵蓋算術、代數、計數、幾何、數論、機率等中學數學主題的綜合評測，測試數學問題解決能力。

*MATH-500: 包含500個測試樣本的MATH評測集，全面考察數學解題能力。

*GPQA: 研究生水平的專家推理,一個透過研究生級別問題評估高階科學解題能力的評測集，旨在考察科學問題解決能力。

2.4.2. 訓練便宜

結論: DeepSeek-V3 較 OpenAI競品，訓練成本約為1/20～1/3

DeepSeek-V3訓練成本 557.6萬美元，但不包括架構、演算法等成本。以H800算力為例，訓練消耗278.8萬個GPU小時，租用價格為2美元/GPU小時；
根據第三方測算，OpenAI o1與訓練需要3.2萬張H100訓練90天，需要6912萬H100 SXM GPU小時，預計訓練成本數億美元。據此估算，DeepSeek-V3訓練成本是Meta 的1/10，OpenAI 的1/20；
保守估計，現在在美國預訓練幾千億引數的一個模型其實也就不到2000萬美元的成本，DeepSeek 把成本差不多壓縮到三分之一。

*注, H800為針對中國市場定製，效能和價格略低於H100.

2.4.3. API呼叫便宜

結論: DeepSeek-V3 API呼叫價格約為OpenAI o3-mini的1/4，為GPT-4o的約1/10. 但要高於GPT-4o-mini, 效能強於GPT-4o-mini.

以下為當前呼叫價格，以token為單位，1個英文字元約0.3個token，1箇中文字元約0.6個token，即1 token可對應1-2箇中文漢字，或對應3-4個英文字元，或0.75個英文單詞，截止到2025年2月8日

*o3 mini思維鏈: 2025年2月7日，openAI公開o3 mini思維鏈，業界猜測非原始思維鏈，而是總結之後的思維鏈輸出。

*快取命中: 在大模型 API 的使用場景中，使用者的輸入有相當比例是重複的。舉例說，使用者的 prompt 往往有一些重複引用的部分；再舉例說，多輪對話中，每一輪都要將前幾輪的內容重複輸入。啟用上下文硬碟快取技術，把預計未來會重複使用的內容，快取在分散式的硬碟陣列中。如果輸入存在重複，則重複的部分只需要從快取讀取，無需計算。該技術不僅降低服務的延遲，還大幅削減最終的使用成本。

*MMLU(大規模多工語言理解）是一種新的基準測試，涵蓋STEM、人文、社會科學等57個學科，有效地衡量了綜合知識能力。

2.4.4. 其它因素

開源：程式碼倉庫選擇了大氣的MIT開源協議，模型適用自建開源許可證，完全不限制商用。
作為鯰魚，讓全球大模型競賽進一步提速。OpenAI釋出全新推理模型o3-mini，並首次向免費使用者開放推理模型。OpenAI CEO奧爾特曼首次承認，在開源上OpenAI站在了歷史的錯誤一方。過去一週多的時間裡，國內外大模型廠商從“緊急上線”新模型，到降價、免費，種種措施表明，在DeepSeek的刺激下，AI大模型行業的競爭正變得越來越激烈。
學術上：DeepSeek-R1-Zero展示了自我驗證、反射和生成長CoT等功能，這標誌著研究界的重要里程碑。這是第一個驗證的開發研究，可以純粹透過RL來激勵的LLMs推理能力，而無需SFT，解決了CoT資料獲取困難的問題。

2.5. DeepSeek為什麼又好又省-技術路線

2.5.1. 主要技術路線

模型結構和訓練方法上: 省

參考: DeepSeek-v3技術文件 [8]

DeepSeekMoE: 混合專家模型，推理時，僅動態啟用部分專家（37B 引數），而非全模型引數（671B 引數），減少計算負擔。
引入無輔助損失的自然負載均衡來解決不同專家的負載均衡問題。
採用MLA (Multi-Head Latent Attention)架構，擴充套件了傳統的多頭注意力機制，引入潛向量（latent variables），可以動態調整注意力機制，捕捉任務中不同的隱含語義。在訓練中減少記憶體和計算開銷，在推理中降低KV快取佔用空間,把視訊記憶體佔用降為MHA架構的5%~13%。
採用多步token預測 MTP（Multi-Token Prediction）。一般LLM一次生成1個token，DeepSeek在特定場景下能同時預測多個token，來提高訊號密度。一方面能夠減少上下文漂移、邏輯更連貫，也能減少一些重複中間步驟，在數學、程式碼和文字摘要場景能提升效率。

採用了GRPO（Group Relative Policy Optimization）的強化學習演算法。核心思想是：對於每個問題，從舊策略中取樣多個輸出，然後根據這些輸出的獎勵計算相對評分來最佳化新策略。跳過傳統RL中與策略模型等規模的critic網路，減少開銷。

模型結構和訓練方法上: 好

Cot：Chain of thought。將複雜的問題拆分成小步的中間邏輯，細分邏輯鏈條。在訓練階段，DeepSeek-R1用標註的Long CoT資料微調模型，讓模型生成更清晰的推理步驟，在強化學習中用CoT設計獎勵最佳化，增強長鏈推理能力，並且在此過程中觀察到了模型的反思（回溯推理路徑）、多路徑推理（能給出多個解）、aha時刻（透過策略突破瓶頸）等自發行為。
拒絕取樣: 當針對推理的強化學習收斂後，研究者們使用訓練得到的模型進行拒絕取樣，生成多個答案，然後只選擇最優的答案來繼續訓練，生成新的監督微調（SFT）資料。這個階段的目的是提高模型在非推理任務（如寫作、角色扮演等）上的表現。

工程上：省

FP8混合精度訓練：引入了FP8 混合精度訓練框架，相比傳統的FP16 精度，資料記憶體佔用更少，但在一些運算元模組、權重中仍然保留了FP16、FP32 的精度，節省計算資源。
底層通訊最佳化：專門開發了高效的跨節點全對全通訊核心，最佳化對頻寬的利用，保證資料傳輸效率，並能支援大規模部署。
DualPipe跨節點通訊：傳統訓練資訊流水線會產生一些等待時間、有“流水線氣泡”，DeepSeek設計了一個雙重流水線，讓一個計算階段在等待資料傳輸時可以切換到另一批資料，充分利用空閒時間。
並行：對硬體的極限使用. 在系統架構層面，DeepSeek就使用了專家並行訓練技術，透過將不同的專家模組分配到不同的計算裝置上同時進行訓練，提升了訓練過程中的計算效率。並對算力做極致壓縮。

2.5.2. Mixture of Experts (MoE) 混合專家模型

MoE在NLP、CV、多模態和推薦系統中有廣泛的應用(時間線上面的開源，下面的閉源)。

參考: A Survey on Mixture of Experts [9]

核心想法: 模型的不同引數, 作為專家，針對不同的任務或者不同的資料定製化。
優點: 給定輸入，只有部分相關的專家會被啟用，使得計算量減少，但受益於豐富的定製化的知識池。

兩種典型的MoE: Dense MoE VS. Sparse MoE

Dense MoE: 每次前向傳播，所有專家參與，計算負擔大

Sparse MoE: 在每次前向傳播時只選擇專家的一個子集，即Top-k專家

往往會帶來負載均衡問題，即專家工作量的不均衡分佈，部分專家頻繁更新，其它專家很少更新，大量研究專注於解決負載均衡問題。

DeepSeek的MoE結構: DeepSeekMoE

DeepSeek-R1: 1個共享的專家+63個路由的專家，每個專家是標準FFN的1/4大小.

2.5.3. Multi-Head Latent Attention (MLA)

低秩聯合壓縮鍵值：MLA透過低秩聯合壓縮鍵值（Key-Value)，將它們壓縮為一個潛向量，從而大幅減少所需的快取容量，降低計算複雜度。
最佳化鍵值快取：在推理階段，MHA需要快取獨立的鍵和值矩陣，會增加記憶體和計算，而MLA透過低秩矩陣分解技術，顯著減小了儲存KV的維度，從而降低了記憶體佔用。

2.5.4. R1的訓練正規化：冷啟動與多階段RL

參考: 知乎@絕密伏擊 [10]

Step 1 冷啟動: 先收集一部分高質量CoT冷啟動資料（約幾千條），使用該資料fine-tune DeepSeek-v3-base模型，記為模型A；
Step2 大規模RL: 使用A模型用GPRO訓練，使其湧現推理能力，收斂的模型記為B；
Step3 : 使用B模型產生高質量SFT資料，並混合DeepSeek-V3產生的其它領域的高質量資料，形成一個高質量資料集;
Step4 再次SFT: 使用該資料集訓練原始DeepSeek-v3-base模型，記為模型C；
Step5 最終RL: 使用C重新進行Step2，但是資料集變為所有領域，收斂後的模型記為D，這個模型就是DeepSeek-R1
Step6: 訓練C模型的資料對小模型進行蒸餾，得到蒸餾的相對較小的模型。

2.6. DeepSeek與競品對比

2.6.1. 幾個競品的對比

專案/模型	DeepSeek-R1	GPT-4o	豆包
模型定位	專注高階推理和複雜邏輯問題	通用大模型，旨在處理多工、多模態	中文環境，面向C端使用者，輕量化、娛樂化
是否開源	是	否	否，商業化產品
擅長功能	複雜推理，例如數學、程式碼	通用語言生成、多模態理解	擬人化聊天、創意內容生成、影像生成
定製化程度	高；使用者可修改模型行為並針對特定用例進行最佳化	低；主要透過API調用於提示工程進行微調	低；提供API服務，靈活性低
硬體要求	溫和；部署對硬體要求相對適中	不適用；僅透過OpenAI基礎設施上的API提供	作為雲端產品，無需自建硬體，後端依賴雲計算叢集
多模態支援	暫無，可用Janus-Pro多模態大模型	強多模態能力，支援文字、影像等輸入	一定的多模態支援
使用者群體	開發者、企業使用者、專業研究者	全球阻留使用者、企業客戶和開發者，高階市場	普通消費者、內容創作者，位元組生態

DeepSeek：適合需要行業定製化、高性價比的企業使用者、研究者，尤其是中文垂類場景。
GPT系列：優勢在於通用性、多模態能力和全球化知識覆蓋。
豆包：定位輕量級C端應用，互動簡單、內容偏娛樂化，依賴位元組生態，知識偏國內。

2.6.2. DeepSeek的缺點

DeepSeek-V3在一些層面上是有偏科的。它的創意生成相對薄弱，開放性任務表現一般，結構化思維的能力遠高於發散思維。甚至在專業領域比通用領域表現的更好。
DeepSeek-R1 專注於推理，在函式呼叫、多輪對話、複雜角色扮演和 JSON 輸出等任務上的能力不及 DeepSeek-V3。
民間測試: 在經典的編寫重力小球彈跳視覺化指令碼的實驗中，從物理學的遵循程度來講，與OpenAI o3-mini相比還是有差距的。

2.6.3. DeepSeek的影響

推動了大模型開源程序，作為鯰魚，讓全球大模型競賽進一步提速。

2.7. DeepSeek使用建議

DeepSeek提示詞庫[11]

2.7.1. DeepSeek使用的不同點

DeepSeek-R1作為推理模型

其已內化推理邏輯，prompt應該更加簡潔，只需明確任務目標和需求；
無需逐步指導，模型自動生成結構化推理過程，如果強行拆解步驟，可能會限制其能力。

DeepSeek-v3作為通用模型

對於複雜推理任務，需顯式引導推理步驟；
依賴提示語補償能力短板，如要求分析思考、提供示例等。

2.7.2. R1的正確開啟方式

對於推理大模型，存在欺騙技巧失效和“啟發式提示”失效的問題：

參考: 知乎田威AI[12]

欺騙技巧失效

角色扮演和結構化提示詞等“啟發式提示”失效。過去角色扮演和結構化提示詞可以顯著提升AI生成內容的質量，但在R1等推理模型上，DeepSeek並沒有真的在扮演我們讓它扮演的角色，而是透過推理分析使用者的需求來生成內容，並且自主完成思維鏈的構建，因此啟發式提示可能會干擾邏輯主線。