一文了解DeepSeek及應用場景

阿里妹導讀
本文詳細介紹了DeepSeek及其應用場景,涵蓋了大模型的發展歷程、基本原理和分類(通用與推理模型)。文章分析了DeepSeek的具體特性、效能優勢、低成本訓練與呼叫特點,以及其技術路線(如MoE、MLA架構),並與競品進行了對比。此外,還探討了DeepSeek在金融風控等領域的應用前景。
一、大模型發展回顧
1.1. 大模型發展歷程
  • 從OpenAI看大模型發展趨勢
2024年5月,OpenAI釋出了GPT-4o,模型能夠處理和生成文字、影像和音訊。GPT-4o 在語音、多語言和視覺基準測試中取得了最先進的成果,創造了語音識別和翻譯的新紀錄。
2024年7月,OpenAI釋出了GPT-4o mini,取代 ChatGPT 介面上的 GPT-3.5 Turbo,API 成本顯著降低,適用於企業、初創公司和開發者。
2024年9月,OpenAI 釋出了 o1-preview(更適合推理任務)和 o1-mini(更適合程式設計任務)模型,這些模型設計為在生成回答時花費更多時間思考,從而提高準確性。
2024年12月,OpenAI 釋出了 o1,比 o1-preview 更智慧、更快,功能更多(比如多模態功能)
2025年2月,OpenAI 釋出了o3-mini,o3-mini在大多數情況下o3-mini比o1-mini產生更準確、更清晰的答案,同時響應更快,其平均響應時間為7.7秒,較o1-mini的10.16秒提升了24%。
2025年2月9日,OpenAI釋出全新的智慧體-deep research,可以進行網路瀏覽和資料分析,可以利用推理來搜尋、解釋和分析網際網路上的大量文字、影像和PDF檔案,並根據蒐集的資訊進行靈活調整。
2025年2月9日,OpenAI表示內部已達到了GPT-4.5,表示接下來的重點是高能力的推理模型、多模態以及智慧體。
2025年2月28日,OpenAI釋出GPT-4.5,最大、知識最豐富、情商最高的大模型。
*GPT-4o的o表示omni,意為“全知全能的”;o1/o3的o表示OpenAI.
從OpenAI的發展過程看大模型的發展趨勢:
  • GPT-x系列: 更強的通用能力
  • GPT-4o等:多模態輸入輸出能力
  • o系列: 推理模型,複雜推理能力, CoT
  • -mini: 更低成本、更快響應速度
  • deep research等: 大模型agent;
1.2. 大模型基本原理
大模型是如何構建的?
引用論文 Large Language Models: A Survey [1]
  • Step 1: 準備資料和資料清洗。資料集源於網頁、書籍、部落格、知乎、百科等。
  • Step 2: 分詞,轉化為模型可用於輸入的token
  • Step 3: 位置編碼
  • Step 4: 進行模型預訓練,即輸入文字,讓模型做next token prediction等任務。
  • Step 5: 透過SFT等手段微調和指令微調, 教會大模型如何對話和完成特定任務
  • Step 6: 透過RLHF等手段進一步對齊人類偏好,引入人類反饋,指導模型最佳化方向,生成更加符合人類需求,緩解有害性和幻覺的問題
  • Step 7: 透過貪心搜尋等生成策略,逐步生成下一個詞
  • Step 8: 最佳化與加速訓練推理過程
核心的三個步驟: 預訓練,有監督微調和人類反饋強化學習。
1.3. 推理模型與通用模型
大模型發展至今,可以分為: 通用大模型推理大模型
  • 通用大模型: 適用於大多數任務,側重於語言生成、上下文理解和自然語言處理,而不強調深度推理能力。此類模型通常透過對大量文字資料的訓練,掌握語言規律並能夠生成合適的內容,但缺乏像推理模型那樣複雜的推理和決策能力。
  • 推理大模型: 在傳統模型基礎上,強化推理、邏輯分析和決策能力
思維鏈(Chain of Thought, CoT)透過要求/提示模型在輸出最終答案之前,顯式輸出中間逐步的推理步驟這一方法來增強大模型的算數、常識和推理的效能。從該角度,可以將大模型的正規化分為兩類: 機率預測(快速反應模型)鏈式反應(慢速思考模型),前者適合快速反饋,處理即時任務,後者透過推理解決複雜問題。
一個例子,問: 1+2+3+4+5+6+7+8+9+10=多少,直接告訴我答案
  • 快速反應模型回答:
  • 慢速思考模型回答:
二、DeepSeek
2.1. DeepSeek是什麼
  • DeepSeek(深度求索)是中國的人工智慧公司,成立於 2023 年7月,由知名量化資管巨頭幻方量化創立,專注於探索通用人工智慧(artificial general intelligence,AGI)的實現路徑,主攻大模型研發與應用。
  • DeepSeek-V3是其開源的通用自然語言處理模型,對標GPT-4o.
  • DeepSeek-R1是其開源的推理模型,擅長處理複雜任務,對標OpenAI o1 / o1-mini.
DeepSeek主流模型的競品對標
2.2. DeepSeek可以做什麼
直接面向用戶或者支援開發者,提供智慧對話、文字生成、語義理解、計算推理、程式碼生成補全等應用場景,支援聯網搜尋深度思考,同時支援文字上傳,能夠掃描讀取各類檔案及圖片的文字內容
2.3. DeepSeek的模型對比

2.3.1. DeepSeek模型發展史

資料來源: 彩雲之南公眾號,浙商證券研究所。[相關連結2]
我們常說的DeepSeek的大模型,是指當前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3與R1的對比與選擇

總結: 不考慮呼叫成本,複雜推理任務(例如數學、程式碼等)或者希望獲取思維鏈,優先DeepSeek-R1;內容創作、文字生成等優先DeepSeek-V3。
  • DeepSeekV3與DeepSeek-R1的對比
  • 選擇V3和R1的指南

2.3.3. 競品-OpenAI的大模型

*o3-mini的一個介紹: [3], o1-mini的一個介紹: [4], GPT-4o的一個介紹: [5], GPT-4o-mini的一個介紹: [6]

2.3.4. 競品-通義千問的大模型

引用: 通義千問官網[7]
2.4. DeepSeek為什麼大火

2.4.1. 效能優越

  • DeepSeek-v3推斷速度快:吐字速度從v2的20TPS提升到60TPS.
  • DeepSeek-v3效能優越: 在目前大模型主流榜單中,DeepSeek-V3 在開源模型中位列榜首,與世界上最先進的閉源模型不分伯仲。
  • DeepSeek R1專注於推理能力,尤其是密集推理任務(reasoning-intensive tasks),比如程式碼、數學、科學、邏輯推理這些帶有明確答案的良定義的問題。DeepSeek R1在數學、程式碼、自然語言推理等任務上效能可比肩OpenAI o1模型正式版
    • 在AIME 2024數學基準測試中,DeepSeek R1得分率79.8%,OpenAI o1得分率79.2%。
    • 在MATH-500基準測試中,DeepSeek R1得分率97.3%,OpenAI o1得分率96.4%。
  • 頓悟(Aha)時刻: 單純的RL(沒有顯式地提供CoT資料,而是告訴模型先思考,再回答)就可以激發模型產出帶有長思維鏈(甚至是反思)的回覆的能力,在DeepSeek-R1-zero訓練過程中,在某個特定階段,模型突然學會了重新評估自己的初始方法,併為複雜問題分配更多的思考時間。這個時刻不僅標誌著模型能力的質的飛躍,也是研究者們的重大發現,它展示了強化學習在培養AI自主思考和問題解決能力方面的巨大潛力。
  • 蒸餾小模型:在R1的釋出中,同時探索瞭如何將大模型的推理能力高效地蒸餾到小模型中,使用DeepSeek-R1生成80萬條訓練樣本,直接對開源的小模型(如Qwen和Llama系列)進行微調,開源了方便本地部署的一眾蒸餾小模型。
*AIME 2024: 數學題,涵蓋算術、代數、計數、幾何、數論、機率等中學數學主題的綜合評測,測試數學問題解決能力。
*MATH-500: 包含500個測試樣本的MATH評測集,全面考察數學解題能力。
*GPQA: 研究生水平的專家推理,一個透過研究生級別問題評估高階科學解題能力的評測集,旨在考察科學問題解決能力。

2.4.2. 訓練便宜

結論: DeepSeek-V3 較 OpenAI競品,訓練成本約為1/20~1/3
  • DeepSeek-V3訓練成本 557.6萬美元,但不包括架構、演算法等成本。以H800算力為例,訓練消耗278.8萬個GPU小時租用價格為2美元/GPU小時;
  • 根據第三方測算,OpenAI o1與訓練需要3.2萬張H100訓練90天,需要6912萬H100 SXM GPU小時,預計訓練成本數億美元。據此估算,DeepSeek-V3訓練成本是Meta 的1/10,OpenAI 的1/20;
  • 保守估計,現在在美國預訓練幾千億引數的一個模型其實也就不到2000萬美元的成本,DeepSeek 把成本差不多壓縮到三分之一
*注, H800為針對中國市場定製,效能和價格略低於H100.

2.4.3. API呼叫便宜

結論: DeepSeek-V3 API呼叫價格約為OpenAI o3-mini的1/4,為GPT-4o的約1/10. 但要高於GPT-4o-mini, 效能強於GPT-4o-mini.
以下為當前呼叫價格,token為單位,1個英文字元約0.3個token,1箇中文字元約0.6個token,即1 token可對應1-2箇中文漢字,或對應3-4個英文字元,或0.75個英文單詞,截止到2025年2月8日
*o3 mini思維鏈: 2025年2月7日,openAI公開o3 mini思維鏈,業界猜測非原始思維鏈,而是總結之後的思維鏈輸出。
*快取命中: 在大模型 API 的使用場景中,使用者的輸入有相當比例是重複的。舉例說,使用者的 prompt 往往有一些重複引用的部分;再舉例說,多輪對話中,每一輪都要將前幾輪的內容重複輸入。啟用上下文硬碟快取技術,把預計未來會重複使用的內容,快取在分散式的硬碟陣列中。如果輸入存在重複,則重複的部分只需要從快取讀取,無需計算。該技術不僅降低服務的延遲,還大幅削減最終的使用成本。
*MMLU(大規模多工語言理解)是一種新的基準測試,涵蓋STEM、人文、社會科學等57個學科,有效地衡量了綜合知識能力

2.4.4. 其它因素

  • 開源:程式碼倉庫選擇了大氣的MIT開源協議,模型適用自建開源許可證,完全不限制商用。
  • 作為鯰魚,讓全球大模型競賽進一步提速。OpenAI釋出全新推理模型o3-mini,並首次向免費使用者開放推理模型。OpenAI CEO奧爾特曼首次承認,在開源上OpenAI站在了歷史的錯誤一方。過去一週多的時間裡,國內外大模型廠商從“緊急上線”新模型,到降價、免費,種種措施表明,在DeepSeek的刺激下,AI大模型行業的競爭正變得越來越激烈。
  • 學術上:DeepSeek-R1-Zero展示了自我驗證、反射和生成長CoT等功能,這標誌著研究界的重要里程碑。這是第一個驗證的開發研究,可以純粹透過RL來激勵的LLMs推理能力,而無需SFT,解決了CoT資料獲取困難的問題
2.5. DeepSeek為什麼又好又省-技術路線

2.5.1. 主要技術路線

  • 模型結構和訓練方法上: 省
參考: DeepSeek-v3技術文件 [8]
    • DeepSeekMoE: 混合專家模型,推理時,僅動態啟用部分專家(37B 引數),而非全模型引數(671B 引數),減少計算負擔。
    • 引入無輔助損失的自然負載均衡來解決不同專家的負載均衡問題。 
    • 採用MLA (Multi-Head Latent Attention)架構,擴充套件了傳統的多頭注意力機制,引入潛向量(latent variables),可以動態調整注意力機制,捕捉任務中不同的隱含語義。在訓練中減少記憶體和計算開銷,在推理中降低KV快取佔用空間,把視訊記憶體佔用降為MHA架構的5%~13%
    • 採用多步token預測 MTP(Multi-Token Prediction)。一般LLM一次生成1個token,DeepSeek在特定場景下能同時預測多個token,來提高訊號密度。一方面能夠減少上下文漂移、邏輯更連貫,也能減少一些重複中間步驟,在數學、程式碼和文字摘要場景能提升效率。 
    • 採用了GRPO(Group Relative Policy Optimization)的強化學習演算法。核心思想是:對於每個問題,從舊策略中取樣多個輸出,然後根據這些輸出的獎勵計算相對評分來最佳化新策略。跳過傳統RL中與策略模型等規模的critic網路,減少開銷。
  • 模型結構和訓練方法上: 好
    • Cot:Chain of thought。將複雜的問題拆分成小步的中間邏輯,細分邏輯鏈條。在訓練階段,DeepSeek-R1用標註的Long CoT資料微調模型,讓模型生成更清晰的推理步驟,在強化學習中用CoT設計獎勵最佳化,增強長鏈推理能力,並且在此過程中觀察到了模型的反思(回溯推理路徑)、多路徑推理(能給出多個解)、aha時刻(透過策略突破瓶頸)等自發行為。
    • 拒絕取樣: 當針對推理的強化學習收斂後,研究者們使用訓練得到的模型進行拒絕取樣,生成多個答案,然後只選擇最優的答案來繼續訓練,生成新的監督微調(SFT)資料。這個階段的目的是提高模型在非推理任務(如寫作、角色扮演等)上的表現。
  • 工程上:省
    • FP8混合精度訓練:引入了FP8 混合精度訓練框架,相比傳統的FP16 精度,資料記憶體佔用更少,但在一些運算元模組、權重中仍然保留了FP16、FP32 的精度,節省計算資源。
    • 底層通訊最佳化:專門開發了高效的跨節點全對全通訊核心,最佳化對頻寬的利用,保證資料傳輸效率,並能支援大規模部署。 
    • DualPipe跨節點通訊:傳統訓練資訊流水線會產生一些等待時間、有“流水線氣泡”,DeepSeek設計了一個雙重流水線,讓一個計算階段在等待資料傳輸時可以切換到另一批資料,充分利用空閒時間。
    • 並行:對硬體的極限使用. 在系統架構層面,DeepSeek就使用了專家並行訓練技術,透過將不同的專家模組分配到不同的計算裝置上同時進行訓練,提升了訓練過程中的計算效率。並對算力做極致壓縮。

2.5.2. Mixture of Experts (MoE) 混合專家模型

MoE在NLP、CV、多模態和推薦系統中有廣泛的應用(時間線上面的開源,下面的閉源)。
參考:  A Survey on Mixture of Experts [9]
  • 核心想法: 模型的不同引數, 作為專家,針對不同的任務或者不同的資料定製化
  • 優點: 給定輸入,只有部分相關的專家會被啟用,使得計算量減少,但受益於豐富的定製化的知識池。
兩種典型的MoE: Dense MoE VS. Sparse MoE
  • Dense MoE: 每次前向傳播,所有專家參與,計算負擔大
  • Sparse MoE: 在每次前向傳播時只選擇專家的一個子集,即Top-k專家
往往會帶來負載均衡問題,即專家工作量的不均衡分佈,部分專家頻繁更新,其它專家很少更新,大量研究專注於解決負載均衡問題。
DeepSeek的MoE結構: DeepSeekMoE
DeepSeek-R1: 1個共享的專家+63個路由的專家,每個專家是標準FFN的1/4大小.

2.5.3. Multi-Head Latent Attention (MLA)

  • 低秩聯合壓縮鍵值:MLA透過低秩聯合壓縮鍵值(Key-Value),將它們壓縮為一個潛向量,從而大幅減少所需的快取容量降低計算複雜度
  • 最佳化鍵值快取:在推理階段,MHA需要快取獨立的鍵和值矩陣,會增加記憶體和計算,而MLA透過低秩矩陣分解技術,顯著減小了儲存KV的維度,從而降低了記憶體佔用。

2.5.4. R1的訓練正規化:冷啟動與多階段RL

參考: 知乎@絕密伏擊 [10]
  • Step 1 冷啟動: 先收集一部分高質量CoT冷啟動資料(約幾千條),使用該資料fine-tune DeepSeek-v3-base模型,記為模型A;
  • Step2 大規模RL: 使用A模型用GPRO訓練,使其湧現推理能力,收斂的模型記為B;
  • Step3 : 使用B模型產生高質量SFT資料,並混合DeepSeek-V3產生的其它領域的高質量資料,形成一個高質量資料集;
  • Step4 再次SFT: 使用該資料集訓練原始DeepSeek-v3-base模型,記為模型C;
  • Step5 最終RL: 使用C重新進行Step2,但是資料集變為所有領域,收斂後的模型記為D,這個模型就是DeepSeek-R1
  • Step6: 訓練C模型的資料對小模型進行蒸餾,得到蒸餾的相對較小的模型。
2.6. DeepSeek與競品對比

2.6.1. 幾個競品的對比

專案/模型
DeepSeek-R1
GPT-4o
豆包
模型定位
專注高階推理和複雜邏輯問題
通用大模型,旨在處理多工、多模態
中文環境,面向C端使用者,輕量化、娛樂化
是否開源
否,商業化產品
擅長功能
複雜推理,例如數學、程式碼
通用語言生成、
多模態理解
擬人化聊天、創意內容生成、影像生成
定製化程度
高;使用者可修改模型行為並針對特定用例進行最佳化
低;主要透過API調用於提示工程進行微調
低;提供API服務,靈活性低
硬體要求
溫和;部署對硬體要求相對適中
不適用;僅透過OpenAI基礎設施上的API提供
作為雲端產品,無需自建硬體,後端依賴雲計算叢集
多模態支援
暫無,可用Janus-Pro多模態大模型
強多模態能力,支援文字、影像等輸入
一定的多模態支援
使用者群體
開發者、企業使用者、專業研究者
全球阻留使用者、企業客戶和開發者,高階市場
普通消費者、內容創作者,位元組生態
  • DeepSeek:適合需要行業定製化、高性價比的企業使用者、研究者,尤其是中文垂類場景。 
  • GPT系列:優勢在於通用性、多模態能力和全球化知識覆蓋。 
  • 豆包:定位輕量級C端應用,互動簡單、內容偏娛樂化,依賴位元組生態,知識偏國內。

2.6.2. DeepSeek的缺點

  • DeepSeek-V3在一些層面上是有偏科的。它的創意生成相對薄弱,開放性任務表現一般,結構化思維的能力遠高於發散思維。甚至在專業領域比通用領域表現的更好。
  • DeepSeek-R1 專注於推理,在函式呼叫、多輪對話、複雜角色扮演和 JSON 輸出等任務上的能力不及 DeepSeek-V3。
  • 民間測試: 在經典的編寫重力小球彈跳視覺化指令碼的實驗中,從物理學的遵循程度來講,與OpenAI o3-mini相比還是有差距的

2.6.3. DeepSeek的影響

推動了大模型開源程序,作為鯰魚,讓全球大模型競賽進一步提速。
2.7. DeepSeek使用建議
DeepSeek提示詞庫[11]

2.7.1. DeepSeek使用的不同點

  • DeepSeek-R1作為推理模型
    • 其已內化推理邏輯,prompt應該更加簡潔,只需明確任務目標和需求;
    • 無需逐步指導,模型自動生成結構化推理過程,如果強行拆解步驟,可能會限制其能力。
  • DeepSeek-v3作為通用模型
    • 對於複雜推理任務,需顯式引導推理步驟
    • 依賴提示語補償能力短板,如要求分析思考、提供示例等。

2.7.2. R1的正確開啟方式

對於推理大模型,存在欺騙技巧失效和“啟發式提示”失效的問題:
參考: 知乎田威AI[12]
  • 欺騙技巧失效
  • 角色扮演和結構化提示詞等“啟發式提示”失效。過去角色扮演和結構化提示詞可以顯著提升AI生成內容的質量,但在R1等推理模型上,DeepSeek並沒有真的在扮演我們讓它扮演的角色,而是透過推理分析使用者的需求來生成內容,並且自主完成思維鏈的構建,因此啟發式提示可能會干擾邏輯主線

2.7.3. DeepSeek使用建議

  • 自然語言優先。DeepSeek在互動方式上追求自然,我們只需要像跟人對話一樣描述你的實際需求與真實場景。一個可能的提問模板
[前情]+[任務]+[要求]+[補充]
  • 善用DeepSeek-R1的深度思考能力
    • 1. “批判視角”,幫我們識別潛在風險
    • 2. “逆向推演”,強制驗證邏輯漏洞
    • 3. “跨界遷移”,引入其他領域解決方案
  • 多看思考過程,瞭解解題思路。
  • 警惕AI幻覺。尤其是處理大量史實類資訊、日期類資訊時會有大量錯誤。
參考連結:
[1]https://arxiv.org/abs/2402.06196
[2]https://www.fxbaogao.com/insights/detail/399
[3]https://aliyuque.antfin.com/zeyuwang.wzy/hexfpw/介紹一下%20OpenAI%20o3-mini
[4]https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
[5]https://openai.com/index/gpt-4o-system-card/
[6]https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
[7]https://tongyi.aliyun.com/
[8]https://arxiv.org/abs/2412.19437
[9]https://arxiv.org/abs/2407.06204
[10]https://www.zhihu.com/question/10902308423/answer/98590834435
[11]https://api-docs.deepseek.com/zh-cn/prompt-library/
[12]https://www.zhihu.com/question/10821868607
RDS+ClickHouse構建一站式HTAP
透過融合MySQL和ClickHouse的資料同步能力,使用者可以在一個視覺化視窗中簡單靈活地配置和管理即時資料同步,這為業務報表統計、互動式運營分析和即時數倉構建提供了便利。    
點選閱讀原文檢視詳情。

相關文章