通俗易懂地說說DeepSeek的原理

👉 這是一個或許對你有用的社群

🐱 一對一交流/面試小冊/簡歷最佳化/求職解惑，歡迎加入「芋道快速開發平臺」知識星球。下面是星球提供的部分資料：

《專案實戰（影片）》：從書中學，往事上“練”

《網際網路高頻面試題》：面朝簡歷學習，春暖花開

《架構 x 系統設計》：摧枯拉朽，掌控面試高頻場景題

《精進 Java 學習指南》：系統學習，網際網路主流技術棧

《必讀 Java 原始碼專欄》：知其然，知其所以然

👉這是一個或許對你有用的開源專案

國產 Star 破 10w+ 的開源專案，前端包括管理後臺 + 微信小程式，後端支援單體和微服務架構。

功能涵蓋 RBAC 許可權、SaaS 多租戶、資料許可權、商城、支付、工作流、大屏報表、微信公眾號、ERP、CRM、AI 大模型等等功能：

Boot 多模組架構：https://gitee.com/zhijiantianya/ruoyi-vue-pro

Cloud 微服務架構：https://gitee.com/zhijiantianya/yudao-cloud

影片教程：https://doc.iocoder.cn

【國內首批】支援 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 雙版本

來源：AI產品阿穎

DeepSeek 簡直可以稱為華人之光，最近在 AI 領域風頭一時無兩，聊天的時候不說下 DeepSeek 咱都不好意思開口。它不僅在效能上超越了 OpenAI 的 ChatGPT，還在 App Store 下載排行榜中位居第一，這是連 Claude 都沒有過的。DeepSeek 的成功，離不開其獨特的訓練方式和技術創新。下面我們一起看看 DeepSeek 的訓練過程、工作原理以及最佳化與創新之處。

DeepSeek 的訓練過程

訓練語言模型通常分為兩個階段：預訓練和後訓練，DeepSeek 也不例外，也是這兩個階段。

預訓練階段

DeepSeek 在預訓練階段的目標是讓模型學習語言的通用規律。 這一階段主要透過預測網際網路上的海量文字資料中的下一個 Token 來實現。預訓練階段處理的資料量通常以數萬億級別的 Token 計，資料主要來源於網路抓取，如 Common Crawl 等公開資料集。透過這種方式，模型能夠學習到語言的基本模式和結構。

預訓練階段的複雜性主要體現在訓練過程的演進方式和不同損失函式的選擇上。 許多預訓練技術都源於自然語言處理領域的文獻。指令微調就是其中最古老，但至今仍被廣泛採用的技術，也被稱為監督微調，縮寫為 IFT 或 SFT。

預訓練階段的核心是自迴歸預測，即預測文件序列中的下一個 Token。 預訓練可以擴充套件到非常大的規模，並且效率很高。預訓練通常會使用單一的損失函式，並投入大量的計算資源。研究人員構建高效的系統，最終得到的就是基礎模型。

後訓練階段

預訓練階段完成後，DeepSeek 會進行後訓練，以使模型具備更符合人類期望的行為。後訓練階段包括兩種主要的方法：指令調優和基於人類反饋的強化學習。

指令調優的核心思想是在模型中加入特定的格式，使其能夠理解並響應指令。 例如，當模型接收到“請解釋羅馬帝國的歷史”這類問題時，它能夠以資訊量豐富且易於理解的方式給出答案。指令調優階段的關鍵在於訓練模型理解和遵循指令的格式。

基於人類反饋的強化學習是另一種後訓練方法，它的核心在於使模型的回覆不僅格式良好，而且更符合人類的閱讀偏好。 這一過程透過收集人類的成對偏好資料來實現，最初的資料標註工作由人工完成，現在也開始引入 AI 進行資料標註。偏好微調使用對比損失函式，讓模型學習區分好答案和壞答案，並學習人類偏好的模式。

基於 Spring Boot + MyBatis Plus + Vue & Element 實現的後臺管理系統 + 使用者小程式，支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能

專案地址：https://github.com/YunaiV/ruoyi-vue-pro

影片教程：https://doc.iocoder.cn/video/

模型工作原理

DeepSeek-V3 和 DeepSeek-R1 都是 LLM，但它們的工作方式有所不同。

DeepSeek-V3 是一個指令模型，類似於 ChatGPT。它透過接收到的指令生成相應的文本回復。 當用戶向 V3 提問時，它會快速生成 Token，這些 Token 會組合成易於理解的人類語言答案，通常會採用 Markdown 列表的形式，並帶有格式，突出顯示答案的核心要點。V3 可以生成數十甚至數百個 Token，Token 通常是一個詞，對於常用詞或長詞的一部分，它可能只是一個子詞。

DeepSeek-R1 是一個推理模型。當用戶向 R1 提問時，它會首先進行大量的推理過程，然後再生成最終答案。 R1 生成的 Token 中首先出現的是大量的思維鏈過程，模型在生成答案之前，會先解釋問題，分解問題，所有這些推理過程都會以 Token 的形式快速生成。在完成推理過程後，R1 模型的語氣會發生轉變，開始給出最終答案，答案的形式與 V3 等模型類似。

基於 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實現的後臺管理系統 + 使用者小程式，支援 RBAC 動態許可權、多租戶、資料許可權、工作流、三方登入、支付、簡訊、商城等功能

專案地址：https://github.com/YunaiV/yudao-cloud

影片教程：https://doc.iocoder.cn/video/

最佳化與創新

為了讓模型生成質量更高的回答，AI 模型開發者會向用戶介面展示更多的推理過程，比如計劃問題解決步驟，或者解釋答案的邏輯。由此催生了推理模型，目前的主要參與者有 DeepSeek-R1、DeepSeek-Reasoning 以及近期 OpenAI 釋出的 o3-mini 等推理模型。

推理模型會把中間的思考路徑拿出來呈現給大家看，這正是推理模型這類賽道未來的發展方向之一。 DeepSeek-R1 是直接把推理模型透過強化學習加指令微調的混合方式訓練出來，這種模型結構在設計上具有明顯的優勢，特別是在需要精確性和可解釋性的領域，但在可擴充套件性、自適應能力和處理複雜場景方面存在一定的侷限性。

DeepSeek-R1 和 R2 基於的是一個 13B 規模引數的模型，透過結合推理訓練模組和 SFT（基於人類監督的有標註的資料微調）模組，實現了在推理任務和其他通用任務中的高效能表現。推理訓練模組透過強化學習提升模型的推理能力，而 SFT 模組則透過監督微調最佳化模型的輸出質量和語言一致性。這種結合使得模型在多種任務中都能表現出色，更具實用性。

人類常常難以透過直接的分析和評估來確定語言模型生成文字的質量。因此，許多研究者開始探索基於“策略”的評價，即透過觀察語言模型在特定任務上的行為和表現來評估其效能。具體來說，他們可以構建一個遊戲場景，在這個場景中，語言模型需要與虛擬環境進行互動，以解決特定問題或完成特定任務。透過觀察模型在遊戲中採取的策略、決策的質量以及最終任務完成的效果，研究者可以間接評估模型生成文字的能力。

DeepSeek R1 模型的執行效率高，它的平均響應時間在 2 秒左右，模型的 API 埠速率與 GPT 4.5 相當，是 GPT-4 的 4 倍。它的推理速度非常快，能夠做到秒級響應，這在處理複雜的邏輯和數學問題方面，模型的表現依然精準。

歡迎加入我的知識星球，全面提升技術能力。

👉 加入方式，“長按”或“掃描”下方二維碼噢：