

我知道大家和我一樣,都是以一種特別積極的心態沉浸在這個 DeepSeek 的學習世界中。實際上,DeepSeek 在我們春節期間送給我們的這份“大禮包”,對我個人來說,就像是一下子把我拋回到了兩年前的那個夜晚——2022 年 11 月 30 號,ChatGPT 誕生的那個夜晚。那時候,我充滿了興奮,感覺到了這個世界的不同,也感受到了大家對知識的渴望。所以,我非常急迫地想和大家分享我在這段時間裡的心路歷程和總結,一起探索這一切。
大家有沒有注意到一個重要的現象,就是在大模型時代,新的技術和創新出現的速度越來越快,而我們學習新東西的速度也在加快。為什麼會這樣呢?我們不妨想一想,為什麼和大模型接觸久了之後,我們自己變得越來越聰明瞭?實際上,我們有一句古話,“近朱者赤,近墨者黑”。如果我們總是和更聰明的模型在一起探討、用更聰明的方法去學習,那麼我們的認知就能不斷升級,越來越快。這是我第一個想告訴大家的道理。所以,大家也可以把我看作是一個知識的“蒸餾者”,而這個“蒸餾”在今天是一個特別流行的詞彙。透過我對 DeepSeek 的學習、論文的閱讀和聽其他老師的分享,我形成了一些自己的想法,希望在這裡和大家分享。在大模型時代,我們思考得越多,得到的也就越多。
讓我們一起思考幾個問題。第一個問題是:為什麼 DeepSeek 每一步都做對了?這也是我一直在思考的一個問題。大家也許會奇怪,為什麼 DeepSeek 團隊能一次次做對,彷彿他們開了天眼。其實,每一次嘗試都有可能失敗,尤其是在資源有限的情況下。卡片數量就那麼多,要用這些資源去做方向探索。如果這個探索失敗了,會怎樣?你還能不能在這麼短的時間裡做出 V3 和 r1?DeepSeek 團隊就像是特斯拉,相對於愛迪生那種“一直試下去”,用蠻力排除萬難,試一萬種,一萬種不行再試一億種。而特斯拉一齣手就準確。為什麼能做到這一點?第二個問題是:DeepSeek 給我們帶來了什麼?我們每個人可能並不是大模型的訓練者,可能在工作中會用到大模型,也有可能並不涉及。那麼,作為普通人,瞭解 DeepSeek 對我們到底有什麼用呢?這個問題我也不好直接回答。我能說的是,我自己的一系列的思考,也許這些思考能給我們這些不是大模型訓練者或者微調者帶來一些啟示。
另外,我還想和大家分享一個觀點:AI 時代為每個人帶來了新的機會。當 DeepSeek 出現時,除了 DeepSeek 團隊的幾百個博士外,每個人都是在同一時間開始學習這個技術。我鼓勵大家多學習、多探索新事物,也許你會成為未來的專家和導師。這正是 AI 時代為我們每個人帶來的新機會。今天的分享目錄大致如下:
-
為什麼要學習 DeepSeek?
-
DeepSeek 有哪些核心創新?
-
DeepSeek 為普通人(我們)帶來什麼?
-
為什麼要學習 RAG?
-
RAG 的前沿進展
-
DeepSeek 為 RAG 帶來了什麼?
李繼剛老師在一次分享中提出了關於人與 AI 認知的“喬哈里窗”模型,將人和 AI 的認知分為四個象限。這個模型非常有啟發性,它將人腦中的“認知宇宙”與 AI 中的“認知宇宙”進行對比,指出兩者邏輯可能相同也可能不同,關鍵在於找到連線這兩個宇宙的“鑰匙”。具體來說:
-
人知道且 AI 知道:在這個象限中,人和 AI 都對某個問題有清晰的認知,交流時無需過多提示,直接溝通即可。
-
人知道但 AI 不知道:此時需要透過詳細的提示和框架指導 AI,這通常是大模型應用開發中開發者需要做的工作,涉及提示工程和 RAG。
-
AI 知道但人不知道:需要透過提問 AI 來獲取知識。
-
人和 AI 都不知道:這種情況下需要共同探索。

隨著像 DeepSeek 和 OpenAI 的 O3 這樣強大的推理模型出現,AI 的認知邊界發生了變化。AI 知道的內容更多,使得與 AI 交流時,人們無需過多展開問題,交流變得更加簡單。這降低了提示工程和 RAG 的門檻,是大模型發展帶來的直接好處。然而,這種技術進步也引發了關於人類認知邊界變化的思考。如果大模型變得越來越強大,人類的認知邊界可能會有兩種走向:一種是依賴 AI,導致認知範圍縮小;另一種是與 AI 共同進化,使認知邊界得到拓展。這種分化可能使未來只有 20% 的人選擇進化,而 80% 的人可能會退化。
DeepSeek 的出現為人們提供了強大的工具。從使用者角度看,DeepSeek 的部署和呼叫相對簡單。其開源生態使得開發者可以快速構建 RAG 框架。例如,透過工具如 Cursor,開發者可以一邊編碼一邊除錯,大大縮短了開發時間。DeepSeek 的文件也非常詳盡,從 DeepSeek LLM 到 DeepSeek Math,再到 V3 R1,使用者可以透過研究其開源論文來深入瞭解。關於 DeepSeek R1 和 V3 的區別,R1 版本透過將人類偏好融入訓練過程,進化為更安全、更有效、更可靠的人工智慧助手。而 V3 版本對 MoE 框架進行了創新,包含細粒度多數量的專業專家和更通用的共享專家。
DeepSeek 的核心創新可以從其研究歷程和關鍵成果中得到清晰的體現。從 2024 年 1 月釋出第一版論文開始,DeepSeek 就展現出強烈的長期主義傾向,其目標是透過持續的研究和開發逐步攻克一系列技術難題。這種長期規劃和逐步推進的策略使得 DeepSeek 在短短一年內取得了顯著的進展,並最終在 2025 年 1 月完成其 r1 版本,實現了最初設定的目標。DeepSeek 的創新主要體現在以下幾個方面。
DeepSeek 從一開始就強調長期主義和開源。其第一篇論文《DeepSeek LLM:透過長期主義擴充套件開源語言模型》明確了這一理念。與 OpenAI 的封閉開發模式不同,DeepSeek 選擇開源其研究成果,讓其他研究者和開發者能夠直接利用其成果,避免重複勞動。這種開源策略不僅加速了技術的傳播,也為 DeepSeek 贏得了廣泛的社群支援和合作機會。
DeepSeek 在 2024 年 5 月釋出了基於混合專家系統(MoE)的語言模型 V2,這是其技術創新的重要一步。MoE 架構透過將多個領域專家模型組合在一起,並透過門控網路動態分配查詢請求,使得模型能夠更高效地處理多樣化的任務。這種架構不僅提升了模型的效能,還降低了資源消耗,使得 DeepSeek 在硬體資源有限的情況下也能實現高效能表現。

DeepSeek 的推理能力是其核心競爭力之一。從 2024 年 2 月開始,DeepSeek 就專注於提升模型的推理能力,尤其是透過程式碼和數學問題的訓練。程式碼和數學問題的解決需要複雜的邏輯推理和逐步思考,這使得模型能夠學習到更深層次的思維模式。相比之下,普通的問答任務往往缺乏推理細節。DeepSeek 透過這種方式訓練模型,使其在處理複雜問題時表現出色,其 r1 版本的推理能力甚至超過了 V3 版本。
在資源有限的情況下,DeepSeek 探索了高性價比的軟硬體協同設計。這意味著 DeepSeek 不僅在演算法上進行了最佳化,還在硬體適配和資源管理上進行了創新。這種策略使得 DeepSeek 能夠在沒有像 OpenAI 那樣龐大硬體資源的情況下,依然能夠實現高效執行和快速迭代。
從 2024 年 1 月到 2025 年 1 月,DeepSeek 透過一系列論文和版本迭代,逐步完善了其技術體系。每一步的研究成果都為後續的開發奠定了基礎,最終形成了一個強大的技術生態。例如,DeepSeek Coder 在 2024 年初就已經展現出強大的程式碼生成能力,比其他同類工具提前了約 9 個月。這種前瞻性使得 DeepSeek 在技術競爭中佔據了優勢。
DeepSeek 的技術成果並非一蹴而就,而是透過持續的研究和最佳化逐步積累而成。其 r1 版本的推出標誌著 DeepSeek 在技術上的成熟,其背後是深厚的技術積澱和長期的規劃。這種長期主義和技術積累使得 DeepSeek 在 AI 領域脫穎而出,成為值得關注的研究方向。
DeepSeek 的開發始於對“規模法則”(Scaling Law)的研究。規模法則描述了模型大小、資料量和計算資源之間的關係,以及這些因素如何影響模型效能。DeepSeek 團隊透過大量實驗,分析了不同引數配置下的模型能力,試圖回答“多大的模型能在特定資料集上達到何種效能水平”這一問題。這一研究為 DeepSeek 模型的訓練提供了理論基礎,並指導其在程式碼、數學和推理領域的最佳化。例如,DeepSeek 在 67B 模型大小時,效能超過了 LLAMA2 的 70B 模型,尤其是在程式碼和數學推理方面表現出色。
在資料組織和訓練方法方面,DeepSeek Coder 引入了創新。它採用程式碼倉庫的層級結構來組織訓練資料,幫助模型更好地理解檔案之間的關聯關係。這種組織方式與傳統的基於簡單問答對的訓練方法不同,能夠為模型提供更豐富的上下文資訊,從而增強其推理能力。此外,DeepSeek Coder 還借鑑了 BERT 的填空式訓練方法,透過在程式碼片段中“摳掉”部分內容,讓模型預測缺失的部分,從而提升程式碼生成的完整性和準確性。這種方法不僅基於前人的思路,還在此基礎上進行了創新。
DeepSeekMath 則專注於突破數學推理的極限,進一步強調了推理能力的重要性。它透過程式碼預訓練來增強數學推理能力,體現了 DeepSeek 團隊對推理能力的重視。這一過程是逐步推進的:從程式碼生成能力出發,進而增強數學推理能力,最終實現推理能力的提升。這一邏輯鏈條表明,程式碼和數學推理之間存在緊密聯絡,且這一方向是正確的。
DeepSeekMath 的最大貢獻在於其提出的 GRPO(Generalized Reinforcement Policy Optimization)方法。GRPO 是一種強化學習方法,與 OpenAI 使用的 PPO(Proximal Policy Optimization)不同。在 GRPO 中,沒有傳統的“value model”,但需要一個“reward model”來為模型提供獎勵訊號,從而引導模型更新引數。這種方法與監督學習不同:監督學習透過標準答案直接進行反向傳播更新模型引數,而強化學習則透過獎勵訊號引導模型在環境中獲得長期回報。GRPO 的提出為模型訓練提供了新的思路,儘管其細節與 PPO 有所不同,但它的核心在於透過獎勵機制而非固定的“標準答案”來調整模型行為。
ChatGPT 是從 Transformer 架構逐步發展而來的,從基礎模型到最終的 ChatGPT 模型之間的關鍵步驟如下所述。
首先,我們需要一個基於 Transformer 架構訓練的基礎模型。這個模型雖然功能強大,但還需要進一步最佳化以適應特定任務。因此,第一步是進行監督微調(Supervised Fine-Tuning,SFT)。SFT 是透過人類標註的高質量資料對基礎模型進行微調,使其能夠更好地理解和生成符合人類期望的文字。這是從普通模型向高階對話模型轉變的第一步。
接下來,為了進一步最佳化模型,OpenAI 引入了獎勵模型(Reward Model,RM)。RM 的作用是評估模型生成的答案質量,併為模型提供反饋。具體來說,OpenAI 利用 SFT 模型生成一系列答案,並讓人類標註者對這些答案進行排序,從而訓練出一個能夠判斷答案優劣的 RM。這個過程避免了直接生成標準答案的複雜性,而是透過相對簡單的排序任務來構建 RM。
RM 在強化學習階段至關重要,無論是 PPO 還是 GRPO,都需要一個能夠打分的獎勵模型來指導模型的訓練。RM 不需要像基礎模型那樣龐大,它只需要能夠判斷生成內容的好壞即可。這種設計大大降低了訓練成本,並提高了模型的可擴充套件性。
在強化學習階段,模型透過 RM 的打分來調整自身行為,逐漸最佳化生成內容的質量。PPO 是一種常用的強化學習演算法,它結合了 RM 和一個價值模型(Value Model)。價值模型的作用是估計在給定狀態下采取某種行動的預期回報,它與 RM 一起幫助模型在強化學習環境中實現最大化回報。然而,價值模型的引入也帶來了問題。它需要與基礎模型類似的規模,這不僅耗費大量訓練資源,還可能導致策略更新過程的不穩定,從而影響訓練的穩定性。
相比之下,GRPO 放棄了價值模型,僅依賴 RM 進行打分和反饋。這種設計簡化了訓練過程,減少了資源消耗,並提高了訓練的穩定性。GRPO 的核心在於透過 RM 的打分直接引導模型最佳化,而不是依賴複雜的價值模型來估計回報。
OpenAI 展示了從 SFT、到 RM、再到強化學習的三步訓練過程。這一過程為構建高效能的對話模型奠定了基礎。然而,GRPO 的出現進一步優化了這一過程,透過去除價值模型,GRPO 在保持高效訓練的同時,避免了價值模型帶來的複雜性和不穩定性。
為什麼需要強化學習來訓練大模型?在實驗室中,我們經常搭建基於 Transformer 架構的模型,但這些模型的能力往往非常有限,無法像人類一樣進行推理和聊天。那麼,從基礎模型到具備高階推理能力的模型,最關鍵的躍遷發生在哪個環節呢?答案是強化學習。
強化學習提供了一種基於反饋驅動的方法,透過反饋讓大模型能夠自主地、自驅地進行目標驅動的最佳化。這就是為什麼很多人說 r1 模型的訓練過程像是“左腳踩右腳”一樣不斷提升的原因。強化學習的核心在於:
-
自我檢查與改進推理質量:強化學習幫助模型更擅長自我檢查,並改進推理質量。人類思維中最重要的推理過程,很大程度上是在強化學習的最後一步中誕生的。
-
最佳化長遠推理過程:強化學習鼓勵模型學會從長遠角度最佳化推理過程。例如,人類在面對複雜問題時,往往需要逐步推理,而不是簡單地快速回答。大模型也需要學會這種“慢思考”,透過逐步推理來提高準確性和可靠性。
思維鏈(Chain of Thought)的論文提出了一個重要觀點:大模型需要一些機制來引導其進行更全面的思考。具體來說,需要更多的 token 和更多的推理時間。例如,當我們要求模型“一步一步思考”(think step by step)時,模型的回答會變得更加準確。這是因為我們為模型提供了更多的“記憶體啟用空間”,使其能夠更深入地處理問題。
這與人類的思考方式類似。人類有兩種思考系統:快思考(自動化、直覺性)和慢思考(邏輯性、分析性)。對於複雜問題,如投資、戰略規劃或編寫程式碼,我們需要慢思考來深度分析和推理。大模型也類似,思考時間越長,生成的答案往往越好。
在 RAG(Retrieval-Augmented Generation)框架中,檢索的質量決定了大模型生成內容的質量。透過 RAG,我們為大模型提供了更多的思考空間,從而提升其推理和生成能力。因此,檢索過程和上下文的質量至關重要。
DeepSeek 在 2024 年 2 月就意識到推理能力的重要性,並將其作為研究的核心方向。其成功的關鍵在於早期發現了推理的重要性,並在模型架構上進行了創新。
在 2024 年 1 月,DeepSeek 發表了一篇論文,提出了混合專家語言模型(MoE)的兩個重要思想:更細粒度的專家分割和共享專家的隔離。MoE 架構的核心是將模型劃分為多個“專家”,每個專家負責處理特定的任務。這種架構早在 1991 年就已提出,但在深度學習時代得到了新的發展。
DeepSeek MOE 架構的核心是將輸入的 token 透過一個路由器(Router)分配給多個專家網路。這些專家網路並不是單層結構,而是由多層組成,每一層都包含多個專家。例如,早期的 Misture 模型可能每層有 7 個專家,而 DeepSeek MOE 已經擴充套件到每層有 200 多個專家。這種架構透過稀疏啟用機制,使得每個 token 只啟用一小部分專家,而不是整個網路,從而顯著降低了計算負擔。
DeepSeek MOE 的訓練機制與 Transformer 架構類似,透過不斷的訓練最佳化,模型能夠自動學習如何將不同的 token 分配給合適的專家。這種動態分配能力是透過門控網路(Gating Network)實現的,它可以根據輸入 token 的特徵,決定哪些專家參與計算。這種設計不僅提高了計算效率,還增強了模型對不同輸入的適應性。
DeepSeek MOE 的兩個關鍵微創新包括:
-
更細粒度的專家分割:透過更細緻地劃分專家,模型能夠更精準地處理不同型別的輸入。
-
共享專家的隔離:除了專業的專家網路外,還設定了一批共享專家,類似於醫院中的全科醫生,用於處理通用知識。
這種設計使得模型在處理多樣化任務時更加靈活。這些創新都建立在對 Transformer 架構深刻理解的基礎上。只有深刻理解了 Transformer 的基本結構,我們才能在此基礎上進行最佳化和創新。
DeepSeek MOE 結合了多種最佳化技術,包括監督微調 SFT 和獎勵模型 RM。這些技術最初由 OpenAI 提出,DeepSeek 在此基礎上進行了整合和最佳化。例如,DeepSeek V2 在 2024 年 5 月引入了對齊最佳化(Alignment Optimization),進一步提升了模型的效能。此外,DeepSeek 還引入了多頭潛在注意力(MLA,Multi-head Latent Attention)機制,這是一種新的最佳化技術,旨在最佳化 Transformer 模型中的多頭注意力(MHA)結構,特別是在推理階段的效率和資源消耗方面。
MLA 是一種技術,旨在透過最佳化模型的推理效率和效能,同時保持較低的記憶體佔用。具體來說,MLA 利用 KV Cache(鍵值快取)來最佳化推理過程。它將 KV Cache 中的資料壓縮成低維的潛在向量,這些向量佔用的資源較少。在需要時,系統會動態重構鍵值矩陣,從而減少記憶體佔用,最佳化推理過程。這種技術特別適用於資源有限的場景,例如沒有大量 GPU 資源的公司或研究機構。MLA 的核心價值在於,它能夠在資源受限的情況下,幫助完成與資源充足條件下相同水平的任務。相比之下,像 OpenAI 這樣的公司由於擁有大量計算資源,可能不需要這種最佳化技術。

DeepSeek-V3 是一個大規模語言模型,其技術報告在 2024 年 12 月釋出。該模型具有以下特點和創新。
-
模型規模
-
DeepSeek-V3 的模型規模為 671 億引數,雖然不算最大的模型,但已經相當龐大。每個 token 啟用時會涉及 370 億引數,支援如此大規模的上下文,這表明模型在處理複雜任務時具有強大的能力。
-
技術整合DeepSeek-V3 集成了多種先進技術,包括:
-
MoE:透過多個專家網路協同工作,提高模型的多樣性和效率。
-
MLA:透過最佳化 KV cache 的使用,減少記憶體佔用,提高推理效率。
-
MTP(Multi-Token Prediction,多 token 預測):這是 DeepSeek-V3 提出的一個新概念。傳統的 Transformer 架構通常一次生成一個 token(即 next token prediction)。然而,DeepSeek-V3 嘗試一次預測多個 token,以提高推理效率。儘管業界主流尚未廣泛採用這種方法,但 DeepSeek-V3 在這一方向上進行了探索,並取得了一定的成果。
-
高效的 FP8 訓練:為了在資源有限的情況下訓練大規模模型,DeepSeek-V3 採用了高效的 FP8 訓練技術。傳統的訓練標準使用 FP32(32 位浮點數),每個引數佔用 32 位。然而,FP32 的訓練成本較高,尤其是在資源受限的情況下。DeepSeek-V3 透過混合精度訓練框架,將部分引數壓縮到 FP8(8 位浮點數),甚至更低精度的 FP16(16 位浮點數)或 int4(4 位整數)。這種技術不僅降低了訓練成本,還提高了訓練效率,使得在資源有限的情況下也能訓練出高質量的模型。
在 2025 年 1 月 20 日,DeepSeek 團隊推出了極具影響力的 DeepSeek-R1 模型。這一版本不僅在技術上取得了顯著突破,還引入了一系列新的關鍵詞,這些關鍵詞將在業界成為經典。其中最重要的一個概念是純強化學習,即完全透過強化學習訓練出的推理能力。
在傳統的模型訓練流程中,通常會經歷三個階段 SFT-RM-PPO。DeepSeek-R1 的初始版本 DeepSeek-R1 Zero 採用了不同的方法。從 DeepSeek-V3 到 R1 Zero,團隊放棄了 SFT 階段,直接使用純強化學習來訓練模型。這一決策的關鍵在於,DeepSeek-V3 已經透過之前的訓練達到了較高的水平,類似於一個“博士級”的模型。因此,團隊認為可以直接在這一基礎上,透過純強化學習進一步提升模型的推理能力,而無需再進行昂貴且耗時的監督微調。
放棄 SFT 階段帶來的最大優勢是成本和資源的顯著降低。SFT 需要大量人工標註的資料,這不僅耗時,還需要大量的人力和計算資源。而強化學習(尤其是純強化學習)則依賴於模型自身的探索和獎勵訊號,資源需求相對較小。透過這種方式,DeepSeek-R1 Zero 不僅節省了成本,還證明了在資源有限的情況下,依然可以訓練出高效能的推理模型。

DeepSeek R1 的開發過程中,一個關鍵的技術策略被稱為“左腳踩右腳”,即透過 V3 和 R1 Zero 之間的相互訓練和最佳化,逐步提升模型的效能。這一過程體現了迭代最佳化的思想,具體步驟如下。
1.V3 模型的起點
DeepSeek 團隊從一個已經訓練得非常好的基礎模型 DeepSeek V3 出發。V3 模型本身已經具備了較高的效能,但由於其並非專門針對推理任務最佳化,因此需要進一步提升其推理能力。
2. 強化學習訓練 R1 Zero
基於 V3 模型,團隊嘗試了一種全新的訓練方式——純強化學習,直接訓練出一個推理能力更強的模型 R1 Zero。R1 Zero 的訓練過程中沒有使用傳統的 SFT,而是完全依賴強化學習來最佳化模型的推理能力。這種方法的優勢在於節省了大量的人力標註成本,同時能夠快速提升模型的推理效能。
3. 生成推理資料
透過 R1 Zero 模型,團隊生成了一系列高質量的推理資料,這些資料帶有特殊的標籤,用於記錄模型的推理過程。這些資料不僅包含了推理的結果,還展示了模型在推理過程中的思考步驟,為後續的訓練提供了寶貴的資源。
4. 反饋最佳化 V3 模型
利用 R1 Zero 生成的推理資料,返回來對 DeepSeek V3 進行進一步訓練。這一過程使得 V3 模型能夠吸收 R1 Zero 的推理能力,從而變得更強大。這種“你訓我,我訓你”的迭代最佳化方式,使得兩個模型在訓練過程中相互促進,逐步提升效能。
5. 解決 R1 Zero 的不足
儘管 R1 Zero 在推理能力上表現出色,但它也存在一些問題,例如中英文混雜、推理格式不完美等。為了解決這些問題,團隊採用了 SFT 對齊的方式,將 R1 Zero 生成的資料與人類的語言和思維方式對齊。這一過程包括以下幾個步驟:
-
Consistent Format and Accuracy:確保生成的資料格式一致且準確。
-
COT(Chain of Thought)資料:利用帶有推理步驟的資料進一步最佳化模型。
-
Knowledge 資料:補充一些不需要推理的基礎知識,例如簡單的數學問題或常識性問題,確保模型在這些方面也能給出準確答案。
經過上述步驟,團隊最終形成了 DeepSeek R1。這一版本的模型不僅具備強大的推理能力,還能生成符合人類語言習慣和思維模式的輸出。透過這種“左腳踩右腳”的迭代最佳化方式,DeepSeek R1 在效能上超越了之前的版本,成為了一個具有里程碑意義的模型。

DeepSeek R1 模型的規模達到了 631 億引數,這使得它難以在普通硬體上部署和使用。為了解決這一問題,DeepSeek 團隊引入了模型蒸餾(Knowledge Distillation)技術。模型蒸餾是一種將大型複雜模型的知識遷移到小型模型中的方法,使得小型模型能夠在有限的資源下表現出接近大型模型的效能。
DeepSeek 團隊利用 R1 模型生成的高質量推理資料集,對其他開源模型(如 LLaMA 和千問)進行蒸餾訓練。這些資料集包括:
-
COT(Chain of Thought)資料:記錄模型推理過程的資料。
-
人類知識資料:包含常識和基礎問題的答案。
透過這些資料,團隊對較小的模型(如 32B、1.5B、8B 和 70B 的 LLaMA 和千問模型)進行訓練,顯著提升了它們的效能。例如,經過蒸餾訓練後,千問 32B 模型的推理能力從 50% 提升到了 70% 以上,某些指標甚至達到了 83 分。這一提升證明了推理資料在模型蒸餾中的重要性。

DeepSeek 團隊進一步探索了純強化學習在模型蒸餾中的應用。他們發現,對於較小的模型(如 32B 的千問),直接應用純強化學習效果不佳。原因在於這些模型本身不具備足夠的推理能力,無法透過強化學習實現自我提升。
這一過程為模型訓練和最佳化提供了重要啟示。
-
模型能力的門檻:純強化學習需要模型具備一定的基礎能力。對於能力較弱的模型,直接應用強化學習可能效果不佳,甚至可能導致模型效能退化。
-
蒸餾的有效性:高質量的推理資料對於提升模型效能至關重要。透過蒸餾,可以將大型模型的知識遷移到小型模型中,使得小型模型在資源受限的情況下也能表現出色。
-
模型訓練的策略:對於能力較弱的模型,應先透過監督學習(如 SFT)進行基礎能力的訓練,然後再逐步引入強化學習進行最佳化。
DeepSeek R1 一個引人注目的現象是 Aha Moment。這是一個在模型推理過程中出現的瞬間,模型突然“明白”了某些東西,並透過類似“Wait, wait Wait that's an aha moment I can flag here”的語句表達出來。這種現象讓人聯想到人類在解題過程中,經過多次嘗試後突然靈光一閃的時刻。儘管我們無法確定模型是否真的經歷了類似人類的“意識覺醒”,但這種現象無疑是推理能力的體現,也是大模型在複雜任務中表現出色的一個標誌。

DeepSeek R1 的開發是中國 AI 領域的一個重要里程碑。它由 100 多個博士組成的團隊合作完成,這些研究人員在資源有限的情況下,透過一系列創新方法,開發出了與 OpenAI 的 O1 模型相媲美的推理能力。DeepSeek R1 不僅達到了與 O1 相近的效能,還在某些方面超越了它。這一成就展示了中國在 AI 領域的強大實力,也證明了即使在資源有限的情況下,透過正確的技術路徑和創新方法,也能取得突破性進展。
DeepSeek R1 的開發過程可以總結為以下三個關鍵點。
-
純強化學習DeepSeek R1 從 V3 模型出發,透過純強化學習訓練出 R1 Zero,這一過程中沒有使用傳統的監督微調(SFT)。這種方法不僅節省了大量的人力標註成本,還顯著提升了模型的推理能力。
-
左腳踩右腳DeepSeek 團隊透過 V3 和 R1 Zero 之間的相互訓練和最佳化,逐步提升模型效能。具體來說,R1 Zero 生成的高質量推理資料被用來進一步訓練 V3 模型,使其變得更強大。這種迭代最佳化的方式使得模型在推理能力上不斷提升。
-
模型蒸餾DeepSeek R1 不僅自身強大,還透過蒸餾技術將知識遷移到其他開源模型(如 LLaMA 和千問)中。透過高質量的推理資料和 COT 資料,這些小型模型的效能得到了顯著提升。
DeepSeek R1 的成功離不開 OpenAI 等先驅團隊的思想啟發。儘管 OpenAI 沒有開源其成果,但他們的技術理念:“不要教,而是激勵”(Don't teach, incentivize)為 DeepSeek 團隊提供了重要的指導。這一理念的核心在於,當模型達到一定水平後,不應再透過大量的標註資料和監督學習去“教”模型如何思考,而是透過強化學習去“激勵”模型自主探索和發現解決問題的方法。
OpenAI 的研究員指出,AI 研究者的工作是教機器如何思考,但一種不幸且常見的方法是,我們在用自己認為的思考方式去教機器,而忽略了機器在底層架構(如 Transformer)中的真實思考方式。實際上,我們用有限的數學語言去教授那些我們自己都不完全理解的內容。這種思考方式不僅限制了模型的潛力,也忽略了模型自主學習的能力。
DeepSeek R1 的開發過程中,團隊深受 OpenAI 這一理念的影響。在論文中,DeepSeek 團隊明確提到了“激勵推理能力”(Incentivizing Reasoning Capability in LLMs),並採用了強化學習的方法來提升模型的推理能力。這種方法不僅節省了大量的人力標註成本,還顯著提升了模型的效能。
儘管 OpenAI 的理念為模型訓練提供了重要的指導,但 DeepSeek 團隊也意識到,並非所有模型都適合直接應用強化學習。對於能力較弱的模型,仍然需要透過監督學習進行基礎能力的訓練。只有當模型達到一定強度後,才能透過強化學習進一步提升其效能。
DeepSeek 的出現為我們帶來了諸多機遇和啟示,這些不僅侷限於技術層面,更觸及到我們每個人的生活和學習。儘管我們可能並非 DeepSeek 的研究人員、人工智慧博士或頂尖專家,但作為普通人,我們依然能從 DeepSeek 的發展中獲益良多。
首先,DeepSeek 為我們帶來了一場知識的盛宴。它激發了公眾對人工智慧的興趣和討論,使得從大爺大媽到專業人士都在探討這一領域。它讓我們意識到,AI 時代的學習至關重要。只有不斷學習新知識,我們才能緊跟時代的步伐,不被落下。因為在這個快速發展的時代,每年都有新的技術湧現,只有持續學習,我們才能有機會站在行業的前沿。
DeepSeek 還帶來了一系列關鍵技術的突破和創新,如純強化學習、混合專家模型(MOE)、多頭潛在注意力(MLA)、多 token 預測(MTP)等。這些技術不僅推動了人工智慧領域的發展,也為其他行業帶來了新的思路和方法。
對於 AI 系統應用人員來說,DeepSeek 提供了一個強大的工具,可以幫助他們進行更精細的系統設計。對於研究者而言,DeepSeek 的開源性和詳細的訓練過程為他們提供了復現和進一步研究的基礎。他們可以嘗試自己訓練類似模型,探索新的技術和方法。對於企業來說,DeepSeek 的出現意味著他們可以將這一先進的技術整合到自己的產品和服務中,提升產品的競爭力。例如,微信小程式等應用已經開始接入 DeepSeek,為企業帶來了新的發展機遇。同時,DeepSeek 的輕量級部署和算力成本最佳化,使得企業能夠以更低的成本使用這一技術,從而降低了開發和運營成本。
對於開發者而言,DeepSeek 的出現為他們提供了新的學習和創新方向。他們可以透過學習和應用 DeepSeek 的技術,提升自己的技能水平,探索新的應用場景。此外,DeepSeek 的學習成本相對較低,使得更多的人能夠參與到這一領域的發展中來。
DeepSeek 不僅對專業人士和企業有重要意義,它也與我們每個人的生活息息相關。它的出現甚至影響了股市的估值,提升了中國科技公司的國際形象。這讓我們看到了中國在人工智慧領域的強大實力和潛力。DeepSeek 的成功也激勵了我們,讓我們對自己的能力充滿信心。它告訴我們,只要我們有正確的方向、堅持和勇氣,就能夠在這個領域取得成功。
DeepSeek 的出現也讓我們意識到,AI 的發展是一個不斷探索和創新的過程。雖然 r1 等模型已經取得了顯著的成果,但它們並非 AI 的終點。未來,我們還有更多的工作要做,更多的未知領域等待我們去探索。在我們最新的論文中,兩位傑出的創始人楊植麟和梁文鋒參與了研究工作,這些研究主要集中在注意力機制的探索上,目標是開發出更節省資源的注意力機制。

隨著大語言模型的迅速發展,RAG 成為了這一領域的自然產物。大語言模型的強大能力引發了我們對其應用場景的思考,而 RAG 正是基於這種思考的產物。RAG 的核心價值在於,它能夠使大語言模型的應用更加精準、更加貼近實際需求。在當今的工作環境中,RAG 的應用幾乎無處不在,無論是企業內部知識庫、學術研究、法律領域、客戶支援,還是零售和電商政策等,RAG 都能發揮重要作用,提高工作效率。
目前,大語言模型的應用開發主要分為兩個正規化:RAG 和 Agent。對於開發者來說,學習大語言模型的應用開發,要麼專注於 Agent,要麼專注於 RAG,或者兩者都學。這兩個正規化代表了大語言模型應用開發的兩個主要方向。
Agent 正規化側重於利用大語言模型的邏輯推理能力,讓模型去思考、判斷,並最佳化工作流程。Agent 的想象空間很大,但落地實現相對較為抽象,需要開發者發揮創造力來實現。RAG 正規化則側重於透過檢索增強的方式,彌補大語言模型在知識檢索和生成方面的短板,使其能夠回答原本不知道的問題。RAG 從提示工程出發,逐漸發展出標準 RAG、高階 RAG 和模組化 RAG,甚至可以進行協作式微調,以增強大語言模型的知識內化能力。

RAG 技術框架本身並不複雜,但流程其實相對直觀。簡單來說,RAG 的流程從文件匯入開始,經過嵌入(embedding)和檢索(retrieval)兩個關鍵步驟,最終完成生成任務。然而,儘管流程本身並不複雜,但在實際操作中,RAG 涉及的細節和技術核心卻相當豐富,這也是為什麼 RAG 上手容易,但最佳化卻很難。
RAG 的核心在於向量相似性,即透過將文字轉換為向量形式,利用向量之間的相似性來進行檢索。這一過程看似簡單,但其中包含了諸多技術細節。例如,如何實現混合檢索,即將傳統的 BM25 演算法與向量檢索相結合;如何將圖資料庫嵌入到檢索流程中;以及如何對檢索結果進行預處理和後處理等。這些細節不僅影響檢索的效率,還決定了生成內容的質量。

為了更好地理解和應用 RAG,我們的課程可以將其流程拆解為幾個關鍵環節:
-
資料匯入與文字分塊(Chunking):將原始文件分割成適合處理的小塊。
-
嵌入(Embedding):將文字塊轉換為向量形式,以便進行相似性檢索。
-
檢索(Retrieval):透過向量相似性檢索相關文字塊。
-
預處理(Pre-retrieval)與後處理(Post-retrieval):對檢索結果進行最佳化,以提高生成內容的相關性和準確性。
-
生成(Generation):基於檢索到的資訊生成最終的輸出。
-
評估(Evaluation):對生成結果進行評估,以確保其質量和相關性。
每個環節都有其獨特的技術和技巧。例如,在嵌入環節,選擇合適的嵌入方法和模型至關重要;在檢索環節,最佳化檢索演算法和引數可以顯著提高效率;而在生成環節,如何利用檢索到的資訊生成連貫、準確的內容則需要精心設計。
RAG 的前沿進展體現在多個方面。首先,Graph RAG 的出現為 RAG 帶來了新的思路。透過結合知識圖譜,Graph RAG 能夠更有效地進行 embedding 和社群構建。在這個框架中,節點透過知識圖譜被聚類成不同的簇,例如藍色、綠色和黃色的簇,這些簇代表了相關的知識。透過這種方式,Graph RAG 能夠更精準地識別和整合相關資料,提升檢索和生成的效果。
此外,RAG 還在不斷拓展其功能模組,包括 Agenda RAG、Adaptive RAG 和 Corrective RAG。這些模組旨在讓 RAG 系統具備自我修正和自我最佳化的能力,從而實現更高效的檢索和更準確的生成。同時,Modular RAG 的出現使得多模態 RAG 成為可能,進一步拓展了 RAG 的應用範圍和靈活性。
DeepSeek 對 RAG 的貢獻是多方面的。首先,DeepSeek 顯著降低了 RAG 的開發門檻,使得 RAG 流程中的每一個子任務都能更精細地執行。例如,在處理 PDF 檔案時,DeepSeek 優化了佈局分析、文字分塊(chunking)和表格解析等環節,提升了 RAG 在處理複雜文件時的效率和準確性。
DeepSeek 還透過提供一系列蒸餾模型,進一步簡化了 RAG 的本地開發和部署過程。這些蒸餾模型不僅降低了資源需求,還提升了模型的推理能力,使得 RAG 的應用更加廣泛和高效。此外,DeepSeek 在模型最佳化方面的進展也為 RAG 帶來了更好的上下文理解和推理能力,進一步提升了生成內容的質量。
隨著技術的不斷進步,RAG 和 DeepSeek 的未來充滿無限可能。從感知智慧到認知智慧,從語言智慧到具身智慧,AI 的發展正在不斷拓展其應用邊界。未來,我們可能會看到更多機器人和智慧系統的出現,這些系統將具備更強的自主學習和決策能力。
DeepSeek 在資源有限的情況下,透過非凡的創造力和準確的判斷力,創造了令人矚目的成就。這不僅展示了中國在 AI 領域的強大實力,也為全球 AI 的發展提供了寶貴的經驗和啟示。未來,我們有理由相信,DeepSeek 和 RAG 將繼續引領 AI 技術的發展,為人類帶來更多的可能性。
