DeepSeek模型綜述:V1V2V3R1-Zero

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 專知

1. 引言

隨著人工智慧(AI)技術的快速發展,大型語言模型(LLMs)在自然語言處理(NLP)、程式碼生成和決策支援等領域取得了顯著進展。然而,傳統的LLMs在多步邏輯推理、抽象概念化和潛在關係推斷等方面仍存在侷限性。DeepSeek AI透過計算高效的架構,如DeepSeek Mixture-of-Experts(MoE)框架,解決了這些挑戰,減少了推理成本,同時保持了效能。DeepSeek v3是一種通用LLM,優化了指令跟隨和推理能力,DeepSeek Coder專注於程式碼生成和軟體工程,DeepSeek Math處理符號和定量推理,DeepSeek R1-Zero和DeepSeek R1則設計用於跨領域問題解決,且只需最少的微調。透過開源硬體無關的實現,DeepSeek拓寬了高效能AI的訪問範圍。本文綜述了DeepSeek的架構進展,比較了其與最先進LLMs的特點和侷限性,並探討了其對AI研究的影響,詳細討論了未來工作的潛在方向。

2. 相關工作

近年來,AI領域的進展催生了專門最佳化的模型,用於推理、數學問題解決和程式碼生成,補充了在文字任務中表現出色但在數學精度和結構化問題解決方面表現不佳的通用LLMs。為了彌補這些差距,AI研究越來越關注增強下一代模型的推理能力和計算效率。

2.1 OpenAI GPT

OpenAI的GPT-4於2023年3月釋出,是一種多模態模型,能夠處理文字和影像。基於Transformer架構,GPT-4在數學推理和語言理解等任務上超越了GPT-3。GPT-4估計擁有1.8萬億引數,顯著大於GPT-3的1750億引數。GPT-4最初支援8,192個令牌(GPT-4-8K)和32,768個令牌(GPT-4-32K)的上下文視窗。2023年晚些時候,GPT-4 Turbo的推出將上下文視窗擴充套件到了128K個令牌。儘管GPT-4在影像字幕生成和問題解決等任務中表現出色,但在醫學、法律或技術領域等專業領域中,模型可能會生成聽起來合理但實際上不正確或捏造的資訊(幻覺)。

2.2 Claude 3.5

Claude 3.5於2024年釋出,是Anthropic語言模型家族的最新進展。基於先前版本,Claude 3.5強調安全性、對齊性和效能,在推理、語言理解和處理複雜任務(如文字和程式碼生成)方面有所改進。Claude 3.5擁有約2500億引數,在準確性和倫理對齊方面優於早期模型。它支援高達200K個令牌的擴充套件上下文,能夠更好地處理較大的輸入。透過人類反饋強化學習(RLHF)和憲法AI的增強,Claude 3.5減少了不良響應、偏見,並更好地與人類意圖對齊。Claude 3.5在編碼和科學推理等專業領域表現出色,具有更高的透明度和倫理保障。然而,當輸入複雜或模糊且接近上下文限制時,效能可能會下降。

2.3 LLaMA 3.1

LLaMA 3.1於2024年釋出,是Meta的LLaMA(大型語言模型Meta AI)家族的最新版本,繼LLaMA 1(2022年)和LLaMA 2(2023年)之後。LLaMA 1擁有高達650億引數,而LLaMA 2則擴充套件到700億引數,並提供了較小的變體(7B、13B),增強了泛化和多語言能力。LLaMA 3.1進一步推進,擁有4050億引數和128K個令牌的上下文視窗,透過分組查詢注意力提高了效率。LLaMA 3.1在編碼、邏輯問題解決和低資源語言任務中表現出色。與GPT-4等封閉模型不同,LLaMA 3.1保持開放權重,可供研究和商業使用,但僅限於文字輸入。透過自動紅隊測試(模擬攻擊或從對手角度測試系統的實踐)和過濾訓練資料等安全措施,LLaMA 3.1有助於減少不良輸出。

2.4 Qwen 2.5

Qwen2於2024年6月釋出,是Qwen系列的最新版本,繼Qwen1.5(2024年2月)和原始Qwen(2023年8月)之後。Qwen1.5擁有高達720億引數的模型,強調效率和開源可訪問性,而Qwen2則擴充套件到1100億引數,在推理、多語言支援和編碼能力方面有所改進。Qwen2利用128K個令牌的上下文視窗,透過YaRN(上下文擴充套件微調)等創新實現穩定的長上下文處理。Qwen2在數學推理、程式碼生成和低資源語言理解等任務中優於其前身。對齊技術包括RLHF、直接偏好最佳化(DPO)和精選的安全資料集,以減少不良響應。

2.5 Gemini 2.0

Gemini 2.0是谷歌最新的多模態LLM,基於1.0和1.5版本,提供了更強大的生成式AI能力,涵蓋文字、影像、音訊和影片。Gemini 2.0 Flash最初作為實驗性變體引入,提供了比其前身Gemini 1.5 Flash顯著的速度和效率提升,而不會犧牲質量。它支援代理AI和原生工具使用,允許模型呼叫外部函式(如Google搜尋和地圖)並整合流資料以擴充套件即時應用。透過在數學、程式碼生成和多語言音訊輸出等任務中的更好表現以及增強的能源效率,Gemini 2.0旨在為開發者和終端使用者提供全面、經濟高效的AI解決方案。

3. DeepSeek及其變體

DeepSeek模型基於Transformer架構,透過分組查詢注意力(GQA)和FlashAttention 2進行最佳化。GQA透過分組查詢共享鍵值頭來平衡效率和質量,FlashAttention 2是一種計算感知演算法,透過平鋪和重計算最佳化GPU記憶體使用。這些增強功能減少了記憶體開銷並提高了推理速度。核心注意力機制遵循以下公式:
Attention(Q,K,V)=softmax(QKTdk)V
3.1 DeepSeek 7B
DeepSeek 7B是一個70億引數的模型,設計用於通用任務,如推理、編碼和文字生成。它採用預歸一化、僅解碼器的Transformer設定,具有RMSNorm歸一化和SwiGLU啟用的饋送層。該模型結合了RoPE和GQA,由30個Transformer層、32個注意力頭和4096的隱藏維度組成,上下文視窗範圍從4K到32K個令牌,可透過RoPE調整。DeepSeek Chat是一個更大的變體,擁有670億引數,包括95個Transformer層、64個注意力頭和8192的隱藏維度。

3.2 DeepSeek MoE-16B

DeepSeek MoE-16B是一個160億引數的MoE模型,每個令牌僅啟用26億引數,透過動態路由輸入透過16個專家網路中的2個。這種稀疏啟用將推理成本降低了70%,同時保持了與類似大小的密集模型相當的效能。它在涵蓋程式碼、數學和通用文字的多樣化資料集上進行了預訓練,專注於高質量資料和專家專業化,以處理程式碼生成和數學推理等任務。
表I展示了其他基於DeepSeek的專用變體。

3.3 DeepSeek V2

DeepSeek V2系列包括DeepSeek V2,擁有2360億總引數和210億活躍引數,跨越60層和128K上下文長度,以及DeepSeek V2 Lite和兩個聊天機器人。在架構上,它集成了MLA(多頭潛在注意力)、低秩近似和MoE框架,以減少記憶體使用,同時保持深度上下文理解。該系列在8.1T個令牌上進行了預訓練,使用YARN從4K擴充套件到128K,並透過1.2M個例項進行了SFT,以提高幫助性和安全性,最終形成了未釋出的DeepSeek V2 Chat(SFT)。它透過兩階段RL過程進一步最佳化:第一階段專注於數學和編碼,使用基於編譯器反饋和地面真實標籤的獎勵模型;第二階段旨在提高幫助性、安全性和規則遵從性,利用基於人類偏好和手動程式設計的三個獎勵模型。

3.4 DeepSeek V3

DeepSeek V3代表了LLM的重大升級,使用14.8T個令牌從多語言語料庫中進行預訓練,並採用稀疏MoE架構,擁有6710億引數,每個任務僅啟用370億引數。這種設計透過動態分配資源以滿足特定任務需求,提高了計算效率,從而降低了運營成本。
該模型包括一個路由系統,具有1個共享專家和256個路由專家,具有動態偏差調整功能,以確保專家利用的平衡,提高了可擴充套件性和可靠性。此外,多令牌預測(MTP)增強了模型在複雜語言和推理任務中的能力。儘管其架構先進,DeepSeek V3仍面臨一些侷限性:
  1. 計算和硬體需求:由於其6710億引數,需要高階硬體,限制了資源受限使用者的訪問。
  2. 路由和負載平衡的複雜性:模型的動態路由可能會錯誤路由或過度優先考慮專家,可能會降低輸出質量。調整動態偏差以適應多樣化任務仍然具有挑戰性。
  3. 潛在注意力壓縮風險:MLA在注意力模式中丟失細節,可能會影響長上下文序列中細微依賴關係的跟蹤能力。
接下來,DeepSeek R1-Zero和DeepSeek R1是DeepSeek V3架構的高階變體,旨在解決其侷限性。

3.5 DeepSeek R1-Zero

獎勵透過基於規則的訊號指導最佳化過程,以提高訓練效率並防止駭客攻擊。準確性獎勵透過確定性檢查確保響應正確,例如驗證數學解決方案是否符合所需格式或程式碼是否透過指定測試。格式獎勵透過要求推理和答案在<think>和<answer>標籤內格式化,施加結構化推理。超引數如裁剪範圍
ϵϵ和懲罰係數ββ調節策略更新的穩定性和遵循性,保持平衡的學習過程。
圖2展示了DeepSeek R1-Zero模型的訓練過程,顯示了從輸入到輸出的流程。最初,輸入由LLM處理,然後透過GRPO進一步最佳化,並根據RLHF進行調整,生成最終輸出。這一迴圈確保模型不斷改進,在複雜任務和操作效率方面表現出色。
DeepSeek R1-Zero鼓勵湧現行為,如迭代自我反思和擴充套件推理鏈,提高了複雜任務的準確性。然而,挑戰包括可讀性差和語言混合。此外,當同行組NN較小或缺乏多樣性時,基於組的優勢估計可能會受到高方差的影響,這可能導致策略更新不穩定。

3.6 DeepSeek R1

DeepSeek R1順序生成令牌,並透過生成思考令牌來闡明其推理過程,從而為問題解決分配額外時間,如圖3所示。
其訓練管道包括以下步驟,如圖4所示:
  • 冷啟動微調:使用精選資料集和思維鏈(CoT)增強清晰度並加速RL。
  • 推理聚焦的RL:透過基於規則的獎勵改進編碼、數學和邏輯。
  • 拒絕取樣和監督微調:最佳化響應並擴充套件寫作、事實問答和角色扮演能力。
  • 最終RL對齊:確保遵循人類偏好,提高幫助性和安全性。
以下是DeepSeek R1模型的主要增強功能:

3.6.1 改進的搜尋策略

蒙特卡羅樹搜尋(MCTS)受AlphaGo啟發,曾嘗試系統地探索解決方案空間,但由於以下原因,證明在計算上不可行:
  • 擴充套件的搜尋空間:令牌級生成顯著增加了複雜性。
  • 無效的價值模型:訓練一個強大的引導模型困難,導致擴充套件性差。
  • 收斂到區域性最優:該方法在複雜推理任務中往往無法泛化。
DeepSeek R1用更簡單的拒絕取樣方法取代了MCTS,從中間RL檢查點選擇高質量響應。透過結合多樣化的獎勵訊號,模型不僅在推理方面有所改進,還在與人類偏好對齊方面有所提升。
表II展示了DeepSeek R1、ChatGPT-4、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0的全面比較。

4. 討論

DeepSeek透過優先考慮領域特定最佳化、透明度和成本效率,與GPT-4.0、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0等通用模型區分開來。雖然主流LLMs專注於廣泛的適應性,DeepSeek則專注於精確推理和決策制定,使AI更加實用和可靠。
DeepSeek R1是DeepSeek的最新變體,集成了文字、資料庫和知識圖譜,採用思維鏈(CoT)進行逐步推理和Pro Search進行上下文感知響應。這提高了數學、編碼和決策制定等領域的準確性,同時保持了清晰度。在編碼中,R1在提供答案之前概述其邏輯,使使用者能夠驗證其推理。
與專有模型不同,DeepSeek R1是開放訪問的,降低了成本,同時保持了在不同領域的競爭效能。其高效設計,包括8位浮點精度(FP8),優化了記憶體使用,使其能夠在資源有限的環境中部署。透過降低財務和技術門檻,DeepSeek使資源有限的地區、小型企業和研究人員能夠訪問先進的AI。
早期版本的DeepSeek R1,DeepSeek R1-Zero存在格式不一致和多語言輸出問題。為了解決這個問題,冷啟動資料生成強制執行結構化格式和簡潔摘要以提高畫質晰度。DeepSeek R1在以下方面表現出色:
  • 最佳化計算:FP8將記憶體需求比32位模型減少了75%。
  • 任務特定效能:基準測試顯示,它在英語語言(DROP(3-shot F1))、中文語言(CLUEWSC)、編碼(HumanEval-Mul)和數學推理(MATH-500(EM))方面與專有模型相當或優於它們。
  • 可擴充套件性:其開放訪問方法使醫療保健、金融和教育等領域受益,其中精度和成本效率至關重要。

5. 結論與未來工作

DeepSeek R1提高了推理、效率、透明度和決策制定能力。其效率和清晰的推理為資源節約和可理解的AI設定了新標準。透過提供強大的開源效能,它挑戰了專有模型,使先進的AI工具更加可訪問,並在關鍵領域建立了信任。
未來的工作可以集中在將DeepSeek R1的基礎能力應用於各個領域的現實世界挑戰。在醫療保健領域,改進結構化症狀分析並整合醫學知識圖譜可以提高診斷準確性。在教育領域,自適應輔導系統可以將複雜概念分解為清晰的逐步推理,使學習更加有效。科學研究可以受益於將實驗資料與理論模型連線的AI驅動方法,加速材料科學等領域的發現。
透過更好的硬體-軟體整合,可以在物聯網和邊緣裝置上更有效地執行AI,同時減少能源消耗,從而實現效率的進步。在自動駕駛系統和法律AI等高風險領域確保透明度,將需要可審計的推理路徑和內建的偏見緩解策略。透過社群驅動開發和專有增強相結合的開放原始碼生態系統擴充套件,可以幫助為公共和企業需求定製AI工具。
除了這些領域,AI在金融中的應用,如透過市場圖譜分析進行即時風險評估,以及透過地緣政治知識圖譜整合進行供應鏈管理,可以改變決策過程。展望未來,建立倫理問責標準,賦予領域專家AI驅動的洞察力,以及完善平衡規模與精度的混合架構,將是關鍵。DeepSeek R1有潛力推動一個建立在效率、透明度和現實世界影響基礎上的AI景觀。

參考文獻

[1] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., "Gpt-4 technical report," arXiv preprint arXiv:2303.08774, 2023.
[2] Anthropic, "Claude 3.5 sonnet," Blog post, 2024, accessed: 2024-07-15. [Online]. Available: https://www.anthropic.com/news/claude-3.5-sonnet
[3] A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Daille, A. Lerman, A. Mathur, A. Schelten, A. Yang, R. Fan et al., "The llama 3 herd of models," arXiv preprint arXiv:2407.21783, 2024.
[4] A. Yang, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Li, D. Liu, F. Huang, H. Wei et al., "Qwen2. 5 technical report," arXiv preprint arXiv:2412.15115, 2024.
[5] DeepMind, "Gemini 2.0," https://deepmind.google/technologies/gemini/, 2023, accessed: 2025-01-01.
[6] X. Bi, D. Chen, G. Chen, S. Chen, D. Dai, C. Deng, H. Ding, K. Dong, Q. Du, Z. Fu et al., "Deepseek llm:
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章