解構DeepSeek-R1:一場AI效率革命背後的技術突破

科技圈從來不缺新聞,但 DeepSeek-R1 的出現,卻像一顆石子投入平靜的湖面,激起了層層漣漪。這家來自中國的 AI 初創公司,以其開源的推理大模型 R1,正在攪動全球 AI 格局。R1 不僅擁有媲美甚至超越 OpenAI o1 的效能,更以其低廉的成本和開放的姿態,贏得了全世界的關注。DeepSeek-R1 的出現,如同 AI 界的“鯰魚”,它的開源策略和高效效能,正在迫使整個行業重新思考 AI 的未來。
那麼,這條“鯰魚”究竟帶來了哪些改變?中國計算機學會青年計算機科學與技術論壇(CCF YOCSEF)近期組織了一場研討會,邀請了復旦大學邱錫鵬教授、清華大學劉知遠長聘副教授、清華大學翟季冬教授以及上海交通大學戴國浩副教授四位專家,從不同角度深入解析了 DeepSeek-R1 的技術突破與未來影響,或許能從中找到答案。
R1 的推理模型架構突破
要理解 R1 的突破,我們要從 o1 類推理模型開始說起。
邱錫鵬認為,當前人工智慧領域正面臨著一個重要轉折點。此前,Ilya 稱“預訓練時代可能即將結束”。這一變化主要源於資料增長的停滯。在這樣的背景下,OpenAI 開始轉向強化學習和推理式計算的探索,試圖透過增加推理長度來改進模型效能。這也為下一代大模型的發展注入了新的動力。
邱錫鵬解釋說:“o1 模型的訓練需要在強化學習的框架下進行,大語言模型充當了一個 Agent。每個動作其實就是生成下一個 token,最終生成整個 step 或者 solution。”在這個框架下,模型需要考慮動作的顆粒度定義,以及如何在給定當前狀態 (State)的情況下,透過策略 (Policy) 生成下一階段的動作(Action)。
(來源:arXiv
從強化學習的視角來看,o1 這類大型推理模型可以分為四個核心要素。第一是策略初始化這要求模型具備初始的、類人的推理行為能力,包括問題理解、任務分解,以及驗證和修正錯誤的能力。
(來源:arXiv
第二個要素是獎勵函式設計。“reward 其實在傳統方法裡主要分成兩大塊,”邱錫鵬解釋道,“一個是從環境中直接獲得獎勵訊號,就像解題時的判斷對錯。另外,如果沒有環境的回饋訊號,我們可以透過專家或者偏好資料來訓練一個獎勵模型。”o1 模型在訓練過程中混合了多種獎勵函式的設計方法,並且嘗試從結果監督轉向過程監督,在中間過程進行打分。
第三個要素是搜尋策略。在學術界,研究者們投入了大量精力來提高搜尋效率。搜尋方法主要分為兩類:基於樹的搜尋和基於順序修改的搜尋。這兩種策略對於復現 o1 模型都具有重要意義。
第四個要素是學習過程。這主要包括使用強化學習和其他方法來最佳化模型。具體可以分為兩個階段:在預熱(Warmup)階段使用行為克隆方法,然後在第二階段透過強化學習來提升模型效能。
在許多 o1 的復現工作中,業界有很多復現是基於 SFT 或者蒸餾 o1 的路線。但實際上,o1 的核心還是應該從強化學習框架開始。
R1 釋出了兩個版本:R1-Zero 和 R1。其中,R1-Zero 完全依靠強化學習驅動,不經過預熱階段,沒有任何初始的人工調節。正如邱錫鵬所說:“R1-Zero 是從基礎模型開始,完全由強化學習驅動,不經過之前提到的 warmup 階段。這個模型沒有任何初始的人工調節,完全靠強化學習來進行最佳化。”
在訓練過程中,隨著步驟的增加,模型逐漸展現出長文字推理的能力,尤其是長鏈推理。推理路徑變得越來越長,同時還表現出了自我修正的能力,能夠發現並修復之前的錯誤。不過,在實際訓練中也出現了一些問題,比如經常出現語言混合的問題。
R1 的訓練分為四個關鍵階段:冷啟動階段、推理導向的強化學習階段、拒絕抽樣與監督微調階段,以及全任務強化學習階段。在冷啟動階段,透過收集少量合成數據進行微調,確保訓練初期的穩定性。第二階段以 DeepSeek-V3 為基礎,進行強化學習訓練,並引入語言一致性的獎勵機制。第三階段引入其他領域的監督微調 (SFT,Supervised Fine-Tun-ing)資料,增強模型在寫作、角色扮演等任務上的通用能力。最後階段則透過規則獎勵和偏好獎勵進行全面最佳化。
值得注意的是,R1 並未採用傳統的過程監督或蒙特卡洛樹(MCTS,Monte Carlo Tree Search搜尋等技術。邱錫鵬指出:“R1 雖然沒有顯式強調 MCTS 搜尋,但最終報告顯示,透過 majority vote,能夠大幅提高推理效果,這也說明搜尋在推理過程中依然具有提升模型能力的作用。”
尤其令人意外的是,R1 在寫作能力方面表現突出。邱錫鵬表示:“OpenAI o1 相比 4o,寫作提升並不多,但 R1 在寫作任務上有明顯的提升。這可能意味著,強推理技術可以幫助模型在創作任務中發揮更大的潛力。”
不過,R1 仍然存在一些需要改進的地方。在通用任務上的推理效果還不夠理想,強化學習的泛化能力仍需進一步研究。此外,測試時間擴充套件性與訓練規模、資料規模密切相關,需要確保足夠的訓練步驟和資料來保證模型效能。
但總的來說,R1 的架構創新為人工智慧領域帶來了新的可能。它是目前唯一具備強推理能力並能與聯網搜尋配合的產品,這也意味著下一步的發展很可能是進一步提升強化學習和推理模型的能力。
為什麼 R1 能夠引起如此廣泛的關注?
實際上,DeepSeek-R1 並非第一個推理模型,也並不是第一個 OpenAI o1 的復現模型,為何它卻引起了如此廣泛的關注?
劉知遠認為,DeepSeek-R1 的重大影響源於其在兩個方面的突破性貢獻。“DeepSeek 是全球首個透過純強化學習技術,成功復現了 o1 的能力,並且開源了相關的技術細節,釋出了相對詳細的技術報告。這是它的一個非常重要的貢獻。”
具體來看,R1 的第一個突破在於其獨特的技術路線。它基於 Deep Seek-V3 的基礎模型,透過大規模強化學習技術增強推理能力。這一成就意義重大,因為在此之前,幾乎沒有任何團隊能夠成功地將強化學習應用到大規模語言模型的訓練中。更值得注意的是,R1 並未侷限於規則驅動的數學模型或演算法,而是成功地將強化學習帶來的強推理能力泛化到其他領域,使得使用者在實際使用過程中能夠感受到其在寫作等任務中的卓越表現。
(來源:劉知遠)
那麼它具體是如何做到的呢?實際上,R1 的訓練分為兩個階段。第一階段仍然基於 V3 的基礎模型,透過增強推理過程的可讀性,生成相應的深度推理資料。第二階段則結合傳統的通用 SFT 資料對大模型進行微調,並進一步進行強化學習,最終得到一個具有強泛化能力的推理模型,也就是 R1。
第二個重要突破在於其開源策略的選擇。最近,OpenAI CEO Sam Altman 承認,自己沒有選擇開源站在了“歷史錯誤的一邊”。劉知遠指出,OpenAI 這一系列決策失誤為 DeepSeek 創造了機會。“OpenAI 的決策失誤起了很大作用。OpenAI 在釋出 O1 後,首先沒有開源;其次,它把 O1 的深度推理過程隱藏起來;最後,其收費非常高,導致全球很多人無法真正體驗到深度推理帶來的震撼。
相比之下,DeepSeek 選擇了開源的道路,這一決定具有深遠的戰略意義。就像 2023 年 Meta 釋出 LLaMA 模型時那樣,開源讓全球的研究者能夠快速建立起相關能力。劉知遠將 DeepSeek-R1 的影響力比作 2023 年初 OpenAI 釋出 ChatGPT 時的震撼。如果說 ChatGPT 讓全球看到了大模型的重要性,那麼 DeepSeek 的開源則讓全球研究者有機會親身參與到強大推理能力的開發中。
更重要的是,DeepSeek 的成功展示了“有限算力+演算法創新”的發展模式。在有限的算力資源支援下,透過強大的演算法創新突破了算力瓶頸的限制,證明即使在算力受限的情況下,也能做出具有全球影響力的成果。這一點對中國 AI 發展具有重要啟示。
放眼未來,劉知遠提出了人工智慧發展的三大方向:探索科學化的技術方案,追求更高效的人工智慧;實現計算系統的智慧化,以更低成本推動大模型在各領域的應用;推動人工智慧的廣泛應用,實現真正的普惠。他特別指出,從 2023 年以來,大模型的能力密度每 100 天翻一倍,這意味著每過 100 天,只需一半的算力和引數就能實現相同的能力。這種密度定律的存在,將是實現人工智慧高質量、可持續發展的關鍵。
“DeepSeek 給我們帶來的一個重要啟示。”劉知遠總結道,“就是它能夠讓我們看到用小米加步槍也能取得非常廣闊的勝利。我們即將迎來一個智慧革命的時代,它的高潮即將到來,這是非常值得期待的。”
DeepSeek 的系統軟體最佳化
除了純強化學習等演算法層面的創新,DeepSeek 能引起全球專注的另一個重要原因就是其低廉的訓練成本。翟季冬就從系統軟體層面深入分析了 DeepSeek 降低訓練成本的方法。
根據 DeepSeek 公開的訓練成本資料,如果按照 H800 每卡每小時 2 美元的租賃成本計算,整體訓練成本約為 550 萬美元(不包括前期的模型架構探索和實驗開銷)。這個遠低於其他國際大公司的訓練成本的資料在業界引發了廣泛討論。
從訓練規模來看,使用 2048 張 H800 顯示卡需要 54 天完成訓練,而如果使用 10000 張 H800 顯示卡,只需要 11 天。這種高效訓練背後是 DeepSeek 在模型架構和系統最佳化上的創新。DeepSeek V3 擁有 671B 引數,遠超 GPT-3 的 175B。它採用了 MoE(mixture of experts架構,每個 token 會啟用 37B 引數,約佔總引數量的 5.5%。整個模型包含 61 層 Transformer,除前三層外都採用了 MoE 架構,每一層都包含一個共享專家和 256 個路由專家,每個頭可能啟用 8 個路由專家。
(來源:arXiv
為了高效訓練這樣一個龐大的模型,DeepSeek 開發了並行訓練框架 HAI-LLM。該框架採用了 16 路流水線並行、64 路專家並行 (跨越 8 個物理節點)、基於 ZeRO-1 的資料並行方案。考慮到通訊開銷,框架沒有采用張量並行策略。在此基礎上,DeepSeek 針對系統的四個關鍵方面進行了深度最佳化。
在負載均衡方面,MoE 架構最大的挑戰在於如何保證各個專家的計算負載均衡。DeepSeek 創新性地提出了“auxiliary loss free”負載均衡策略,透過引入 Expert Bias 動態調節負載分配。當發現某個專家負載過重時,系統會降低其 bias 值;當專家負載不足時,則增加其 bias 值。這種動態調節確保了訓練過程中的計算資源能夠得到充分均衡的利用。
在通訊最佳化方面,專家並行會帶來大量的“alltoall”通訊開銷。為了解決專家並行帶來的巨大通訊開銷,DeepSeek 設計了創新的 DualPipe 演算法。“透過精細控制分配給計算和通訊的 GPU SM 數量,保證計算和通訊能夠完全重疊。”翟季冬解釋說。在跨節點通訊方面,DeepSeek 採用了獨特的設計:“跨節點時,每個 token 最多路由到 4 個物理節點;節點內時,每個 token 平均選擇 3.2 個專家。這種設計充分考慮了 IP 頻寬與 NVLink 頻寬的比值關係。”
(來源:arXiv
在記憶體管理上,DeepSeek 採用了一系列創新方法提升 GPU 視訊記憶體利用效率。透過對 RMSNorm、MLA up-projection 等操作進行重計算,以及將模型引數的指數移動平均等資料儲存到 CPU 記憶體中,大大降低了 GPU 視訊記憶體壓力。此外,DeepSeek 還實現了主模型和 MTP 模組的 output head 和 embedding 在相同節點上的引數共享。
在計算最佳化方面,DeepSeek 採用了混合精度訓練策略,在核心計算層使用 FP8 精度格式。為了解決低精度可能帶來的收斂問題,團隊設計了細粒度的量化方案,將 Activation 按 1*128 Tile 分組,Weight 按 128*128 block 分組,並透過提高累積精度來保證訓練的穩定性。
(來源:arXiv
翟季冬強調,這些系統級最佳化的意義不僅在於降低了訓練成本,更在於提升了模型的整體效能。特別是在 MoE 架構的負載均衡問題上,DeepSeek 的創新解決方案為整個行業提供了重要參考。這些最佳化策略的成功實施,證明了即使在有限的算力資源條件下,透過軟體層面的創新也能實現卓越的效能表現。這種系統軟體層面的深度最佳化,既展示了中國 AI 技術在工程實現上的創新能力,也為未來大模型的訓練提供了一個高效且可持續的技術路徑。
從軟硬體協同看 DeepSeek 的未來方向
在各路研究者和媒體對 DeepSeek 模型的不斷深挖下,有研究者發現,DeepSeek 在研發大模型時或許繞過了 CUDA
戴國浩從軟硬體協同的視角對這一點進行了分析。他首先說明了現狀:“當前我們在開發人工智慧應用時,通常會使用高層程式語言或硬體介面進行程式設計,而不需要關心底層硬體的具體樣式或操作。”
當我們使用 GPU 時,通常會經過多個層級才能呼叫到底層硬體。從上到下依次是高層程式語言 (如 Python、C++)、硬體介面 (如 CUDA、OpenCL 等)、驅動程式,最後才是底層硬體。在這個過程中,CUDA 作為一個相對高層的介面,為使用者提供程式設計介面,而 PTX 則隱藏在驅動背後。
(來源:Nvdia)
DeepSeek 的突破性創新在於它直接深入到 PTX 層面。正如戴國浩所說:“PTX 與底層硬體直接互動。如果我們能夠編寫和呼叫 PTX 程式碼,我們就能更精確地控制底層硬體,實現更高效的計算。”這一最佳化思路引發了廣泛關注,“有些媒體將這項技術解讀為‘突破性繞過 CUDA 的限制’,而國內一些媒體也將其稱為‘繞開 CUDA 的壟斷’。”
(來源:DeepSeek)
那麼其具體意義究竟如何?“幾乎所有的深度學習和大模型的演算法工程師並不會直接接觸底層介面。那麼,為什麼這一層的最佳化如此重要呢?原因在於 PTX 與底層硬體直接互動。如果我們能夠編寫和呼叫 PTX 程式碼,就能更精確地控制底層硬體,實現更高效的計算。”戴國浩說。
戴教授將 DeepSeek 的最佳化策略分為兩大類。第一類是底層最佳化,即在已知演算法模型和底層硬體的情況下,透過軟體最佳化來提升硬體效率,比如通訊最佳化或記憶體最佳化。這些最佳化不會改變程式執行的正確性,但能顯著提升效能。第二類是協同最佳化,包括混合精度、量化和 MLA 等技術,這些最佳化不僅涉及原有演算法模型的修改,還可能需要調整底層硬體,從而擴充套件硬體最佳化的空間。
為了說明底層最佳化的重要性,戴教授用氣泡排序演算法作為例子。雖然 Python 實現起來更簡單,但 C 語言這樣的底層語言往往能實現更高的硬體利用效率、更低的功耗和更短的計算時間。這一點在 FlashTest 的研究中得到了充分驗證,透過對不同記憶體層級的精細控制,FlashTest 實現了比傳統方法快一個數量級的效能提升。
在協同最佳化方面,DeepSeek 展示了從應用到基礎設施的全系統最佳化思路。比如,晶片公司 Groq 透過定製硬體架構,將傳統 GPU 中的 HBM 或 GDR 記憶體替換為級聯的 SRAM 記憶體,使得大模型推理速度提升了多個數量級。這種協同最佳化不僅僅侷限於軟體層面,而是打破了單一層級的限制,實現了超越 GPU 原始效能的突破。
從更宏觀的角度來看,人工智慧的發展離不開三駕馬車:算力、演算法和資料。從最初的神經元提出,到 80 年代的早期識別模型,再到當前基於 GPU 的大模型訓練,每一次突破都依賴於這三者的協同發展。戴國浩指出,中國在這一過程中也需要走出自己的閉環。DeepSeek 的成功已經為我們證明,透過系統架構的最佳化,結合國產晶片和硬體,中國的 AI 技術完全可以逐步超越國際競爭者。
戴國浩最後總結了三點關鍵思考:“瞭解硬體細節,極致底層最佳化;打通軟體硬體,聯合協同最佳化;形成邏輯閉環,助力國產發展。”這三點思考勾畫出了一個“模型-系統-晶片”和“軟體-硬體”雙閉環的發展路徑,為中國 AI 產業的未來發展指明瞭方向。這種全方位的軟硬體協同創新策略,不僅能夠提升現有技術的效能,更為重要的是能夠推動形成完整的國產 AI 技術生態體系。
面向未來:創新、開源與持續發展
在研討會的最後環節,與會專家們就觀眾關心的問題進行了深入討論。其中,關於 MoE 架構是否是當前最優解的問題引發了熱烈討論。
劉知遠認為:“沒有人永遠是對的。2023 年初 OpenAI 釋出 ChatGPT 他做對了,釋出 GPT4 他做對了,但釋出 o1 他就做錯了選擇了不開源。我也不會認為 DeepSeek 選擇了 MoE 就會永遠是正確的,這應該是一個開放性的問題。”
翟季冬也表示認同:“這一波人工智慧對我影響最大的,就是技術在不停地變化。這是人工智慧最有意思的地方,很有可能又有一些新的技術會顛覆現有技術。”
戴國浩則從歷史角度進行了分析:“神經網路在上世紀 80 年代被提出時,到 90 年代很多機器學習會議已經拒絕接受神經網路的論文,認為效果不好、可解釋性差。但技術的發展與時間有關,我們需要保持開放態度。MoE 在當前取得了不錯的效果,但這隻能說是一個很好的解,而不是最優解。”
對於長思維鏈模型對硬體的特殊需求,戴國浩指出了兩個關鍵變化:一是對歷史資訊獲取提出了更高要求,二是對整體推理時間和成本的需求變得更大。這促使業界思考是否需要改變傳統的計算和儲存分離模式,探索將計算和儲存放得更近,甚至放到一起的可能性。
研討會的討論也觸及了 DeepSeek 給中國大模型發展帶來的啟示。邱錫鵬強調了高水平研發團隊的重要性,特別是年輕研究者敢於創新的精神。劉知遠則特別讚賞 DeepSeek 團隊的技術理想主義,以及他們在“有限算力+演算法創新”模式下取得的成就。
翟季冬認為 DeepSeek 的成功將產生示範效應:“DeepSeek 團隊這次的成果,一定會對中國在人工智慧領域的工作者產生很大的激勵作用。這讓大家看到,中國團隊完全有能力做出世界級的成果。”
從全球視角來看,DeepSeek-R1 的出現確實標誌著 AI 領域格局的重要轉變。一方面,在這場 AI 競賽中,雖然美國目前仍佔據領先地位,但形勢正在發生微妙變化。如前谷歌 CEO Eric Schmidt 在近期採訪中談到的“即使美國贏得了這場競賽的第一階段,中國最終也很可能會在這場競賽中勝出,因為他們能夠更快地將這類技術大規模應用到實際產品中。”
另一方面,這更預示著 AI 技術正在走向更高效、更開放的發展模式。相比傳統的“規模至上”路線,DeepSeek 展現的高效創新路徑或將重新定義 AI 發展的正規化。
參考資料:
1.https://arxiv.org/html/2412.14135v1
2.https://arxiv.org/pdf/2408.15664
3.DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub
4.https://developer.download.nvidia.cn/compute/cuda/docs/CUDA_Architecture_Overview.pdf
排版:劉雅坤


相關文章