▲點選圖片報名,抓住風口(iOS使用者請用電腦端開啟小程式)
大家好,我是王煜全。
今天是大年初二,不少朋友要麼在走親訪友,要麼已經開始出門旅遊。
乘著路上的時光,我和大家聊聊這幾天最熱鬧的事情——中國AI大模型DeepSeek R1,分享一下我眼中R1對AI產業究竟意味著什麼,結尾還會附上創新地圖小夥伴整理的DeepSeek技術路線歷程。
DeepSeek-R1其實1月20日已經發布,當時就開源了R1-Zero、R1在內的6款模型。
不過,當時最熱的AI話題是美國投資千億的“星際之門”,只有學術、產業界人士注意到R1的價值,大家都在好奇這家中國公司如何讓AI模型的成本降低這麼多。
24日,隨著開發者社群、投資人的持續關注,R1在X(原推特)上炸出了圈,誇張點說我看到的90%資訊都和DeepSeek有關。
1月27日,隨著DeepSeek的APP登頂美國在內的多國下載榜第一,這款中國AI大模型真正火遍國內外。
一時間,“中國AI反超美國”“OpenAI模式過時”“開源AI迎來重大突破”的討論層出不窮,甚至有科技媒體認為“R1宣告AI算力需求就此消失”。
咱們先別急著站隊,也別被中美媒體的敘事帶節奏,還是回到科技產業的視角,更能看清R1的價值。

歷史上的案例我以前跟大家講過很多,瓦特並沒有發明蒸汽機,但是他讓蒸汽機效能大幅提升,開始規模化應用,所以他被人們銘記。
R1作為一款推理模型,用專業術語說就是模型會自己透過思維鏈(Chain-of-Thought, CoT)逐步分解複雜問題,一步步反思得到相對準確並且富有洞察的結果。
思維鏈推理這條路並不是DeepSeek首發,OpenAI之前推出的o1模型才是這條路徑的開創者。
但是,這有個非常重要的但是,R1的出現第一次讓推理模型能被大多數人用上。
雖然由於這幾天新增使用者太多經常出現宕機,相較於OpenAI花200美元訂閱費才能隨意使用O1,DeepSeek這次確實是領先了非常大的一步。
其次,R1讓我們看到AI大模型工程調優更加巨大的潛力。
回顧2024年DeepSeek團隊釋出的4篇重要論文,從中能看到一個清晰的技術演進路線:從資料、演算法和工程框架的底層入手,透過不斷最佳化模型架構和訓練方法,在降低成本的同時提升效能。
DeepSeek開源的第一款AI模型並沒有引發太多關注,但當時他們就已經在探索模型引數量、資料量和算力的最優配比,透過分階段的方式提升訓練效率,開發思路已經聚焦在最底層的效率最佳化上。
V2版本在MoE也就是多專家架構上做了最佳化,還對Transformer架構最關鍵的注意力機制做了改進,推出了Multi-head Latent Attention,結合上資料工程的最佳化,大幅降低了訓練和推理成本,同時提升了模型效能,也由此開啟了2024年的模型價格戰。
2024年5月前哨PPT報告,現在加入即刻獲取

年底的V3版本可以說是一次集大成之作,訓練上優化了不同專家模型的訓練負載,驗證了FP8混合精度下資料訓練的有效性,同時讓AI模型不是單獨預測下一個Token,而是多個token同時預測,大幅提高了模型效能,也降低了向用戶提供服務的成本。
最新的DeepSeek R1,在如何讓AI能持續思考這件事上,探索了純強化學習訓練推理能力的可能,並且把這條路走通了。
說的誇張一點,相當於Alpha Go到Alpha Zero的進步,AI不再依賴人類資料學會推理,自己探索政策的推理策略,所以才有他們論文中提到的“啊哈時刻”,AI在某個時間點自己“頓悟”做推理的方法。
我也不是AI工程技術的專家,更多細節就不逐一列舉了,DeepSeek的4篇論文要點已經在文末附上,歡迎大家分享你的解讀。
當全世界都在卷算力、堆GPU的時候,DeepSeek透過精細的工程最佳化讓我們看到工程最佳化也能實現效能的十倍提升,也變相回答了“Scaling Law是否失效,AI的發展會不會停止”這個問題:
之前的算力、資料使用方法太過粗糙,Scaling Law還有巨大的增長空間。
以前,AI大模型領域一直是OpenAI、谷歌、微軟這些巨頭玩家的天下,它們憑藉雄厚的資金和技術實力,牢牢把控著產業的話語權。
在這種產業路線下,才會有星際之門這樣的超級基建專案,也導致晶片封鎖等等貿易衝突。
現在,DeepSeek不但告訴大家在堆晶片之外還有一片巨大的空間等待探索,它還將這條路徑的實現過程開源出來,打破了AI技術的壟斷格局,讓更多中小企業和開發者,也有機會參與到AI大模型的研發和應用中來。
所以才會有許多網友調侃,相比於O1推理過程都要隱藏的起來的OpenAI,整個模型都開源的DeepSeek更像OpenAI。
當然,R1的出現,也引發了一些新的討論,其中最熱門的就是“R1是不是AI算力需求暴跌的開始?”。
英偉達這幾天股價下跌,不少人已經將它看成是市場的回答。
對此我還是想提醒一下大家,股價短期波動我不懂,但長期看AI算力只會增長,不會下降。
這就是「傑文斯悖論」的又一次重演。
1865年,英國經濟學家威廉·斯坦利·傑文斯在他的《煤炭問題》(The Coal Question)一書中提到:每一次蒸汽機的成功改進都進一步加速了煤炭的消費,煤炭利用的效率越高,越經濟,都導致生產規模的擴大和煤炭需求的增長。
原因很簡單,蒸汽機讓更多工廠擺脫水的限制,建在任何地方,生產效率也大大提高,這反而讓英國對煤炭的需求變得更多。
今天AI大模型也是一樣,R1雖然降低了訓練成本,但它讓更多人、更多企業能夠用上AI大模型,這反而會讓AI的算力需求進一步增加。
所以R1不會是AI變革的終點,斷言勝負之類的宏大敘事都還太過虛無飄渺,我們可以必然預見的是在我們的這個時代,AI的應用場景將更加廣泛,AI產業的格局也將發生深刻的變革。
至於會有哪些變革發生,這次春節結束我就會帶來專題直播,和大家繼續分析AI產業的未來發展趨勢,更多內容就留待節後詳細解讀吧。
前哨特訓營春節大促正在進行中,現在長按文末海報加入特訓營,即可獲取全年最大優惠!
DeepSeek 4篇重要論文及工程最佳化要點:
1.DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
這篇論文奠定了 DeepSeek 大模型的基礎,提出模型引數規模並非越大越好,而是要找到模型引數量、資料量和算力的最優配比,透過分階段的 Multi-step 學習率下降的方式,在不損失效能的情況下,可以更便捷地進行持續訓練。
2.DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
Multi-Head Latent Attention (MLA):透過對 Key 和 Value 進行低秩壓縮,極大地減少了推理時的 KV cache,提高了推理效率,同時效能又比 MHA 更好。
DeepSeekMoE:透過精細化的專家劃分和共享專家的隔離,DeepSeekMoE 能夠在更低成本下訓練更強大的模型。
Device-Limited Routing: 在訓練過程中對 MoE 架構進行了改進,實現了訓練效率的提升,並在跨節點通訊時加入了平衡負載策略。
低成本訓練:V2 在效能超越 DeepSeek 67B 的同時,訓練成本卻降低了 42.5%。
3.DeepSeek V3 Technical Report
輔助損失函式 (Auxiliary Loss) 新策略: 解決了在 MOE 模型訓練中,為了平衡負載而引入的輔助損失帶來的模型效能損失問題。
Multi-Token Prediction: V3 不再採用傳統的單 Token 預測,而是採用多個 token 同時預測,從而提高了模型的整體效能,同時也有利於在推理階段使用 speculative decoding 來提升推理速度。
FP8 混合精度訓練:使用 FP8 混合精度框架訓練,並在大規模模型上驗證了其可行性和有效性。透過 FP8 計算和儲存,訓練得到了顯著的加速,並減少了 GPU 記憶體的使用。
DualPipe:透過 DualPipe 演算法,顯著減少了 pipeline 過程中存在的 bubble,並使得通訊過程和計算過程能夠高度重疊,大幅提升了訓練效率。
高效的跨節點通訊: 使用高效的跨節點 all-to-all 通訊核心,充分利用 IB 和 NVLink 的頻寬,減少訓練時的通訊開銷。
4.DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
不依賴監督微調的 RL:DeepSeek-R1-Zero 直接在 base 模型上運用 RL (強化學習)訓練,證明AI大模型可以透過 RL 訓練出更強的推理能力,不需要預先經過監督微調的訓練。
多階段強化學習:為了克服 RL 產生的不穩定性,DeepSeek-R1 先使用少量資料進行監督學習,再進行面向推理的強化學習。之後,再透過拒絕取樣的方式來做監督微調,並結合全場景的 RL,最終形成了 DeepSeek-R1 模型。
小模型蒸餾:DeepSeek 團隊探索瞭如何把 R1 模型的推理能力遷移到小模型中。他們使用 蒸餾的方法訓練了基於 Qwen 和 Llama 的系列小模型。
【科技特訓營】看懂科技產業,離不開長期觀察。線上書院模式,與王老師深度連結!為未來五年做好準備,先人一步,看清未來!
↓長按圖片掃碼報名,先人一步,看清未來

前哨2025全年直播規劃
