前言
Deepseek火了,就連我外國同學們也接連發給我一些個讚揚和莫名的激動,俗話說真外行人湊熱鬧,(裝)內行人寫公眾號。還有些個盼著英偉達股價多跳跳,趕緊啟用炒股賬號。Andrew NG 說的好, as if it was a Rorschach test that allowed many people to project their own meaning onto it,人們藉此將自個兒的意義都投射到這件事上面。
今天花了大半天時間看Deepseek R1 [1]的論文。我不是內行,只是也隨大流,特別好奇到底發生了什麼。疑惑主要有兩個,DS這波創新,對晶片行業的影響(例如:對GPU的需求)。咋敘事就從GPU、擴充套件大法(scaling law) 為王,到不像你想的那麼重要了呢?第二,DS到底做出了哪些方面的創新?
老黃的假內部信,新加坡前總理夫人的技術點評,Andrew NG 的力挺,壓力山大王的恐慌,奧特曼的開源反思… 鋪天蓋地的分析和各式聲音中,有幾個我覺得特別有意思。

Deepseek的創新


DS一項重要的創新是,使用強化學習(RL)來訓練模型的思維鏈(CoT):從普通的預訓練模型開始,在第二階段使用強化學習推理思維鏈,被稱為reasoning模型,OpenAI的o1/o3 類模型就是此類。於之前模型的區別在於人類反饋不再重要。
Reasoning的任務主要是數學和程式碼兩類,因為這兩種需要結構化的邏輯思維,和分步驟解決問題的能力。模型在數學和程式設計競賽題集上訓練,比如AIME 2024 (American Invitational Mathematics Examination), MATH-500 Benchmark, Codeforces (Coding Competition) 和 Engineering and Real-World Coding Tasks。
具體來說,
Deepseek-R1-zero
在基礎模型上使用不帶 SFT(監督微調)的純 RL(強化學習)來開發 Deepseek-R1-Zero,該模型用於驗證 LLM 的推理能力(類似 GPT 1o 但甚至更好)。
Deepseek-R1
Deepseek-R1-Zero雖好,但老是混雜語言。為了解決Deepseek-R1-Zero模型的可讀性差和語言混合問題,DS 在R1模型中開發了一個結合了2個RL和2個SFT的 pipeline(就像一個解決學生知識混合問題的學習計劃)。這個過程的結構為 SFT->RL->SFT->RL,具體來說是從冷啟動資料開始到實踐和細化多階段訓練,包含了人類反饋的環節。
1.SFT第一階段(學習開始)
模型拿到了帶有參考答案的家庭作業。它研究這些例子來學習如何做“一些事情”,比如回答事實問題、清晰地寫作和解釋事物。
2.強化學習第一階段(學習獨立思考)
類似於影片遊戲,玩家透過做出正確的動作會獲得積分或獎勵。如果模型給出了好的答案,它就會得到獎勵;如果沒有,它會再次嘗試並從錯誤中學習。
3.SFT階段2(新的和改進的訓練資料)
教師挑選模型(學生)的最佳答案並將其與其他高質量答案的示例相結合,該過程稱為拒絕抽樣(rejection sampling)。模型再次研究這些以進一步改進。
4.強化學習第 2 階段(結合人的偏好進行細化和調整)
基於上一階段,系統會獎勵那些更符合人們想要看到的內容的答案,比如禮貌、清晰和準確。評估人類偏好的答案是透過結合人類反饋和自動獎勵模型來完成的,也就是 RLHF(帶有人類反饋的強化學習)。
波斯兔子的解釋更好一些:
“但 R1-Zero 模型只是單純地進行強化學習,並沒有進行監督學習,所以它沒有學會人類的問答模式,無法回答人類的問題。所以 DeepSeek 團隊:1. 先收集了少量高質量的 Chain-of-Thought(CoT)資料,對 V3 模型進行初步的監督微調,解決了輸出語言不一致問題,得到冷啟動模型。2. 然後,他們在這個冷啟動模型上進行類似 R1-Zero 的純 RL 訓練,並加入語言一致性獎勵。3. 最後,為了適應更普遍、廣泛的非推理任務(如寫作、事實問答),他們構造了一組資料對模型進行二次微調。4. 結合推理和通用任務資料,使用混合獎勵訊號進行最終強化學習。”碎瓜,公眾號:波斯兔子Deepseek R1可能找到了超越人類的辦法
知識蒸餾(Distillation): 為小模型插上推理的翅膀

一點兒考古
Distillation 概念根源於Rich Caruana 2006年的論文 Model Compression [2],當時叫做壓縮。

"A version of this strategy has already been pioneered by Rich Caruana and his collaborators In their important paper they demonstrate convincingly that the knowledge acquired by a large ensemble of models can be transferred to a single small model."[3]
10年之後(2015)被 Hinton 在 Distilling the knowledge in a neural network. arXiv 2015 [3] 這篇論文中引用,開啟了知識提煉的當代實踐。證明了蒸餾模型可以實現與(可靠的)大模型相當的效能,並在MINST辨別手寫體和語音識別的任務中得到了驗證。

DS提煉的是大模型的推理能力,為小模型插上推理的翅膀;並驗證了被大模型帶,比單純進行RL的效果更好。
Hinton 解釋什麼是 distillation 和 co-distillation?
更有趣的是,除了一般的教師-學生蒸餾模型,Hinton 還解釋了模型之間的互相蒸餾(co-distillation between models),也叫做合作學習(collaborative learning)。是什麼意思呢?
傳統上,蒸餾涉及訓練一個大模型(或模型集合),然後將其知識壓縮成一個較小的模型。在合作蒸餾中,多個較小模型(例如,10個小網路)同時訓練,在訓練期間,每個模型都受到其他模型的預測(軟化輸出)的影響。這產生了一種對等壓力,每個模型都會調整其輸出以與對等點保持一致。
-
初始獨立學習: Hinton 強調需要在訓練開始時讓模型獨立學習。 如果模型被迫過早達成一致,它們可能會變得過於相似,這限制了它們探索不同解決方案的能力。 在一些初始學習之後,模型開始透過同意其他人的軟化輸出來共享知識。
-
合作蒸餾的好處: 單獨共同提煉的模型比單獨訓練而不進行協作的模型表現更好。 儘管整合(所有模型的綜合輸出)沒有太大改進,但每個單獨模型透過這種協作變得更強大。 這個過程有助於為每個模型建立更強大的泛化能力,如果模型看到資料的不同子集,這將特別有益。模型透過知識轉移分享關於看不見的資料的見解,就像科學家如何分享研究發現以提高集體理解一樣。
Hinton 將這個過程比作科學界的工作方式,就像科學家透過直接觀察資料和讀彼此的出版物(即向他人學習)來收集知識,站在彼此的肩膀上。同樣,神經網路相互分享它們的預測,以建立跨模型的知識“共識”。
儘管現在各家模型還互相提防,你可別提煉了我的知識。沒準兒將來這些“各有千秋”的模型(GPT,Claude,Deepseek,Gemini,Mistral,xAI … ) 或者提煉了大模型的小臭皮匠們可以合作起來,互相學習,也許通往AGI的最快途徑。(天吶想想還挺感動的

在semi-analysis的報告裡,也提到了DS使用distillation的創造性:
“說到提煉,R1 論文中最有趣的部分可能是能夠透過使用推理模型的輸出對非推理小型模型進行微調,將其轉變為推理模型。資料集策展總共包含 80 萬個樣本,現在任何人都可以使用 R1 的 CoT 輸出來製作自己的資料集,並在這些輸出的幫助下製作推理模型。我們可能會看到更多小型模型展示推理能力,從而增強小型模型的效能。”青投創新,公眾號:青投創新深度|SemiAnalysis萬字長文:DeepSeek是當今最好的開源實驗室,但GPU和訓練成本可能被低估了
英偉達的17% selloff
關於英偉達的股價,我覺得老塔最近的採訪講的很有趣。作為一個投資量化界的哲學家,也是把各色天鵝研究的明明白白的人(詳情請閱讀隨機漫步系列)。
-
對於這個行業所面臨的風險來說,相對於它的上漲,17%不算是一個大的回落。從1到10你不會覺得多驚奇,但是若從10降到9,你一定會恐慌。
-
當人們將AI產業的敘事全部寄託在英偉達的晶片上面。也就是把信心都集中在一個共識:最能從ai中獲利的公司就是英偉達,而不是別人,全世界(不止ai的發展,最前沿技術的發展)都得依賴它的晶片。任意一個其他方面的“技術創新”(不管是軟體或者其他更好的想法)對於此敘事的衝擊,都可以視作“灰天鵝”——指的是那些已知的可能發生,但是假設其不會發生的事。
-
這反映了經濟結構的脆弱性,反映了基於極少數的股票所積累起的大市值的脆弱性。光是英偉達自己,3 trillion 的市值,那麼脆弱性首當其衝的便是最耀眼的那個。
-
如果回看歷史,你在1998/9年想投資網際網路產業,你會投資一家公司叫 Alta vista,後來 google 橫空出世。
-
讓人們認清現實的開始,這個系統並不是堅不可摧,也並不是只有一種敘事的可能。
The cost of GPU 硬體和成本
推薦閱讀:Semianalysis report [4] , Deeplearning.ai blog [5]
關於模型對英偉達GPU的使用情況,也是關注的焦點,Andrew NG的文章中說:
OpenAI 的 o1 每百萬輸出代幣成本為 60 美元;DeepSeek R1 成本為 2.19 美元。
在美國 AI 晶片禁運的推動下,DeepSeek 團隊不得不在許多最佳化方面進行創新,以便在效能較差的 H800 GPU 而不是 H100 上執行,最終導致模型的訓練(不包括研究成本)計算成本低於 600 萬美元。
Semianalysis在文章"DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts"裡也提出了關於Deepseek GPU的使用“猜測”:
"我們認為他們擁有大約 50,000 個Hopper GPU,這與某些人聲稱的 50,000 個 H100 並不相同。Nvidia 按照不同的規定製造了不同的 H100 變體(H800、H20),目前只有 H20 可供中國型號供應商使用。請注意,H800 具有與 H100 相同的計算能力,但網路頻寬較低。
我們認為 DeepSeek 擁有大約 10,000 臺 H800 和大約 10,000 臺 H100。此外,他們還有更多 H20 的訂單,Nvidia 在過去 9 個月內生產了超過 100 萬臺中國專用 GPU。這些 GPU 在 High-Flyer 和 DeepSeek 之間共享,並且在一定程度上分佈在各個地區。"


deepseek vs GPT 推理秀
最後,放一段 deepseek vs GPT 的推理秀。向模型發問“你的思維鏈是什麼?”,以一道簡單程式碼題為例,他們的回答分別是:


不難看出風格上的差異。DS在自言自語的小鎮做題家(hmmm),ChatGPT更像是教書先生(一本正經)。
雞毛秀裡的形容更形象:
小模型向大模型蒸餾,我們再向小模型蒸餾。問“你的思維鏈是什麼?”是我最近頻繁地和模型互動的方式,而不是直接接收模型給出的答案。我個人是有點迷上了看 Deepseek R1的thinking loop,那感覺像是學習好的同學沉浸式地給你講他的解題思路一樣。
寫在最後
正所謂,上有政策下有對策。創新越是從夾縫裡,從資源的束縛裡,從不可能變成可能,才越顯得耀眼和牛逼。這也是Deepseek能夠火到每個人心裡的重要原因(不管是激動的火焰還是著急上火)。從零到一確實是美國最擅長的東西,但當你有那麼多資源的時候,更多的是守住陣地的危機感而不是挑戰者的激情,which 後者雖不得已,但我們正旺盛。
如果大家的目標是整出AGI而不是比誰H100,800多,不止一條道路可以走。就像Hinton在最近的訪談中說 [6],晶片禁運,只會加快中國創(xiǎng)新(fǎ)的速度,再怎麼圍追堵截也是無法擋住流動的水不是?
Deepseek 不是一個最終解決方案,但一定是久違的信心。
衝,deepsnake!
參考資料
[1] Deepseek R1 論文 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
[2] Model Compression https://www.cs.cornell.edu/~caruana/compression.kdd06.pdf
[3] Distilling the knowledge in a neural network https://arxiv.org/abs/1503.02531
[4] Andrew NG的部落格:https://www.deeplearning.ai/the-batch/issue-286/
[5] Semi-analysis 報告:GPU和訓練成本被低估了
"DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts" https://semianalysis.com/2025/01/31/deepseek-debates/
[6] Hinton最近採訪提到中美差距:https://www.youtube.com/watch?v=b_DUft-BdIE