蒸餾不是抄襲，而是技術演進的必要手段。

文｜鄧詠儀

編輯｜蘇建勳

封面來源｜IC photo

2025年春節期間，最紅的不止是哪吒2，還有一個名為DeepSeek的應用——這個勵志故事被傳頌多次：1月20日，位於杭州的AI初創公司DeepSeek（深度求索）釋出了新模型R1，對標OpenAI如今最強的推理模型o1，真正意義上做到了引爆全球。

上線僅僅一週，DeepSeek App已經斬獲超2000萬的下載量，在超過140個國家排名第一。其增長速度超越了2022年時上線的ChatGPT，目前已是後者的約20%。

火到什麼程度？截至2月8日，DeepSeek的使用者數已經超過1億，覆蓋的人群遠不止AI極客，而是已經從中國，延伸到全球。從老人、兒童到脫口秀演員、政客，人人都在談論DeepSeek。

直到現在，DeepSeek帶來的震動還在持續。過去兩週，DeepSeek走馬燈似地演完了TikTok的劇本——爆火和高速增長，打敗美國諸多對手，甚至讓DeepSeek迅速站到地緣政治的懸崖上：美國和歐洲開始討論”影響國家安全”，許多地區迅速頒發禁止下載或安裝的命令。

A16Z合夥人Marc Andreessen甚至驚歎：DeepSeek的出現，是又一個“斯普尼克時刻”（Sputnik Moment）。

（一個源於冷戰時期的說法，蘇聯在1957年成功發射全球首顆人造衛星“斯普特尼克一號”，引起了美國社會的恐慌，意識到自身地位受到挑戰，技術優勢可能被傾覆）

但人紅是非多，在技術圈內，DeepSeek同樣也陷入“蒸餾”、“盜竊資料”等等爭議中。

截至目前，DeepSeek沒有任何公開回應，這些爭論也隨之落入兩個極端：狂熱的追捧者，將DeepSeek-R1上升至“國運級”創新；也有科技從業者，對DeepSeek的超低訓練成本、以及蒸餾訓練方式等等提出質疑，認為這些創新被過於追捧。

Deepseek“盜竊”OpenAI？更像是賊喊捉賊

幾乎從DeepSeek爆火開始，包括OpenAI、微軟等矽谷AI巨頭就相繼公開發聲，控訴重點都落在DeepSeek的資料上。美國政府AI和加密主管大衛·薩克斯也公開表示，DeepSeek透過一種稱為蒸餾的技術，“吸取”ChatGPT的知識。

OpenAI在英國《金融時報》的報道中表示，已經發現了DeepSeek“蒸餾”ChatGPT的跡象，並表示這違反了OpenAI的模型使用條約。不過，OpenAI並沒有給出具體的證據。

事實上，這是一則站不住腳的指控。

蒸餾是正常的大模型訓練技術手段。這常發生在模型的訓練階段——透過使用更大、更強大的模型（教師模型）的輸出，來讓較小模型（學生模型）學習更好的效能。在特定任務上，較小的模型能夠以更低的成本，獲得類似的結果。

蒸餾也並不是抄襲。用通俗的話解釋，蒸餾更像是讓一位老師刷完所有難題，整理出完美的解題筆記——這本筆記裡不是僅有答案，而是寫著各種最優解法；普通學生（小模型）只需要直接學習這些筆記，然後輸出自己的答案，對照筆記看看是否符合老師筆記中的階梯思路。

而DeepSeek最突出的貢獻在於，在這個過程中更多地使用了無監督學習——就是讓機器自我反饋，減少人類反饋（RLHF）。最直接的結果就是，模型的訓練成本大大下降——這也是不少質疑聲的由來。

DeepSeek-V3論文曾提及其V3模型的具體訓練叢集規模（2048塊H800晶片）。不少人按市場價格估算，這個金額大約在550萬美元左右，相當於Meta、Google等模型訓練成本的數十分之一。

但需要注意的是，DeepSeek早已在論文中註明，這僅是最後一次訓練的單次執行成本，沒有將前期的裝置、人員、訓練耗損包括在內。

在AI領域，蒸餾不也是新鮮事，不少模型廠商都曾披露過自家的蒸餾工作。比如，Meta就曾公佈過自家模型是怎麼蒸餾出來的——Llama 2就用更大、更聰明的模型生成包含思考過程、思考方法的資料，然後放到自家更小規模的推理模型中，進行微調。

來源：Meta FAIR

但蒸餾也有其弊端。

一位大廠AI應用從業者告訴“智慧湧現”，蒸餾能夠快速讓模型能力快速上升，但其弊端是在於“教師模型”生成的資料過於乾淨，缺乏多樣性。學習這類資料，模型會更像一道中規中矩的“預製菜”，其能力也沒有辦法超過教師模型。

資料質量很大程度上決定了模型訓練的效果。如果選擇用蒸餾完成大部分的模型訓練，反而會讓模型顯得過於同質化。如今全球的大模型已經琳琅滿目，各家的模型也都會提供自己模型的“精華版”，蒸餾一個一模一樣的模型，並無太大意義。

更致命的問題在於，幻覺問題或許會更加嚴重。這是因為小模型某種程度上只模仿大模型的“皮”，難以深入理解背後的邏輯，容易導致在新任務上表現下降。

所以，如果要讓模型有自己的特點，AI工程師需要從資料階段就開始介入——選擇什麼樣的資料、資料配比，以及訓練方法，都會讓最終訓練出來的的模型非常不一樣。

典型例子是如今的OpenAI和Anthropic。OpenAI和Anthropic是最早做大模型的一批矽谷公司，雙方都沒有現成的模型可供蒸餾，而是直接從公開網路和資料集爬取、學習。

不同的學習路徑，也導致兩個模型現在的風格有顯著不同——如今，ChatGPT更像是一個板正的理工生，擅長解決生活工作中的各類問題；而Claude則更擅長於文科，在寫作任務上是公認的口碑王，但程式碼任務也並不遜色。

OpenAI指控的另一諷刺之處在於，用一個邊界模糊的條款來指控DeepSeek，即使自己也做了類似的事情。

成立之初，OpenAI一直是一個開源為導向的組織，但在GPT-4之後轉向閉源。OpenAI的訓練幾乎爬遍了全球公開網際網路的資料。因此在選擇閉源後，OpenAI也一直深陷於和新聞媒體、出版商的版權糾紛中。

OpenAI對DeepSeek的“蒸餾”指控，被諷刺為“賊喊捉賊”就在於，無論是OpenAI o1還是DeepSeek R1，在論文中都沒有披露自己在資料準備上的細節，這個問題還是羅生門一樣的存在。

更何況，DeepSeek-R1釋出時甚至是選擇了MIT開源協議——幾乎是最寬鬆的開源協議。DeepSeek-R1允許商用、允許蒸餾，還為公眾提供了六個蒸餾好的小模型，使用者可以直接部署到手機、PC中，是極有誠意的回饋開源社群的行為。

2月5日，原Stability AI研究主管Tanishq Mathew Abraham也專門撰文，指出這個指控踩在了灰色地帶：首先，OpenAI並沒有拿出證據，顯示DeepSeek直接利用GPT蒸餾。他所猜測的一種可能的情況是，DeepSeek找到了利用ChatGPT生成的資料集（市面上已有很多），而這種情況並沒有被OpenAI明令禁止。

蒸餾是判斷做不做AGI的標準嗎？

在輿論場上，如今不少人用“是否蒸餾”這一步來劃定是否抄襲、是否做AGI，這未免過於武斷。

DeepSeek的工作重新帶火了“蒸餾”這個概念，事實上這是在近十年前就已經出現的技術。

2015年，由幾位AI大牛Hinton、Oriol Vinyals、Jeff Dean聯合釋出的論文《Distilling the Knowledge in a Neural Network》裡，就正式提出了大模型裡的“知識蒸餾”技術，這也成為了後續大模型領域的標配。

對於鑽研特定領域、任務的模型廠商而言，蒸餾是其實一條更加現實主義的路徑。

一名AI從業者告訴智慧湧現，國內幾乎沒有多少大模型廠商不做蒸餾，這幾乎是公開的秘密。“現在公開網路的資料已經幾乎消耗殆盡，從0到1做預訓練、資料標註的成本，即使是大廠，也很難說可以輕鬆承擔。”

一個例外是字節跳動。在近期釋出的豆包1.5 pro版本中，位元組明確表示“在訓練過程中從未使用過任何其他模型生成的資料，堅決不走蒸餾捷徑”，表示其追求AGI的決心。

大廠選擇不蒸餾有其現實考慮，比如可以規避許多後續的合規紛爭。在閉源的前提下，這也會為模型能力建造一定壁壘。據“智慧湧現”瞭解，位元組如今的資料標註成本，已經是對標矽谷的水平——最高可達200美金一條，這種高質量資料，就需要各個特定領域的專家，比如碩士、博士以上級別的人才，進行標註。

對AI領域中更多的參與方而言，無論是用蒸餾還是其他工程手段，本質上都是一種對Scaling Law（規模效應法則）邊界的探索。這是探索AGI的必要條件，而非充分條件。

大模型爆火的前兩年，Scaling Law通常被粗暴地理解為“大力出奇跡”，即堆算力、引數，就能讓智慧湧現，這更多是在預訓練階段。

如今“蒸餾”被火熱討論的背後，暗線其實是大模型發展正規化發生演變：Scaling Law依然存在，但從預訓練階段，真正轉移到了後訓練和推理階段。

來源：中科院軟體所博士張俊林專欄文章

OpenAI的o1在2024年9月釋出，被認為是Scaling Law轉向後訓練和推理的標誌，目前仍是全球最領先的推理模型。但問題在於，OpenAI從未對外公開其訓練方法和細節，應用成本還持續停留在高位：o1 pro的成本高達200美元/月，而且推理速度還慢，這也被認為是AI應用開發的一大桎梏。

這段時間AI圈內的工作，大部分都是在復現o1的效果，同時還需要將推理成本降低，這才能在更多場景中進行應用。DeepSeek的里程碑意義，不僅來自於大大縮短了開源模型追趕頂尖閉源模型的時間——僅僅用了三個月左右，就幾乎追趕上o1的多個指標；更重要的是在找到了o1的能力躍升關鍵訣竅，並將其開源。

不可忽視的一個大前提是，DeepSeek是站在巨人的肩膀之上完成的這次創新。僅僅將“蒸餾”等工程手段視作抄近路就過於狹隘了，這更多是開源文化的勝利。

DeepSeek所帶來的生態共榮和開源效應，已經迅速顯現。在其爆火後不久，“AI教母”李飛飛的一項新工作也迅速刷屏：讓谷歌旗下的Gemini作為“教師模型”，微調後的阿里Qwen2.5作為“學生模型”，透過蒸餾等方式，用不到50美元的費用，訓練出了推理模型s1，復現了DeepSeek-R1和OpenAI-o1的模型能力。

英偉達也是典型案例。在DeepSeek-R1釋出後，雖然英偉達市值一夜之間爆跌約6000億美元，創造了史上最大單日蒸發規模，但在第二天很快就強勢反彈，上漲了約9%——市場普遍對R1帶來的強大推理需求依然抱有期待。

可以預見，大模型領域上的各方吸收R1能力之後，一波AI應用創新熱潮也會隨之而來。