

|
2025年春節期間,最紅的不止是哪吒2,還有一個名為DeepSeek的應用——這個勵志故事被傳頌多次:1月20日,位於杭州的AI初創公司DeepSeek(深度求索)釋出了新模型R1,對標OpenAI如今最強的推理模型o1,真正意義上做到了引爆全球。
上線僅僅一週,DeepSeek App已經斬獲超2000萬的下載量,在超過140個國家排名第一。其增長速度超越了2022年時上線的ChatGPT,目前已是後者的約20%。
火到什麼程度?截至2月8日,DeepSeek的使用者數已經超過1億,覆蓋的人群遠不止AI極客,而是已經從中國,延伸到全球。從老人、兒童到脫口秀演員、政客,人人都在談論DeepSeek。

直到現在,DeepSeek帶來的震動還在持續。過去兩週,DeepSeek走馬燈似地演完了TikTok的劇本——爆火和高速增長,打敗美國諸多對手,甚至讓DeepSeek迅速站到地緣政治的懸崖上:美國和歐洲開始討論”影響國家安全”,許多地區迅速頒發禁止下載或安裝的命令。
A16Z合夥人Marc Andreessen甚至驚歎:DeepSeek的出現,是又一個“斯普尼克時刻”(Sputnik Moment)。
(一個源於冷戰時期的說法,蘇聯在1957年成功發射全球首顆人造衛星“斯普特尼克一號”,引起了美國社會的恐慌,意識到自身地位受到挑戰,技術優勢可能被傾覆)
但人紅是非多,在技術圈內,DeepSeek同樣也陷入“蒸餾”、“盜竊資料”等等爭議中。
截至目前,DeepSeek沒有任何公開回應,這些爭論也隨之落入兩個極端:狂熱的追捧者,將DeepSeek-R1上升至“國運級”創新;也有科技從業者,對DeepSeek的超低訓練成本、以及蒸餾訓練方式等等提出質疑,認為這些創新被過於追捧。

Deepseek“盜竊”OpenAI?更像是賊喊捉賊
幾乎從DeepSeek爆火開始,包括OpenAI、微軟等矽谷AI巨頭就相繼公開發聲,控訴重點都落在DeepSeek的資料上。美國政府AI和加密主管大衛·薩克斯也公開表示,DeepSeek透過一種稱為蒸餾的技術,“吸取”ChatGPT的知識。
OpenAI在英國《金融時報》的報道中表示,已經發現了DeepSeek“蒸餾”ChatGPT的跡象,並表示這違反了OpenAI的模型使用條約。不過,OpenAI並沒有給出具體的證據。
事實上,這是一則站不住腳的指控。
蒸餾是正常的大模型訓練技術手段。這常發生在模型的訓練階段——透過使用更大、更強大的模型(教師模型)的輸出,來讓較小模型(學生模型)學習更好的效能。在特定任務上,較小的模型能夠以更低的成本,獲得類似的結果。
蒸餾也並不是抄襲。用通俗的話解釋,蒸餾更像是讓一位老師刷完所有難題,整理出完美的解題筆記——這本筆記裡不是僅有答案,而是寫著各種最優解法;普通學生(小模型)只需要直接學習這些筆記,然後輸出自己的答案,對照筆記看看是否符合老師筆記中的階梯思路。
而DeepSeek最突出的貢獻在於,在這個過程中更多地使用了無監督學習——就是讓機器自我反饋,減少人類反饋(RLHF)。最直接的結果就是,模型的訓練成本大大下降——這也是不少質疑聲的由來。
DeepSeek-V3論文曾提及其V3模型的具體訓練叢集規模(2048塊H800晶片)。不少人按市場價格估算,這個金額大約在550萬美元左右,相當於Meta、Google等模型訓練成本的數十分之一。
但需要注意的是,DeepSeek早已在論文中註明,這僅是最後一次訓練的單次執行成本,沒有將前期的裝置、人員、訓練耗損包括在內。
在AI領域,蒸餾不也是新鮮事,不少模型廠商都曾披露過自家的蒸餾工作。比如,Meta就曾公佈過自家模型是怎麼蒸餾出來的——Llama 2就用更大、更聰明的模型生成包含思考過程、思考方法的資料,然後放到自家更小規模的推理模型中,進行微調。

來源:Meta FAIR
但蒸餾也有其弊端。
一位大廠AI應用從業者告訴“智慧湧現”,蒸餾能夠快速讓模型能力快速上升,但其弊端是在於“教師模型”生成的資料過於乾淨,缺乏多樣性。學習這類資料,模型會更像一道中規中矩的“預製菜”,其能力也沒有辦法超過教師模型。
資料質量很大程度上決定了模型訓練的效果。如果選擇用蒸餾完成大部分的模型訓練,反而會讓模型顯得過於同質化。如今全球的大模型已經琳琅滿目,各家的模型也都會提供自己模型的“精華版”,蒸餾一個一模一樣的模型,並無太大意義。
更致命的問題在於,幻覺問題或許會更加嚴重。這是因為小模型某種程度上只模仿大模型的“皮”,難以深入理解背後的邏輯,容易導致在新任務上表現下降。
所以,如果要讓模型有自己的特點,AI工程師需要從資料階段就開始介入——選擇什麼樣的資料、資料配比,以及訓練方法,都會讓最終訓練出來的的模型非常不一樣。
典型例子是如今的OpenAI和Anthropic。OpenAI和Anthropic是最早做大模型的一批矽谷公司,雙方都沒有現成的模型可供蒸餾,而是直接從公開網路和資料集爬取、學習。
不同的學習路徑,也導致兩個模型現在的風格有顯著不同——如今,ChatGPT更像是一個板正的理工生,擅長解決生活工作中的各類問題;而Claude則更擅長於文科,在寫作任務上是公認的口碑王,但程式碼任務也並不遜色。
OpenAI指控的另一諷刺之處在於,用一個邊界模糊的條款來指控DeepSeek,即使自己也做了類似的事情。
成立之初,OpenAI一直是一個開源為導向的組織,但在GPT-4之後轉向閉源。OpenAI的訓練幾乎爬遍了全球公開網際網路的資料。因此在選擇閉源後,OpenAI也一直深陷於和新聞媒體、出版商的版權糾紛中。
OpenAI對DeepSeek的“蒸餾”指控,被諷刺為“賊喊捉賊”就在於,無論是OpenAI o1還是DeepSeek R1,在論文中都沒有披露自己在資料準備上的細節,這個問題還是羅生門一樣的存在。
更何況,DeepSeek-R1釋出時甚至是選擇了MIT開源協議——幾乎是最寬鬆的開源協議。DeepSeek-R1允許商用、允許蒸餾,還為公眾提供了六個蒸餾好的小模型,使用者可以直接部署到手機、PC中,是極有誠意的回饋開源社群的行為。
2月5日,原Stability AI研究主管Tanishq Mathew Abraham也專門撰文,指出這個指控踩在了灰色地帶:首先,OpenAI並沒有拿出證據,顯示DeepSeek直接利用GPT蒸餾。他所猜測的一種可能的情況是,DeepSeek找到了利用ChatGPT生成的資料集(市面上已有很多),而這種情況並沒有被OpenAI明令禁止。

蒸餾是判斷做不做AGI的標準嗎?
在輿論場上,如今不少人用“是否蒸餾”這一步來劃定是否抄襲、是否做AGI,這未免過於武斷。
DeepSeek的工作重新帶火了“蒸餾”這個概念,事實上這是在近十年前就已經出現的技術。
2015年,由幾位AI大牛Hinton、Oriol Vinyals、Jeff Dean聯合釋出的論文《Distilling the Knowledge in a Neural Network》裡,就正式提出了大模型裡的“知識蒸餾”技術,這也成為了後續大模型領域的標配。
對於鑽研特定領域、任務的模型廠商而言,蒸餾是其實一條更加現實主義的路徑。
一名AI從業者告訴智慧湧現,國內幾乎沒有多少大模型廠商不做蒸餾,這幾乎是公開的秘密。“現在公開網路的資料已經幾乎消耗殆盡,從0到1做預訓練、資料標註的成本,即使是大廠,也很難說可以輕鬆承擔。”
一個例外是字節跳動。在近期釋出的豆包1.5 pro版本中,位元組明確表示“在訓練過程中從未使用過任何其他模型生成的資料,堅決不走蒸餾捷徑”,表示其追求AGI的決心。
大廠選擇不蒸餾有其現實考慮,比如可以規避許多後續的合規紛爭。在閉源的前提下,這也會為模型能力建造一定壁壘。據“智慧湧現”瞭解,位元組如今的資料標註成本,已經是對標矽谷的水平——最高可達200美金一條,這種高質量資料,就需要各個特定領域的專家,比如碩士、博士以上級別的人才,進行標註。
對AI領域中更多的參與方而言,無論是用蒸餾還是其他工程手段,本質上都是一種對Scaling Law(規模效應法則)邊界的探索。這是探索AGI的必要條件,而非充分條件。
大模型爆火的前兩年,Scaling Law通常被粗暴地理解為“大力出奇跡”,即堆算力、引數,就能讓智慧湧現,這更多是在預訓練階段。
如今“蒸餾”被火熱討論的背後,暗線其實是大模型發展正規化發生演變:Scaling Law依然存在,但從預訓練階段,真正轉移到了後訓練和推理階段。

來源:中科院軟體所博士張俊林專欄文章
OpenAI的o1在2024年9月釋出,被認為是Scaling Law轉向後訓練和推理的標誌,目前仍是全球最領先的推理模型。但問題在於,OpenAI從未對外公開其訓練方法和細節,應用成本還持續停留在高位:o1 pro的成本高達200美元/月,而且推理速度還慢,這也被認為是AI應用開發的一大桎梏。
這段時間AI圈內的工作,大部分都是在復現o1的效果,同時還需要將推理成本降低,這才能在更多場景中進行應用。DeepSeek的里程碑意義,不僅來自於大大縮短了開源模型追趕頂尖閉源模型的時間——僅僅用了三個月左右,就幾乎追趕上o1的多個指標;更重要的是在找到了o1的能力躍升關鍵訣竅,並將其開源。
不可忽視的一個大前提是,DeepSeek是站在巨人的肩膀之上完成的這次創新。僅僅將“蒸餾”等工程手段視作抄近路就過於狹隘了,這更多是開源文化的勝利。
DeepSeek所帶來的生態共榮和開源效應,已經迅速顯現。在其爆火後不久,“AI教母”李飛飛的一項新工作也迅速刷屏:讓谷歌旗下的Gemini作為“教師模型”,微調後的阿里Qwen2.5作為“學生模型”,透過蒸餾等方式,用不到50美元的費用,訓練出了推理模型s1,復現了DeepSeek-R1和OpenAI-o1的模型能力。
英偉達也是典型案例。在DeepSeek-R1釋出後,雖然英偉達市值一夜之間爆跌約6000億美元,創造了史上最大單日蒸發規模,但在第二天很快就強勢反彈,上漲了約9%——市場普遍對R1帶來的強大推理需求依然抱有期待。
可以預見,大模型領域上的各方吸收R1能力之後,一波AI應用創新熱潮也會隨之而來。



深度、敏銳、前瞻,為1%的人捕捉商業先機
36氪旗下精選公眾號



