相當於一枚小學生,知識面非常有限,但是勝在沒教授那麼大譜,給個板凳坐著就夠了(部署成本低,推理成本低)。
教授會100種解題思路,挑兩三種不錯的教給小學生,讓小學生照葫蘆畫瓢。

而教授模型針對不同尺寸的
學生模型
進行知識蒸餾,這些學生模型包括↓

看,前幾天讓大家本地安裝的那些模型,其實就是從DeepSeek R1這個老師蒸餾得到的,每個學生都從老師身上學到了些“三腳貓”功夫。

但針對每個輸入的問題,老師不會直接給出確定答案,而是給出解題思路(俗稱軟標籤)。
比如,輸入一張貓的照片給老師模型,老師不會直接給出答案:
這是貓,而是給出一組機率分佈,告訴學生,這張圖可能是什麼。



然後,再設定一個平衡係數(α)來調節這兩種損失,達到一個最優效果。


❷根據硬標籤和軟標籤,對比結果,結合權重,得到學生模型最終的損失值;
❸對學生模型進行引數更新,以得到更小的損失值。
不斷重複這個過程❶→❷→❸,就相當於反覆刷題,每刷一輪,就找找學生答案和老師答案的差距,及時糾正。
經過多輪以後,學生的知識就會越來越紮實。

最終,蒸餾得到的小模型,儘量複製大模型的智慧,同時保持自己身輕如燕的優勢。
這樣,學生模型就可以作為課代表,獨立帶班,不需要教授坐鎮了。

擴充套件閱讀
一、關於不同的蒸餾路線
前面講的這種模型蒸餾,只是最常見、最通用的一種方式,叫做知識蒸餾,也叫輸出層蒸餾。
相當於老師直接告訴你最後的答案,學生只需要抄作業,模仿老師的答案就行。
所以,有些模型比如GPT4,是明確宣告不允許知識蒸餾的,但只要你能被呼叫,就沒法避免別人偷師。

。

相當於學生不光看老師的最終答案,還要看老師的解題過程或中間步驟,從而更全面地學到思考方法。
不過現在也可以透過一些手段來獲取教師模型的
推理軌跡
(Reasoning Traces),比如使用特殊構造的提示詞來誘導老師逐步返回推理,得到推理軌跡。
同時隨著各種推理模型的推出,有些推理模型的API本身就支援返回推理軌跡,比如Google Gemini2.0 Flash,DeepSeek等等。

適用於將大模型的能力遷移到小模型上,以適配更低端的算力環境。(比如在企業私有云、個人電腦甚至手機、邊緣終端上)

適用於特定場景下,用特定資料集對通用模型進行小規模訓練。比如通用基礎模型對醫療不大懂,就用醫療資料集給它開小灶,讓他變身醫療專家模型。

RAG:
直譯過來叫做“檢索增強生成”。相當於這題我不會,但是我有“小抄”,我回答的時候,就看一眼小抄,然後再綜合我腦子裡的已有知識,進行回答。
RAG,不是訓練,不改變大模型的“腦回路”,但可以作為外掛,提升大模型回答問題的精準性。適用於企業自身積累了大量知識庫文件,透過RAG的方式,與大模型關聯。
這樣,大模型在回答問題的時候,會先檢索知識庫,進行精準回答。

三、舉兩個現實的例子
舉個例子,現在特大號公眾號後臺的自動回覆,其實就是騰訊混元大模型,透過RAG的方式,連線了特大號所有的歷史文章,作為知識庫使用。
當你提問的時候,它就會檢索這些歷史文章,然後再回答問題。

再舉個例子,前幾天被熱傳的李飛飛團隊僅花費50美元,就訓練出一個比肩ChatGPT o1和DeepSeek R1的模型,其實是一種誤讀。
李飛飛團隊的s1模型,其實是基於通義的開源模型Qwen2.5-32B進行的微調,而微調所用的資料集,其中一部分蒸餾自Google Gemini 2.0 Flash Thinking。
所以,這個模型的誕生,是先透過知識蒸餾,從Gemini API獲取推理軌跡和答案,輔助篩選出1000個高質量的資料樣本。
然後,再用這個資料集,對通義Qwen2.5-32B進行微調,最終得到效能表現不錯的s1模型。
這個微調過程,消耗了50美元的算力費用,但這背後,卻是Gemini和Qwen兩大模型無法估量的隱形成本。
這就好比,你“偷了”一位名師解題思路,給了一個學霸看,學霸本來就很NB,現在看完“思路”,變得更NB了。
嚴格來講,Gemini 2.0作為閉源商業模型,雖然支援獲得推理軌跡,但原則上是不允許用作蒸餾的,即便蒸餾出來也不能商用。不過如果僅是發發論文、做做學術研究、博博眼球,倒也無可厚非。
當然,不得不說,李的團隊為我們打開了一種思路:我們可以站在巨人的肩膀上,用四兩撥千斤的方法,去做一些創新。
比如,DeepSeek是MIT開源授權,程式碼和權重全開放,而且允許蒸餾(且支援獲取推理軌跡)。
那麼對於很多中小企業來講,無異於巨大福利,大家可以輕鬆透過蒸餾和微調,獲得自己的專屬模型,還能商用。
