

最近微信改版,容易找不到尹哥的文章,大家記得把尹哥設為星標⭐️ 哦~
DeepSeek過年期間已經講了7期,感覺把要想講的要點都說完了。但還經常收到後臺留言,問他為啥能成功,開源以及極致的價效比,尤其是用了蒸餾演算法,將原來要上億美金的大模型訓練成本降低到了僅僅數百萬美元。好了,下一個問題又來了,什麼是蒸餾演算法?
先看一個圖,雖然不是那麼恰當,但這個小貓釣魚能夠讓你迅速理解為什麼透過蒸餾演算法可以顯著降低訓練成本。

網上一般對蒸餾演算法的解讀就兩個例子。一個就是老師教學生,也就是其發明者辛頓講過的“教師模型”“學生模型”。教師模型,也就是複雜模型,像經驗豐富的老師,掌握大量知識,但執行成本高。簡單模型像學生,透過學習老師的精華知識,變得高效且輕便。
第二個通常會用“濃縮咖啡”來講。複雜模型像一杯複合口味咖啡,資訊密集但複雜,像卡布奇諾、拿鐵都是這型別的;蒸餾演算法將其提煉為“濃縮咖啡”,類似於我就要咖啡因提神,所以簡單模型保留了核心資訊,去除了冗餘。

我今天想從更為貼近國人習慣,也確實是大語言模型的提純史實來講,那就是《全唐詩》(清康熙四十四年,1705年)和《唐詩三百首》(乾隆二十九年,1764年)。《全唐詩》收錄了唐代近5萬首詩歌,體量龐大,內容涵蓋廣泛,但質量參差不齊,既有經典之作,也有平庸之作。《唐詩三百首》是從《全唐詩》中精選出的300餘首經典作品,代表了唐代詩歌的最高水平,內容精煉,藝術價值極高。

《全唐詩》就類似之前的OpenAI,封閉,不開放,還是大部頭,買一套還很貴。《唐詩三百首》則更像DeepSeek,不光開源,還便攜,就這麼一小本書,買不起自己抄一份,差不多也能實現。
講到這,開源、便攜、能流行,這個問題懂了。那新問題又來了,為什麼看了《全唐詩》寫出來的詩,可能還不如《唐詩三百首》的?
完全有可能。《全唐詩》體量大、資訊豐富,但包含冗餘和噪聲,比如存在著大量的相對平庸之作,這些作品會干擾模型的學習。而《唐詩三百首》經過“蒸餾”後,保留了最精華的部分,去除了冗餘和噪聲,訓練出的模型更容易學習到詩歌的精髓,比如說平仄的運用等等,能夠更好地掌握詩歌的創作規律,生成更高質量的詩歌。
從《全唐詩》到《唐詩三百首》的類比,您應該能夠理解到DeepSeek是如何從海量資料中提煉精華的邏輯。這不僅只是AI技術的突破,更體現了中國傳統文化中“去粗取精”的智慧。

有人問我,DeepSeek這次的異軍突起,相當於科技史上的哪一個事件呢?如果說網際網路實現了資訊平權,那這次以DeepSeek為代表的普惠性人工智慧則實現了智慧平權,它促進並帶動了一大批寡頭跟進、開放。這相當於蔡倫的造紙術、畢昇的活字印刷,再到古騰堡印刷機的發明,使得書籍、知識能夠向大眾普及。這是技術的突破,更是“去粗存精”東方智慧的突破,這是開源的勝利,更是“兼濟天下”價值觀的大獲全勝!
— END —




