最近大火的深度求索DeepSeek-V3模型僅用557萬美元的訓練費用,就達到了頂尖模型的效果,而且產品價格低廉,因此被網友們戲稱為大模型界的“拼多多”。國外獨立評測機構Artificial Analysis在測試後聲稱,DeepSeek-V3超越了迄今為止所有開源模型。
獲取內容:
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
……
DeepSeek-V3的訓練僅使用2048個H800 GPU,總訓練GPU卡時為2788千小時(其中預訓練為2664千小時)。與之相對比,根據黃仁勳在GTC2024上的演講內容,GPT-4 MoE使用8000個H100訓練了90天,合計約為17280千卡時,相當於DeepSeek-V3的6.2倍。
DeepSeek-V3訓練提效的原因主要包括:低精度計算、小引數量和高質量資料等。據DeepSeek-V3的技術文件,該模型使用資料蒸餾技術(Distillation)生成的高質量資料提升了訓練效率。資料蒸餾指的是透過一系列演算法和策略,將原始的、複雜的資料進行去噪、降維、提煉等操作,從而得到更為精煉、有用的資料。
針對AI訓練可能使用合成數據(大模型生成資料)這一話題,倫敦大學學院(UCL)名譽教授和計算機科學家彼得·本特利對《每日經濟新聞》記者表達了擔憂,稱“如果繼續在其他AI的輸出上訓練AI,結果可能是模型崩潰。確保高質量AI的唯一方法是,為其提供人類的高質量內容。”

圖片來源:AI生成
蒸餾技術定義與原理

模型蒸餾(Knowledge Distillation)是一種將大型複雜模型(教師模型)的知識遷移到小型高效模型(學生模型)的技術。其核心目標是在保持模型效能的同時,顯著降低模型的計算複雜度和儲存需求,使其更適合在資源受限的環境中部署。
蒸餾技術的定義
在機器學習中,模型蒸餾是一種最佳化技術,透過模仿教師模型的輸出,訓練一個較小的學生模型,從而實現知識的傳遞。教師模型通常具有較高的效能,但計算成本高昂,而學生模型則更加輕量級,推理速度更快,且記憶體佔用更少。
蒸餾技術的原理
蒸餾技術的核心在於知識的傳遞和壓縮。具體來說,教師模型透過其複雜的結構和大量的引數,學習到了資料中的複雜模式和特徵。學生模型則透過模仿教師模型的輸出,學習這些模式和特徵,從而獲得類似的效能。
蒸餾過程通常包括以下幾個步驟:
-
教師模型的訓練:首先訓練一個性能強大的教師模型,該模型通常具有大量的引數和複雜的結構。 -
資料準備:從教師模型中提取推理資料樣本,這些資料將用於訓練學生模型。 -
學生模型的訓練:使用教師模型的輸出作為監督訊號,對較小的學生模型進行訓練。 -
最佳化與調整:透過調整學生模型的結構和引數,使其在保持高效的同時,儘可能接近教師模型的效能。
蒸餾技術的天花板效應:“學生模型”無法真正超越“教師模型”
如果蒸餾技術這麼好用,是否意味著大模型的訓練要轉向了?
倫敦大學學院(UCL)名譽教授和計算機科學家彼得·本特利在接受每經記者採訪時表示:“這可能會對小機構的(研究)進展產生重大影響,這些機構不像OpenAI或谷歌那樣擁有鉅額預算。”
但這並不意味著,蒸餾技術就是一個十全十美的事物。王漢卿向每經記者表示,“我認識的(一線研究人員)基本沒人搞(蒸餾)了。”目前最佳化大模型的方法是量化,比如降精度或是降快取。DeepSeek-V3的技術報告也提到了使用FP8混合精度訓練框架降低進度和透過壓縮鍵值來降低快取的方法。
據他解釋,蒸餾技術存在一個巨大缺陷,就是被訓練的模型(即“學生模型”)沒法真正超越“教師模型”。有研究表明,透過蒸餾訓練的模型總是受到其“教師模型”能力的限制,這會產生一種隱性天花板效應,無論蒸餾過程多麼複雜,都無法真正超越原始模型的能力。當考慮到需要將能力擴充套件到新領域或應對以前從未見過的挑戰時,這種限制就愈發成為問題。
科學家:依賴合成數據訓練存在風險
儘管DeepSeek-V3在基準測試中表現良好,但每經記者在使用過程中發現,DeepSeek-V3竟然聲稱自己是ChatGPT。一時間,“DeepSeek-V3是否在使用ChatGPT輸出內容進行訓練”的質疑聲四起。

圖片來源:每經記者試用DeepSeek-V3截圖
每經記者採訪到接近幻方人士,詢問“DeepSeek-V3大模型是否有使用ChatGPT輸出內容訓練?如果不是,該模型的內容是如何進行訓練的?”上述相關人士對此回覆:“網上有很多寫的很好的答案,去搜下就知道了。”
在每經記者的追問下,該人士指出,“不是兩句話能說清楚的……你問的問題太複雜,不是業內做研究的人很難短時間理解。”
南洋理工大學研究人員王漢卿則向每經記者解釋稱,有三種可能性,一是資料來源裡包含ChatGPT(的輸出內容),二是使用了GPT模型做蒸餾,三是在強化學習流程中出現了錯誤。
本特利在採訪中提到,“對DeepSeek-V3進行實驗的研究人員認為,這種新模型可能根據OpenAI等公司的模型輸出進行了訓練。這可能是使用所謂的‘無版權’資料的一種簡單方法,但這不是一個好主意。網際網路上越來越多地充斥著‘AI垃圾’——大量AI生成的文字和影像(以及很快的影片)質量很差。研究表明,如果繼續在其他AI的輸出上訓練AI,結果可能是模型崩潰——AI會與現實失去聯絡,並繼續輸出質量差、相似的內容。”
相關文章:



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

