部分國產晶片適配滿血版DeepSeek,仍「遙遙無期」

國內最強AI晶片公司,適配滿血版DeepSeek的目標是25Tokens/s。
作者丨包永剛
編輯丨王亞峰
不同於春節假期剛結束時近20家AI晶片公司忙著宣佈完成適配DeepSeek蒸餾模型的熱鬧景象,半個月後宣佈完成適配滿血版DeepSeek模型的寥寥數家,這也真實反映出了國產AI晶片的真實力。
“只要廠家之前已經支援大模型的訓練推理,那麼適配DeepSeek就沒有任何難度。”AI晶片軟體工程師梓豪說,“我們公司的應用工程師(AE)就可以完成DeepSeek蒸餾模型的適配。”
這足以解釋為什麼有晶片公司可以用數小時時間就完成DeepSeek蒸餾模型的適配,但對於一直致力於做大晶片的AI晶片公司來說,適配滿血版DeepSeek更能體現其價值。
目前,華為、寒武紀、摩爾線程以及崑崙芯都有公開資訊表示其完成滿血版DeepSeek模型的適配。更多國產AI晶片公司適配滿血版大模型進展歡迎新增作者微信BENSONEIT瞭解。
“即便是現在已經宣佈適配滿血版DeepSeek的晶片公司,其效能都不太好。”AI晶片資深工程師傑克說,“從技術上判斷,此前已經將大模型跑起來的公司,比如燧原、壁仞、天數智芯適配滿血版DeepSeek也只是時間問題,之前沒有部署過大模型的公司適配滿血版DeepSeek可能‘遙遙無期’。
那麼到底適配DeepSeek蒸餾模型和滿血版DeepSeek模型會成為AI晶片公司的分水嶺?為什麼有人說國內AI晶片公司的人不懂AI?DeepSeek的爆火至少能撐起一家國產AI晶片公司的上市?
1
適配蒸餾版DeepSeek模型只是開胃小菜
上個月晶片公司鋪天蓋地的適配DeepSeek的新聞裡,有公司明確表達了適配的是蒸餾模型,也有公司只說適配了DeepSeek,但適配蒸餾模型和滿血版模型之間存在著巨大的差別。
滿血版模型指的是與DeepSeek官網效能一致的V3和R1的全量引數模型,其引數高達671B,一般需要多臺高效能GPU伺服器並行才能流暢執行推理服務。
蒸餾版DeepSeek模型是利用DeepSeek-R1生成的資料對其他模型進行微調,引數從幾B到幾十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,這些蒸餾模型的效果差於滿血版,但更易於部署。
“我一度認為適配蒸餾版DeepSeek模型沒有太大價值,許多工程師也都更傾向於滿血版DeepSeek,但我現在的想法發生了轉變。”有二十多年晶片行業經驗的柏林說,“蒸餾版模型能滿足普通使用者的聊天需求,對於普及AI的意義非常大。”
傑克也表示,雖然蒸餾模型的準確度不如滿血版模型,但蒸餾版模型能讓端側AI的能力上一個臺階,端側資源受限,有了DeepSeek的蒸餾模型之後,比如原來只能部署7B模型的場景,現在能達到14B模型的效果。
國產AI晶片適配蒸餾版DeepSeek模型也難度不大。
無論是使用GPGPU架構還是專用ASIC架構對AI晶片公司,都迅速完成了對DeepSeek的適配。“GPT火了之後所有公司都想辦法支援大模型,DeepSeek和之前的大模型沒有本質的不同,有此前適配大模型的工作,適配蒸餾版DeepSeek不是難題。”梓豪表示。
“CUDA相容的GPGPU適配起來確實會更容易,但只要給ASIC更多時間做到極致,效能可以超過GPU。”傑克認為。
從長期看,無論什麼架構的晶片,如果只是支援幾個有限的模型,總能在這個架構上找到最優的解決方案。DeepSeek的火爆,主流模型就是DeepSeek和Llama等少數幾個,從這個角度看,對AI晶片公司來說算是好事。
對於採用國產AI晶片的智算中心來說,DeepSeek的火爆同樣是重大利好。
“DeepSeek火爆之後我們想用一家國產AI晶片公司的卡適配。”國產智算中心從業者博遠說,“但現實的問題是,如果適配DeepSeek A100的效能是100分,這家國產卡跑起來只有幾分的效能,使勁最佳化也只有A100十幾分的效能。”DeepSeek的火爆到底如何影響智算中心發展,新增作者微信BENSONEIT互通有無
既然從普及AI和適配的角度,蒸餾版DeepSeek就有巨大的價值,那為什麼還要適配滿血版DeepSeek?
只有部署了滿血版DeepSeek模型,才能得到蒸餾版模型,我認為這是部署滿血版DeepSeek模型的重要原因。”傑克表示。
2
國內領先AI晶片最快月底能適配「好」滿血版模型
但是想要部署引數高達671B滿血版DeepSeek-R1模型,即便是Int8精度模型的大小也高達671G,以單卡96G HBM計算,單機8卡總共768GB也只是勉強夠部署滿血版DeepSeek,只要模型精度比Int8更高,單臺伺服器就無法部署滿血版DeepSeek模型。
此時就需要多機互聯,這正是國產AI晶片公司仍未很好解決的問題。
“Nvidia有NV Link,國產晶片沒有多機互聯的解決方案會選擇InfiniBand(IB)或者高速乙太網RoCE實現互聯,這些方案的通訊的延遲很大,這就極大程度會影響最終部署的效果。”傑克說,“多卡和多機互聯是國產晶片適配滿血版DeepSeek的第一個難點,如果之前沒有解決通訊問題,想做起來很難,距離成功適配滿血版DeepSeek可能遙遙無期。”
梓豪認為在多機互聯方面,摩爾線程和沐曦有一定的優勢。
另一個難點是DeepSeek的MoE混合專家系統,MoE是多一個router(路由模組)的計算,它會將token路由至合適的專家權重去做計算,這個路由是動態的,這和此前的Transformer大模型的部署不一樣,這也是一個全新的挑戰。
對於所有國產AI大晶片而言,還有一個硬傷就是不原生支援FP8資料型別,DeepSeek模型採用了 FP8 混合精度訓練,全球領先的AI晶片公司英偉達從H100開始,AMD MI325X都原生支援FP8。
“不原生支援FP8不意味著就不能部署滿血版DeepSeek,只是會帶來效率問題,比如用FP16來部署,就需要2倍的儲存。”傑克表示,這就意味著需要更多卡,問題又到了多卡多機互聯。
要注意,即便是2024年推出的新一代國產AI卡,也沒有支援FP8。
柏林認為,最新的國產AI晶片不支援FP8、FP4這類非IEEE定義的資料型別,說明企業內部沒有前沿的研究指導這些公司的設計。並且英偉達2022年推出的H100就已經支援了FP8,已經有人做出產品,就算照著“抄”也不難了,這體現了國內許多做AI晶片的人並不懂AI。
即便解決了技術難題可以部署滿血版DeepSeek,從可用到好用還有一段很長的距離。傑克就深有感觸,此前適配大模型的時候,傑克所在的公司跨機通訊也解決了,但是要實現效能的提升難度很大。
這也是目前國產晶片公司適配滿血版頭疼的問題。
雷峰網瞭解到,目前國內領先的AI晶片公司以4臺伺服器(32卡,FP16資料型別),或者2臺伺服器(16卡,Int8資料型別)適配滿血版DeepSeek的效果也只達到了10tokens/s,其目標是在二月底前能夠達到25tokens/s,效能大概是英偉達H100的25%。
另有訊息稱,國內上市AI晶片公司在智算中心已經達到了適配滿血版DeepSeek 25tokens/s的效能。
從使用者的角度,使用滿血版DeepSeek要有比較好的使用體驗有兩個非常直觀的指標,一個是首字延遲,另一個就是每秒吞吐量。大致而言,首字延遲在1-1.4秒是大部分使用者能夠接受的延遲,而每秒生成20token能滿足正常閱讀的需求。
這樣說來,即便是國內領先的公司,最快也要到二月底達到讓使用者相對滿意的使用體驗。
至於其他AI晶片公司,雷峰網瞭解到,在上市輔導流程裡的AI晶片公司有幾家適配滿血版DeepSeek的速度在10 tokens/s及以下
AI大晶片公司的張偉判斷,未來一個月適配不好滿血版DeepSeek的AI公司可能有一半。柏林認為,未來一個季度國產AI晶片都會陸續適配滿血版DeepSeek。
“其他已經有成功部署大模型經驗的晶片公司適配滿血版DeepSeek只是時間問題。”傑克說,“這些公司裡好幾家都處於上市輔導階段,我認為誰能更快、更好支援好滿血版DeepSeek,會大幅增加他們上市的機率,因為很多機構和公司都在積極部署滿血版DeepSeek,有利於AI晶片公司做出真實的業績,支撐其上市。”
不過兩位晶片投資人都對雷峰網表示,A股的成功上市的因素比較複雜,能夠支援好滿血版DeepSeek確實是實力的體現,但對於最終成功上市很難說有直接利好
毋庸置疑的是,DeepSeek對於國內晶片、智算中心、AI應用都是巨大利好,我們已經處在AI變革前夜。關於AI算力的更多挑戰,歡迎新增作者微信BENSONEIT討論。
注,文中梓豪、傑克 、柏林、博遠、張偉均為化名。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章