端側AI爆發,AI模組破局DeepSeek在實體產業落地最後一公里

作者:李寧遠
物聯網智庫 原創
在上一篇文章《從附加功能到重構產品價值,端側AI將重新定義可穿戴裝置》中曾提到過智慧終端正在利用本地側AI來提升終端產品附加值,並逐步透過軟硬體協同將AI從“附加功能”推向“重構核心能力”,轉移裝置價值重心,最終端側AI將成為智慧終端裝置的定義者。
從生成式AI的雲端智慧到端側AI落地的革命漫長的技術週期裡,上下游廠商不斷探索著硬體創新、端側演算法模型最佳化與場景落地的協同。那當AI走出雲端落到端側如何才能讓終端裝置真正“智慧”?Deepseek的橫空出世給出了一份答案。Deepseek展現的“低成本、高效能、開源”顛覆性優勢,直接點亮了終端側AI的發展前景,端側智慧不再完全受限於硬體算力與能效,大模型透過蒸餾技術重構的小模型在端側部署可行性大增。
從已釋出的多個Deepseek R1的精簡模型來看,在保持效能的前提下,能將模型引數量大幅壓縮,這使得端側模型部署難度顯著減小,並突破以往端側AI面臨儲存空間、算力消耗、推理延遲等部署障礙。知名分析師郭明錤日前也發文指出,Deepseek爆紅後,端側AI趨勢將加速。
端側應用的想象空間的確在Deepseek的加持下不斷擴大,特別是在今年端側AI元年這個時間節點,AI模組廠商紛紛佈局Deepseek,幫助下游終端客戶搭建本地智慧。模組與Deepseek的融合,這意味著產業鏈下游的中小型廠商能夠透過模組快速整合AI能力推出各自的終端產品。可以說AI模組正在破局DeepSeek在實體產業落地的最後一公里,AI也將在今年快速向終端普及。

Deepseek正在成為端側AI新引擎

自Deepseek成為整個科技圈關注的焦點,上到晶片廠商、模組廠商下到軟體廠商、方案廠商以及再到垂直應用的終端廠商,都在爭先恐後加入Deepseek生態圈。這一全球現象級的模型到底有何特別之處,特別對於端側應用來說,Deepseek給出了哪些不同以往模型的支援?

圖源:Deepseek

首先是模型的輕量化設計,Deepseek採用自研的DeepseekMoE架構,和傳統的MoE架構相比,減少專家間的知識冗餘,並透過稀疏混合專家(Sparse Mixture of Experts)層替代傳統Transformer的前饋網路(FFN),每個Token僅啟用少量專家,大幅減少計算量和視訊記憶體佔用。
這一輕量化設計最直接的體現就是671B引數的模型實際啟用引數量僅37B,顯著降低推理資源需求。這意味著AI能夠在計算資源有限的終端裝置上執行,支援從超大規模模型到端側裝置的無縫擴充套件,在手機、PC、ARVR等可穿戴裝置、汽車等端側硬體本地化部署上具有很強的可操作性。
其次,大模型推理過程KV 機制是限制推理效率的一大瓶頸,Deepseek創新的MLA機制透過低秩聯合壓縮鍵值(KV)快取,相比傳統MHA減少約90%的KV快取量,提升推理效率。MLA在保持效能的同時,減少對視訊記憶體頻寬的依賴,實現更徹底的輕量化,更適合端側裝置部署。
在模型蒸餾和本地部署上,Deepseek本身就提供了不少蒸餾版模型,如R1的1.5B版本,全面支援在資源受限硬體中執行。例如PC僅需1.1GB記憶體即可完成基礎推理任務,極大擴充套件了AI的應用場景。
第二是Deepseek在低功耗上的最佳化。在平行計算與通訊最佳化上大幅減少了功耗。Deepseek採用DualPipe流水線並行技術,透過重疊前向傳播與後向傳播的計算和通訊階段,減少GPU閒置時間。同時結合16路流水線並行、64路專家並行與ZeRO-1資料並行,能顯著降低能耗。
Deepseek還支援FP8混合精度訓練,對啟用和權重分別採用Group-wise與Block-wise量化策略,在TensorCore上執行高效矩陣運算,減少計算能耗。推理階段透過預填充與解碼分離策略,最佳化資源分配。
最後是端側看重的且相比雲端更具優勢的隱私保護機制。Deepseek支援完全離線的本地部署模式,使用者資料無需上傳雲端,避免敏感資訊洩露風險。
在加密與許可權控制上,Deepseek採用動態路由策略與冗餘專家部署,結合訪問控制機制,防止模型內部資料被逆向分析。同時,API服務支援金鑰管理與用量監控,進一步保障資料安全。
總的來看,Deepseek透過MoE架構和MLA注意力機制輕量化得更徹底且效能強勁,比依賴量化後模型體積縮減的TensorFlow Lite和依賴Metal加速與硬體適配的Core ML更靈活效率更高。加之低功耗與隱私保護方面的增強,這些革新的優勢點都是端側AI亟需的,推動了模型向端側裝置普及,也為AI落地的多元化需求提供了更優解,完全可以說Deepseek正在成為端側AI的新引擎。

Deepseek帶動端側AI產業鏈發展

Deepseek雖然面世不久,但已經成為端側AI上下游廠商的佈局重點。在具體的端側裝置領域,手機方面包括OPPO、榮耀、魅族等廠商均宣佈已經完成了對Deepseek模型的接入;汽車圈也開始全面適配,包括吉利、極氪、嵐圖、寶駿、智己、東風、零跑、長城等8家車宣佈接入Deepseek;PC方面,國產GPU廠商沐曦與聯想合作推出的Deepseek智慧體一體機、英特爾AIPC合作伙伴Flowy在最新版的AIPC助手上率先支援了端側執行Deepseek模型……終端硬體與Deepseek的融合正在以驚人的速度發展。
在上游晶片領域,花旗分析師Laura Chen團隊在最近的研報中表示,Deepseek的出現推動AI技術的低成本化和端側化,將重塑半導體行業格局。和模型息息相關的AI晶片產業鏈,國內企業正紛紛響應,沐曦、燧原科技、華為昇騰、海光資訊、龍芯中科、天數智芯、壁仞科技、摩爾線程、中星微、雲天勵飛等十幾家本土AI晶片廠商均宣佈在雲端或是端側適配Deepseek模型。

如華為昇騰已與Deepseek合作,支援Deepseek-R1和Deepseek-V3模型的推理部署;雲天勵飛已經完成DeepEdge10“算力積木”晶片平臺與Deepseek-R1系列大模型的適配,主攻端側應用;海光資訊宣佈完成Deepseek V3和R1模型、Deepseek-Janus-Pro多模態大模型與海光DCU(深度計算單元)的適配;中星微技術旗下星光智慧系列AI晶片也在全面融合Deepseek模型能力向端側發力。
在智慧硬體中成本佔比最高的一環,端側SoC以及ASIC晶片,隨著Deepseek相關端側應用爆發,在終端AI部署中的應用需求會增加,將迎來更多市場機會。如恆玄科技、瑞芯微、晶晨股份、全志科技、富瀚微、樂鑫科技、中科藍訊、炬芯科技等公司的SoC晶片,翱捷科技、寒武紀等公司的端側ASIC產品都較有代表性。
隨著Deepseek模型在應用端的落地,智慧終端對儲存晶片的需求同樣強烈。以典型的端側AI與先進儲存技術代表終端AI手機為例,一部高階機型需要搭載8-12GB的DRAM和128-512GB的NAND Flash。可穿戴市場上對中大NOR Flash容量需求增加也是確定性的趨勢,尤其是中大容量NOR Flash。兆易創新、江波龍、普冉股份、恆爍股份等儲存晶片廠商也在端側AI時代同樣能一展身手。
模組廠商也在迅速推進端側AI加Deepseek方面的融合,如美格智慧正在加速開發DeepSeek-R1在端側的落地應用,並計劃在2025年推出100TOPS級別的AI模組;廣和通、移遠通訊、潤欣科技、芯訊通等廠商也在推進相關模組產品佈局。

移遠通訊已經宣佈其搭載高通 QCS8550 平臺的邊緣計算模組 SG885G,成功實現了 DeepSeek-R1 蒸餾小模型的穩定執行,在成功實現 DeepSeek 模型端側執行;廣和通不久前已官宣高算力 AI 模組及解決方案全面支援小尺寸的 DeepSeek-R1 模型,幫助客戶快速增強終端 AI 推理能力;美格智慧正在結合 AIMO 智慧體、高算力 AI 模組的異構計算能力,結合多款模型量化、部署、功耗最佳化 Know-how,加速開發 DeepSeek-R1 模型在端側落地應用及端雲結合整體方案……
端側AI已經成為推動智慧裝置革新的核心力量,Deepseek風暴為這個即將迎來爆發的市場向前推進推進了一大步。端側AI+Deepseek帶來的終端全面AI正在加速到來,產業鏈上下游也將在這波浪潮中受益良多。

Deepseek推動端側AI元年到來,AI模組破局Deepseek在端側實體產業落地的最後一公里

回到開頭的問題,當AI走出雲端落到端側如何才能讓終端裝置真正“智慧”?從目前的端側應用來看,Deepseek正在破解端側AI落地最後一公里面對著硬體碎片化、模型泛化性、以及端側能效三個難題。
硬體碎片化即不同端側裝置如手機、攝像頭、感測器的算力差異大、架構差異大,傳統AI模型難以高效適配統一最佳化。這方面Deepseek帶來的改變已經開始顯現,首先透過Deepseek蒸餾和量化出來的端側模型已經做到了和硬體無關的輕量化,支援從超大規模模型到端側裝置的無縫擴充套件,解決了一部分端側場景多層次硬體需求。
其次透過最佳化模型架構,Deepseek的動態異構計算框架支援端側晶片內多種計算單元的協同排程來解決硬體配置碎片化難題。這一方面目前各上游晶片原廠已經開始全面推進基於Deepseek的軟硬協同創新,相信後續出來的端側晶片能很好地解決不同端側裝置算力差異大、架構差異大的問題。
模型泛化性即傳統模型易受多變的端側環境干擾,如何在保證端側輕量化的同時,讓模型適應端側場景的複雜多變。Deepseek給出的答卷也很出彩,其跨維度知識蒸餾體系將大模型的邏輯解構為思考推理,而非單純知識記憶,再透過動態權重分配注入端側模型。端側模型雖小但較以往的端側模型效能更優,更全面地適配端側垂直場景。
至於端側能效,長期以來都是模型演算法廠商與端側硬體裝置廠商在攻克的命題,這需要兩邊長期的軟硬協同最佳化。Deepseek在演算法層面已經做了極致的壓縮,如何與硬體做定製化的協同最佳化就看後續的適配與迭代了。
Deepseek的出現加速了端側AI發展程序,而AI模組與Deepseek的融合為端側實體產業落地的最後一公里提供了一條破局之道。對於端側AI產業鏈下游的終端廠商來說,特別是中小型廠商,如何便捷快速高效地為終端產品賦予本地智慧是一道難題。
Deepseek帶動的資本市場熱潮褪去後,落地到真正的實體產業帶動終端裝置升級與市場增長是下一階段的關鍵。作為與終端裝置關係最緊密的中游模組廠商,將AI模組與Deepseek的融合,為下游提供更精準、更高效的端側AI產品與服務,為端側實體產業落地的難題提供瞭解題思路。
Deepseek能夠無縫地將大模型的推理能力遷移到更小、更高效的端側版本中,也能更方便將其融合在智慧模組中。像移遠通訊AI模組 SG885G成功實現了 在DeepSeek-R1 蒸餾小模型端側執行的基礎上,同時完成該模型的針對性微調,提供更精準、更高效的端側 AI 服務,生成速度超過40Tokens/s,而且還能最佳化。此芯科技在端側平臺適配的DeepSeek-R1-1.5B模型推理速度接近40Tokens/s,7B模型達10Tokens/s。這表明端側模組引入DeepSeek後,在推理速度提升上實現了顯著升級。搭載DeepseekAI模組的端側AI產品進而也能夠承擔更多計算量,減輕雲端伺服器的計算負擔。
目前已經官宣跑通Deepseek的模組,在應用場景覆蓋性很廣,涵蓋智慧汽車、機器視覺、PC、機器人、智慧家居、AI玩具及可穿戴裝置等多元化場景,多場景應用支援讓不同行業不同終端的下游裝置廠商能夠全面受益於Deepseek帶來的本地智慧,加速終端智慧化的發展。
而且模組廠商正在大力推進不同算力、功耗的Deepseek模組產品,滿足下游客戶對成本、尺寸的差異化需求。模組針對不同終端應用持續的最佳化將大幅縮短端側智慧相關產品的落地週期,從而賦能終端側真正享受到 AI 帶來的收益。
Deepseek在解決了端側AI硬體碎片化、模型泛化行和效能瓶頸上提供了強大助力,模組與Deepseek的深度結合更為端側AI落地最後一公里難題指出了一條破局之道。這條破局之道指向的最終藍圖,是讓端側AI成為終端裝置核心功能的定義者,讓終端硬體真正智慧起來。

寫在最後

很長一段時間端側模型都是制約智慧終端硬體發展的枷鎖,而現在DeepSeek的出現讓這種局面開始有所好轉。在可預期的未來裡,針對端側應用開發的Deepseek AI模組將湧現,為終端提供便捷高效的AI能力,端側AI已處在爆發前夕。

相關文章