

作者 | 程茜
編輯 | 漠影
AI PC正在GPGPU晶片之上迸發出新的生命力!
智東西3月14日報道,在一年一度的行業大會世界行動通訊大會上,PC、手機、機器人等各路終端裝置無不與AI深度繫結。
作為全球AI PC龍頭的聯想亮出了自家系列AI PC解決方案,其產品背後的AzureBlade M.2加速卡正是支援其AI PC體驗的關鍵動力。AzureBlade M.2加速卡就來自國內清華系GPGPU創企珠海芯動力科技。芯動力成為聯想在筆記型電腦dNPU方案領域的首位合作伙伴。
在大模型時代,邊緣裝置迎來了新的機遇期,春節爆火的DeepSeek更是加速了這一程序,以AI PC、AI手機為代表的諸多硬體連番炸場。
其背後的原因是,大模型對資料處理的即時性、隱私性要求不斷提高,邊緣裝置能夠在靠近資料來源的地方進行資料處理;邊緣裝置可承擔部分資料預處理和簡單推理任務,拓寬應用場景邊界;DeepSeek憑藉演算法最佳化進一步加速了大模型在邊緣裝置上的部署與應用程序,讓大模型以更低資源消耗在邊緣裝置高效執行。
這股邊緣AI爆發的熱潮宛如一把雙刃劍,在為行業帶來新契機的同時,也向AI晶片企業丟擲了一連串棘手難題,高效能、低延時、低功耗、相容多種作業系統……聯想與芯動力的合作正是這道難題的最新解法。
邊緣AI時代爆發前夜,M.2加速卡的獨特優勢是什麼?其為何能入局AI PC龍頭企業聯想的產品佈局中?我們試圖透過拆解芯動力的產品,找到這些問題的答案。
01.
DeepSeek引爆邊緣AI
晶片廠商機遇挑戰並存
在當下,端側裝置部署大模型的風潮洶湧。然而,這股熱潮背後橫亙著一個核心命題:端側裝置以及AI晶片是否足以承載大模型所需的效能。
因此,端側AI爆發呈現出兩大顯著趨勢。
一方面,端側裝置部署大模型這把火燒的更旺了。
此前,受限於硬體效能和模型技術,端側部署的模型諸多無法處理複雜任務,這也導致端側AI應用場景有限,但更靠近使用者的端側裝置在保護使用者資料隱私方面、即時反饋方面更有優勢。
DeepSeek以開源和低成本的特性極大拉低了大模型部署的門檻,使得端側裝置部署更高效能大模型的可能性增強。同時,基於DeepSeek的演算法最佳化策略,使得支援長文字處理等複雜任務的高效能大模型與端側裝置適配,開發者還可以透過蒸餾最佳化等生成特定場景效能更強的小模型。對於中小企業或者個人開發者而言,能更快速相關端側AI應用。
隨之而來的是,AI手機、AI PC到AI眼鏡等加速湧現,端側AI爆發已成共識。

▲華為、OPPO、榮耀、vivo、小米在手機端部署大模型
然而另一方面,端側AI的爆發,於AI晶片廠商既是蓬勃發展的難得機遇,也帶來了諸多嚴峻挑戰 。
AI在手機、PC、智慧穿戴等諸多端側裝置中應用不斷拓展,使得AI晶片需求大幅增加,並且由於其裝置形態、應用場景多元化,不同場景對晶片需求各異,為晶片廠商提供了更多差異化競爭的機會。
但更為關鍵的是,AI晶片的效能要符合當下端側裝置的發展趨勢,主要集中在效能、功耗、成本、可擴充套件性上。
包括端側裝置對功耗要求極高,需要晶片兼顧低功耗、高效能,且當下演算法和模型仍在不斷更新迭代,晶片廠商需要確保晶片高效適配新的模型和演算法。此外,端側裝置的廠商對成本更為敏感,晶片廠商需要降低晶片的製造成本、研發成本等,以提高產品的市場競爭力。
以AI PC為例,使用者基於其需要處理的生成任務各不相同,文字、圖片、影片生成等應用盡有,因此對於計算資源和處理能力的要求也有區別。

▲聯想AI PC個人AI助力小天部分功能(圖源:聯想官方)
這種情況下,以通用計算為核心的計算架構在處理生成任務時可能面臨效能有限、效率低下、能耗高、靈活性不足等瓶頸,因此從以通用計算為核心的計算架構向更加高效能的異構AI計算架構升級,成為當下增強端側裝置生成式AI體驗的重要路徑。
透過讓CPU、GPU、NPU等不同計算單元“各司其職”、協同運作,構建高效能異構AI計算架構,便能依據各類生成任務的特性,實現任務的合理分配 。
此外,對於AI晶片而言,在滿足效能與功耗等嚴苛要求的同時,還需提供更高的價效比,才能吸引PC廠商在裝置中選用,同時也讓終端使用者更樂於接受搭載此類晶片的產品。
在這個關鍵節點,以AI PC為代表的端側裝置正在呼喚相匹配的AI晶片,加速大模型在端側的繁榮。
02.
小體積、高效能、低功耗、高性價比
M.2加速卡成AI PC致勝利器
就在2025世界行動通訊大會(MWC 2025)上,我們看到了AI PC龍頭聯想和國產AI晶片廠商芯動力聯手的成果。

聯想全新升級的AI PC系列產品亮相,而支援其AI體驗的關鍵之一,正是芯動力基於可重構並行處理器RPP打造的AzureBlade M.2加速卡。

聯想相關負責人在MWC上介紹,聯想AI PC實現了將大模型放到本地端推理的突破,儘管傳統本地推理大都採用整合(CPU+iNPU)或獨立顯示卡GPU,但經過多重對比發現,在執行大語言模型時,通常依賴GPU進行加速,iNPU只有在特定的場景中才能被呼叫。聯想AI PC最終採用了芯動力AzureBlade M.2加速卡,並命名為dNPU。M.2加速卡在進行大模型推理時具有高效率、低功耗效能,同時可進一步釋放顯示卡能力,在提高效率的同時更節約能耗。

▲AI NOW不做大模型推理:右側GPU usage和dNPU佔用率均為0%

▲AI NOW進行大模型推理:右側GPU usage仍為0%,dNPU在40%上下
從具體的效果來看,聯想PC上的個人智慧體AI NOW執行推理任務主要在dNPU內完成,無需佔用 CPU、視訊記憶體或GPU資源,整個推理過程中,CPU的資源佔用極低,僅在資料預處理以及資料傳輸環節佔用少量資源,可以顯著提高推理速度和整體效能。
在低功耗方面,透過聯想小新14P實測,芯動力研發人員發現,於本地化大模型部署場景下,運用芯動力dNPU執行大模型推理任務時,整機能耗相較於未使用dNPU的情形,實現節省了60%能耗。這得益於dNPU的深度最佳化架構,其推理任務可以僅透過CPU適度呼叫即可完成,避免額外高功耗裝置介入。
這種設計整體優化了系統執行的高效能和低功耗。
具體來看,AI PC等端側裝置通常受限於緊湊空間,內部留給各類元件的體積十分有限,因此M.2加速卡的體積也要足夠小。
芯動力基於RPP架構自主研發的AI晶片AE7100尺寸僅為17mm×17mm,集成了該晶片的M.2加速卡尺寸為22mmx88mm,大小與半張名片相當。

與之相匹配的是強大的效能,M.2加速卡擁有高達32TOPs的算力以及60GB/s的記憶體頻寬,功耗也被嚴格控制在8w以下,同時可支撐大模型在AI PC等裝置上執行,適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問等開源模型。
為了讓M.2加速卡與PC自然融合,芯動力採用扇出型封裝,用玻璃載板替代ABF材料,既減小了芯片面積,還實現了低成本先進封裝。
值得一提的是,端側AI應用開發的需求多樣化,因此AI晶片需要降低開發者的軟體適配和除錯難度、成本,讓其更容易實現AI應用的相容,幫助其更快開發出相應應用。
在此基礎上,AE7100實現從底層指令集到上層驅動的全面相容,沿用英偉達軟體棧,並進行了指令集、驅動層和開發庫的最佳化,提升開發效率與邏輯實現的直觀性。
同時,由於M.2加速卡相容CUDA和ONNX,能夠滿足各類AI應用的多樣化需求,其高算力和記憶體頻寬能確保資料的高效穩定處理與傳輸。無論是影像識別、自然語言處理等需要大量資料運算的AI任務,還是對資料即時性要求高的場景,該加速卡都能保障資料處理和傳輸的順暢,避免因算力不足或資料傳輸瓶頸導致的應用效能下降。
在AI和非AI裝置上,M.2加速卡都實現了相容。如AI智慧調整、隱私保護等,聯想AI Monitor內建M.2加速卡,可以實現監控使用者的動作和姿勢,即時調整螢幕的傾斜角度和高度,以及使用者離開電腦前自動模糊螢幕等;對於非AI裝置,聯想AI Monitor可以與其配合使用,利用M.2加速卡的算力處理來自使用者的請求。
可以看出,M.2加速卡針對端側裝置部署大模型的最佳化是全方位的。也正因如此,在當前端側AI發展浪潮下,全球AI PC巨頭聯想選擇了與芯動力聯手。
將視角拉長,我們發現,這正是芯動力在AI時代精準洞察行業趨勢,積累勢能的最好體現。
03.
“六邊形戰士”劍指邊緣AI
契合端側大模型部署痛點
想要剖析芯動力在當下的優勢,可以從其針對平行計算設計的晶片架構說起。
芯動力將其自研的RPP架構稱作“六邊形戰士”,主要解決的就是高效能、通用性可以兼得的難題。
這一架構既結合了NPU的高效率與GPU的高通用性優勢,更具備DSP的低延時,可滿足高效平行計算及AI計算應用,如影像計算、視覺計算、訊號處理計算等,大大提高了系統的即時性和響應速度。
芯動力的優勢在於,其是首家採用CUDA作為晶片架構的設計方向,利用資料流結構避免資料與計算單元間反覆呼叫帶來的效率損失。並且其具有編譯器、執行時環境、高度最佳化的RPP庫,可全面相容CUDA的端到端完整軟體棧,實現邊緣AI應用的快速高效部署。
這契合了當下大模型部署在端側裝置的諸多痛點。
正如聯想相關負責人所說:“dNPU代表了未來大模型在PC等本地端推理的技術方向和趨勢。”
展望未來,該晶片可以提升大模型在端側部署時的推理速度,並降低功耗、提升能效,推動多元化AI應用湧現的同時,為AI PC帶來更多增長空間。或許在未來,dNPU對PC的加持會使其成為與GPU類似的電腦標配。
此外,dNPU可以以獨立的標準化外掛存在,給使用者提供了更高的價效比和靈活性,如果其對生成式AI能力沒有更高需求,使用者可以不採用dNPU。反之,若將dNPU整合至CPU中,會導致產品價格過高,降低使用者的購買慾望。
或許在不遠的將來,dNPU就會作為標準化外掛,廣泛出現在市面上所有可選擇配置的電腦機型中。邊緣AI時代的爆發已經有跡可循。
邊緣計算作為雲端算力有效補充,同樣是大模型落地的必然趨勢。
大模型由於引數規模龐大、計算複雜度高,對算力的需求極為嚴苛,將大模型部署在雲端,雖然能利用強大的雲端算力,但資料往返雲端的過程會產生不可忽視的延遲,這對於如自動駕駛、智慧安防等對即時性要求極高的應用場景而言是致命的。
DeepSeek的出現,意味著邊緣AI競賽來到新的節點。在邊緣裝置上執行更復雜、更強大的AI模型成為現實,吸引了眾多企業和開發者投身於邊緣AI領域的創新與競爭。
在這之前,芯動力基於RPP架構打造的AI晶片,已經憑藉高效能、低功耗、低成本等優勢,在泛安防/邊緣伺服器、工業影像/機器視覺、訊號處理/醫療影像、機器人等邊緣AI應用市場有眾多應用落地,並與浪潮資訊等眾多重磅玩家達成戰略合作。
可以確定的是,芯動力RPP晶片架構的應用潛力正被無限釋放出來,看到這一發展趨勢的芯動力,也加快了產品的釋出節奏。據瞭解,今年,芯動力將推出基於RPP整合Chiplet的8nm R36晶片,2027年將推出更高效能的3nm R72晶片。
04.
結語:RPP架構為邊緣AI時代爆發積勢
AI時代的產業發展速度之快、變化之多可謂有目共睹,從日常生活中的智慧語音助手,到工業領域的智慧生產系統,AI的應用正以前所未有的廣度與深度滲透進各個行業。這一浪潮下,AI晶片需要具備更強大的計算能力以滿足複雜運算需求,才能承接住這一波市場紅利。
因此,精準洞察產業發展趨勢、堅持自研創新、將自身業務體系做到極致才能有效應對市場變化。芯動力RPP架構的出現就是很好的例證,未來,其將基於這一“六邊形戰士”帶給邊緣AI時代什麼樣的驚喜,我們拭目以待。

