把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

超級AI應用爆發前的算力革命已經來了。
作者 |  雲鵬
編輯 |  漠影
今天,一場橫跨各個產業的算力革命正在AI新時代爆發,隨著以DeepSeek為代表的國產大模型加速走向產業,AI從雲端走向端邊,大模型和AI應用的落地熱潮勢不可擋。
在這樣的趨勢下,AI推理算力需求的暴漲給產業同時帶來了機遇和挑戰,根據公開資料預測,未來3年,推理算力年複合增速將達到訓練算力的近4倍。如何把百億級引數模型落地智慧終端、實現雲級推理能力走向端邊,同時兼顧高效能、高能效、高隱私安全,成為業內關注的核心焦點在。
在昨日剛剛盛大開幕的2025世界人工智慧大會(WAIC 2025)上,我們看到數十家國內AI龍頭鏈主企業亮出了3000多項前沿技術和產品,包括40多個大模型、50多個AI終端產品和60多個機器人,大家對終端產品上各類亮眼的端側AI應用體驗興趣盎然。
作為這場AI算力革命核心玩家的晶片企業們,也紛紛在這場盛會上亮出自己的看家本領。比如國內AI晶片創企後摩智慧就釋出了面向端邊大模型場景的AI晶片後摩漫界M50,並在展區展示了自家的硬體全家桶和基於存算一體技術的端邊大模型落地案例。
後摩漫界M50以及基於其打造的算力卡,有著極致能效比、高面效比、低功耗實現的突出能力,讓產業看到了解開端邊大模型落地“算力不足、功耗過高、隱私洩露”三大“癥結”的破局之道。
繼2023年推出首款存算一體AI晶片後,這無疑是後摩智慧向端邊大模型領域再次邁出的關鍵一步。
01.
端邊大模型落地:
高算力、高能效、低功耗、大頻寬、強隱私
缺一不可
當下,行業正迫切需要解開端邊大模型落地三大死結:算力不夠用、功耗降不下來、隱私保不住。使用者對於高算力、高能效、低功耗、大頻寬、高隱私的需求成為AI推理時代的突出特點。
在大模型從雲端走向端邊裝置的過程中,首先要突破算力的瓶頸,端側裝置算力先天遠低於雲端,目前即使是旗艦消費級PC處理器的NPU算力通常也只有數十TOPS。
結合相比雲端大幅削減的記憶體頻寬,百億引數模型端側推理速度可能只有10tokens/s左右,完全無法滿足即時互動的需求。與此同時,邊緣節點往往需要同時處理海量併發推理需求,GPU資源利用率較低,響應時間過長,這些都對實際使用者體驗有較大影響。
此外,端側先天受制於“功耗枷鎖”,絕大部分端側移動裝置電池容量有限,同時受到整機功耗牆限制,不可能以大幅犧牲續航體驗來換取AI體驗的提升。
根據三方實測,手機端執行7B模型的CPU功耗甚至可以達到8W,這對續航影響十分顯著。
最後,在資料隱私安全方面,需求側的挑戰也越來越明顯。端側AI的發展越來越快,尤其在AI agent浪潮下,資料成為關鍵——無資料不個性化。
多模態大模型成為主流,照片、截圖、語音、文字、影片,甚至是金融資訊、醫療資訊、使用者使用習慣、使用者深度畫像都會成為大模型的資料來源。資料安全被提到前所未有的高度,對企業來說尤其如此。
落地側需求的湧現也不斷激勵晶片產業尋找和探索新的解決方案,比如透過晶片硬體架構的創新、資源排程演算法的最佳化、各類硬體級加密方式的升級,去提升效能、能效和安全性。
從硬體層技術創新來看,存算一體技術路徑已經被後摩智慧證明行之有效,此次新品M50的落地進一步鞏固了這一技術路線,讓產業看到了其實際落地能帶來的產業價值。
02.
後摩秀出存算一體王炸升級
解密背後核心軟硬體技術創新細節
此次M50晶片實現的效能突破可以說相當亮眼,同時還兼顧了能效和安全,其最突出的三個特點就是極致能效比、高面效比和低功耗實現。
單個M50晶片的典型功耗僅有10W,但INT8算力卻直接達到了160 TOPS,同時有著48GB的大記憶體,這使其可以支援百億級引數模型的本地推理。
根據官方實測資料,M50單晶片就可以實現70億引數大模型25+tokens/s的推理速度,可用性大幅提升。
值得一提的是,M50還支援更豐富的混合資料型別,其在Tensor上同樣支援浮點運算,與此同時,M50支援透過晶片互聯提供更高算力、擴充套件更多邊端場景。
在這樣顛覆式升級的背後,存算一體架構的技術創新發揮著關鍵作用,基於非馮·諾依曼架構,存算一體架構可以打破晶片設計的“儲存牆”及“功耗牆”,實現計算單元與儲存單元的整合,在儲存單元內完成部分或全部的運算,進而解決晶片效能瓶頸、提升能效比。
具體來看,IP創新是關鍵一環,後摩智慧自主研發了存算一體創新IP,其可以滿足多精度、高能效比、高頻寬、低功耗等需求。
M50用上了後摩智慧自研的第二代存算一體IP,支援雙埠的載入和計算的並行,並且解決了大量測試和可靠性難題。此前業內幾乎沒人做過存算一體晶片在這方面的測試,後摩智慧是真正腳踏實地一點點摸索出來的。
此外,在極小芯片面積內實現大算力的同時兼顧電源穩定性也是一大挑戰,後摩智慧團隊在這方面積累了不少技術專利。
在有了高效存算一體IP後,如何高效利用並落地實現交付給客戶,還要考驗AI處理器的設計能力,後摩智慧針對大模型應用專門設計了新的IPU架構,包括對自適應計算或者彈性加速的支援,以及在存算上直接進行浮點運算。
從創始人兼CEO吳強博士在演講中提到,團隊從2023年就開始研究大模型和存算一體的結合,投入很多資源,在過去兩年陸續發表了30多篇國際頂刊論文。
此外,後摩智慧還自主研發了易於使用的軟體工具鏈,適配存算架構的運算元庫,可以高效利用存算IP所帶來的效能、功耗優勢,簡化部署流程的同時,提升部署能效。
可以看到,在存算一體這條技術路線上,後摩智慧做了海量的紮實研發,填補了諸多技術空白,並一步一個腳印地探索出了一條切實可行的落地路徑,從學術論文到落地應用,讓產品真正“work”,是才最難的,而這些都是表面上所看不到的艱辛。
03.
“一片口香糖”尺寸
解決百億引數大模型落地
多場景端邊裝置智慧體驗“質變”
在M50過硬的晶片硬實力基礎上,後摩智慧推出了豐富產品形態,幫助企業在端邊多場景完成大模型在裝置端的落地。這些產品已經可以實現消費終端、智慧辦公、智慧工業等諸多場景的覆蓋,給這些端邊裝置的AI體驗帶來顯著改善。
當下,AI手機和AI PC是端側AI落地走的最快的兩種產品形態,而PC相比手機,同時兼顧消費端和產業端應用,適用性更為廣泛,AI PC也是後摩智慧M50晶片以及相關產品表現頗為亮眼的領域。
其中力擎LQ50 M.2卡基於標準M.2 2280規格,將M50晶片的算力濃縮至“單片口香糖”尺寸,可以“即插即用”,使用十分便捷,這對於緊湊型移動裝置非常重要。
LQ50 M.2卡基於採用存算一體創新架構,搭配了48GB LPDDR5記憶體,記憶體頻寬153.6 GB/s,可以直接本地執行百億級引數大模型,7B/8B模型推理速度據稱可超過25tokens/s,小尺寸低功耗也令LQ50 M.2卡兼顧了無風扇設計,適用性更加廣泛。
值得一提的是,在軟體相容和開發生態方面,LQ50 M.2卡相容Windows 11/Linux/Android等主流作業系統,通過後摩大道平臺支援全棧開發,可以靈活部署在AI PC、AI Stick(AI計算棒)等移動終端裝置中,在消費、辦公、工業等場景中提供本地大模型推理加速能力,同時保障資料隱私與低延遲響應。
在場景適配能力方面,M50支援多芯互聯技術,可以動態擴充套件算力適配未來模型升級,這對更廣泛場景的擴充套件覆蓋十分關鍵。
比如力擎LQ50 Duo M.2卡基於OCP Dual M.2標準設計,集成了兩顆 M50晶片,透過高速互聯技術實現320 TOP的算力釋放,同時其配備了96GB記憶體,頻寬307GB/s,這樣的豪華規格使其可以直接突破14B/32B大模型的端側部署瓶頸。
在邊緣複雜場景中,雙芯架構既能驅動智慧會議系統完成多語種即時翻譯和聲紋識別會議紀要,也可以支援百億引數大模型私有化部署,還能本地執行多模態AI Agent。
基於這些產品和解決方案我們可以看到,M50系列產品在AI PC、智慧終端、工業邊緣裝置等場景都具有極高的效能適配性。
在消費領域,M50系列可以很好地賦能平板、PC、AI Stick等移動終端裝置;智慧辦公場景中,智慧會議系統在斷網環境下也能實現多語種翻譯、紀要生成,會議內容不上雲、不洩露;智慧工業領域,產線質檢與車路雲協同透過本地算力完成即時分析決策,生產資料與運營資訊在裝置端閉環處理,避免雲端傳輸隱患。
可以看到,“存算一體+端邊大模型”的技術路徑是高效可行的。
這一模式真正給解決有限硬體資源上的高效資料處理的難題提供了行之有效的路徑。對比傳統晶片方案,基於存算一體技術的端邊裝置在智慧體驗上是有“質變”的,給AI超級應用未來的爆發打牢了端側算力基礎。
可以說,後摩智慧存算一體技術和產品,將AIGC等大模型能力融入AI PC、智慧終端等場景,也令後摩智慧成為推動端邊裝置從“功能型”向“智慧體”的正規化升級的核心玩家之一。
04.
結語:
從移動終端、智慧辦公到智慧工業
存算一體打破端側AI落地“不可能三角”
成立五年來,後摩智慧長期專注深耕存算一體技術,從M30到M50,其已經實現了端邊AI晶片的良性迭代落地閉環,在諸多場景中實現了對企業的賦能加速,成為推動AI普惠落地的關鍵晶片玩家。
在今年的WAIC 2025大會上,國內AI晶片玩家作為中國智算產業的核心力量,無疑成為業內關注的焦點,結合當下“算力即國力”的大背景,夯實智算底座也成為國內不少省份在AI領域的重要佈局方向之一。
沿著這一大趨勢方向,後摩智慧無疑在端邊大模型AI晶片領域跑在了技術力的第一梯隊,用硬核技術創新給解決行業頑疾帶來新的解法。隨著技術的快速迭代,我們相信後摩智慧會給產業帶來更多有價值的技術創新和優秀產品。


相關文章