多模態模型賦能智慧終端,AI感測成關鍵硬體

作者:李寧遠
物聯網智庫 原創
在與OpenAI分道揚鑣之後,Figure沒有停下機器人與AI結合的腳步,釋出了具身模型Helix。Helix是一款對整個人形機器人上半身進行高頻率、連續控制的視覺-語言-動作(VLA)多模態模型。VLA模型不僅僅是機器人智慧化關鍵技術,應該說智慧硬體發展到高階智慧,多模態能力都是其核心功能。在上篇文章中也提到過,在觸覺相關的感知與處理能力成熟後,VLA發展成全模態的視覺-觸覺-語言-動作VTLA模型也是必要的。
和機器人有著很多共同技術棧的智慧汽車行業,有著多模態能力的VLA模型亦在加速崛起。不少智駕從業人士將VLA模型視為當下繼特斯拉端到端方案之後的端到端2.0版本,被譽為“端到端與多模態模型融合得更徹底的產物”。VLA模型從多種感測器資料中提取豐富的內外部資訊,再借助語言端側模型理解指令最後轉化為駕駛操作指令,推動智慧駕駛向L3L4等級發展。中國乘用車產業聯盟秘書長近期也表示在量產車市場,未來VLA模型有望成為高階智駕的標配。
在VLA模型的帶動下,具備多模態互動推理能力的多模態模型成為焦點。北大團隊在公佈基於DeepSeek-R1更新的多模態版DeepSeek-R——Align-DS-V時也表示“這種全模態的資訊流對於大模型範式轉向通用人工智慧非常重要”。
隨著DeepSeek正式開啟“開源周”,每天開源一個專案再度引發AI模型的開源潮。與此前推理模型的開源不同,這幾天AI模型在多模態領域“卷”了起來。持續火爆的DeepSeek本身就有著多模態框架,越來越多基於DeepSeek的改良版多模態模型湧現。

與此同時,和智慧硬體結合的多模態模型同樣開始催生感測器端側智慧變革。沒有先進的感測資訊收集,全模態的互動處理能力就無用武之地。多模態模型加持的終端裝置,正在推動感測器向AI感測器變革。
然而多模態模型的應用並非沒有挑戰,資料融合的複雜性要求極高的計算資源,而且融合後的終端側模型引數變得更大,既要求高效即時又要推理能力,這對晶片硬體有相當高的要求。同時海量感知資訊收集需要配套的先進多模態感知底座,沒有感測基礎硬體的支援,一切都只是空中樓閣。

多模態模型與硬體算力結合落地,點燃智慧硬體落地前景

機器人賽道上從Figure的Helix來看,裡面有兩個關鍵的模組,第一個模組是一個擁有70億引數的開源端側網際網路預訓練視覺語言模型,用於處理語音和視覺資訊,即VLA中的VL。第二個模組則是一個擁有8000萬引數的AI模型,負責將語言模型發出的指令轉化為精確的機器人動作,即VLA中的A。這一架構讓Helix能即時處理複雜場景,並提供高度精準的動作反饋。
在VL部分的感知環節上這裡主要集中在視覺和語言資訊的融合上,將攝像頭、使用者語言等各種感知資料收集,進而轉化為統一的token embedding用於後續處理。根據Figure介紹,Helix完全能夠在嵌入式低功耗GPU上執行。Helix VLA模型與英偉達GPU的結合給火熱的機器人賽道再次升溫。
智駕領域走視覺路線的Nullmax攜手黑芝麻智慧也釋出了基於華山系列A2000的多模態模型智駕方案,在不依賴雷射雷達系統中,透過攝像頭、語音等多模態資訊,幫助汽車獲得感官能力並實現多種高階智慧功能。
在智駕領域走純視覺感知路線尚沒有定數,走多感測器融合的方案也不少,毫米波雷達、雷射雷達自然也是多模態模型中重要的感知資訊。華為智駕3.0的雷射雷達+毫米波雷達+視覺融合的多模態模型方案搭配華為的硬體算力,亦是自動駕駛產業融合派的技術代表。
在AI模型上,打造高質量LLM和多模態模型正在為AI的商用應用和終端側推理落地做好準備。對於帶有執行功能的機器人等終端側硬體來說,從多模態模型過渡到VLA模型則是高階智慧的未來。
在智慧終端硬體側,多模態模型和硬體算力的適配,則是能否真正應用起多模態能力的重點,也是推進終端落地的關鍵。資料融合後高複雜性需要恰當的計算資源讓整個智慧系統運轉起來。在多模態模型的技術週期,DeepSeek帶動的AI模型訓練成本下降和開源合作上的結合能讓更多的開發者進行高質量多模態模型開發;與硬體算力的適配將進一步推動多模態能力在終端側的部署和推廣,提升終端側智慧體驗。
多模態模型與硬體算力的結合正在積極湧現,面壁智慧研發基於MiniCPM系列端側多模態模型已經與安謀科技、愛芯元智、紫光展銳、高通、瑞芯微、英特爾等算力硬體廠商展開深度合作;深思考人工智慧不久前釋出的鴻蒙系統“TinyDongni”及“DeepSeek”超小端側多模態大模型,已與國產頭部模組廠商廣和通、深開鴻達成合作推出適配國產算力的硬體解決方案。
模型層和算力層的打通,多模態模型與硬體算力適配結合落地,是終端智慧裝置進入千行百業的關鍵動作,點燃了智慧硬體落地前景。

多模態模型催生感測器端側智慧變革,AI感測打造感知底座

在多模態模型如火如荼地發展下,用於智慧硬體多模態模型中的一切資料來源頭都建立在感測器帶來的輸入上,用於感知各類資訊的感測器也迎來智慧變革推動力。在智慧硬體上不可或缺的AI感測迎來多模態模型技術週期裡的新發展機遇。
在終端側,已經可以看到以汽車和機器人為代表的多模態感知融合+多模態模型決策能力的體現,Figure的Helix更是展現了多模態感知融合+多模態模型決策+精確動作指令執行的潛力。目前消費領域AI眼鏡依靠其多模態感知的硬體特性與多模態模型結合得很快,後續消費電子領域,也會出現更多的案例。
感測方面視覺感測是眾多智慧裝置的剛需,自然是本技術週期內最直接的受益者。在很多消費級智慧硬體中核心CMOS 影像感測器是視覺感知的基礎器件。索尼的AI影像感測IMX系列是其中具有代表性的感測器件,可單獨進行影像處理、高速邊端AI處理,能將端側模型寫入嵌入式記憶體中;國內高效能CMOS影像感測器晶片廠商思特威在視覺應用場景上正在推進AI SoC+Sensor系統級整合的端側視覺組合;韋爾股份同樣表示看好AI視覺市場具備的高速增長潛力,在AI+影像感測器上已深度佈局。
在直接感應技術上雷達的應用提供了高精度的定位,特別是4D雷達在智慧家居、智慧駕駛領域起到了關鍵作用,還有不斷下探成本的雷射雷達感測。在感測器智慧變革中,雷達晶片與AI的結合也成為關鍵創新點。在該領域領先的TI、英飛凌均開始在感測晶片搭載AI處理單元來執行感測器端側的模型向AI感測進化。TI在最新的單晶片60GHz毫米波雷達上內建了片上加速器和DSP來支援邊端側模型的執行。
感測器與AI模型結合的端側感測方案在終端裝置上出現的越來越多,感測器件也從單一資料採集器向智慧決策節點轉變,這對實現更低功耗的感知決策分析,減少資料的傳輸延遲有著積極的推動作用。同時AI感測器件透過端側模型預分析資料,能為多模態模型提供結構化資訊便於進行資料融合處理解析出完備的多模態引數,大幅提升硬體裝置的智慧化程度,這也是VLA模型所需要的。
感測器件正在發生的智慧變革,可以將其理解成智慧化驅動的感知底層邏輯的重塑。傳統的感知正規化感測器只需要完成資料收集,將資料交給雲端來做處理與決策,感測器只需要關心精度是否足夠。而這種變革裡新的正規化是,感測器收集到資料後在端側進行處理與預分析,硬體層面上算力與本地感知資料處理完成閉環,既提高了也提升了裝置安全,就像是給感測器裝上了“大腦”。
更進一步的是多模態感知加多模態模型,賦予了端側裝置自主理解場景的能力,多模態的資訊都能被捕捉並被裝置理解,推動感知系統從“採集-傳輸-處理”的線性鏈條向“感知-認知-行動”的閉環進化。
當前感測器廠商大多透過感測硬體來做商業盈利,在感測器智慧變革的程序裡,未來產生AI感測器組合預測模型打包而成“感測器即服務”的商業模式也不為奇。AI時代,硬體是身體,模型是靈魂,產業價值鏈條也在不斷演進。

寫在最後

在多模態模型基礎上更進一步的VLA模型給智慧硬體帶來了落地支援,也推動了軟硬體廠商在多模態能力上進一步挖掘。多模態模型的不斷演進為端側智慧提供了更強大的資訊處理框架,而端側感測更成熟的感知能力反哺了多模態模型落地場景的擴充套件,兩者的協同打造的AI感測底座推動終端裝置向更高智慧化攀登。

相關文章