

近期,上海交通大學顧磊磊副教授團隊開發了一款融合 AI 和柔性電子的多模態可穿戴助盲系統,為改善視障群體的生活質量提供了新的解決方案。
該系統的核心創新在於透過多感官反饋機制(視覺、聽覺、觸覺)的協同作用,以聽覺和觸覺代償視覺功能,顯著提升了自主生活能力,包括在複雜環境中的自主行動和日常任務的執行效率等。

圖丨顧磊磊(來源:顧磊磊)
在感知與導航模組設計上,系統採用多模態融合的智慧處理架構:透過 RGB-D(Red Green Blue Depth)攝像頭即時採集環境資料,經 AI 演算法處理後可精準估算目標方位並規劃無障礙路徑。
空間音訊技術透過骨傳導耳機為使用者提供具有方位感的導航提示;同時,集成於手腕處的柔性人工皮膚(A-skins)能有效探測側方障礙物,並透過差異化振動模式擴充套件使用者的周邊環境感知能力。

圖丨攝像頭目前安裝在眼鏡上,該團隊正在努力使裝置更輕、更隱蔽(來源:Nature)
特別值得關注的是,該系統在硬體設計上突破了傳統助盲裝置的侷限性,透過創新的結構最佳化實現了僅 195 克的超輕量化設計,同時兼顧了穿戴舒適性與美觀性。
在軟體演算法層面,該課題組基於人類感知-認知機制進行了深度最佳化:一方面,透過仿生學設計使資訊輸出方式(如聲音方向、振動節奏)嚴格匹配人體生理特徵;另一方面,採用認知心理學原理最佳化資訊編碼策略,使使用者可以像呼叫自身感官一樣自然地理解系統反饋。
為加速使用者適應過程,研究人員還配套開發了基於虛擬現實(VR,Virtual Reality)的沉浸式訓練系統,透過精心設計的虛實結合訓練場景,幫助使用者快速建立人機協同的空間認知模式。
經嚴格測試驗證,該系統展現出卓越的效能指標:
在完全黑暗環境下,結合紅外深度成像與獨創的地面區間演算法,對低矮障礙物的識別準確率高達 95%;在動態環境測試中,面對突發移動障礙物(如行人)的平均響應時間僅為 18 毫秒。
(來源:Nature Machine Intelligence)
值得關注的是,該系統在標準化可用性評估中獲得 79.6 分(滿分為 100 分),效能表現超越 85% 的現有商用輔助裝置。這項研究不僅為視障群體提供了切實可行的輔助技術方案,更為人機融合智慧系統的開發樹立了新的技術正規化。
近日,相關論文以《以人類為中心的可穿戴多模態視覺輔助系統的設計與製造》(Human-centred design and fabrication of a wearable multimodal visual assistance system)為題發表在 Nature Machine Intelligence[1]。
上海交通大學博士生唐健是第一作者,顧磊磊擔任通訊作者。
圖丨相關論文(來源:Nature Machine Intelligence)

在硬體和軟體同時“做減法”:從機器視覺到以人為中心
目前擔任上海交通大學計算機學院清源研究院長聘教軌副教授,以及上海人工智慧實驗室雙聘青年研究員,主要研究方向是微納仿生與智慧感知交叉,專注於仿生視覺器件及系統的研究。

(來源:Nature)
2020 年,顧磊磊以第一作者身份在 Nature 報道了新型奈米線球形仿生眼的開創性工作 [2](DeepTech 此前報道:中國科學家發明奈米線仿生眼球,被評為該領域數十年來重要突破!活體實驗計劃已提上日程)。
這項研究不僅獲得了學術界的廣泛關注,更收到了來自視障群體的積極反饋。“當時,我們收到了很多關於植入式裝置和視覺恢復等方面的諮詢,視障群體也對這類技術表現出極大的興趣。”顧磊磊說。
這一經歷促使他的研究視角發生了重要轉變:從專注於機器人技術轉向更關注人類需求本身。
在成立獨立課題組後,顧磊磊帶領團隊進行調研。他們發現,雖然已經有不少關於助盲系統的研究,但相關係統的實用性並不理想。儘管這些裝置在實驗室環境下表現出良好的效能引數,但本質上仍然屬於基於計算機視覺的電子導航系統。
透過深入分析,顧磊磊課題組識別出制約現有技術實用性的兩大關鍵問題:
在硬體方面,現有裝置為實現強大功能往往需要整合大量元件,這會導致其體積龐大、重量超標。這種設計類似於外骨骼系統,需要使用者攜帶電腦主機和重型電源等裝置,嚴重影響了穿戴舒適性和日常使用便利性。
在軟體方面,現有系統主要依賴語音播報來描述環境資訊。這種持續不斷的語音輸入不僅容易造成資訊過載,還會使使用者大腦長期處於高度緊張狀態,產生顯著的認知疲勞。正是這些因素導致大多數研究成果難以落地轉化,鮮有視障人士願意長期使用這些裝置。
基於這些發現,顧磊磊發揮其在半導體器件和微納加工方面的專業優勢,提出了一套創新的研發策略。
他認為,應該在硬體和軟體方面同時“做減法”,只保留最核心的功能。也就是說,在硬體上透過微納技術實現功能整合和輕量化設計,在軟體上最佳化資訊呈現方式以降低認知負荷。
這一策略的核心是貫徹“以人為中心”的設計理念,最終目標是開發出實用性的新一代助盲系統。

從“功能堆砌”到“智慧協同”的正規化轉變
該課題組開發的智慧助盲系統創新性地借鑑了生物視覺的“注意力分配”機制,實現了高效節能的環境感知。
與普通相機全域高解析度成像不同,該系統模擬了人眼視覺的特性:中央區域(約 60 度視野)作為高精度感知區,相當於人眼的黃斑區,負責精細分析關鍵資訊;而周邊區域則透過電子皮膚實現廣域監測,類似人眼周邊視覺的“警戒”功能。
這種仿生架構在保證核心功能的同時,由於採用了小型化演算法,使得推理過程更快,顯著降低了系統功耗(僅 6.4 瓦,為同類裝置的 60%)。
顧磊磊指出,多模態系統很容易陷入的困境是:資訊過多導致使用者疲勞,但資訊太少又無法提供足夠的安全保障。

圖丨可穿戴多模態視覺輔助系統的概述(來源:Nature Machine Intelligence)
在感知-決策閉環設計上,該系統展現出三大技術創新:
首先,中央視覺模組採用最佳化演算法,可在 200-300 毫秒內完成環境分析並生成導航指令,與人腦反應速度完美匹配。
其次,腕部電子皮膚透過觸覺振動提供周邊障礙預警,形成互補感知網路。
再次,智慧鞋墊系統將虛擬訓練與現實導航無縫銜接,透過摩擦電效應實現自供能,使使用者能在安全環境中熟悉裝置反饋模式。
顧磊磊解釋說道:“這種設計減少了訓練風險,幫助使用者熟悉裝置節奏,從而增強操作準確性。並且,在實際使用該系統時如果訓練已經完成,則不需要使用 VR 部分。”
(來源:Nature Machine Intelligence)
測試結果表明,經過 2 小時的 VR 訓練後,受試者在真實環境中的行走效率提升 24%,碰撞次數減少了 67%。經過訓練的使用者導航速度提升了 28%,導航時間和行走距離顯著減少。
針對家庭環境的動態特性,該系統摒棄了傳統全域性建圖方法,轉而採用“即時感知-即時決策”的漸進式導航策略。
顧磊磊解釋道:“就像人在陌生環境中摸索前進一樣,我們的系統不需要記憶完整地圖,而是透過每一步的區域性感知來動態調整路線。”
這種策略有效解決了傢俱移動等環境變化帶來的路徑規劃失效問題,使系統在動態測試中對突發障礙的平均響應時間達到 250 毫秒。

圖丨個性化的人工視覺(來源:Nature Machine Intelligence)
多模態資訊融合是該系統的另一大亮點。研究人員基於認知心理學原理,精心設計了資訊呈現的優先順序和方式:重要導航指令透過空間化骨傳導音訊傳遞,次要環境資訊則轉化為觸覺提示,避免傳統語音導航造成的資訊過載。
這種“雜而不亂”的感官分配使得系統可用性評分達 79.6 分,超越 85% 的商用裝置。顧磊磊強調:“其關鍵在於模擬生物系統的效能平衡——既不能因資訊不足而影響安全,也不可因資訊過載導致認知疲勞。”
(來源:Nature Machine Intelligence)
從技術演進來看,該研究標誌著助盲裝置從“功能堆砌”到“智慧協同”的正規化轉變。透過仿生設計、多模態最佳化和虛實結合訓練的三重創新,不僅解決了現有裝置笨重、低效的痛點,更開創了“以人為中心”的智慧輔助技術新方向。
正如顧磊磊所言:“真正的突破不在於單項指標的提升,而在於打造一個讓使用者感到'自然'的系統——就像使用自己的感官一樣得心應手。”

學術探索與產業轉化“雙軌並行”
目前市面上的智慧眼鏡和導航系統功能豐富,涵蓋路徑規劃、商場導航、停車資訊,甚至上網娛樂等。然而,該課題組選擇了一條不同的路線,透過對軟硬體“做減法”,專注於系統最核心的功能,從而有效控制整體成本。
未來,該技術將沿著“學術探索與產業轉化雙軌並行”的方向發展。一方面,團隊將繼續拓展和深化研究,例如將攝像頭最佳化為類似隱形眼鏡或電子皮膚的裝置;另一方面,研究人員將致力於與工業界合作,注重系統在工程性和可靠性方面的提升。
在談及技術發展路線時,顧磊磊提到一種有趣的說法——既要向前推進,也要注意沿途“下蛋”。他指出,可以從一些簡單但要求較高的方向入手,先將技術推向產品化。例如,將目前系統中所使用的樹莓派換成專用晶片,這樣可以大幅降低裝置體積。
從人機融合角度來看,接下來的研究階段中可能會引入腦機介面,透過個性化的腦機介面來反饋並最佳化反饋編碼。
此外,如果要更大規模地推進該專案,需要更廣泛的測試。目前,磊磊團隊正在聯合北京大學、山東大學相關團隊制定並推行可穿戴助盲系統的行業標準。“這是一個好的方向,我們也希望更多業內人士參與進來,共同推動該領域的發展。”顧磊磊說。
該團隊的“終極目標”是希望能夠實現包括器件、演算法、晶片在內的軟體和硬體的完全自主開發,從而實現更好的定製化。顧磊磊強調:“未來,我們將繼續秉承‘做減法’的研究思路,讓科技向善之光照射到更廣泛的群體。”

參考資料:
1.Tang, J., Zhu, Y., Jiang, G. et al. Human-centred design and fabrication of a wearable multimodal visual assistance system. Nature Machine Intelligence (2025). https://doi.org/10.1038/s42256-025-01018-6
2.Gu, L., Poddar, S., Lin, Y. et al. A biomimetic eye with a hemispherical perovskite nanowire array retina. Nature 581, 278–282 (2020). https://doi.org/10.1038/s41586-020-2285-x
運營/排版:何晨龍



