MobiCom上新|精選論文帶你瞭解無線移動領域的創新應用

(本文閱讀時間:12分鐘)
編者按:歡迎閱讀“科研上新”欄目!“科研上新”匯聚了微軟亞洲研究院最新的創新成果與科研動態。在這裡,你可以快速瀏覽研究院的亮點資訊,保持對前沿領域的敏銳嗅覺,同時也能找到先進實用的開源工具。
MobiCom 是移動計算和無線網路領域的頂級國際學術會議之一。本期“科研上新”將為大家帶來多篇微軟亞洲研究院入選 MobiCom 2024 的精選論文解讀,涉及內容涵蓋移動任務自動化、遠端聽診、DNN 推理、氣體感測、被動感知、無線感測等。
「 本期內容速覽 」
01
AutoDroid:大語言模型驅動的智慧移動裝置任務自動化
02
利用耳機探索遠端心臟聽診的可行性(MobiCom 2024最佳論文獎)
03
FlexNN:為記憶體受限裝置提供動態儲存管理的DNN推理框架
04
Gastag:使用基於石墨烯標籤的氣體感測新正規化
05
GPSense:利用無處不在的GPS訊號進行被動感知
06
MSense,在運動干擾下增強無線感測能力
01
AutoDroid:大語言模型驅動的移動任務自動化
論文連結:
https://arxiv.org/abs/2308.15272
近年來,移動任務自動化技術備受關注,其目標是透過自然語言互動實現智慧移動裝置自動化操控,在 AI PC、智慧個人助理、車載資訊娛樂系統等領域擁有廣闊的應用前景。但受限於有限的自然語言理解能力以及對人工干預的嚴重依賴,現有自動化方案的可擴充套件性普遍較差,難以應對複雜多變的使用者需求和應用場景。
對此,微軟亞洲研究院的研究員們與清華大學智慧產業研究院的李元春教授團隊合作提出了 AutoDroid。AutoDroid 的核心在於其融合了大語言模型的通用常識性知識與特定應用的領域知識。傳統的任務自動化方法,無論是基於開發人員預設規則,還是基於使用者演示或機器學習,都高度依賴人工參與,且難以覆蓋廣泛的應用場景。AutoDroid 利用大語言模型強大的語言理解、推理和零樣本泛化能力,結合自動化動態分析技術,實現了無需人工干預的任意安卓應用任務自動化,為構建更加智慧、高效的個人助理(Agent)應用奠定了堅實的基礎。
AutoDroid 的系統框架主要分為兩個關鍵階段:離線學習階段和線上執行階段。在離線階段,AutoDroid 透過自動化探索目標應用,可構建應用的 UI 轉換圖(UTG)。該 UTG 詳細記錄了應用中各個 UI 狀態之間的跳轉關係,以及每個 UI 狀態下可執行的操作,如同應用的“邏輯地圖”。隨後,AutoDroid 利用 LLMs 深入分析 UTG 中每一個 UI 的元素和狀態,總結出每個 UI 元素的功能(例如,將某個按鈕的功能總結為“刪除所有事件”),並記錄下應用的初始狀態到達該 UI 元素所在狀態的完整操作路徑。這些資訊會被組織成一個“模擬任務-狀態-元素”對映關係表,構成該應用的專屬知識庫,即 App Memory。
圖1:AutoDroid 的工作流程圖
進入線上執行階段,AutoDroid 便可以接收使用者透過自然語言下達的任務指令。它首先從 App Memory 中檢索到與當前任務高度相關的“模擬任務”資訊。隨後,AutoDroid 以模擬任務為參考,進一步生成具體的裝置控制指令,並轉化為實際的 UI 操作在裝置上執行,且更新當前的 UI 狀態。如此迴圈往復,直至最終目標達成。
為了全面評估 AutoDroid 的效能表現,研究員們構建了一個包含13個常見安卓應用、158個真實使用者任務的基準測試集 DroidTask。實驗結果顯示:和基於 GPT-4 的基線方法相比,AutoDroid 的任務完成率大幅提升了36.4%-39.7%,而平均查詢成本卻降低了約45%。未來,研究團隊將繼續探索更高效的模型推理和最佳化策略,進一步降低任務自動化的成本和延遲,並將其擴充套件到更多的應用場景與裝置型別。
02
利用耳機探索遠端心臟聽診的可行性(MobiCom 2024最佳論文獎)
論文連結:
https://dl.acm.org/doi/10.1145/3636534.3649366
遠端影片問診為患者提供了在家中就能便利接受專業醫療諮詢的機會。然而,現有遠端影片問診的一個主要限制是醫生依賴聽診器來獲取患者心臟的資訊。為此,微軟亞洲研究院的研究員們與合作伙伴共同提出了名為 Asclepius 的“硬體-軟體”解決方案,讓患者的普通耳機可以像聽診器一樣輔助醫生在影片問診中聽到患者重要的心臟資訊(即 PCG 訊號)。
圖2:Asclepius 框架圖
Asclepius 解決方案的核心在於一個低成本的外掛外設。該外設能夠將耳機的揚聲器轉變為麥克風,從而在耳道捕獲患者微弱的 PCG 訊號。考慮到 PCG 訊號從心臟傳播到耳道的過程中會遭受嚴重衰減和多徑效應,研究員們還開發了高效的訊號處理演算法和機器學習方法,以消除原始 PCG 接收中的干擾訊號,並糾正訊號幅度和頻率的失真。這一技術涉及自動阻抗匹配和電壓檢測,採用數字電位器晶片 MAX5402EUA,其阻抗可以透過 SPI 控制訊號程式設計,以適應不同耳機和配對裝置之間的阻抗匹配。
Asclepius 在一個雙層 PCB 板上實現,遵循 IRB 協議,並有30名志願者對其效能進行了測試評估。實驗結果表明,Asclepius 能夠利用不同型別的耳機恢復 PCG 訊號。系統在訊號預處理、分割和兩階段訊號恢復方面表現出色,其中第一階段使用 UNet 模型架構恢復 PCG 頻譜圖,第二階段則透過 1D UNet 模型進一步最佳化時間域波形,以減少相位不一致帶來的噪聲。該工作透過將普通耳機轉變為醫療級聽診器,有望改善遠端醫療服務的質量和效率,為遠端心臟聽診領域的發展提供了新的方向。
03
FlexNN:為記憶體受限裝置提供動態儲存管理的DNN推理框架
論文連結:
https://dl.acm.org/doi/10.1145/3636534.3649391
隨著神經網路模型(DNN)在個人計算裝置、自動駕駛、機器人和無人機等領域的廣泛應用,邊緣裝置已成為人工智慧服務落地的關鍵載體。但記憶體增長遠落後於模型規模擴大的需求,加之多應用環境中的記憶體共享,模型記憶體開銷已成為其在裝置端部署的重要瓶頸。現有深度學習框架由於無法解決動態記憶體管理導致的碎片化和延遲問題,通常會將模型引數整體載入至記憶體並順序存放。而隨著模型引數規模的持續擴大,這種方法難以滿足記憶體受限的要求。
為破解這一難題,研究員們提出了一種為儲存受限裝置提供儲存層級動態管理的 DNN 推理框架 FlexNN。FlexNN 將儲存管理形式化為一個“時間-空間”二維揹包問題,並打破了傳統張量的邊界,透過採用“切片-載入-計算”的細粒度聯合最佳化策略,可實現磁碟資料載入與計算任務的併發執行,大幅降低推理時的記憶體開銷。
圖3:對比傳統方法(a)(b),FlexNN (c) 同時減少記憶體碎片和磁碟載入等待時間,極大降低了記憶體需求和延遲。
實驗結果表明,FlexNN 在不犧牲模型精度的前提下,將記憶體消耗降低了93.81%,推理延遲僅增加3.64%。並且,該方法還獲得了成果評估中結果可復現、可重用等四個徽章。
FlexNN 是清華大學智慧產業研究院與微軟亞洲研究院異構計算團隊合作的創新成果,也是異構計算團隊在針對深度學習模型設計新型虛擬儲存系統方向的又一重要進展,代表性工作還包括 Pre-gated MoE 和 Ripple。
Pre-gated MoE 論文:
https://ieeexplore.ieee.org/document/10609634
Ripple 論文:
https://arxiv.org/abs/2410.19274
04
Gastag:使用基於石墨烯標籤的氣體感測新正規化
論文連結:
https://dl.acm.org/doi/10.1145/3636534.3649365
針對爆炸性以及有毒氣體的傳統氣體檢測方法存在成本高昂、維護複雜的問題,微軟亞洲研究院的研究員們與合作伙伴共同提出了一種基於被動標籤的氣體感測新方法 Gastag。Gastag 的核心是將一小片氣體敏感材料嵌入到價格低廉的 RFID 標籤中,透過氣體濃度變化引起的材料導電性變化,進而影響標籤的阻抗和接收訊號,實現在不犧牲標籤-讀卡器工作距離的前提下對氣體濃度的精確測量。
為了提升感測靈敏度和氣體濃度的檢測範圍,研究團隊精選併合成了一種新型高靈敏度、高比表面積的材料。同時,為了增大感知距離,團隊對標籤天線進行了重新設計,從而確定氣體敏感材料的最佳位置以實現阻抗匹配。
透過廣泛的實驗驗證,Gastag 在不同環境、不同標籤朝向以及存在干擾條件的情況下,均能保持良好效能。而且 Gastag 在多種氣體濃度測量中均展現出了低誤差率,且成功將感知距離擴充套件至8.5米,為大規模部署提供了可能。
圖4:RFID 讀卡器和標籤的工作原理
05
GPSense:利用無處不在的GPS訊號進行被動感知
論文連結:
https://dl.acm.org/doi/10.1145/3636534.3690674
隨著無線感測技術的發展,Wi-Fi、UWB 和聲波等無線訊號已被用於多種感知任務,但這些系統通常面臨感知範圍有限和可能干擾無線通訊的問題。針對這些挑戰,本研究工作提出了一種創新方法 GPSense 系統,利用無處不在且全天候工作的 GPS 訊號進行無線感知。
GPSense 系統可透過商業 GPS 接收模組採集的原始資料,重建訊號的幅度和相位資訊,而這對於感知任務至關重要。研究員們還開發了適用於 GPS 訊號特性的感知模型,並提出了分散式感知的概念,透過融合多個衛星的訊號來增強感知效能。
圖5:基於來自衛星訊號的感知系統 GPSense
研究員們在不同的環境、時間和天氣條件下對 GPSense 系統進行了廣泛的測試,驗證了其在各種條件下的魯棒性。特別值得一提的是,研究員們還成功地將 GPS 感知技術擴充套件到了室內環境,僅使用一個低成本的 GPS 中繼器即可實現。這些實驗不僅展示了 GPSense 系統在人體活動感知、被動軌跡跟蹤和呼吸監測等方面的應用潛力,也證明了該系統在實際應用中的有效性和適應性。
06
MSense,在運動干擾下增強無線感測能力
論文連結:
https://dl.acm.org/doi/10.1145/3636534.3649350
在無線感知領域有一個很大的限制是,裝置在感知過程中必須保持靜止。這種限制極大地縮減了無線感測技術在實際生活中的應用,因為現實生活中無線裝置(如手機)以及目標(如人)時常都會處於運動狀態。為此,微軟亞洲研究院的研究員們與合作伙伴提出了一種在運動干擾下增強無線感測能力的創新解決方案 MSense。該方法透過建立包含裝置運動和干擾體運動的感知模型,藉助純訊號處理技術提取身體和裝置運動的影響,並將其從目標訊號中移除,從而實現準確的目標感測。
MSense 利用毫米波雷達(mmWave radar)來實現。採用數字波束成形技術,系統可以藉助多個天線接收的訊號增強來自目標區域的反射訊號。透過比較不同身體區域的反射訊號,MSense 能夠消除身體和裝置運動的干擾,提取出目標運動資訊。該方案不依賴於目標運動的週期性,可以應用於週期性運動(呼吸)和非週期性運動(手勢)的感知任務。
圖6:基於毫米波雷達的感知示例
實驗結果表明,MSense 在多種實際應用中表現出色。在車輛中進行的駕駛員疲勞檢測實驗中,MSense 顯著提高了眨眼、打哈欠和點頭檢測的準確率,並降低了誤報率。在運動中的呼吸監測實驗中,MSense 能夠在家庭和健身房環境中準確估計呼吸率,即使在跑步機上以不同速度跑步時也能監測到呼吸率的變化。此外,在移動裝置上的手勢識別實驗中,MSense 還實現了超過93%的識別準確率。
你也許還想看:

相關文章