讓機器人在人群中穿梭自如,港科廣&港科大突破社交導航盲區|ICRA2025

龔澤穎 投稿量子位 | 公眾號 QbitAI
機器人落地複雜場景,社交導航能力一定是避不開的關鍵一點。
先簡單介紹下,社交導航(SocialNav,Social navigation) 是指在人機共存的環境中,機器人在遵循社會規範的前提下執行導航任務。
就拿下圖來說,機器人需導航至目標點,而目標恰好位於兩名行人未來軌跡的交匯區域。
不僅要靈活避免潛在的碰撞風險,還需與行人保持合適的社交距離。
總而言之,社交導航該任務對視覺導航領域提出了獨特挑戰:
預建地圖的方法難以適應人群密集的動態環境,而現有RL方法存在短視決策和依賴全域性資訊的問題。
近期,香港科技大學(廣州)和香港科技大學聯合提出了一種新演算法,Falcon
它透過將軌跡預測演算法融入社交導航任務中,實現長期動態避障並提升導航效能。
社交導航的另一個重要挑戰則是現有基準的真實性不足
如下所示,現有基準通常存在以下幾方面的侷限性:
  • 場景複雜性不足:僅關注機器人與人類的互動,而忽略場景本身複雜性。
  • 人類行為不自然:行人動作僵硬、運動模式失真,難以反映實際場景互動。
針對上述侷限性,研究團隊構建了兩個新資料集——Social-HM3D 和 Social-MP3D,作為社交導航任務的新基準。
該專案論文已被ICRA 2025接收,同時已經掛上arXiv。
程式碼和模型權重可到GitHub尋找。

Falcon:整合軌跡預測輔助任務的強化學習框架

Falcon演算法框架由2個模組組成:
  1. 主策略網路 (MPN,Main Policy Network)
  2. 時空預知模組(SPM,Spatial-temporal Precognition Module)

主策略網路:讓機器人學會“遵守規則”

模組一,主策略網路,這是Falcon的“大腦”,負責指導機器人如何行動。
其核心是社會認知懲罰(SCP,Social Cognition Penalty)機制,透過設計專門的懲罰函式,避免機器人干擾人類未來軌跡,從而引導智慧體規避碰撞風險並保持社交距離。
具體而言,Falcon引入三個關鍵懲罰項:
  • 障礙物碰撞懲罰 :嚴厲懲罰機器人撞到靜態障礙物或行人。
  • 人類接近懲罰:當機器人靠近行人時,隨距離減小增加懲罰。
  • 軌跡阻礙懲罰:如果機器人干擾行人未來路徑,則提前施加懲罰。

時空預知模組:讓機器人學會“提前規劃”

模組二,時空預知模組(SPM),結合軌跡預測與多種社交感知輔助任務,顯著增強了機器人對未來環境動態變化的預測能力。
其主要功能包括:
  • 人類數量估計:預測場景中有多少人,幫助評估環境複雜程度。
  • 當前位置跟蹤:即時跟蹤行人位置,快速響應變化。
  • 未來軌跡預測:預測未來幾秒行人路徑,提前規劃避障。
關鍵在於,輔助任務僅在訓練階段使用
在推理階段,機器人僅依賴主策略網路進行決策。
這種設計簡化了推理過程,確保模型在實際應用中的高效性。

特意構建兩個新的資料集

現有社交導航基準存在諸多不足,如場景過於簡化、人類行為不自然等。
以下表格為現有的社交導航模擬器與資料集統計特性對比:
為彌補這些缺陷,研究人員構建了兩個新資料集——Social-HM3D和Social-MP3D,具備以下優勢:
  • 真實場景重建:基於高精度3D掃描,涵蓋公寓、辦公樓、商場等多種室內場景。
  • 自然人類行為:採用多目標導向的軌跡生成演算法和ORCA動態避障模型,模擬人類行走、休息等自然行為。
  • 合理人群密度:根據場景面積動態調整人類數量,確保互動密度適中。
研究團隊表示,這兩個基準既平衡了人機互動的社交密度,同時也避免了過度擁擠。
這一基準為社交導航研究提供了更貼近真實場景的評估環境,並且支援推廣到有人環境下的物體導航、影像導航等下游任務。

實驗部分

在定量分析方面,實驗表明,Falcon在目標達成和社會合規方面表現出色:
其一是目標達成
在Social-HM3D中達到55.15%的成功率和成功路徑效率(SPL,Success weighted by Path Length)
即使在未訓練過的Social-MP3D資料集上,也能取得55.05%的成功率。
其二是社會合規
在保持社交距離和避免碰撞方面表現良好,達到接近90%的個人空間合規性(Personal Space Compliance, PSC)和接近42%的人機碰撞率。
定量結果表明,Falcon不僅在已知環境中表現出色,還能有效適應未見過的複雜動態環境。
在定性分析方面,下圖的定性結果展示了Falcon在不同典型場景中的優越性——
第一個是人員跟隨情境。
Falcon透過預測行人未來軌跡,主動調整速度和路徑,保持安全距離。
第二個是複雜交叉路口。
面對行人和靜態障礙物同時存在的場景,Falcon提前預測並規劃出安全高效的路徑。
第三個是正面接近情境。
傳統的RL演算法Proximity-Aware試圖直接從行人面前穿過導致碰撞,Falcon透過預測行人未來軌跡,提前調整路徑並安全避開。

3個關鍵發現

各項實驗後,團隊有了三個關鍵發現:
發現1,未來感知演算法優於以往即時感知演算法。
靜態路徑規劃演算法(如A*)無法適應動態環境,而即時感知方法(如ORCA和Proximity-Aware)雖能被動避障,但仍存在延遲反應問題。
相比之下,Falcon能夠主動預測行人軌跡並提前調整路徑,顯著提升了安全性和效率。
發現2,輔助任務有助於提高效能,其中軌跡預測最重要。
下表展示了不同輔助任務對導航效能的影響。
其中軌跡預測(SPM.Traj)效果最為顯著,成功率從40.94%提升至54.00%。
發現3,SCP和SPM相輔相成,改善效能並加快訓練收斂。
下圖圖中為消融研究中的訓練曲線。
可以觀察到,具有SPM和SCP的完整Falcon模型收斂更快,效能更好。
SCP在提升模型效能方面發揮關鍵作用,尤其是與SPM整合後,整體效能進一步提升(從53.63%提高至55.15%),並加快訓練收斂速度。
專案主頁:https://zeying-gong.github.io/projects/falcon/論文連結:https://arxiv.org/abs/2409.13244程式碼連結:https://github.com/Zeying-Gong/Falcon
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章