UAV-Flow Colosseo團隊 投稿量子位 | 公眾號 QbitAI
論文連結:https://arxiv.org/abs/2505.15725專案主頁:https://prince687028.github.io/UAV-Flow/
一句話就能讓無人機起飛?
就像人類飛行員一樣,聽懂指令後立刻照做。



北航劉偲教授團隊創新性地提出了語言引導的細粒度無人機軌跡控制研究框架,將無人機根據簡短指令執行短距反應式飛行的任務定義為Flying-on-a-Word(Flow)正規化。

△UAV-Flow基準
該團隊採用模仿學習方法,使無人機透過習得人類飛行員在真實環境中的操作策略來響應原子化語言指令。
隨後,視覺語言動作(VLA)模型被成功部署至真實無人機平臺,並在北京航空航天大學國際創新研究院的開放場景中驗證了其基於自然語言對話實現飛行控制的可行性。
從導航到對話
近年來,無人機(UAV)憑藉其靈活的空中機動能力,已成為視覺感知與任務執行領域的重要平臺。
隨著自動化技術的普及,無人機操作的門檻大幅降低,但如何讓它像“智慧助手”一樣理解人類語言,例如只需說一句“環繞著我飛”,無人機就能理解並執行相應的動作,仍是亟待突破的前沿課題。
當前研究主要將地面機器人的視覺語言導航(VLN)任務遷移至無人機平臺,重點解決基於語言指令的目標搜尋與遠端導航等高層次推理問題。
然而,語言引導的無人機低層控制(如執行短距離原子動作或響應簡單指令)尚不完備,成為實現智慧無人機系統的關鍵但尚未充分探索的方向。
任務定義
Flying-on-a-Word (Flow) 任務致力於實現自然語言指令與無人機精細飛行控制的高效對齊。
在該任務框架中,無人機代理整合三種輸入模態:自然語言指令、六自由度狀態資訊和第一視角視覺觀測,生成符合指令語義的動作序列,以模仿人類飛行員的操作。
為支援Flow任務的研究,北航劉偲教授團隊構建了一個大規模的真實世界語言引導的無人機模仿學習資料集。該資料採集工作在三所高校校園內展開,覆蓋總面積達5.02平方公里。

△軌跡型別示意圖
模擬評測基準
為建立統一的評估基準,研究團隊構建了UAV-Flow-Sim模擬資料集,並在模擬閉環測試環境下對多個模型進行了系統評估,採用成功率(SR)和歸一化動態時間規整(NDTW)等指標對飛行軌跡質量進行量化分析,具體測試結果如下。

△模型SR對比

△模型NDTW對比
真機部署
針對無人機機載計算資源受限的挑戰,研究團隊提出了一套地面站-無人機協作策略,併為緩解通訊和推理延遲帶來的控制滯後問題,提出具有前瞻機制的全域性軌跡對齊演算法,確保運動控制的連續性。
團隊基於UAV-Flow真實世界資料集訓練了Pi-0-UAV模型,在北航國新院的開放場景中成功實現了視覺語言動作(VLA)系統的真機部署,首次透過自然語言對話即時控制無人機完成指令任務。
更多真機飛行精彩影片,詳見專案主頁。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟