SE-GUI:重新整理SOTA!增強GUIAgents的定位能力!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning
Xinbin Yuan1,2 Jian ZhangKaixin LiZhuoxuan CaiLujian YaoJie Chen1Enguang WangQibin Hou1,† Jinwei ChenPeng-Tao JiangBo Li2,†
1 Nankai University 2 vivo Mobile Communication Co., Ltd 3National University of Singapore† Corresponding authors.
在人工智慧技術迅速發展的今天,圖形使用者介面(GUI)代理正變得越來越強大。它們可以理解並執行跨平臺的使用者指令,在桌面、移動和網頁環境中實現自動化任務。然而,一個核心挑戰始終存在——如何準確地將自然語言指令對映到介面上的具體元素?換句話說,就是如何實現精準的視覺定位(Visual Grounding)。
最近,我們和ScreenSpot-Pro的一作Kaixin Li合作提出了SE-GUI(Self-Evolutionary GUI Agent),一種創新性解決方案。該方法基於強化學習(Reinforcement Learning, RL),結合了種子資料篩選、密集點獎勵機制以及自進化微調策略,僅使用約3k個訓練樣本,就在多個基準測試中取得了SOTA效能,甚至超越了引數量高達72B的模型!
Github: SE-GUI (如果覺得我們的工作對你們有啟發和幫助,請幫忙點個star吧!)
現已開源主要程式碼和模型檔案!!!
程式碼:https://github.com/YXB-NKU/SE-GUI
論文:https://www.arxiv.org/pdf/2505.12370
問題背景與挑戰
傳統的監督微調(Supervised Fine-Tuning, SFT)雖然在簡單場景中表現良好,但在複雜、高解析度的專業介面中卻面臨兩大瓶頸:
1. 需要大量高質量標註資料;
2. 泛化能力差,難以適應新環境。
此外,現有的強化學習方法也存在“獎勵稀疏”問題,即模型在早期訓練階段因預測錯誤而無法獲得有效的反饋訊號,導致訓練效率低下。
最關鍵的一點:傳統的訓練方式存在一個問題:缺乏顯式的空間監督(最終的座標並沒有明確對應到相應的空間位置),導致空間-語義對齊較弱(這與最近微軟的一篇工作GUI-Actor異曲同工,都注意到了這個問題,且都利用了模型的注意力機制去增強空間語義的對齊,不得不說大家的直覺都很相似。)
SE-GUI 的三大核心技術亮點
✅ 1. 種子資料篩選(Seed Data Curation)
資料的質量目前被越來越多人所關注。SE-GUI 首先從開源資料集中提取約30萬個樣本,並透過三重過濾機制構建了一個僅有3018個樣本的高質量種子資料集(SE-GUI-3k):
-指令質量評估:去除模糊或不清晰的指令;
– 邊界框準確性驗證:利用Qwen2.5-VL-7B模型訓練邊界框評分器,剔除錯位或無效標註;
– 任務難度篩選:透過零樣本測試過濾過於簡單的任務。
這一策略確保了訓練資料的高效性,為後續的強化學習打下堅實基礎。
✅ 2. 密集點獎勵機制(Dense Point Reward)
傳統強化學習中常使用二值獎勵(0/1),但這種方式資訊量少、反饋稀疏,不利於模型學習細微差異。
SE-GUI 提出了一種**連續型獎勵函式**,根據預測點選點與真實目標區域之間的距離來計算獎勵值, 其中 $d$ 是預測點與目標中心之間的歸一化距離。這種機制使得模型即使在初期預測不準時也能獲得有意義的反饋,從而逐步最佳化其定位行為。
✅ 3. 自進化強化微調(Self-Evolutionary Reinforcement Fine-Tuning)
SE-GUI 引入了一種**迭代式自監督學習機制**,透過注意力圖(attention maps)引導模型自我改進:
1. 初始模型在種子資料上訓練;
2. 模型生成注意力圖,用於識別當前關注的視覺區域;
3. 若注意力未能正確聚焦於目標元素,則忽略該樣本的損失貢獻;
4. 更新模型後再次生成注意力圖,繼續下一輪訓練;
5. 迭代進行,直到效能收斂。
這一機制使模型能夠不斷“審視”自己的關注點,進而實現**自我演化式的提升**。
實驗結果:多項SOTA表現
SE-GUI 在六個不同平臺(桌面、移動、網頁)的基準測試中均表現出色:
值得注意的是,SE-GUI 僅使用3000個樣本進行訓練,遠遠少於其他方法所需的數百萬樣本,展現了極強的**資料效率**與**泛化能力**。
消融實驗與視覺化分析
論文還進行了多組消融實驗,驗證各模組的有效性:
– 影像解析度提升有助於小目標識別:從1M畫素提升至5M畫素帶來穩定效能增益;
– 密集獎勵優於稀疏獎勵:帶來4.21%的提升;
– 自進化訓練有效提升收斂速度與最終效能:四輪訓練後達到46.6%準確率。
此外,我們還展示了注意力圖的視覺化效果,直觀呈現了模型如何逐步聚焦於正確的UI元素。
應用前景與未來方向
SE-GUI 的提出不僅提升了GUI代理在複雜專業介面中的定位能力,也為以下方向提供了新的思路:
– 更高效的小樣本訓練方法;
– 結合大模型與強化學習的新型訓練正規化;
– 面向視覺-動作聯合建模的通用代理系統。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章