GEAL 由新加坡國立大學的研究團隊開展,第一作者為博士生魯東嶽,通訊作者為該校副教授 Gim Hee Lee,團隊其他成員還包括孔令東與黃田鑫博士。
-
主頁:https://dylanorange.github.io/projects/geal/
-
論文:https://arxiv.org/abs/2412.09511
-
程式碼:https://github.com/DylanOrange/geal
在現實世界中,如何讓智慧體理解並挖掘 3D 場景中可互動的部位(Affordance)對於機器人操作與人機互動至關重要。所謂 3D Affordance Learning,就是希望模型能夠根據視覺和語言線索,自動推理出物體可供哪些操作、以及可互動區域的空間位置,從而為機器人或人工智慧系統提供對物體潛在操作方式的理解。
與 2D 任務相比,3D 資料的獲取與高精度標註通常更為困難且成本高昂,這使得大規模高質量的 3D 標註資料十分稀缺,也阻礙了模型在新物體或場景中的泛化。與此同時,現有 3D 多依賴幾何與位置編碼來表徵空間結構,難以從外觀語義中充分汲取上下文資訊,因而在感測器不準、場景複雜或處理誤差等情形下更易受到噪聲影響,導致其魯棒性不足,難以穩定應對真實環境中的多變挑戰。
為克服標註與資料分佈限制,一些工作嘗試將 2D 視覺模型或大語言模型融入 3D 場景理解。但由於 3D 與 2D 的特徵存在顯著模態差異,以及受限於對空間幾何關係與紋理細節的保留,直接對接往往導致可互動區域定位不準確或易受點雲噪聲的干擾,難以在真實複雜場景中保持魯棒性和通用性。因此,如何充分利用大規模預訓練的 2D 模型所蘊含的強大表徵能力,同時兼顧 3D 模態下細節和結構資訊的準確對齊,成為提升 3D Affordance Learning 效果的關鍵挑戰。

針對上述問題,新加坡國立大學的研究團隊提出了 GEAL(Generalizable 3D Affordance Learning),無需額外收集與標註大規模 3D 資料,便可藉助 2D 基礎模型實現對 3D 場景中可互動區域的精確預測。具體而言,GEAL 首先利用 3D Gaussian Splatting 將稀疏點雲轉換為可在 2D 模型中處理的真實感渲染圖,並透過跨模態一致性對齊(Cross-Modal Consistency Alignment)有效融合 2D 視覺與 3D 空間特徵,顯著提升模型對多種物體與場景的泛化能力。此外,團隊還構建了針對真實場景擾動的全新基準資料集,全面評估模型的穩健性。實驗結果表明,GEAL 無論在公共資料集還是各種噪聲環境下,都顯著優於現有方法,為通用且魯棒的 3D Affordance Learning 提供了新思路。
目前,GEAL 已被 CVPR 2025 接收,論文、程式碼和模型權重均已公開。
2D-3D 跨模態對齊
完成 3D 可互動區域預測
如圖所示,在 GEAL 的整體框架中,我們透過 2D 分支 與 3D 分支的協同合作,將預訓練 2D 模型的強語義表達能力注入到稀疏點雲的三維世界中,並透過跨模態特徵對齊來獲得更強的魯棒性與泛化能力。下面對各個關鍵步驟加以說明

利用 3D Gaussian Splatting 渲染稀疏點雲,高效引入 2D 分支
考慮到三維資料通常存在取樣稀疏、標註昂貴、遮擋嚴重等問題,我們在網路結構中單獨設定了一個 2D 分支,藉助在海量 2D 資料上預訓練的視覺 backbone(如 DINOV2),獲取包含豐富語義上下文與外觀資訊的多粒度影像特徵,從而為後續的三維功能區域預測提供更具魯棒性與泛化力的先驗。由於該分支與 3D 分支並行存在,我們可在後期設計中靈活地融合並對齊 2D/3D 特徵,避免簡單拼接帶來的模態失配。為了讓預訓練的 2D 模型充分 “看見” 三維場景的紋理與遮擋資訊,GEAL 採用了 3D Gaussian Splatting 技術來渲染點雲。具體而言,我們用可學習的高斯基元對每個三維點進行表示,並透過光柵化與 α- 混合在 2D 影像中生成具有深度、透明度與顏色資訊的畫素,從而獲得更為平滑、逼真的二維檢視。這些檢視不僅能夠為 2D 模型提供足以辨別紋理和輪廓的語義特徵,還能在後續跨模態步驟中與點雲的幾何結構建立一一對應關係,為特徵對齊打下基礎。
跨模態特徵對齊
在兩條分支分別獲得多尺度 2D/3D 特徵後,GEAL 透過顆粒度自適應融合模組(Granularity-Adaptive Fusion Module, GAFM) 與一致性對齊模組(Consistency Alignment Module,CAM) 實現語義與幾何間的雙向對齊。

-
顆粒度自適應融合模組
針對 2D 與 3D 在不同層級上所捕獲的細節與全域性資訊,透過自適應權重聚合和文字引導的視覺對齊,將最相關的多粒度特徵與使用者指令相互融合。這樣既能突出與功能需求緊密關聯的目標區域性,又確保對全域性場景保持整體把握。
-
一致性對齊模組
基於 Gaussian Splatting 所構建的畫素 – 點雲對映,將 3D 分支提取的點雲特徵再度渲染至二維平面,與 2D 分支形成逐畫素對應,然後透過一致性損失(如 L2 距離)使兩者在同一空間區域的表徵儘可能相似。這種策略能讓 2D 分支的通用語義向 3D 分支擴散,同時也讓 3D 分支在幾何維度上對 2D 特徵形成有益補充,最終實現更準確的可互動區域定位。
Corrupt Data Benchmark 評估魯棒性
為了更全面地測試 GEAL 在真實幹擾環境中的表現,我們基於常見的 PIAD 與 LASO 資料集,構建了包含多種擾動形式的 Corrupt Data Benchmark。它涵蓋區域性或全域性的隨機丟失、噪聲注入、尺度變化、抖動及旋轉等多種干擾場景,模擬複雜感知條件下的真實挑戰。實驗結果表明,GEAL 在該基準上依然能夠保持高精度與魯棒性,印證了跨模態對齊對於三維功能區域預測在噪聲環境中的關鍵價值。

透過以上幾個核心環節,GEAL 成功將 2D 模型的強大語義理解與 3D 資料的空間幾何細節有機結合,不僅免去了大規模 3D 標註資料的依賴,還顯著提升了可互動區域預測的可靠性與泛化水平,為 3D Affordance Learning 邁向真實應用場景提供了新的技術思路。
實驗結果
為評估 GEAL 在 3D 場景可互動區域預測上的整體表現,作者在主流資料集 PIAD 與 LASO 上進行了系統實驗。結果顯示,GEAL 相較現有最優方法均取得了更高分數,尤其在 unseen 類別測試中依然保持高準確率,證明其對未見過的物體形狀與類別具備良好適應能力。這一優勢主要得益於 2D 語義先驗的充分利用,以及跨模態一致性帶來的 2D-3D 特徵對齊,使得模型能在幾何細節與語義資訊之間保持平衡。

為了模擬實際感知場景中的各種干擾,如感測器噪聲、區域性丟失或隨機旋轉等,作者還在新提出的 Corrupt Data Benchmark 上對 GEAL 進行了測試。結果表明,即便在高度不確定的環境下,GEAL 依然能夠穩定預測可互動區域,展現出優異的魯棒性。這主要歸功於 2D 分支在大規模預訓練模型中的抗干擾特性,以及與 3D 分支透過一致性約束實現的高效資訊傳遞。

相比僅使用 2D 分支或 3D 分支的基礎版本,融合雙分支並加入 CAM 後,在未見類別和高噪聲條件下的準確率均顯著提升;進一步引入 GAFM 後,則在見類與未見類任務中同時提高精度與 IoU,說明多粒度特徵融合對於捕捉區域性細節和全域性語義至關重要。

綜上所述,多項實驗結果與消融研究均驗證了 GEAL 的有效性:該方法不僅在常規資料集上表現出卓越的精度與泛化能力,還能在真實幹擾環境中保持穩健,展現出跨模態對齊與雙分支架構在 3D 場景可互動區域預測中的強大潛力。
結論
綜上所述,GEAL 透過雙分支架構與 3D Gaussian Splatting 的巧妙結合,在不依賴大規模 3D 標註的情況下,充分挖掘了大規模 2D 預訓練模型蘊含的豐富語義資訊,實現了對 3D 場景可互動區域的精確預測。該成果為在機器人操作、增強現實和智慧家居等領域中靈活、高效地獲取三維可互動區域提供了新思路,對構建通用、穩健的 3D Affordance Learning 系統具有重要意義。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]