
你是否想過,未來的機器人如何真正理解並完成我們日常生活中的各種複雜任務?
想象一下這樣的場景:你走進廚房,告訴家中的機器人:“幫我用微波爐熱一下碗裡的飯。”對人類來說,這似乎再簡單不過,但機器人要真正理解並執行這一指令卻並不容易。這背後涉及一系列複雜且有序的動作:機器人需要先“拿起碗”,再“開啟微波爐”,最後將碗準確地“放進去”。
機器人如何知道要拿起碗的哪個部分?怎麼理解微波爐門能開啟?其實,這背後隱藏著一個重要的概念——可供性(Affordance)。可供性是物體本身提供給人或機器人執行某種動作的能力或屬性,例如,椅子的可供性可以是“坐”,杯子的可供性可以是“握”,微波爐的可供性可能是“開啟”或“放入物品”。
因此,對機器人而言,理解物體的可供性,意味著知道對環境中的哪個部分進行怎樣的操作,從而精準地完成我們給出的具體指令。
然而,目前的 AI 方法通常只能識別單個物體的單個動作,比如“抓住杯子”或“開啟抽屜”,當需要理解和執行涉及多個物體、多個步驟的複雜指令時,卻往往無法有效處理。
為了解決這一挑戰,我們首次提出了一種全新的框架——Sequential 3D Affordance Reasoning(SeqAfford),即序列化 3D 可供性推理。
該框架創新性地將 3D 視覺與多模態大語言模型相結合,使 AI 具備將複雜的語言指令精準拆解為一系列具體可執行的 3D 可供性區域的能力,從而讓機器人真正做到精準理解並高效執行人類的意圖。該論文已被 CVPR 2025 接收。

論文標題:
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model
論文連結:
https://arxiv.org/pdf/2412.01550
專案連結:
https://seq-afford.github.io/

▲ 圖1. 序列化 3D 可供性推理任務,涵蓋不同型別的互動場景。我們提出了 SeqAfford,一個能夠根據人類指令進行序列化可供性推理的多模態語言模型(MLLM),具體包括以下三種任務場景:1)單一可供性推理;2)序列化可供性推理;3)多物體場景下的序列化可供性推理

資料集
序列化 3D Affordance 資料集

▲ 表1. 現有 3D 可供性資料集與我們構建的資料集的對比
為了讓模型真正理解連續、多步操作任務,我們構建了首個 Sequential 3D Affordance 指令微調資料集,共包含超過 18 萬個指令與點雲資料對。
與傳統單一物體單一指令的資料集不同,我們的 Sequential 3D Affordance Benchmark 專注於捕捉人類複雜意圖,從簡單的“抓起杯子”到複雜的“用微波爐熱飯”等多步任務,涵蓋了 23 個物體類別和豐富的互動動作序列。

▲ 圖2. 指令資料生成流程。 為了更好地利用 GPT-4 模型的世界知識,我們設計了四種不同的系統提示,以生成多樣化的互動指令。
我們的資料集透過 GPT-4o 結合四種不同型別的輸入方式自動生成多樣的指令:
(a)純文字提示,透過指定物體類別和具體功能生成指令;
(b)文字加 3D 物體渲染圖,提升視覺上下文的準確性;
(c)文字加物體 3D 渲染圖與人類實際互動圖片,增加真實世界互動細節;
(d)文字加 3D 物體渲染圖以及具體場景描述,進一步提高任務的情景理解能力。
這種多模態資料構建方式不僅保證了指令的多樣性,也強化了 AI 對真實世界的理解能力。

方法
2.1 3D 多模態大語言模型(3D MLLM)
我們選擇了預訓練的 3D 多模態大語言模型 ShapeLLM 作為基礎模型,並在此基礎上進行了針對序列化可供性任務的監督微調(Supervised Fine-tuning)。ShapeLLM 透過大規模資料的預訓練,已經實現了初步的 3D 視覺資訊與文字特徵的對齊,具備較好的開放世界(Open-world)泛化能力和語言推理能力。
相比於現有的可供性方法(一般僅採用純視覺或分離的視覺-語言編碼器),這種統一的 3D 多模態架構使得 SeqAfford 能夠更好地利用語言模型豐富的常識知識,進一步提升了模型在序列化 3D 可供性任務上的泛化性與靈活性。
2.2 基於分割詞彙的序列化可供性推理
儘管 3D MLLM 具有較強的常識推理能力,但原始設計並不具備直接進行密集可供性區域分割的能力。為此,我們受 LISA 方法啟發,在模型的輸出中引入了一系列特殊的分割詞彙(<SEG> Tokens),以有效銜接語言推理與密集分割任務。
具體而言,當 SeqAfford 接收到複雜的人類語言指令與點雲資料時,3D MLLM 首先將語言指令進行語義理解,並拆解為多個帶有空間語義的 <SEG> Tokens。
這些 Token 分別對應於指令中不同的可供性區域和動作順序,使模型能夠準確地預測一系列清晰且具有實際意義的互動動作區域,從而真正實現語言推理與視覺感知任務之間的緊密銜接。

▲ 圖3. SeqAfford 總體框架示意圖
2.3 多粒度語言-點雲融合模組(Multi-Granular Language-Point Integration)
為了進一步精準地將語言模型推理的結果對映到點雲空間,我們提出了多粒度語言-點雲融合模組,該模組包含兩個關鍵階段:
1)多粒度特徵傳播階段:我們透過逐級特徵上取樣的方式,獲得了從粗略到精細的多粒度點雲特徵表示,使得模型能夠同時兼顧語義的完整性和區域性區域的精細定位能力。
2)語言-點雲跨模態融合階段:在這一階段,我們使用語言模型產生的 <SEG> Tokens 作為查詢(Query),對密集點雲特徵進行跨模態注意力融合,有效地將語言模型高層次的語義知識精確投影到視覺空間中,最終實現細粒度的 3D 可供性分割。

▲ 圖4:多粒度語言-點雲融合模組

實驗
3.1 可供性推理效能評估
我們在所構建的 Sequential 3D Affordance Benchmark 上,針對 Seen、Unseen和 Sequential 三種評測設定,對 SeqAfford 進行了效能評估,主要指標包括 mIoU、AUC、SIM 和 MAE。
實驗結果如表 2 所示:
-
在Seen 設定下,SeqAfford 的 mIoU 達到 19.5%,相比次優方法 PointRefer(16.3%)有明顯提升,且其他指標也取得了更好的表現,表明模型能夠更準確地識別和分割目標可供性區域。
-
在 Unseen 設定下,模型依然取得了 13.8% 的 mIoU,高於次優方法 PointRefer(12.4%),體現出較好的泛化能力。
-
在關鍵的 Sequential 設定中,模型也取得了最佳表現(mIoU 為 14.6%),證明了 SeqAfford 具備有效的序列化推理能力。
透過視覺化對比(如圖所示),我們進一步驗證了 SeqAfford 相較於現有先進方法(如 LASO)更能準確地定位和理解使用者指令中對應的互動區域。

3.2 消融實驗分析
為了進一步探討模型各元件對效能的貢獻,我們進行了詳細的消融實驗:
多粒度語言-點雲融合模組(MGLP)的有效性:
實驗表明,去除 MGLP 模組後,模型的效能明顯下降。單步任務 mIoU 從 19.5% 下降至 12.1%,序列任務 mIoU 則從 14.6% 下降至 11.7%。這一結果證實了 MGLP 模組對於語言模型推理結果向視覺空間的精確對映帶來明顯增益。

不同視覺骨幹網路的對比:
我們對多種不同的 3D 視覺編碼器進行了實驗對比,結果顯示,Uni3D 視覺編碼器的表現(mIoU 19.5%)超過了 Recon++(19.1%)、OpenShape(18.4%)和 ULIP(17.9%),因此最終選擇了 Uni3D 作為我們模型的視覺編碼骨幹網路。

泛化能力分析:
此外,我們還在 ModelNet40 資料集上進行了泛化能力的定性分析(如圖所示)。結果表明,SeqAfford 能較好地泛化到未訓練過的資料,理解並預測目標物體的可供性區域,展現出良好的泛化潛力。

▲ 圖5. 模型在 ModelNet40 資料集上的視覺化結果

結論
綜上所述,我們藉助多模態大語言模型的語義理解與常識推理能力,首次提出了「從語言指令到序列化可供性分割」的 SeqAfford 框架,並透過創新的分割標記(SEG Token)機制,有效實現了語言推理與視覺空間分割的精準對齊,顯著提升了 3D 物體可供性區域的預測質量。
與已有的可供性方法相比,SeqAfford 在序列化 3D Affordance 資料集的多個評測設定上均取得了明顯的效能提升。此外,我們透過充分的消融實驗與泛化分析驗證了模型設計的合理性與有效性。
未來,我們將進一步探索場景級別的序列化可供性推理,以支援更復雜、更貼合真實需求的機器人互動任務。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
