新智元報道

編輯：LRST

【新智元導讀】Spatial-RAG結合了空間資料庫和大型語言模型（LLM）的能力，能夠處理複雜的空間推理問題。透過稀疏和密集檢索相結合的方式，Spatial-RAG可以高效地從空間資料庫中檢索出滿足使用者查詢的空間物件，並利用LLM的語義理解能力對這些物件進行排序和生成最終答案。

近年來，大型語言模型（LLMs）的進展已經在機器學習（ML）的許多領域帶來了變革，特別是在理解和生成類人文字方面，激發了人們透過直接從LLMs中提取空間知識來彌合空間問答與自然語言之間的差距，研究成果涵蓋了廣泛的應用，包括地理百科全書問答、地理定位和自動高精度地圖生成等。

然而，當涉及到空間推理任務時，LLMs的表現卻顯得力不從心，甚至在處理基本的空間任務時也遇到困難，例如地理解析和理解相對空間關係。這種差距在處理現實世界的空間推理任務時尤為明顯，例如圖1中所示的場景：

圖1 現實世界中空間推理問題示例。滿足空間約束的區域以藍色突出顯示

空間推理不僅要求模型理解複雜的空間關係，還需要結合地理資料和語義資訊，生成準確的回答。

傳統的空間問答系統依賴於專門的空間查詢語言（比如GeoSPARQL， Spatial SQL），這些語言與人類語言大相徑庭，使得普通使用者難以使用。更重要的是，這些系統缺乏從人類文字的豐富上下文中推斷複雜空間和語義關係的能力，限制了它們在現實世界問答場景中的適用性。

空間問答的主要難點是「空間」與「語義」的雙重需求：

空間約束：圖1使用者的問題涉及複雜的空間關係：「沿某條路線推薦餐廳」。傳統的空間資料庫可以高效處理這些空間查詢，但它們無法理解使用者的語義需求：「要求肉食」。
語義理解：LLMs擅長理解自然語言中的語義資訊，例如使用者對餐廳型別、價格或評分的偏好。然而，LLMs缺乏直接處理空間資料的能力，無法執行復雜的空間計算（例如，計算兩個點之間的距離或判斷一個點是否位於某個區域內）。

為了解決這些挑戰，增強LLMs的空間推理能力，埃默裡大學和德州大學奧斯汀分校的研究人員推出了一個革命性的框架Spatial Retrieval-Augmented Generation (Spatial-RAG)，將檢索增強生成（RAG）擴充套件到空間資訊檢索和推理，彌合結構化空間資料庫與非結構化文字推理之間的差距，增強了LLMs在空間推理任務中的能力。

論文連結：https://www.researchgate.net/publication/388656403_Spatial-RAG_Spatial_Retrieval_Augmented_Generation_for_Real-World_Spatial_Reasoning_Questions

空間RAG

RAG在知識密集型任務（如問答）中已經展示了其有效性，透過檢索特定領域的文件來增強LLM的響應。

然而，現有的RAG系統主要專注於檢索和生成文字內容，缺乏空間推理任務所需的空間智慧，尤其是涉及理解和計算幾何體（如點、多段線和多邊形）之間複雜空間關係的任務。

如圖1中的例子，回答問題需要LLM從使用者的文字請求中提取並形式化問題為「找到靠近多段線的點」，並基於空間地圖（資料庫）解決該問題。然後，它還需要推斷使用者偏好，以選擇空間和語義上更優的候選物件。

因此，系統必須無縫整合結構化空間檢索與非結構化文字推理，確保空間準確性和上下文理解。

為了實現這一目標，研究人員引入了空間檢索增強生成（Spatial-RAG），這是一個新穎的框架，將文字引導的空間檢索與空間感知的文字生成相結合。

具體來說，為了識別空間相關的候選答案，研究人員提出了一種新穎的空間混合檢索模組，結合了稀疏和密集檢索器。

為了對候選答案進行排序並生成最終答案，研究人員提出基於空間和語義聯合排序策略的Pareto前沿檢索結果來驅動生成器。該研究貢獻總結如下：

通用的Spatial-RAG框架：Spatial-RAG是第一個將RAG擴充套件到空間問答的框架，能夠處理廣泛的空間推理任務，如地理推薦、空間約束搜尋和上下文路徑規劃。無縫集成了空間資料庫、LLMs和基於檢索的增強，使得能夠在LLMs的熟悉操作正規化內有效處理複雜的空間推理問題。
稀疏-密集空間混合檢索器：提出了一種混合檢索機制，結合了稀疏檢索（基於SQL的結構化查詢）和密集檢索（基於LLM的語義匹配）。這種雙重方法確保檢索結果在空間和語義上與使用者查詢一致，顯著提高了空間上下文中的檢索準確性。
多目標引導的空間文字生成器：為了處理空間問答任務中的空間約束和文字推理，引入了一個多目標最佳化框架，動態平衡空間和語義相關性之間的權衡。這確保了生成的響應既幾何準確又語言連貫。
真實世界評估：在從旅遊網站收集的真實世界資料集上評估了方法，該資料集包含使用者對不同空間實體的問題和評論。在該資料集上的實驗揭示了處理現實世界空間推理問題的能力。

透過這些創新，Spatial-RAG顯著增強了LLMs的空間推理能力，彌合了結構化空間資料庫與自然語言問答之間的差距。

方法簡介

圖2 Spatial-RAG框架

對於一個空間推理問題q, Spatial-RAG將生成答案y, 形式上，該研究定義：

其中包含三個待解決的關鍵階段：

構建空間候選集Cs：系統必須精確定義空間約束，然後檢索滿足這些約束的空間物件。如圖2 sparse spatial retrieval（稀疏空間檢索）所示，透過將輸入的自然語言問題解析為空間SQL查詢來實現這一點，該查詢將在空間資料庫上執行，以高效地從資料庫中檢索相關的空間物件。
計算空間相關性fs(q,y)：為了在整合文字資訊的同時有效計算空間相關性，研究人員提出了一種混合空間檢索方案。如圖2所示，該方法結合了來自資料庫的稀疏空間相關性分數和來自文字嵌入的密集語義相似性分數，使得系統能夠根據輸入問題的空間相關性對檢索到的空間物件進行排序。
多目標最佳化生成：在給定空間和語義約束的情況下，研究人員提出了一個多目標最佳化問題來平衡這些因素。系統計算候選答案的Pareto前沿，LLM動態在這些解決方案之間進行權衡，以生成最優響應。

稀疏空間檢索

空間推理問題的答案必須滿足特定的空間約束。空間候選集Cs(q)由滿足一組空間約束Cs(q)的所有可能答案y組成。形式上，該研究定義：

其中cs(y,q)表示編碼空間條件的約束函式（例如，拓撲、方向或距離約束），Cs(q)是與問題q相關的所有空間約束的集合。

例如，如果空間約束要求y與參考位置lq的距離不超過ϵ，則可能的約束函式為：

這種公式確保只有空間上有效的答案才會被包含在Cs(q)中。

處理空間約束需要在空間資料庫中執行定義良好的空間SQL查詢。此過程涉及識別適當的查詢函式、參考空間物件、目標空間物件以及任何必要的數值引數。形式上，空間SQL查詢可以表示為：

其中Fs是確定物件之間關係的空間查詢函式，Gr表示從問題中提取的參考物件集合，Gt表示作為潛在答案的目標物件集合，ϵ是控制空間約束的數值引數。

鑑於這些約束的多樣性和潛在的複雜性，大型語言模型（LLMs）通常難以直接從使用者輸入中構建完整且可執行的空間查詢。為了彌合這一差距，研究人員逐步構建空間查詢，允許LLM系統地填充所需的元件。

方法遵循三個關鍵步驟：

幾何識別：從使用者輸入中識別並提取參考空間物件Gr和候選目標空間物件Gt，並提取它們的空間幾何體。
查詢函式選擇：根據預期的空間關係（例如，包含、接近）確定適當的空間函式Fs。
引數估計：分配數值約束ϵ以確保精確的空間過濾（例如，緩衝區半徑）。

透過形式化這一結構化過程，研究人員增強了LLM生成準確且可執行的空間SQL查詢的能力，從而提高了系統處理複雜空間推理問題的能力。

幾何識別

在空間推理任務中，準確識別空間物件並提取其空間幾何體對於將問題解析為空間查詢至關重要。空間物件g∈G通常可以分為三種基本型別：點、多段線和多邊形。形式上，研究人員定義這些類別如下：

點：此類別包括單個點和多點，表示面積可忽略的位置。例如，停車標誌、地址點和使用者的當前位置。在空間資料庫中，這些實體通常表示為「點」幾何型別。

多段線（包括多段線組）：表示寬度可忽略的線性一維物件。常見的例子包括街道、河流、公交路線和電力線。在空間資料庫中，這些幾何體抽象為「線串」型別。

多邊形（包括多邊組）：表示定義封閉區域的二維物件。這些幾何體對於描繪區域（如人口普查區、地塊、縣、社群和分割槽區域）至關重要。

空間查詢的複雜性取決於所涉及物件的型別。對於較簡單的查詢，例如「從給定位置找到最近的公交站」，只需要點幾何體，空間候選集為：

其中gpoint⊆Gpoint表示點物件（例如，給定位置），ϵ是距離閾值。對於更復雜的查詢，例如「我將從家沿著第7街和瓊斯街步行到大學校園；請推薦一家我可以在步行途中購買早餐的咖啡館。」，必須考慮多種幾何型別，空間候選集為：

其中

表示多段線物件（例如，路線），

表示多邊形區域（例如，大學校園），B是多段線周圍的緩衝區，ϵ是緩衝區大小。

透過以這種方式構建空間查詢，研究人員確保了精確的幾何表示，促進了強大的空間推理和查詢執行。

查詢函式識別和引數估計

在識別了空間查詢中涉及的幾何體之後，下一步是確定處理各種幾何互動所需的適當空間查詢函式Fs

儘管幾何體之間的互動不同，但它們可以透過距離函式d(gr,gt)統一處理，該函式計算兩個幾何實體gr,gt∈G之間的最短距離。

形式上，給定參考幾何體集合Gr⊆G和目標幾何體集合Gt⊆G，空間候選集Cs可以定義為：

引數如搜尋半徑或緩衝區距離ϵ由LLM自主確定，通常基於上下文理解（例如，估計的步行距離或感興趣區域）。引數ϵ可以表示為：ϵ=ϕ(q)，其中ϕ是將查詢q的上下文對映到適當數值的函式。

一旦幾何體Gr,Gt函式Fs和引數ϵ被確定，系統將構建精確的空間查詢Qs，確保了從空間資料庫中進行精確檢索，保持結果的準確性和相關性。

透過利用這些數學公式，系統有效地將空間推理任務轉化為可執行的查詢，促進了LLM框架內的強大空間智慧。

混合空間物件排序

空間相關性分數fs由兩個部分組成：一個來自空間資料庫的稀疏空間檢索分數，另一個來自基於問題和候選物件空間描述之間的文字相似性的密集空間檢索分數。

形式上，研究人員定義：

其中λs和λd是控制每個分數貢獻的權重係數。

稀疏空間相關性評分

稀疏空間相關性直接從空間資料庫中使用顯式空間關係計算。分數由空間查詢函式 FsFs 確定，該函式計算參考物件和目標物件之間的距離。形式上，研究人員定義：

其中gr和gt分別是參考和目標空間物件。

是測量空間資料庫中接近度的距離函式。如果gt與gr重疊，分配一個完美的相關性分數1，確保了區域內的物件具有最大的相關性，而區域外的物件隨著距離的增加，其分數逐漸衰減。

密集空間相關性評分

與稀疏評分不同，密集空間相關性是從與空間物件相關的文字描述中推斷出來的。研究人員利用LLM從使用者查詢中提取關鍵空間屬性，並將其與候選物件的描述進行比較。

提取空間需求：給定使用者查詢q和一組空間物件Gt的文字描述dt，研究人員透過基於注意力的掩碼函式提取相關的空間內容：

其中vq,s和vt,s是空間特徵的密集向量表示，M是將輸入文字對映到空間相關文字的提取函式，E是文字編碼器。

透過餘弦相似性排序：相關性分數透過餘弦相似性計算：

混合排序作為廣義模型

混合排序泛化了稀疏和密集排序方法：

僅稀疏情況：如果 λd=0λd=0，則 fs=λsfssparsefs=λsfssparse，簡化為純基於距離的排序。
僅密集情況：如果 λs=0λs=0，則 fs=λdfsdensefs=λdfsdense，簡化為純基於語義的排序。
混合情況：如果兩個權重都非零，混合排序受益於顯式空間約束和隱式語義相關性，從而形成更全面的排序機制。

這種公式確保混合排序透過捕捉空間接近度和語義對齊，優於任何單一排序方法。

多目標生成

語義候選集Ck和語義相關性分數fk基於密集向量相似性計算。在獲得所有分數和候選集後，問題變為多目標最佳化問題，因為每個視角（空間和語義）都獨立貢獻。

Pareto前沿計算

給定空間和語義相關性分數，目標是識別在空間和語義相關性之間實現最佳權衡的Pareto最優候選。

一個候選y是Pareto最優的，如果沒有其他候選在空間和語義相關性上都優於它。

形式上，Pareto前沿P(q)定義為：

確保了P(q)中的每個候選都是非支配的，意味著沒有其他候選在空間和語義相關性上都嚴格優於它。

基於LLM的權衡決策

一旦確定了Pareto前沿P(q)，研究人員使用LLM根據使用者查詢的上下文動態平衡空間約束和語義偏好之間的權衡。

具體來說，LLM接收使用者查詢、稀疏空間相關性分數和空間物件描述作為輸入：

基於上下文資訊的動態加權函式

從輸入中提取，調整空間與語義相關性的重要性，其中h是捕捉查詢特定權衡的學習函式。

LLM選擇排名最高的候選y∗：

並生成自然語言響應。

系統適應不同的查詢上下文，而不是使用固定的加權方案。

透過將決策過程結構化為離散步驟（候選過濾 →→ Pareto選擇 →→ 權衡平衡 →→ 響應生成），LLM避免了生成不可行或不合理的結果。這種結構化方法最大限度地提高了準確性和可用性，確保系統的最終響應與使用者的原始意圖緊密一致。

實驗部分

研究人員在紐約市和邁阿密的旅遊資料集上對Spatial-RAG進行了評估，展示了其在處理真實世界空間推理問題上的顯著優勢。

資料集與評估指標

資料集：使用了來自TripAdvisor的使用者問題和評論資料，涵蓋紐約市的9,470個興趣點（POIs）和邁阿密的2,640個POIs。
評估指標：

交付率：評估方法是否能夠成功生成結果。
空間稀疏透過率：評估解析的空間查詢是否正確。
空間密集透過率：評估答案是否滿足問題中的空間相關語義約束。
語義透過率：評估答案是否符合問題中的語義約束。

對比方法

為了評估LLM（GPT-3.5-Turbo和GPT-4-Turbo）在此框架下的表現，研究團隊對比了以下基線方法：

Sort-by-distance（SD）：按照空間問題中的參考物件距離排序候選空間物件。
Text embedding（TE）：基於文字描述的嵌入向量，計算目標物件與參考物件的向量距離，並選擇最近的物件。
Spatial-text（ST）：基於使用者問題的嵌入向量計算與目標物件文字描述的相似度，並結合目標物件的距離得分進行加權求和後決策。
Naive RAG：使用向量資料庫儲存所有空間物件描述，並基於向量相似性檢索最相關的物件。
GeoLLM：對空間物件進行編碼，並透過新增附近物件的空間資訊豐富上下文。

實驗結果

紐約（NYC）

Spatial-RAG（GPT-3.5-Turbo 和 GPT-4-Turbo）在交付率上與其他基線方法存在一定差距，大約 86.1% 的問題被成功處理。
失敗的 12.9% 的情況是由於無法從空間資料庫檢索到任何空間物件（可能由於多邊形識別錯誤或SQL查詢指定區域內無相關物件）。
另 0.9% 的情況是 LLM在重新排序（reranking）過程中未能正確排列檢索結果。
Spatial-RAG（GPT-4-Turbo）比 GPT-3.5-Turbo 在 Spatial Dense Pass Rate 上高 7%，在 Semantic Pass Rate 上也稍有優勢。
SD 方法由於僅基於距離返回最近的物件，其 Spatial Dense Pass Rate 較高，但其他指標表現較差。
GeoLLM 方法僅基於物件名稱和距離，因此在 Spatial Dense Pass Rate 方面表現尚可。
TE 和 ST 方法考慮了語義資訊，在 Semantic Pass Rate 方面表現較優。
Naive RAG 和 ST 共同優化了空間密集檢索和使用者語義檢索，因此兩者在這兩個方面表現接近。

邁阿密（Miami）

Spatial-RAG 在邁阿密資料集上的表現也較好。
基線方法的表現模式與紐約資料集基本一致，但由於邁阿密的資料量較小（QA 對數量僅為 133），模型表現的穩定性可能受到影響。

消融實驗

研究人員透過移除稀疏空間模組、密集空間模組和密集語義模組進行了消融實驗。結果表明：

移除稀疏空間模組後，交付率顯著提高，但空間得分下降。
移除密集語義模組後，空間密集透過率最高，但語義透過率顯著降低。

案例研究

圖3和圖4(b)展示了一個典型的多段線搜尋案例。

Spatial-RAG成功識別了使用者意圖，推薦了沿路線的餐廳，展示了其在複雜空間推理任務中的強大能力。

圖3 Spatial-RAG 執行方式的示例：給定一個問題，1) 稀疏空間檢索：LLM 將自然語言問題解析為空間資料庫的空間 SQL 查詢，檢索滿足空間約束和稀疏空間相關性分數的空間物件。2) 問題分解和密集檢索：同時，Spatial-RAG 將問題分解為空間和語義元件，並將它們與空間物件的描述進行比較以執行密集檢索，過濾掉不相關的內容。3) LLM 重新排序：語言代理平衡空間和語義方面以重新排序候選並生成最終答案。