AAAI2025|北航、港城大提出POI-Enhancer：基於大模型的POI表徵學習增強框架

本篇分享 AAAI 2025 論文 POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning。本文提出了一種基於大語言模型的 POI 表徵學習增強框架。

論文標題：

POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning

論文作者：

博士生程佳偉、王靜遠教授、博士生張藝川、博士生寄家豪、博士生朱元紹、碩士生張智博、趙翔宇教授

作者單位：

北京航空航天大學、香港城市大學

通訊作者：

王靜遠教授、趙翔宇教授

課題組：

北航智慧城市課題組 BIGSCity（https://www.bigscity.com/）、香港城市大學應用機器學習實驗室（https://aml-cityu.github.io/）

研究方向：

時空資料探勘

論文連結：

https://arxiv.org/pdf/2502.10038

程式碼倉庫連結：

https://github.com/Applied-Machine-Learning-Lab/POI-Enhancer

背景介紹

興趣點表徵學習在處理與使用者移動資料相關的任務中起著至關重要的作用。最近的研究表明，用多模態資訊來豐富興趣點表徵可以顯著提高它們的任務效能。以前，興趣點表徵中包含的文字資訊通常只涉及興趣點類別或簽到內容，導致現有表示方法中的文字特徵相對較弱。

相比之下，在大量文字資料上訓練的大型語言模型（LLM）被發現擁有豐富的文字知識。

然而，利用這些知識來增強興趣點表徵學習面臨兩個關鍵挑戰：第一，如何有效地從 LLM 中提取與興趣點相關的知識，第二，如何整合提取的資訊以增強興趣點表徵。

為了應對這些挑戰，我們提出了 POI-Enhancer，這是一個可移植的框架，它利用 LLM 來改進由經典興趣點學習模型生成的興趣點表徵。我們首先設計三個專門的提示來有效地從 LLM 中提取語義資訊。

然後，雙特徵對齊模組增強了提取資訊的質量，語義特徵融合模組則保留了其完整性。然後，交叉注意力融合模組充分地將這些高質量資訊整合到興趣點表徵中，而多檢視對比學習則進一步將人類可理解的語義資訊注入這些表示中。

我們在三個真實世界資料集上進行的大量實驗證明了這個框架的有效性，顯著提高了所有基線表示模型的表現。

方法

▲ 圖1 POI-Enhancer 框架圖

為了應對這些挑戰，我們提出了一個興趣點表示增強框架，稱為 POI-Enhancer，如上圖所示。旨在利用 LLM 中的文字資訊來加強嵌入向量。具體來說，為了更好地利用 LLM 來提取興趣點的文字特徵，我們開發了獨特的提示來單獨提取與興趣點地址、訪問模式和周圍環境相關的特徵。

在此之後，我們設計了雙特徵對齊模組來利用文字特徵之間的關係，從而能夠獲取更高質量的語義資訊。語義特徵融合模組專門設計用於確保高質量語義資訊的儲存。

然後，為了將提取的資訊與表示向量充分整合，我們引入了基於注意力機制的交叉注意力融合模組。最後，我們結合多檢視對比學習，進一步將人們更容易理解的語義資訊注入興趣點表示中，以增強其捕獲真實世界模式的能力。

縱覽方法，本文所提出的框架可以被細分為三個部分：提示詞生成與特徵提取、興趣點表徵的增強與多檢視下的對比學習，分別對應圖中的（a）（b）（c）三個部分。

提示生成和特徵提取

在生成提示詞之前，除了資料集中提供 POI ID，POI 型別，POI 座標資料，我們還根據 POI 的經緯度額外爬取了每個 POI 的地址資訊，並且根據 POI 的訪問資料和周圍 POI 資料，統計處理得到每個 POI 的訪問模式資訊和鄰近環境資訊，用於接下來的提示詞生成，並且以此資料為指引來設計後續的表徵增強模型。

在提示詞生成與特徵提取部分，如圖 1（a）所示，我們為利用大語言模型中的地理知識增強興趣點表徵這一任務設計了提示詞模板，有角色匯入、興趣點資訊、問題三部分構成。

在角色匯入部分，提示詞指示大語言模型扮演一名熟悉當地地理資訊的居民；在興趣點資訊部分，根據提示詞型別的不同，我們將對應的興趣點資訊以自然語言的形式傳入大語言模型中；而在問題部分，我們為不同型別的提示詞設計了不同的問題，力圖充分調動大語言內部的地理知識，提高大語言模型輸出的質量。

此外根據提示詞模板，我們為興趣點訪問模式、興趣點地址、興趣點周邊生成三類提示詞，這樣做的目的是能幫助 LLM 更準確的找到 POI 的豐富的地理資訊。

而在特徵提取過程中，我們將三類提示詞依次傳入大語言模型中，並忽略其最終輸出的文字，從大語言模型的最後一個隱層中提取向量並進行進一步的處理，因此我們根據興趣點訪問模式、興趣點地址、興趣點周邊三類提示詞分別得到三個對應的特徵向量。

其中是三個類別的提示詞提取 LLM 得到的特徵向量。

興趣點表徵的增強

圖 1（b）中的興趣點表徵增強部分一共分為三個步驟：雙特徵對齊、語義特徵融合與交叉注意力融合。

雙特徵對齊環節涉及將具有一定關係的特徵向量進行對齊，從而進一步提高特徵向量的質量。在這一環節中，上一步得到的三個特徵向量將被轉換為更高維度的隱向量。

接著考慮到地址是 POI 特徵中最重要的一環節，而 POI 地址和 POI 訪問模式，POI 地址和周圍環境都存在著密切關係，因此這些隱向量會根據自身的來源特徵分兩成兩組進行對齊，送往接下來的語義特徵融合，語義融合延用的是多頭注意力機制的原理。

下一個步驟是是語義特徵融合，由於 POI 訪問模式與周遭環境也是存在互相影響，基於此我們會把上一步得到的兩個向量透過加權融合的方式形成一個來自於 LLM 的綜合的語義資訊向量。

而在第三步交叉注意力融合中，交叉注意力融合方法能夠將需要增強的 POI 表徵向量與上一步中綜合語義資訊進行充分的融合，達到增強的效果，這裡我們使用的多模態融合中常用的交叉注意力機制。

多檢視下的對比學習

在最後的多檢視對比學習環節中，與常用的只考慮地理距離為基礎的對比學習不同，我們為了提高向量增強的魯棒性和泛化能力，採用了三種不同的檢視來挑選正負樣本對。

1. 從使用者的簽到記錄序列來看，使用者在同一天內訪問的各個興趣點很可能具有相似性，因此我們規定使用者在同一天內訪問的某一興趣點與其之前、之後訪問的兩個興趣點互為正樣本。

2. 從地理角度來看，地理位置相近的興趣點應當具有相似性，因此對於任意興趣點，我們以其為中心在地圖上構造一個大小固定的方形區域，並規定該區域內的所有興趣點點為該興趣點的正樣本。

3. 從功能角度上來看，從屬於同一興趣點類別並且用有著相似的訪問模式的興趣點應當語義相近，因此我們規定滿足這兩條條件的興趣點互為正樣本；而負樣本則透過隨機抽樣產生。

損失函式

首先對比學習函式，我們選用了經典的 InfoNCE：

此外為了保證增強向量與原本向量的分佈相似，我們加入了以餘弦相似度為基礎的相似度損失函式，如下所示：

總損失函式就是兩者之和。

實驗分析

4.1 實驗設定

在實驗分析環節，我們使用了 Foursquare-NY，Foursquare-SG， Foursquare-NY 三個分別採集於紐約、新加坡與東京的使用者簽到序列資料集。為了減少資料中的噪聲，我們移除了簽到次數少於 5 次的興趣點以及長度小於 10 的使用者簽到序列，處理後的資料集的統計資訊如表 2 所示。

在所有實驗中，我們對資料集中的資料進行了打亂，並按照 7:1:2 的比例劃分了訓練集、驗證集與測試集。

為了充分展現我們所提出的模型的能力，我們選擇了六個不同的興趣點表徵模型 Skip-Gram, POI2Vec, Geo-Teaser, TALE, Hier 與 CTLE 來進行實驗，並在興趣點推薦、簽到序列分類、興趣點訪問流量預測這三個不同的下游任務上進行了測評。

對於興趣點推薦任務，我們使用 Hit@k，即模型推薦的前 k 個興趣點命中的頻率作為評測指標；對於簽到序列分類任務，我們使用準確度（ACC）與 Macro-F1 作為評測指標；對於興趣點訪問流量預測，我們使用平均絕對誤差（MSE）與均方根誤差（RMSE）作為評測指標。

4.2 實驗結果

▲ 圖2 下游任務綜合實驗結果

實驗的總體結果如上圖所示，不難發現表明 POI-Enhancer 顯著提高了所有資料集中所有基線的效能。

我們知道Skip-Gram 和 POI2Vec 以不同的方式合併空間資訊：Skip-Gram 使用共現頻率，而 POI2Vec 使用地理二叉樹，兩者都忽略了時間特徵。Geo-Teaser 包括粗粒度的空間和時間資料，而 TALE、Hier 和 CTLE 整合更細粒度的時空資料。

然而，所有六種方法都忽略了 POI 語義知識。我們的框架解決了這一差距，顯著提高了效能。

在興趣點推薦任務上，我們的模型是的 POI2VEC 在紐約資料集上的表現提升了超過 20%，這很有可能是因為 POI2Vec 模型注重捕捉序列內各條簽到資訊之間的關係，而忽略了其他模態的資訊。

在簽到資料序列分類任務上，POI2Vec 模型同樣獲得了極高的提升，而 Skip-Gram 演算法則提升較少，這可能是因為 Skip-Gram 模型更加註重對使用者軌跡的建模，其可最佳化空間相比於其他演算法而言較少。

在興趣點訪問流量預測上，作為 SOTA 模型的 CTLE 在經過加強後表現獲得了較大的提升，這進一步說明了我們模型在加強 POI 表徵方面的有效性。

同時，我們在幾乎所有的資料集、模型與下游任務上都得到了提升，這也說明從大語言模型中提取額外的地理知識，並將其融合到興趣點表徵中這一方法的可行性與有效性。

▲ 圖3 消融實驗結果

我們用四個變體設定進行綜合實驗，以評估我們設計的元件的有效性：

POI-Enhancer/P 我們移除了包括角色扮演、屬性標題和問題在內的特殊提示設計。
POI-Enhancer/D 我們移除了雙特徵對齊和語義嵌入融合。取而代之的是，我們生成了一個單一的提示，它在保持相同格式的情況下積累了前三種提示的內容。LLM 從這個提示中提取的特徵將直接輸入到交叉注意力融合中。
POI-Enhancer/F 我們移除了交叉注意力融合，並將 EP OI 和 ELLM 連線起來作為最終向量。
POI-Enhancer/C 我們只考慮空間視角。具體來說，給定一個 POI，我們定義一個以它為中心的正方形區域來收集正樣本，引數與地理對比學習一致。

我們使用紐約資料集在三個下游任務上測試了它們，以 Hit@1、ACC 和 MAE 作為評估指標。如圖 3 所示，POI-Enhancer 優於所有變體設定，我們可以得出以下結論：

1. 專門的提示可以增強框架的效能，因為它們刺激 LLM 更有效地提取時空知識；

2. 雙特徵對齊和語義特徵融合有助於獲得和維護高質量的語義向量，提高 POI 表示的能力；

3. 交叉注意力融合實現了更徹底的整合，允許最終向量捕獲更豐富的語義資訊，從而提高效能；

4. 與基於距離的正樣本相比，多檢視對比學習從不同的角度選擇更豐富的樣本，增強了嵌入向量的能力。

▲ 圖4 質量分析實驗結果

質量分析的實驗結果如上圖所示。為了進一步測量透過本框架強化的興趣點表徵的質量，我們使用 K-means 演算法在三個資料集上進行了聚類任務的測試。在這一過程中，我們使用 K-means 演算法對加強前與加強後的興趣點表徵向量進行聚類，並使用歸一化互資訊（NMI）指標對聚類結果進行了評估。

從實驗結果中可以發現，相比於增強前的結果，經過增強後的興趣點表徵的質量得到了明顯的提升。

這說明了以下三點：

1. 我們成功地從大語言模型中提取出了高質量的特徵，而這一特徵對提高興趣點表徵的質量有著關鍵的作用；

2. 我們高效的將提取出來的特徵融合到了未經加強的興趣點表徵中，使得其各方面的性質得到了提升；

3. 本框架中使用的多檢視的對比學習方法能夠做到拉近相同型別的表徵向量在隱空間中的距離，同時拉遠不同型別的表徵向量之間的距離。

結論

我們提出了一個名為 POI-Enhancer 的、能夠利用大語言模型增強幾乎所有興趣點表徵的框架。

為了達成這一目標，一方面，我們透過設計三類特殊的提示詞克服了大語言模型對數字不敏感，難以從大語言模型中提取資訊這一挑戰；另一方面，為了更好的將獲得的資訊進行對齊與融合，我們設計了雙特徵對齊、特徵融合、交叉注意力融合三個步驟以替代較為簡陋的拼接方法。

此外，我們還為這一框架的訓練設計了多檢視對比學習這一訓練方式。實驗證明我們的框架能夠顯著地提高几乎所有興趣點表徵方法在各類下游任務上的表現。

如果你覺得本文有用的話，請引用：

Plain Text@misc{cheng2025poienhancerllmbasedsemanticenhancement,      title={POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning},       author={Jiawei Cheng and Jingyuan Wang and Yichuan Zhang and Jiahao Ji and Yuanshao Zhu and Zhibo Zhang and Xiangyu Zhao},      year={2025},      eprint={2502.10038},      archivePrefix={arXiv},      primaryClass={cs.AI},      url={https://arxiv.org/abs/2502.10038}, }![](https://files.mdnice.com/user/4425/d0b3a59e-2ed8-4520-a793-8958259005e4.png)

本文實驗過程使用到了 LibCity 城市時空預測深度學習演算法庫。如果你對 LibCity 感興趣的話，可以訪問 Github 主頁：

https://github.com/LibCity/Bigscity-LibCity

更多閱讀