AAAI2025|北航團隊提出GTG：具備跨城市遷移性的人類移動軌跡生成模型

本篇分享 AAAI 2025 論文 GTG: Generalizable Trajectory Generation Model for Urban Mobility。本文提出了一種具備跨城市遷移性的人類移動軌跡生成方法。

論文標題：

GTG: Generalizable Trajectory Generation Model for Urban Mobility.

論文作者：

王靜遠教授、碩士生林宇菁、碩士生李雨東

作者單位：

北京航空航天大學

課題組：

北航智慧城市課題組 BIGSCity（https://www.bigscity.com/）

研究方向：

時空資料探勘

論文連結：

https://arxiv.org/abs/2502.01107

程式碼倉庫連結：

https://github.com/lyd1881310/GTG

背景介紹

軌跡資料在城市規劃和交通管理等領域具有重要的作用，但是由於資料收整合本和隱私保護條款等因素的限制，大規模軌跡資料集的採集非常困難。軌跡生成技術成為解決軌跡資料不足的關鍵。

現有的軌跡生成方法大致可以分成知識驅動的方法和資料驅動的方法。知識驅動的方法通常基於經驗規則和統計規律來模擬人類的移動並生成軌跡，資料驅動的方法則基於大規模資料訓練的神經網路模型來生成軌跡。

知識驅動的方法不依賴大量資料，但是效果往往難以滿足需求；資料驅動的方法表現較好，但是過於依賴特定城市的路網結構，難以遷移到其他城市。

本論文作者發現，人類的移動行為具有一定的跨城市不變性，主要體現在兩個方面：1）人類總是傾向於選擇出行代價最小的路徑；2）道路的出行代價可以由路網的拓撲特徵做出預測，這種拓撲特徵與出行代價之間的對映關係在不同的城市中具有一定的不變性。

對此，本文提出了一種結合跨城市道路出行代價預測和最短路徑搜尋的軌跡生成方法。

問題定義

路網：城市的路網是一個有向圖，包括路段集合和邊的集合，若兩個路段直接相鄰，則它們之間存在一條有向邊。

軌跡：本論文的軌跡是指由個體經過的路段組成的序列。多條軌跡組成軌跡資料集。

本論文解決的是跨城市軌跡生成問題，使用源城市的軌跡資料集訓練深度學習模型，使其能夠在目標城市生成軌跡。輸入：源城市路網道路網路和軌跡資料集，目標城市路網。最佳化目標：最佳化模型引數使得在目標城市的道路網路上，生成的軌跡資料集與真實資料相似。用公式表示為

其中為最佳化目標，衡量生成軌跡與真實軌跡的差異。最終使用訓練好的引數進行目標城市軌跡資料的生成

方法

本文提出了一種具備跨城市遷移性的軌跡生成模型（GTG）：首先基於空間句法理論提取路網的拓撲特徵；然後設計瞭解耦對抗訓練方法學習城市無關的道路表徵，實現跨城市的出行代價預測；最後透過最短路搜尋為新城市生成軌跡資料。模型框架如圖 1 所示。

▲ 圖1 GTG 模型框架

3.1 路網拓撲特徵提取

本論文以空間句法（Space Syntax）理論為指導，計算了四類典型的空間特徵來刻畫路段的性質：總深度（Total Depth）、整合度（Integration）、連通度（Connectivity）和選擇度（Choice，又稱介數中心性）。

然後，本論文使用歸納式圖注意力網路來聚合路網的特徵。參考 ClusterGCN 的做法，本論文使用了 METIS 演算法分割路網，再隨機取樣子圖構造多樣化的訓練樣本。取樣過程如下所示

其中是整個城市路網的全域性圖，是 Metis 分割出的子圖，是隨機取樣組合出的子圖。METIS 演算法能夠確保各個子圖的頂點數量儘量均衡，且子圖間的邊數最少。這種均衡的劃分方法有助於增強模型對不同型別道路網路的適應能力。

然後，本論文設計了空間感知的圖注意力網路（SAGAT）來聚合子圖的特徵，生成帶周邊拓撲資訊的路段表徵。SAGAT 的輸入為各子圖的節點特徵，透過一系列注意力層堆疊的方式進行特徵聚合，最終獲得子圖拓撲特徵表示

其中是對應路段的聚合拓撲表徵。具體來說，該過程是透過多層注意力聚合來實現的。初始層輸入透過多層感知機（MLP）轉換後的表徵，計算方式為

對於第層，SAGAT 網路計算了節點間的注意力權重，並將空間關係嵌入到注意力機制中。

在這種結構中，模型不僅關注鄰居節點的特徵，還考慮了這些節點之間的空間關係，例如轉角、行駛距離以及介數中心性。這些空間關係反映了道路段之間的物理連線和空間相對位置，是理解城市道路網路結構的重要資訊。該注意力機制的計算過程為：

其中是可學習引數，是路段的鄰居節點集合，是 LeaklyReLU 啟用函式。表示兩節點之間的空間聯絡，表示如下：

其中 Bet 指的是穿過和的最短路徑數與整個網路中最短路徑總數的比例。Angle 是路段轉角，而 Dist 表示兩個路段間的中心點旅行距離。最終空間感知的圖注意力網路的輸出表示為

3.2 基於解耦表徵的出行代價預測

本論文將 GAT 聚合得到的路段表徵用於出行代價預測。但是，源城市和目標城市的路網特徵分佈存在差異，導致模型直接在目標城市應用的效果較差。對此，本論文設計了一種解耦對抗學習方法，來獲得城市無關表徵，提升跨城市預測效果。

（1）潛在變數解耦

首先，本論文使用語義編碼器和域編碼器來分離原始表徵中的語義資訊和城市相關的資訊。本論文假設路段資訊由兩個獨立的潛在變數決定：一個語義潛在變數和一個域潛在變數。這些變數分別透過兩個 MLP 編碼器提取。捕獲用於預測軌跡成本的語義資訊，而包含城市特定的域資訊，如下

本論文使用對抗域適應技術來訓練這些表徵，其中包括一個用於出行代價估算的預測器和一個用於城市識別的判別器。這些表徵在出行代價預測的最佳化當中同步更新。

（2）出行代價預測

出行代價由路段在特定時期的平均通行時間和通行速度表示，如下

以潛在變數作為輸入（為簡化省略上標），出行代價預測網路可以表示為

用於訓練神經網路的預測損失函式包括一個 MSE 損失和一個排名損失。MSE 損失的計算方式為

其中是源城市資料集的大小，是路段出行代價的真實值（包括出行時間和速度），使用真實資料集的平均值來表示。在跨城市場景下，不同城市之間的出行代價往往存在整體偏差，導致很難預測出行代價的絕對大小。

對此，本論文引入了排名損失來解決這一問題。具體來說，本論文預測了任意路段的出行代價高於的機率為：

實際的排名標籤值計算如下：

計算二元交叉熵損失如下：

出行代價預測的總損失為 MSE 損失和排名損失的加權求和，如下：

其中是兩種損失之間的平衡權重。

（3）解耦對抗訓練

為了從語義資訊中分離出域資訊，本研究引入了一個域判別器，用以預測路段的域標籤（即該路段屬於源城市還是目標城市）。從源城市或目標城市中提取子圖樣本，併為每個道路段分配域標籤，如下所示：

標籤為 1 代表該路段來自源城市路網，標籤為 0 代表該路段來自目標城市路網。給定潛在變數作為輸入，域判別器對源城市和目標城市進行分類，如下：

對於這個域判別任務，使用二元交叉熵損失計算得：

其中和分別代表源城市和目標城市資料集的路段數量。

解耦對抗訓練被用來促進和之間資訊的解耦。對於語義潛在變數，其最終目標是在最大化域判別損失的同時，最小化出行代價預測損失；對於域潛在變數，目標則正好相反。透過使用不同的表徵作為輸入，損失函式計算為

為了進一步減少資訊耦合，本研究還引入了正交損失，企圖使解耦出來的表徵之間的差異儘可能增大，正交損失的計算如下：

表徵解耦對抗訓練的總損失函式結合了這些損失，最終的損失函式為：

其中是一個平衡因子。透過該步驟的解耦對抗訓練，模型能夠將域相關的資訊從路段表徵中分離出來，從而使得城市無關的語義表徵，實現跨城市的出行代價預測。

3.3 結合最短路搜尋的出行偏好學習

在完成出行預測之後，可以採用最短路徑搜尋演算法為目標城市生成移動軌跡。大多數現存的最短路徑搜尋方法依賴於固定的道路成本因素，例如出行時間或出行速度，來規劃路線。

然而，僅依賴單一成本因素通常無法全面捕捉使用者的實際旅行偏好，這些偏好受到更復雜因素的影響。

為了解決這一問題，本論文提出將旅行偏好建模為可觀測代價與隱含代價的組合。隱含代價代表了那些難以解釋、影響人類選擇的因素，透過使用多層感知器（MLP）預測，如下式所示：

其中是語義潛變數。然後，模型使用可觀測代價和隱含代價的加權組合來估計整體出行偏好，如下：

其中是可學習的權重。的值越小，表示對道路段的偏好越高。本研究假設這種偏好組合方式在不同城市之間保持一致。

出行偏好的更新是透過無監督訓練完成的。在訓練過程中，本論文首先隨機初始化引數隱含代價預測器的引數，並搜尋最短路徑。從到的最短路徑表示為，其偏好值總和為：

真實軌跡的偏好值總和為：

則無監督損失函式定義為真實軌跡的偏好值與生成軌跡的偏好值之差：

透過迭代訓練，模型學習出行偏好與可觀測代價和隱藏代價之間的不變對映關係。本階段的訓練完成後，模型生成軌跡與真實軌跡的差異將更小，可以應用到目標城市，生成新的軌跡資料。

實驗

4.1 實驗設定

本論文使用三個城市（北京、西安、成都）的計程車軌跡資料集進行實驗。每個城市依次作為源城市和目標城市，總共構成 6 組源城市-目標城市對，使用源城市資料來訓練模型，並直接應用到目標城市生成新的軌跡。生成軌跡的質量由真實軌跡資料集和生成軌跡資料集的整體相似性來評價。

評價指標包括：

1. 宏觀相似性：計算軌跡出行距離（Distance）、出行半徑（Radius）和路段訪問頻率（LocFreq）的 JS 散度；

2. 微觀相似性：逐條計算生成軌跡和真實軌跡的序列距離，包括 DTW、Hausdorff、EDT 和 EDR 距離。

本論文使用現有的常見軌跡生成方法作為基線方法，包括傳統的知識驅動方法（隨機遊走、EPR 模型）和最新資料驅動方法（深度生成模型）。

4.2 實驗結果分析

▲ 表1 跨城市軌跡生成實驗整體效果

跨城市軌跡生成的效果如表 1 所示，其中 GTG1 對應的源城市和目標城市設定為 XA->BJ、BJ->CD、CD->XA；GTG2 對應的源城市和目標城市設定為 BJ->XA、XA->CD、CD->BJ。

從宏觀和微觀角度評估，與三個真實世界軌跡資料集上的所有基線模型相比，本論文提出的方法表現出較好的跨城市遷移性。以西安市為例，生成資料與真實資料對路段訪問頻率的熱度圖如圖 2 所示。GTG 的熱度圖與真實資料的相似度最高。

▲ 圖2 西安市生成資料和真實資料的熱度圖

為了驗證生成軌跡資料的可用性，本論文基於生成的軌跡資料訓練下游應用模型，並在真實軌跡資料上進行測試。本論文以這種方式來評估生成的軌跡資料對下游任務的支援能力。具體來說，選擇軌跡下一跳位置預測任務作為下游應用任務。軌跡下一跳位置預測任務旨在預測軌跡的位置，廣泛應用於地點推薦應用中。

我們選擇 DeepMove 和 LSTPM 作為軌跡下一跳位置預測模型，分別用真實資料和生成資料來訓練這兩個模型。下游任務的評測效果如表 2 所示，真實資料訓練的下游任務模型效果最好，在所有的軌跡生成方法中，GTG 生成的軌跡訓練效果與真實資料差距最小。

▲ 表2 下游任務實驗結果

如果目標城市存在一定量的真實軌跡資料，那麼使用目標城市的資料微調 GTG 可以取得更好的效果。逐步增加目標城市軌跡數量，模型效果變化情況如表 3 所示。

▲ 表3 目標城市微調實驗結果

總結

在本研究中，作者提出了一種具備跨城市泛化性的軌跡生成方法，其核心在於學習城市中普遍的人類出行規律。該方法結合了空間句法技術和歸納式圖神經網路來提取豐富的城市不變的路網表徵，並使用瞭解耦對抗訓練方法來增強跨城市出行代價預測效果，最終結合最短路徑搜尋生成符合人類偏好的出行軌跡。

引用

如果你覺得本文有用的話，請引用：


@misc{wang2025gtggeneralizabletrajectorygeneration,

      title={GTG: Generalizable Trajectory Generation Model 
for
 Urban Mobility}, 

      author={Jingyuan Wang and Yujing Lin and Yudong Li},

      year={2025},

      eprint={2502.01107},

      archivePrefix={arXiv},

      primaryClass={cs.LG},

      url={https://arxiv.org/abs/2502.01107}, 

}