UrbanGPT: Spatio-Temporal Large Language Models

1.文章信息

本次介紹的文章是2024年arxiv上一篇名為《UrbanGPT: Spatio-Temporal Large Language Models》的文章，UrbanGPT旨在解決城市環境中的時空預測問題，通過大語言模型（LLM）的強大泛化能力來應對數據稀缺的挑戰。

2.摘要

UrbanGPT是一種旨在解決城市時空預測問題的大型語言模型。時空預測的目標是預測城市生活各個方面的未來時空模式、趨勢和事件，包括交通、人口流動和犯罪率。現有方法雖然在時空數據預測方面有一定成效，但大多依賴于大量的標注數據，這在實際的城市感知場景中往往難以獲取。數據稀疏性是一個普遍存在的問題，在某些情況下，甚至難以收集任何標注數據，從而進一步加劇了這個問題。因此，構建一個能夠在不同時空學習場景中展示出強泛化能力的時空模型變得至關重要。

受到大語言模型（LLMs）在處理文本數據方面顯著成果的啟發，UrbanGPT的目標是創建一個能夠在廣泛的下游城市任務中展現出卓越的泛化能力的時空LLM。為此，我們提出了UrbanGPT，改模型無縫集成了時空依賴編碼器和指令微調范式，使得LLMs能夠理解時間和空間之間的復雜相互依賴關系，從而在數據稀疏的情況下也能進行更全面和準確的預測。我們在各種公共數據集上進行了廣泛的實驗，涵蓋不同的時空預測任務，結果一致表明，所設計的UrbanGPT始終優于最先進的基準模型。這些發現突顯了在標記數據稀疏的零樣本情景下構建大型語言模型進行時空學習的潛力。

3.介紹

時空預測在城市環境中的應用至關重要，如交通流量、人口移動和犯罪率預測。然而，現有方法依賴于大量標注數據，而實際應用中數據稀疏是一個普遍問題。因此，構建能夠在數據稀疏情況下表現出色的時空預測模型成為一個重要挑戰。? ?

本文的主要貢獻如下：

(1) 據我們所知，這是首次嘗試開發一種能夠在不同數據集上預測各種城市現象的時空大語言模型，尤其是在訓練樣本受限的情況下。

(2) 本文提出了時空預測框架UrbanGPT，它使得大語言模型能夠理解時空之間錯綜復雜的相互依賴關系。通過將時空依賴編碼器無縫集成到指令微調范式中，有效地將時空上下文與大語言模型相結合。

(3) 在現實世界數據上進行的大量實驗證明了本文提出的UrbanGPT在零樣本時空學習場景中具有出色的泛化能力。這些發現突顯了該模型的強大泛化能力，表明它在準確預測和理解時空模式方面的有效性，即使在零樣本場景下也是如此。

4.預備知識

時空數據

時空數據通常表示為三維張量𝑋∈?^{𝑅×𝑇×𝐹}，每個元素𝑋_{𝑟,𝑡,𝑓}代表在𝑟區域𝑡時間段內的第𝑓個特征值。例如，預測城市區域內出租車流量的場景中，數據表示特定區域在給定時間段內的出租車進出流量。

時空預測

在時空預測任務中，通常使用歷史數據預測未來趨勢。具體目標是根據前𝐻步信息預測接下來的𝑃步數據，模型𝑓(·)通過歷史數據進行訓練。時空預測任務主要分為兩類：回歸預測（例如交通流量或出租車需求預測）和分類預測（例如犯罪發生預測）。

時空零樣本學習

盡管現有時空學習方法有效，但在泛化到廣泛的下游時空學習場景中常遇到困難。本研究旨在解決時空零樣本場景，即在未見過的數據集或任務中進行預測。在這種情況下，預測函數負責預測從未遇見過的下游任務中的時空數據。

5.方法 ? ?

圖圖1 UrbanGPT整體框架

5.1時空依賴編碼器

大型語言模型在語言處理方面表現出卓越的能力，但它們在理解時空數據中固有的時間演變模式方面面臨挑戰。為了克服這一限制，我們提出通過集成一個多層次時間卷積網絡的時空編碼器來增強大語言模型捕捉時空上下文中的時間依賴性的能力。時空編碼器由兩個關鍵組件組成：門控擴散卷積層和多層次關聯注入層。讓我們將這種架構形式化為：

𝐸_𝑟∈𝑅^𝑇×𝑑為時空嵌入，這個嵌入是通過一個線性層增強原始數據𝑋獲得的。為了解決梯度消失的問題，使用𝐸_𝑟的一個切片，記為𝐸_𝑟^′(𝑙)∈𝑅^{𝑇′×𝑑}，這個切片由膨脹卷積核的大小決定，用于執行殘差操作。執行殘差操作時使用1-D空洞卷積核W_k和𝑊_𝑔∈𝑅^{𝑇𝑔×𝑑𝑖𝑛×𝑑𝑜𝑢}^𝑡，以及相應的偏置項b_k和b_g∈𝑅^{𝑑𝑜𝑢𝑡}。sigmoid激活函數𝛿被用來控制在重復卷積操作中信息保存的程度。在門控時間膨脹卷積層編碼之后，我們能夠有效地捕捉跨多個時間步的時間依賴性，從而產生時間表示。

這些表示包含不同級別的時間依賴性，反映了各種粒度感知的時間演變模式。為了保存這些信息豐富的模式，我們引入了一個多層次關聯注入層。這一層旨在將不同層次之間的相關性結合起來，形式化為：

? ?

其中W_𝑠∈𝑅^{𝑇s×𝑑out×𝑑𝑜𝑢𝑡'}是卷積核，經過L層編碼后，我們使用一個簡單的線性層融合門控擴散卷積層和多層次關聯注入層的結果，最終的時空依賴性表征為，為了解決下游可能出現的各種城市場景集，本文提出的時空編碼器在建模空間相關性時獨立于圖結構。因為在零樣本預測環境中，實體之間的空間關系可能是未知的或難以確定的。這確保UrbanGPT在廣泛的城市環境中的適用性。

5.2時空指令微調框架

時空數據-文本對齊

為了使語言模型能夠有效地理解時空模式，對齊文本和時空信息至關重要。這允許模型融合不同模態，從而產生信息更豐富的表示。通過集成文本和時空域的上下文特征，模型可以捕獲互補信息并提取更具表示能力的高層語義表示。為實現這一點，本文利用輕量級對齊模塊來投影時空依賴性表示。投影操作采用線性層參數W_p∈𝑅^d×𝑑L進行，其中d_L表示大語言模型常用的隱藏維度。所得到的投影H∈𝑅^R×F×𝑑L，在指令中使用特殊的標記表示為：<ST_start>，<ST_HIS>，...，<ST_HIS>，<ST_end>。其中，<ST_start>和<ST_end>為標識時空標記的開始和結束的標識符，這些標識符可以通過擴展其詞匯量來包含在大語言模型中。占位符表示時空標記，對應于隱藏層中的投影H。通過使用該技術，模型獲得了識別時空依賴性的能力，從而提高了其在城市場景中成功執行時空預測任務的能力。

時空指令提示

在時空預測的場景中，時間和空間信息都包含了有價值的語義細節，有助于模型理解特定上下文下的時空模式。例如，清晨和高峰時間段的交通流量有很大的不同，并且商業區和住宅區之間的交通模式也存在差異。因此，將時間和空間信息表示為提示文本的對時空預測任務是有益的，我們利用大語言模型的文本理解能力來編碼這些信息。在UrbanGPT框架中，我們集成了多粒度的時間信息和空間細節，作為大語言模型的指令輸入。時間信息包括一周的日期和時間等因素，而區域信息包括城市、行政區域和附近的興趣點（POI）數據等，如下圖所示。通過合并這些不同的元素，UrbanGPT能夠識別和理解復雜的時空環境下不同區域和時段的時空模式，從而增強其零樣本推理能力。? ?

圖2 編碼時間和位置感知信息的時空提示指令

大預言模型的時空指令微調

使用指令微調LLMs以生成文本格式的時空預測存在兩個挑戰。首先，時空預測通常依賴于數值數據，其結構和模式與語言模型擅長處理的自然語言不同，后者側重于語義和句法關系。其次，LLMs通常使用多分類損失進行預訓練以預測詞匯，從而得到潛在結果的概率分布。而回歸任務則需要連續值分布。為了解決這些挑戰，UrbanGPT采用了一種不同的策略，不直接預測未來的時空值，而是生成輔助預測過程的預測標記。這些標記隨后通過回歸層，將隱藏表示映射為生成更準確的預測值：

上式中預測標記的隱藏表征表示為𝛤_𝑟,𝑓∈𝑅^𝑑𝐿，其中預測標記可通過擴充大語言模型詞表的方式引入。W1,W2,W3為回歸層的權重矩陣，[?,?]為拼接操作。

6.實驗

實驗包括(1) 零樣本預測性能：相同城市內未見區域的預測、跨城市預測任務；(2) 典型的有監督預測任務；(3) 消融實驗：時空上下文影響、使用多個數據集進行指令微調的影響、時空編碼器的影響和指令微調中的回歸層；(4) 模型魯棒性研究；(5) 案例研究? ?

圖3 跨區域零樣本預測場景性能比較

圖4 跨城市零樣本預測場景性能比較

圖5 端到端有監督設置下的預測性能評估

圖6 消融實驗 ? ?

圖7 魯棒性研究

圖8 案例研究

7. 總結與展望

本文提出了UrbanGPT，一個能夠在不同的城市場景中具有良好泛化能力的時空大型語言模型。為實現時空上下文信號與LLMs無縫對齊，本文引入了一種時空指令微調范式。這賦予UrbanGPT在各種類型的城市數據中學習通用和可遷移的時空模式的卓越能力。大量實驗分析展示了UrbanGPT架構及其關鍵組件的卓越有效性。? ?

然而，需要注意的是，雖然結果是令人鼓舞的，但在未來的研究中仍然存在待解決的限制。作為第一步，我們積極收集更多種類的城市數據，以增強和完善UrbanGPT在更廣泛的城市計算領域的能力。此外，理解UrbanGPT的決策過程也是重要的。雖然該模型表現出卓越的性能，但提供可解釋性同樣重要。未來的研究也將集中于賦予UrbanGPT模型解釋其預測的能力。