UrbanGPT: Spatio-Temporal Large Language Models

1.文章信息

本次介紹的文章是2024年arxiv上一篇名為《UrbanGPT: Spatio-Temporal Large Language Models》的文章,UrbanGPT旨在解決城市環境中的時空預測問題,通過大語言模型(LLM)的強大泛化能力來應對數據稀缺的挑戰。

2.摘要

UrbanGPT是一種旨在解決城市時空預測問題的大型語言模型。時空預測的目標是預測城市生活各個方面的未來時空模式、趨勢和事件,包括交通、人口流動和犯罪率。現有方法雖然在時空數據預測方面有一定成效,但大多依賴于大量的標注數據,這在實際的城市感知場景中往往難以獲取。數據稀疏性是一個普遍存在的問題,在某些情況下,甚至難以收集任何標注數據,從而進一步加劇了這個問題。因此,構建一個能夠在不同時空學習場景中展示出強泛化能力的時空模型變得至關重要。

受到大語言模型(LLMs)在處理文本數據方面顯著成果的啟發,UrbanGPT的目標是創建一個能夠在廣泛的下游城市任務中展現出卓越的泛化能力的時空LLM。為此,我們提出了UrbanGPT,改模型無縫集成了時空依賴編碼器和指令微調范式,使得LLMs能夠理解時間和空間之間的復雜相互依賴關系,從而在數據稀疏的情況下也能進行更全面和準確的預測。我們在各種公共數據集上進行了廣泛的實驗,涵蓋不同的時空預測任務,結果一致表明,所設計的UrbanGPT始終優于最先進的基準模型。這些發現突顯了在標記數據稀疏的零樣本情景下構建大型語言模型進行時空學習的潛力。

3.介紹

時空預測在城市環境中的應用至關重要,如交通流量、人口移動和犯罪率預測。然而,現有方法依賴于大量標注數據,而實際應用中數據稀疏是一個普遍問題。因此,構建能夠在數據稀疏情況下表現出色的時空預測模型成為一個重要挑戰。? ?

本文的主要貢獻如下:

(1) 據我們所知,這是首次嘗試開發一種能夠在不同數據集上預測各種城市現象的時空大語言模型,尤其是在訓練樣本受限的情況下。

(2) 本文提出了時空預測框架UrbanGPT,它使得大語言模型能夠理解時空之間錯綜復雜的相互依賴關系。通過將時空依賴編碼器無縫集成到指令微調范式中,有效地將時空上下文與大語言模型相結合。

(3) 在現實世界數據上進行的大量實驗證明了本文提出的UrbanGPT在零樣本時空學習場景中具有出色的泛化能力。這些發現突顯了該模型的強大泛化能力,表明它在準確預測和理解時空模式方面的有效性,即使在零樣本場景下也是如此。

4.預備知識

時空數據

時空數據通常表示為三維張量𝑋∈?𝑅×𝑇×𝐹,每個元素𝑋𝑟,𝑡,𝑓代表在𝑟區域𝑡時間段內的第𝑓個特征值。例如,預測城市區域內出租車流量的場景中,數據表示特定區域在給定時間段內的出租車進出流量。

時空預測

在時空預測任務中,通常使用歷史數據預測未來趨勢。具體目標是根據前𝐻步信息預測接下來的𝑃步數據,模型𝑓(·)通過歷史數據進行訓練。時空預測任務主要分為兩類:回歸預測(例如交通流量或出租車需求預測)和分類預測(例如犯罪發生預測)。

ea65414702266d7211b963f3fb65f82c.png

時空零樣本學習

盡管現有時空學習方法有效,但在泛化到廣泛的下游時空學習場景中常遇到困難。本研究旨在解決時空零樣本場景,即在未見過的數據集或任務中進行預測。在這種情況下,預測函數22920947343d9eb187eb35041545c16c.png負責預測從未遇見過的下游任務中的時空數據b46b0485b3ce304b93cd1f74ec406991.png

ee67ed5e8dd675557b369673e58bff4b.png

5.方法 ? ?

412703e1f675570cc5e4feda3d2b199f.png圖圖1 UrbanGPT整體框架

5.1時空依賴編碼器

大型語言模型在語言處理方面表現出卓越的能力,但它們在理解時空數據中固有的時間演變模式方面面臨挑戰。為了克服這一限制,我們提出通過集成一個多層次時間卷積網絡的時空編碼器來增強大語言模型捕捉時空上下文中的時間依賴性的能力。時空編碼器由兩個關鍵組件組成:門控擴散卷積層和多層次關聯注入層。讓我們將這種架構形式化為:

096a35a9d3034585baccfda3c1375dc9.png

𝐸𝑟∈𝑅𝑇×𝑑為時空嵌入,這個嵌入是通過一個線性層增強原始數據𝑋獲得的。為了解決梯度消失的問題,使用𝐸𝑟的一個切片,記為𝐸𝑟′(𝑙)∈𝑅𝑇′×𝑑,這個切片由膨脹卷積核的大小決定,用于執行殘差操作。執行殘差操作時使用1-D空洞卷積核Wk𝑊𝑔∈𝑅𝑇𝑔×𝑑𝑖𝑛×𝑑𝑜𝑢𝑡,以及相應的偏置項bkbg∈𝑅𝑑𝑜𝑢𝑡。sigmoid激活函數𝛿被用來控制在重復卷積操作中信息保存的程度。在門控時間膨脹卷積層編碼之后,我們能夠有效地捕捉跨多個時間步的時間依賴性,從而產生時間表示。

這些表示包含不同級別的時間依賴性,反映了各種粒度感知的時間演變模式。為了保存這些信息豐富的模式,我們引入了一個多層次關聯注入層。這一層旨在將不同層次之間的相關性結合起來,形式化為:

e7dd4ad653abe971fc4ac54a27af194c.png ? ?

其中W𝑠∈𝑅𝑇s×𝑑out×𝑑𝑜𝑢𝑡'是卷積核,經過L層編碼后,我們使用一個簡單的線性層融合門控擴散卷積層和多層次關聯注入層的結果,最終的時空依賴性表征為0f74a184605c0c1f7aaaaff4f5ef11c3.png,為了解決下游可能出現的各種城市場景集,本文提出的時空編碼器在建模空間相關性時獨立于圖結構。因為在零樣本預測環境中,實體之間的空間關系可能是未知的或難以確定的。這確保UrbanGPT在廣泛的城市環境中的適用性。

5.2時空指令微調框架

時空數據-文本對齊

為了使語言模型能夠有效地理解時空模式,對齊文本和時空信息至關重要。這允許模型融合不同模態,從而產生信息更豐富的表示。通過集成文本和時空域的上下文特征,模型可以捕獲互補信息并提取更具表示能力的高層語義表示c1e86bc0cbb153734a853c5221351ce0.png。為實現這一點,本文利用輕量級對齊模塊來投影時空依賴性表示。投影操作采用線性層參數Wp∈𝑅d×𝑑L進行,其中dL表示大語言模型常用的隱藏維度。所得到的投影H∈𝑅R×F×𝑑L,在指令中使用特殊的標記表示為:<ST_start>,<ST_HIS>,...,<ST_HIS>,<ST_end>。其中,<ST_start>和<ST_end>為標識時空標記的開始和結束的標識符,這些標識符可以通過擴展其詞匯量來包含在大語言模型中。占位符表示時空標記,對應于隱藏層中的投影H。通過使用該技術,模型獲得了識別時空依賴性的能力,從而提高了其在城市場景中成功執行時空預測任務的能力。

時空指令提示

在時空預測的場景中,時間和空間信息都包含了有價值的語義細節,有助于模型理解特定上下文下的時空模式。例如,清晨和高峰時間段的交通流量有很大的不同,并且商業區和住宅區之間的交通模式也存在差異。因此,將時間和空間信息表示為提示文本的對時空預測任務是有益的,我們利用大語言模型的文本理解能力來編碼這些信息。在UrbanGPT框架中,我們集成了多粒度的時間信息和空間細節,作為大語言模型的指令輸入。時間信息包括一周的日期和時間等因素,而區域信息包括城市、行政區域和附近的興趣點(POI)數據等,如下圖所示。通過合并這些不同的元素,UrbanGPT能夠識別和理解復雜的時空環境下不同區域和時段的時空模式,從而增強其零樣本推理能力。? ?

4bbded72b9bf7b509bdc69c3668a1cd4.png

圖2 編碼時間和位置感知信息的時空提示指令

大預言模型的時空指令微調

使用指令微調LLMs以生成文本格式的時空預測存在兩個挑戰。首先,時空預測通常依賴于數值數據,其結構和模式與語言模型擅長處理的自然語言不同,后者側重于語義和句法關系。其次,LLMs通常使用多分類損失進行預訓練以預測詞匯,從而得到潛在結果的概率分布。而回歸任務則需要連續值分布。為了解決這些挑戰,UrbanGPT采用了一種不同的策略,不直接預測未來的時空值,而是生成輔助預測過程的預測標記。這些標記隨后通過回歸層,將隱藏表示映射為生成更準確的預測值:

16f2f9e58aeccb7e6cbcfe11d81e7cbe.png

上式中預測標記的隱藏表征表示為𝛤𝑟,𝑓∈𝑅𝑑𝐿,其中預測標記可通過擴充大語言模型詞表的方式引入。W1,W2,W3為回歸層的權重矩陣,[?,?]為拼接操作。

6.實驗

實驗包括(1) 零樣本預測性能:相同城市內未見區域的預測、跨城市預測任務;(2) 典型的有監督預測任務;(3) 消融實驗:時空上下文影響、使用多個數據集進行指令微調的影響、時空編碼器的影響和指令微調中的回歸層;(4) 模型魯棒性研究;(5) 案例研究? ?

ca596c0e8db6244f352091a9f6c4f535.png

圖3 跨區域零樣本預測場景性能比較

4992467803a110bb4d4d0e8621edc2d4.png

圖4 跨城市零樣本預測場景性能比較

016e973b539ddd9058ce9ca636f08572.png

圖5 端到端有監督設置下的預測性能評估

4b764a2a4515edb66f2bf3792d673bd0.png

圖6 消融實驗 ? ?

d7c9deb8efc071ea096989522a430adc.png

圖7 魯棒性研究

9d332e1e4e6f674848e220faef8e7a0e.png

圖8 案例研究

7. 總結與展望

本文提出了UrbanGPT,一個能夠在不同的城市場景中具有良好泛化能力的時空大型語言模型。為實現時空上下文信號與LLMs無縫對齊,本文引入了一種時空指令微調范式。這賦予UrbanGPT在各種類型的城市數據中學習通用和可遷移的時空模式的卓越能力。大量實驗分析展示了UrbanGPT架構及其關鍵組件的卓越有效性。? ?

然而,需要注意的是,雖然結果是令人鼓舞的,但在未來的研究中仍然存在待解決的限制。作為第一步,我們積極收集更多種類的城市數據,以增強和完善UrbanGPT在更廣泛的城市計算領域的能力。此外,理解UrbanGPT的決策過程也是重要的。雖然該模型表現出卓越的性能,但提供可解釋性同樣重要。未來的研究也將集中于賦予UrbanGPT模型解釋其預測的能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/40103.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/40103.shtml
英文地址,請注明出處:http://en.pswp.cn/web/40103.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQLAlchemy批量操作數據

批量插入 session.bulk_insert_mappings(ModelClass, list(dict()))批量更新 session.bulk_update_mappings(ModelClass, list(dict())

Flutter的生命周期方法

Flutter的生命周期執行時機可以分為兩個主要部分&#xff1a;Flutter本身的組件生命周期&#xff08;widget生命周期&#xff09;和平臺相關的應用程序生命周期&#xff08;APP生命周期&#xff09;。 Widget生命周期 Widget生命周期可以細分為三個階段&#xff1a; 初始化階…

centos ssh一鍵升級到9.8版本腳本

背景 前端時間暴露出ssh漏洞&#xff0c;需要將服務器ssh版本&#xff0c;目前ssh版本最新版為9.8&#xff0c;故在服務器測試&#xff0c;準備將所有服務器ssh版本升級。腳本在centos7.6上親測可用。#!/bin/bash #Author Mr zhangECHO_GREEN() {echo -e "\033[32m $1...…

昇思MindSpore學習總結九——FCN語義分割

1、語義分割 圖像語義分割&#xff08;semantic segmentation&#xff09;是圖像處理和機器視覺技術中關于圖像理解的重要一環&#xff0c;AI領域中一個重要分支&#xff0c;常被應用于人臉識別、物體檢測、醫學影像、衛星圖像分析、自動駕駛感知等領域。 語義分割的目的是對圖…

【楚怡杯】職業院校技能大賽 “Python程序開發”賽項樣題三

Python程序開發實訓 &#xff08;時量&#xff1a;240分鐘&#xff09; 中國XX 實訓說明 注意事項 1. 請根據提供的實訓環境&#xff0c;檢查所列的硬件設備、軟件清單、材料清單是否齊全&#xff0c;計算機設備是否能正常使用。 2. 實訓結束前&#xff0c;在實訓平臺提供的…

從數據到智能,英智私有大模型助力企業實現數智化發展

在數字化時代&#xff0c;數據已經成為企業最重要的資源。如何將這些數據轉化為實際的業務價值&#xff0c;是每個企業面臨的重要課題。英智利用業界領先的清洗、訓練和微調技術&#xff0c;對企業數據進行深度挖掘和分析&#xff0c;定制符合企業業務場景的私有大模型&#xf…

篩選有合并單元格的數據

我們經常會使用合并單元格&#xff0c;比如下面表格&#xff0c;因為一個部門中會有不同的員工&#xff0c;就會出現如下表格&#xff1a; 但是當按部門去篩選的時候&#xff0c;會發現并不是我們預期的結果&#xff0c;部門列有空值&#xff0c;每個部門只有第一行數據可以被…

虛幻引擎 快速的色度摳圖 Chroma Key 算法

快就完了 ColorTolerance_PxRange為容差&#xff0c;這里是0-255的輸入&#xff0c;也就是px單位&#xff0c;直接用0-1可以更快 Key為目標顏色

PySide6 實現資源的加載:深入解析與實戰案例

目錄 1. 引言 2. 加載內置資源 3. 使用自定義資源文件&#xff08;.qrc&#xff09; 創建.qrc文件 編譯.qrc文件 加載資源 4. 動態加載UI文件 使用Qt Designer設計UI 加載UI文件 5. 注意事項與最佳實踐 6. 結論 在開發基于PySide6的桌面應用程序時&…

什么是 DDoS 攻擊及如何防護DDOS攻擊

自進入互聯網時代&#xff0c;網絡安全問題就一直困擾著用戶&#xff0c;尤其是DDOS攻擊&#xff0c;一直威脅著用戶的業務安全。而高防IP被廣泛用于增強網絡防護能力。今天我們就來了解下關于DDOS攻擊&#xff0c;以及可以防護DDOS攻擊的高防IP該如何正確選擇使用。 一、什么是…

個人引導頁+音樂炫酷播放器(附加源碼)

個人引導頁音樂炫酷播放器 效果圖部分源碼完整源碼領取下期更新內容 效果圖 部分源碼 //網站動態標題開始 var OriginTitile document.title, titleTime; document.addEventListener("visibilitychange", function() {if (document.hidden) {document.title "…

極客時間 - 《Linux 性能優化實戰》

極客時間 - 《Linux 性能優化實戰》原文鏈接&#xff1a;https://time.geekbang.org/column/intro/100020901 02 | 基礎篇&#xff1a;到底應該怎么理解“平均負載”&#xff1f;在Linux系統中&#xff0c;當一個進程啟動時&#xff0c;操作系統會為該進程申請哪些資源&#x…

Python學習從0開始——Kaggle實踐可視化001

Python學習從0開始——Kaggle實踐可視化001 一、創建和加載數據集二、數據預處理1.按name檢查&#xff0c;處理重復值&#xff08;查重&#xff09;2.查看存在缺失值的列并處理&#xff08;缺失值處理&#xff09;2.1按行或列查看2.2無法推測的數據2.3可由其它列推測的數據 3.拆…

QT實現GIF動圖顯示(小白版,可直接copy使用)

需要你自己提前設置好動圖的位置&#xff0c;本例中存放于"/Users/PLA/PLA/PLA.gif widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMovie> #include <QLabel>class Widget : public QWidget {Q_OBJECTpublic:explicit Wid…

mysql數據表時間字段自動存時間

時間字段自動存時間&#xff0c;不用通過插入語句存當前操作時間&#xff1a; created_at timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT 創建時間,

深入分析 Android BroadcastReceiver (九)

文章目錄 深入分析 Android BroadcastReceiver (九)1. Android 廣播機制的擴展應用與高級優化1.1 廣播機制的擴展應用1.1.1 示例&#xff1a;有序廣播1.1.2 示例&#xff1a;粘性廣播1.1.3 示例&#xff1a;局部廣播 1.2 廣播機制的高級優化1.2.1 示例&#xff1a;使用 Pending…

空調計費系統是什么,你知道嗎

空調計費系統是一種通過對使用空調的時間和能源消耗進行監測和計量來進行費用計算的系統。它廣泛應用于各種場所&#xff0c;如家庭、辦公室、商場等&#xff0c;為用戶提供了方便、準確的能源使用管理和費用控制。 可實現功能 智能計費&#xff1a;中央空調分戶計費系統通過智…

SOLIDWORKS分期許可(訂閱形式),降低前期的投入成本!

SOLIDWORKS 分期許可使您能夠降低前期軟件成本&#xff0c;同時提供對 SOLIDWORKS 新版本和升級程序的即時訪問&#xff0c;以及在每個期限結束時調整產品的靈活性&#xff0c;幫助您跟上市場需求和競爭壓力的步伐。 目 錄&#xff1a; ★ 1 什么是SOLIDWORKS分期許可 ★ 2 …

gen_region_line 生成直線

gen_region_line (Operator) Name 名稱 gen_region_line — Store input lines as regions.將輸入行存儲為region。 生成直線&#xff0c;直線區域 Signature 簽名 gen_region_line( : RegionLines : BeginRow, BeginCol, EndRow, EndCol : ) Description 描述 運算符ge…

【LLM大模型】程序員為什么要學習大模型應用開發?

0 prompt engineer 就是prompt工程師它的底層透視。 1 學習大模型的重要性 底層邏輯 人工智能大潮已來&#xff0c;不加入就可能被淘汰。就好像現在職場里誰不會用PPT和excel一樣&#xff0c;基本上你見不到。你問任何一個人問他會不會用PPT&#xff0c;他都會說會用&#…