頂刊SCS | 基于視覺語言大模型推理分割的建筑足跡尺度功能分類, 樣本數據和代碼已開源!

論文介紹

題目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China

期刊:Sustainable cities and society(中科院一區TOP,IF=10.5)

論文:https://doi.org/10.1016/j.scs.2025.106439

代碼:?https://github.com/whheda/LaRSE

數據:https://zenodo.org/records/15433646

年份:2025

單位:中山大學

注:本篇由論文原作者審閱

研究背景

快速的城市化進程帶來了全球建筑數量和功能的劇烈變化,及時準確的調查統計建筑物數量,并在此基礎上區分建筑物的用地屬性和功能,對于提升空間布局合理性、人類宜居性、城市可持續發展至關重要。

研究問題

  • 土地利用分類是實現城市用地功能劃分的有效途徑,但土地利用分類研究多基于地塊尺度,難以滿足以建筑物單元為載體的人類活動空間的劃分;

  • 建筑物足跡提取研究多關注建筑物邊緣輪廓,且在遙感俯視圖中建筑物視覺特征較為類似,難以推測其功能屬性。

如何實現建筑物足跡尺度的屬性功能分類?

  • 現有解決途徑1:建筑物足跡公開產品+分類特征;但依賴已有產品,難以端對端應用。

  • 現有解決途徑2:將此問題看作多類別語義分割問題;但傳統建筑物提取模型多關注邊緣輪廓,對功能語義推理能力不足。

  • 研究啟示

  • 不同功能的建筑物之間、建筑物與周圍實體之間具有一定的空間分布規律。充分利用空間規律或地學先驗,是建筑物功能準確推理的關鍵。
  • 圖1. 語言模型中編碼的地理實體空間關系的底層機制可以幫助建筑物功能識別任務中的語義推理。
  • 創新點

  • 1)提出了視覺語言建筑物功能推理模型(LARSE),通過層級視覺編碼器提取建筑物局部邊緣輪廓和全局上下文嵌入特征,通過語言編碼器提取建筑物功能描述嵌入特征,設計多模態推理解碼器,綜合上述嵌入特征,實現功能推理。

    2)在層級視覺編碼器中設計了建筑物全局上下文提取模塊(BGC)和建筑物局部細節提取模塊(BLD),不僅捕捉細粒度的局部建筑物輪廓,還通過聚合建筑物周圍視覺線索來形成全局上下文表示,用于后續功能推理。

    3)在多模態推理解碼器中,通過對齊文本表示、像素級表示和相應的局部掩碼,精準學習細粒度的視覺概念。經過訓練,推理解碼器能夠將細粒度的語義信息從語言表示傳播到建筑物的局部視覺激活,從而能夠精確識別每座建筑物的功能。

  • 圖2.?建筑物功能推理分割(LARSE)框架。

  • 4)構建了一套建筑物功能分類數據集BUFF(BUilding Footprint Function),包含12940張0.5米分辨率的512x512大小的影像及標注,涉及10種建筑物功能類型。

  • 圖3 BUFF數據集介紹

  • 結果與分析

  • 本文方法在多光譜無人機跟蹤數據集上全面優于現有主流方法,表現出更強的魯棒性和適應性。同時在多光譜和RGB通用數據集上也展現出良好的遷移能力,證明了其結構的通用性與效率。
  • 圖4?在BUFF數據集上的可視化實驗結果
  • 語言模型功能推理的可解釋性分析:
  • 1)本研究的亮點在于利用語言模型強大的語義推理能力識別建筑物功能類型。因此,為了解其可解釋性,首先需要探究“經過語言模型編碼的建筑物功能描述是否具有指引作用”。本研究使用?t-SNE?可視化了語言模型編碼的每個建筑功能描述的特征嵌入,可以發現,相似的建筑功能屬性的嵌入向量方向較為一致,而屬性功能不同的嵌入向量方向差異較大。例如城中村(urban village)和住宅樓(residential)的嵌入向量方向較為一致,且與酒店(hotel)也較為一致,反映了居住屬性;而商業(commercial)和商務(business)的嵌入向量方向較為一致,反映了其經濟屬性,政府(government)和企事業單位或機構(institution)的嵌入向量方向也較為一致,反映了公共服務屬性。因此,建筑功能描述的特征嵌入具有指引作用。
  • 圖5?通過t-SNE在三維特征空間中可視化由語言模型編碼的功能描述嵌入特征
  • 2)然后,需要探究“經過建筑物功能語義描述的嵌入向量指引后,模型究竟是如何提升理解和推理能力的?”本研究通過對編碼器最深層的attention map進行可視化,利用自注意力機制過程中對全局上下文關聯的學習能力,試圖尋找模型推理的痕跡。在如圖6所示的場景中,我們選取education對應的像素的query q,并可視化其在整個場景上的attention map(即其他所有像素的key k與q相乘得到)。通過觀察發現,在有建筑物功能嵌入向量的指引時(w/ language model),education屬性與相鄰的操場及其綠化樹木的注意力強度是最強的,同時,也少量關注到周圍的居民樓和其他類型的建筑物;相比之下,在沒有建筑物功能嵌入向量的指引時(w/o language model),education屬性的建筑物更多的關注到了周圍的建筑物上,特別是居民樓上。因此,從最終的w/o language model的結果中可以看到,education building被錯誤的分類為residential。因此,建筑物功能語義描述的嵌入向量能夠指引視覺模型關注到最關鍵、最具判別性的地物類型或空間模式,從而提升視覺模型對于功能語義的推理能力。
  • 圖6 注意力圖的可視化展示了通過構建函數描述嵌入所指示的相關知識。
  • 3)最后,我們從“最終的分類結果中各建筑物功能類型在特征空間的聚集程度”來可視化語言模型的可解釋性和貢獻。同樣,我們使用t-SNE可視化方式,如圖7,可以發現,在建筑物功能描述嵌入向量的影響下,相同建筑屬性的分布變得更加緊密,從而提高了準確性。例如,在w/o language model的結果中,城中村(urban village)與居民樓(residential)的分布高度混合,而通過語言模型的關系理解,能夠實現明顯的區分。
  • 圖7 利用t-SNE可視化建筑功能推理結果中各類型的特征聚集情況。
  • 長江經濟帶區域10個省會城市建筑物功能制圖與分析:
  • 在長江經濟帶上海、南京、武漢、成都等10個主要城市進行建筑物功能制圖驗證和數值統計,發現:
  • 1)功能層面的建筑物足跡分布折射出區域經濟異質性:LARSE制圖結果顯示,長江經濟帶沿線各城市在建筑功能層面存在顯著異質性,東西部差異尤為突出性。以上海等城市為例,其建筑占地面積廣闊,商業與住宅建筑比例較高,體現出經濟發達、城市化程度高;而昆明、貴陽等西南城市因地理與民族多樣性等因素,村莊及城中村建筑所占比重較大。由此可見,地理條件與政策導向共同影響城市結構。地理層面上,東部地區憑借優越的區位和完善的交通網絡,吸引了大量投資與人口集聚;西部地區則受地形崎嶇、交通可達性有限等因素制約。政策層面上,《長江經濟帶發展規劃綱要》強調東西部區域協調發展,注重資源配置與功能布局。

    2)功能層面的建筑物足跡分布凸顯出基礎公共設施區域均衡性:從政府、醫療和教育類建筑在長江經濟帶沿線城市分布的差異性較小可以看出,盡管經濟發展存在不平衡,但基礎公共服務設施在區域間分布較為均衡。這與《中共中央國務院關于推進以人為核心的新型城鎮化發展的若干意見》中提出的“城鄉融合發展”政策有一定關系。該政策通過資源合理配置,推動區域經濟協調發展,保障基礎公共服務的公平覆蓋。

  • 圖8?對長江經濟帶區域中的上海、南京、武漢、成都等10個城市進行建筑功能制圖和可視化展示。

  • 圖9?長江經濟帶足跡尺度建筑物功能統計

  • 圖10 100米網格的人均醫療服務占有面積。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907512.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907512.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907512.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【軟件】navicat 官方免費版

Navicat Premium Lite https://www.navicat.com.cn/download/navicat-premium-lite

每個路由器接口,都必須分配所屬網絡內的 IP 地址,用于轉發數據包

在IP網絡中,主機(Host)和路由器接口(Router Interface)都需要分配網絡地址(IP地址)。 1. 主機(Host)的IP地址分配 (1) 作用 主機的IP地址用于唯一標識該設備&#xff0…

鴻蒙OSUniApp頁面切換動效實戰:打造流暢精致的轉場體驗#三方框架 #Uniapp

UniApp頁面切換動效實戰:打造流暢精致的轉場體驗 引言 在移動應用開發中,頁面切換動效不僅能提升用戶體驗,還能傳達應用的品質感。隨著HarmonyOS的普及,用戶對應用的動效體驗要求越來越高。本文將深入探討如何在UniApp中實現流暢…

Tesseract OCR 安裝與中文+英文識別實現

一、下載 https://digi.bib.uni-mannheim.de/tesseract/ 下載,盡量選擇時間靠前的(識別更好些)。符合你的運行機(我的是windows64) 持續點擊下一步安裝,安裝你認可的路徑即可,沒必要配置環境變…

Visual Studio 2022 發布獨立的 exe 文件

我們在用 Visual Studio 2022 寫好一個 exe 程序之后,如果想把這個拿到其他地方運行,需要把 exe 所在的文件夾一起拿過去。 編譯出來的 exe 文件需要其他幾個文件一同放在同一目錄才能運行,原因在于默認情況下,Visual Studio 是把…

Kotlin-特殊類型

文章目錄 數據類型枚舉類型匿名類和伴生對象單例類伴生對象 數據類型 聲明一個數據類非常簡單: //在class前面添加data關鍵字表示為一個數據類 data class Student(var name: String, var age: Int)數據類聲明后,編譯器會根據主構造函數中聲明的所有屬性自動為其生成以下函數…

在線博客系統【測試報告】

🕒 一. 項目背景 由于紙質筆記容易丟失,攜帶不變,為了方便自己學習的過程中記錄筆記,特開發了這個博客系統。這個系統后端采用 SpringBoot MyBatis SpringMVC ;前端使用Html CSS JS;數據庫使用的是Mysq…

每日刷題c++

快速冪 #include <iostream> using namespace std; #define int long long int power(int a, int b, int p) {int ans 1;while (b){if (b % 2){ans * a;ans % p; // 隨時取模}a * a;a % p; // 隨時取模b / 2;}return ans; } signed main() {int a, b, p;cin >> a …

Python中的變量、賦值及函數的參數傳遞概要

Python中的變量、賦值及函數的參數傳遞概要 python中的變量、賦值 python中的變量不是盒子。 python中的變量無法用“變量是盒子”做解釋。圖說明了在 Python 中為什么不能使用盒子比喻&#xff0c;而便利貼則指出了變量的正確工作方式。 如果把變量想象為盒子&#xff0c;那…

KVM 安裝 Ubuntu 22

在 KVM 中安裝 Ubuntu 22 虛擬機。 首先創建硬盤文件 sudo qemu-img create -f qcow2 /app/vms/ubuntu22.qcow2 100G安裝Ubuntu 22 sudo virt-install \--name ubuntu22 \--ram 4096 \--vcpus 2 \--disk path/app/vms/ubuntu22.qcow2,formatqcow2 \--os-type linux \--os-va…

基于生產-消費模式,使用Channel進行文件傳輸(Tcp方式)

Client端&#xff1a; #region 多文件傳輸 public class FileMetadata {public string FileName { get; set; }public long FileSize { get; set; } }class Program {const int PORT 8888;const int BUFFER_SIZE 60 * 1024 * 1024;//15s-50 25s-64 33s-32 27s-50 31s-40 25…

【后端高階面經:Elasticsearch篇】39、Elasticsearch 查詢性能優化:分頁、冷熱分離與 JVM 調優

一、索引設計優化:構建高效查詢的基石 (一)分片與副本的黃金配置 1. 分片數量計算模型 # 分片數計算公式(單分片建議30-50GB) def calculate_shards(total_data_gb, single_shard_gb=30):return max

學習路之PHP--easyswoole3.3安裝入門

學習路之PHP--easyswoole安裝入門 一、安裝swoole擴展二、安裝easyswoole三、指定PHP版本安裝四、啟動swoole五、EasySwoole的入門學習如果報&#xff1a;not controller class match 六、學習推薦&#xff1a; 0、centos 7、php7.2.33、easyswoole 3.3 一、安裝swoole擴展 二、…

Ad Hoc

什么是 Ad Hoc&#xff1f; Ad hoc 一詞源于拉丁語&#xff0c;意為“為此目的”或“為此特定原因”。一般來講&#xff0c;它指的是為解決某一特定問題或任務&#xff08;而非為了廣泛重復應用&#xff09;而設計的行動、解決方案或組合。在加密貨幣和區塊鏈領域&#xff0c;…

Lines of Thought in Large Language Models

Lines of Thought in Large Language Models 《Lines of Thought in Large Language Models》(大語言模型中的思維鏈)聚焦于分析大語言模型(LLMs)在生成文本時,其內部向量軌跡的統計特性。 核心目標是揭示LLMs復雜的“思維過程”(即文本生成時的隱藏狀態變化)能否被簡…

npm/yarn/pnpm安裝時Sharp模塊報錯解決方法

在安裝依賴模塊時&#xff0c;npm/yarn/pnpm安裝時Sharp模塊報錯解決方法。 打開源代碼發現&#xff1a;使用的下載地址是github地址&#xff0c;就是因為國內經常無法訪問github造成的。 解決辦法&#xff1a; 把涉及到的下載包設置不要從github上下載&#xff0c;設置成淘寶…

基于CEEMDAN-Transformer-BiLSTM的多特征風速氣候預測的完整實現方案及PyTorch源碼解析

基于CEEMDAN-Transformer-BiLSTM的多特征風速氣候預測的完整實現方案及PyTorch源碼解析 一、模型架構設計 1.1 整體框架 該模型采用三級架構設計&#xff08;圖1&#xff09;&#xff1a; CEEMDAN分解層&#xff1a;對非平穩風速序列進行自適應分解多模態特征融合模塊&#…

ubuntu24.04啟用fcitx 5

在ubuntu24.04中啟用fcitx 5 ubuntu24.04系統自帶三種鍵盤輸入法系統&#xff1a; IBusFcitx 5XIM 系統默認使用的是IBus,這個拼音輸入少了一些智能的味道&#xff0c;比較影響輸入體驗。換用Fcitx 5后&#xff0c;加上搜狗細胞詞庫&#xff0c;感覺很絲滑&#xff0c;特記錄…

【HTML/CSS面經】

HTML/CSS面經 HTML1. script標簽中的async和defer的區別2. H5新特性&#xff08;1 標簽語義化&#xff08;2 表單功能增強&#xff08;3 音頻和視頻標簽&#xff08;4 canvas和svg繪畫&#xff08;5 地理位置獲取&#xff08;6 元素拖動API&#xff08;7 Web Worker&#xff08…

Dolphin文檔解析從理論到實踐——保姆級教程

論文&#xff1a;https://arxiv.org/abs/2505.14059 代碼&#xff1a;github.com/bytedance/Dolphin 2025年5月&#xff0c;字節開源了文檔解析Dolphin&#xff0c;讓文檔解析效率提升83%。本文將深入解析字節跳動最新開源的Dolphin模型&#xff0c;先看理論再實戰體驗。 現實…