論文介紹
題目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China
期刊:Sustainable cities and society(中科院一區TOP,IF=10.5)
論文:https://doi.org/10.1016/j.scs.2025.106439
代碼:?https://github.com/whheda/LaRSE
數據:https://zenodo.org/records/15433646
年份:2025
單位:中山大學
注:本篇由論文原作者審閱
研究背景
快速的城市化進程帶來了全球建筑數量和功能的劇烈變化,及時準確的調查統計建筑物數量,并在此基礎上區分建筑物的用地屬性和功能,對于提升空間布局合理性、人類宜居性、城市可持續發展至關重要。
研究問題
-
土地利用分類是實現城市用地功能劃分的有效途徑,但土地利用分類研究多基于地塊尺度,難以滿足以建筑物單元為載體的人類活動空間的劃分;
-
建筑物足跡提取研究多關注建筑物邊緣輪廓,且在遙感俯視圖中建筑物視覺特征較為類似,難以推測其功能屬性。
如何實現建筑物足跡尺度的屬性功能分類?
-
現有解決途徑1:建筑物足跡公開產品+分類特征;但依賴已有產品,難以端對端應用。
-
現有解決途徑2:將此問題看作多類別語義分割問題;但傳統建筑物提取模型多關注邊緣輪廓,對功能語義推理能力不足。
-
研究啟示
- 不同功能的建筑物之間、建筑物與周圍實體之間具有一定的空間分布規律。充分利用空間規律或地學先驗,是建筑物功能準確推理的關鍵。
- 圖1. 語言模型中編碼的地理實體空間關系的底層機制可以幫助建筑物功能識別任務中的語義推理。
-
創新點
-
1)提出了視覺語言建筑物功能推理模型(LARSE),通過層級視覺編碼器提取建筑物局部邊緣輪廓和全局上下文嵌入特征,通過語言編碼器提取建筑物功能描述嵌入特征,設計多模態推理解碼器,綜合上述嵌入特征,實現功能推理。
2)在層級視覺編碼器中設計了建筑物全局上下文提取模塊(BGC)和建筑物局部細節提取模塊(BLD),不僅捕捉細粒度的局部建筑物輪廓,還通過聚合建筑物周圍視覺線索來形成全局上下文表示,用于后續功能推理。
3)在多模態推理解碼器中,通過對齊文本表示、像素級表示和相應的局部掩碼,精準學習細粒度的視覺概念。經過訓練,推理解碼器能夠將細粒度的語義信息從語言表示傳播到建筑物的局部視覺激活,從而能夠精確識別每座建筑物的功能。
-
圖2.?建筑物功能推理分割(LARSE)框架。
-
4)構建了一套建筑物功能分類數據集BUFF(BUilding Footprint Function),包含12940張0.5米分辨率的512x512大小的影像及標注,涉及10種建筑物功能類型。
-
圖3 BUFF數據集介紹
-
結果與分析
- 本文方法在多光譜無人機跟蹤數據集上全面優于現有主流方法,表現出更強的魯棒性和適應性。同時在多光譜和RGB通用數據集上也展現出良好的遷移能力,證明了其結構的通用性與效率。
- 圖4?在BUFF數據集上的可視化實驗結果
- 語言模型功能推理的可解釋性分析:
- 1)本研究的亮點在于利用語言模型強大的語義推理能力識別建筑物功能類型。因此,為了解其可解釋性,首先需要探究“經過語言模型編碼的建筑物功能描述是否具有指引作用”。本研究使用?t-SNE?可視化了語言模型編碼的每個建筑功能描述的特征嵌入,可以發現,相似的建筑功能屬性的嵌入向量方向較為一致,而屬性功能不同的嵌入向量方向差異較大。例如城中村(urban village)和住宅樓(residential)的嵌入向量方向較為一致,且與酒店(hotel)也較為一致,反映了居住屬性;而商業(commercial)和商務(business)的嵌入向量方向較為一致,反映了其經濟屬性,政府(government)和企事業單位或機構(institution)的嵌入向量方向也較為一致,反映了公共服務屬性。因此,建筑功能描述的特征嵌入具有指引作用。
- 圖5?通過t-SNE在三維特征空間中可視化由語言模型編碼的功能描述嵌入特征
- 2)然后,需要探究“經過建筑物功能語義描述的嵌入向量指引后,模型究竟是如何提升理解和推理能力的?”本研究通過對編碼器最深層的attention map進行可視化,利用自注意力機制過程中對全局上下文關聯的學習能力,試圖尋找模型推理的痕跡。在如圖6所示的場景中,我們選取education對應的像素的query q,并可視化其在整個場景上的attention map(即其他所有像素的key k與q相乘得到)。通過觀察發現,在有建筑物功能嵌入向量的指引時(w/ language model),education屬性與相鄰的操場及其綠化樹木的注意力強度是最強的,同時,也少量關注到周圍的居民樓和其他類型的建筑物;相比之下,在沒有建筑物功能嵌入向量的指引時(w/o language model),education屬性的建筑物更多的關注到了周圍的建筑物上,特別是居民樓上。因此,從最終的w/o language model的結果中可以看到,education building被錯誤的分類為residential。因此,建筑物功能語義描述的嵌入向量能夠指引視覺模型關注到最關鍵、最具判別性的地物類型或空間模式,從而提升視覺模型對于功能語義的推理能力。
- 圖6 注意力圖的可視化展示了通過構建函數描述嵌入所指示的相關知識。
- 3)最后,我們從“最終的分類結果中各建筑物功能類型在特征空間的聚集程度”來可視化語言模型的可解釋性和貢獻。同樣,我們使用t-SNE可視化方式,如圖7,可以發現,在建筑物功能描述嵌入向量的影響下,相同建筑屬性的分布變得更加緊密,從而提高了準確性。例如,在w/o language model的結果中,城中村(urban village)與居民樓(residential)的分布高度混合,而通過語言模型的關系理解,能夠實現明顯的區分。
- 圖7 利用t-SNE可視化建筑功能推理結果中各類型的特征聚集情況。
- 長江經濟帶區域10個省會城市建筑物功能制圖與分析:
- 在長江經濟帶上海、南京、武漢、成都等10個主要城市進行建筑物功能制圖驗證和數值統計,發現:
-
1)功能層面的建筑物足跡分布折射出區域經濟異質性:LARSE制圖結果顯示,長江經濟帶沿線各城市在建筑功能層面存在顯著異質性,東西部差異尤為突出性。以上海等城市為例,其建筑占地面積廣闊,商業與住宅建筑比例較高,體現出經濟發達、城市化程度高;而昆明、貴陽等西南城市因地理與民族多樣性等因素,村莊及城中村建筑所占比重較大。由此可見,地理條件與政策導向共同影響城市結構。地理層面上,東部地區憑借優越的區位和完善的交通網絡,吸引了大量投資與人口集聚;西部地區則受地形崎嶇、交通可達性有限等因素制約。政策層面上,《長江經濟帶發展規劃綱要》強調東西部區域協調發展,注重資源配置與功能布局。
2)功能層面的建筑物足跡分布凸顯出基礎公共設施區域均衡性:從政府、醫療和教育類建筑在長江經濟帶沿線城市分布的差異性較小可以看出,盡管經濟發展存在不平衡,但基礎公共服務設施在區域間分布較為均衡。這與《中共中央國務院關于推進以人為核心的新型城鎮化發展的若干意見》中提出的“城鄉融合發展”政策有一定關系。該政策通過資源合理配置,推動區域經濟協調發展,保障基礎公共服務的公平覆蓋。
-
圖8?對長江經濟帶區域中的上海、南京、武漢、成都等10個城市進行建筑功能制圖和可視化展示。
-
圖9?長江經濟帶足跡尺度建筑物功能統計
-
圖10 100米網格的人均醫療服務占有面積。