文章目錄
- 一、作者與下載
- 1.1 軟件作者
- 1.2 軟件下載
- 二、原理簡述
- 2.1 空間分異性與地理探測器的提出
- 2.2 地理探測器的數學模型
- 2.21 分異及因子探測
- 2.22 交互作用探測
- 2.23 風險區與生態探測
- 三、使用:excel
一、作者與下載
1.1 軟件作者
作者:
DOI: 10.11821/dlxb201701010
文獻:地理探測器:原理與展望。直接看這個文獻也可以。
1.2 軟件下載
主頁:http://www.geodetector.cn/Download.html
分別是excel宏、R包、QGIS和ArcGIS Pro工具箱。
excel的都帶有示例數據,不過第三個和第一個的數據是相同的(可能是網站文件設置錯誤,截至我發文日期)。
二、原理簡述
2.1 空間分異性與地理探測器的提出
空間分異性的科學意義:
空間分異性(空間分層異質性)表現為地理現象在子區域內的方差小于總區域方差
,例如氣候帶、土地利用分區等。地理探測器通過量化這一分異性,為揭示其驅動因子提供了統計學工具。
地理探測器的核心優勢:
- 無需線性假設:適用于非線性關系分析。
- 物理含義明確:通過方差分解直接量化因子解釋力。
- 多類型數據兼容:支持類型量(如分類地圖)和離散化數值量的分析。
基本邏輯:
- 分異性檢驗:若子區域方差和( S S W SSW SSW)小于總方差( S S T SST SST),則存在空間分異。
- 因子關聯性:若兩變量空間分布一致,則存在統計關聯。
2.2 地理探測器的數學模型
2.21 分異及因子探測
q統計量用于度量因子解釋力:
q = 1 ? ∑ h = 1 L N h σ h 2 N σ 2 = 1 ? S S W S S T q = 1 - \frac{\sum_{h=1}^{L} N_h \sigma_h^2}{N\sigma^2} = 1 - \frac{SSW}{SST} q=1?Nσ2∑h=1L?Nh?σh2??=1?SSTSSW?
式中:
- L L L為分層數, N h N_h Nh?和 N N N為子區域與全區域樣本數。
- σ h 2 \sigma_h^2 σh2?和 σ 2 \sigma^2 σ2為子區域與總體方差。
顯著性檢驗通過非中心F分布實現:
F = N ? L L ? 1 ? q 1 ? q ~ F ( L ? 1 , N ? L ; λ ) F = \frac{N-L}{L-1} \cdot \frac{q}{1-q} \sim F(L-1, N-L; \lambda) F=L?1N?L??1?qq?~F(L?1,N?L;λ)
其中非中心參數 λ \lambda λ為:
λ = 1 σ 2 [ ∑ h = 1 L Y ˉ h 2 ? 1 N ( ∑ h = 1 L N h Y ˉ h ) 2 ] \lambda = \frac{1}{\sigma^2} \left[ \sum_{h=1}^{L} \bar{Y}_h^2 - \frac{1}{N} \left( \sum_{h=1}^{L} N_h \bar{Y}_h \right)^2 \right] λ=σ21? ?h=1∑L?Yˉh2??N1?(h=1∑L?Nh?Yˉh?)2 ?
某個因子的q值越大,他對因變量的解釋力就越強。顯著性檢驗的p值,就不用說了吧,比如小于0.01,就代表xxx.
2.22 交互作用探測
通過比較單因子與多因子疊加的 q q q值,判斷交互作用類型:
- 非線性增強: q ( X 1 ∩ X 2 ) > q ( X 1 ) + q ( X 2 ) q(X_1 \cap X_2) > q(X_1) + q(X_2) q(X1?∩X2?)>q(X1?)+q(X2?)
- 雙因子增強: q ( X 1 ∩ X 2 ) > max ? ( q ( X 1 ) , q ( X 2 ) ) q(X_1 \cap X_2) > \max(q(X_1), q(X_2)) q(X1?∩X2?)>max(q(X1?),q(X2?))
- 單因子主導: max ? ( q ( X 1 ) , q ( X 2 ) ) < q ( X 1 ∩ X 2 ) < q ( X 1 ) + q ( X 2 ) \max(q(X_1), q(X_2)) < q(X_1 \cap X_2) < q(X_1) + q(X_2) max(q(X1?),q(X2?))<q(X1?∩X2?)<q(X1?)+q(X2?)
- 獨立作用: q ( X 1 ∩ X 2 ) = q ( X 1 ) + q ( X 2 ) q(X_1 \cap X_2) = q(X_1) + q(X_2) q(X1?∩X2?)=q(X1?)+q(X2?)
- 非線性減弱: q ( X 1 ∩ X 2 ) < min ? ( q ( X 1 ) , q ( X 2 ) ) q(X_1 \cap X_2) < \min(q(X_1), q(X_2)) q(X1?∩X2?)<min(q(X1?),q(X2?))
這里的疊加,不是把各個因子相加,而是相交,簡單來說就是分類增加了。看下圖就明白了:
2.23 風險區與生態探測
-
風險區差異檢驗(t檢驗):
t Y ˉ h = 1 ? Y ˉ h = 2 = Y ˉ h = 1 ? Y ˉ h = 2 Var ( Y ˉ h = 1 ) n h = 1 + Var ( Y ˉ h = 2 ) n h = 2 t_{\bar{Y}_{h=1} - \bar{Y}_{h=2}} = \frac{\bar{Y}_{h=1} - \bar{Y}_{h=2}}{\sqrt{\frac{\text{Var}(\bar{Y}_{h=1})}{n_{h=1}} + \frac{\text{Var}(\bar{Y}_{h=2})}{n_{h=2}}}} tYˉh=1??Yˉh=2??=nh=1?Var(Yˉh=1?)?+nh=2?Var(Yˉh=2?)??Yˉh=1??Yˉh=2??
自由度 d f df df為:
d f = ( Var ( Y ˉ h = 1 ) n h = 1 + Var ( Y ˉ h = 2 ) n h = 2 ) 2 1 n h = 1 ? 1 ( Var ( Y ˉ h = 1 ) n h = 1 ) 2 + 1 n h = 2 ? 1 ( Var ( Y ˉ h = 2 ) n h = 2 ) 2 df = \frac{\left( \frac{\text{Var}(\bar{Y}_{h=1})}{n_{h=1}} + \frac{\text{Var}(\bar{Y}_{h=2})}{n_{h=2}} \right)^2}{\frac{1}{n_{h=1}-1} \left( \frac{\text{Var}(\bar{Y}_{h=1})}{n_{h=1}} \right)^2 + \frac{1}{n_{h=2}-1} \left( \frac{\text{Var}(\bar{Y}_{h=2})}{n_{h=2}} \right)^2} df=nh=1??11?(nh=1?Var(Yˉh=1?)?)2+nh=2??11?(nh=2?Var(Yˉh=2?)?)2(nh=1?Var(Yˉh=1?)?+nh=2?Var(Yˉh=2?)?)2? -
生態探測(F檢驗):
F = N X 1 ( N X 2 ? 1 ) S S W X 1 N X 2 ( N X 1 ? 1 ) S S W X 2 F = \frac{N_{X1}(N_{X2}-1)SSW_{X1}}{N_{X2}(N_{X1}-1)SSW_{X2}} F=NX2?(NX1??1)SSWX2?NX1?(NX2??1)SSWX1??
其中 S S W X 1 SSW_{X1} SSWX1?和 S S W X 2 SSW_{X2} SSWX2?為兩因子分層后的層內方差和。
三、使用:excel
以excel版本為例,R語言和GIS版本的也是類似的,R語言看它的help有函數說明的。
直接打開excel版本的xlsm
文件,你可能無法使用,因為這是帶宏的表格,系統會阻止運行。
在xlsm文件上右鍵–>屬性:在最下面的位置會有一個解除阻止運行之類的選項(名字忘了),設置一下即可。圖中我已經解除限制了,沒有顯示。
🟢打開表格:里面的數據可以刪除換成自己的。自變量
需要設置為分類變量。比如一個自變量是全國各個城市的GDP,你可以使用各自算法將數據分為幾類,比如使用分位數,分為高中低三類,再編碼為1、2、3這種。這個不會的話問AI即可。
接著讀取數據到GUI界面,設置自變量、因變量,運行。
運行后會生成幾個sheet:一般只使用交互效應和因子探測的表格,環境和風險的不常用。
🟢 數據說明:
他需要你提供一個“表格”形式的數據,比如ArcGIS的屬性表。
數據量不要太大了:
- 第一是數據量大,你電腦內存可能不足,比如一個像元一個值,幾十米分辨率,你的研究區可能就會有幾十億個像元,存為csv需要幾十GB,運行的時候內存通常不足;
- 第二是運行時間太久,這個不用多說;
- 第三是使用excel的情況下,excel就支持幾百萬行數據。實際上幾萬行數據,這個程序就會溢出的。
- 第四十結果q值會非常小,因為這個計算出來的方差會非常小,那個比值接近1,q就接近0了。
建議的數據示例:每個城市的數據(因變量+自變量),這樣就只有幾百或者幾十行數據。
另外一點是,自變量的分類(離散化)可能會影響結果:因為這個地理探測器的原理可以看作是,找到一條或者幾條分界線,使得自變量和因變量都是用這一組分界線,能將數據很好的區分(當然這個比喻并不是是否準確)。這個分界線其實就相當于你對自變量的分類
。
參考文獻:
王勁峰, 徐成東. 地理探測器:原理與展望[J]. 地理學報, 2017, 72(1): 116-134 https://doi.org/10.11821/dlxb201701010
Jinfeng WANG, Chengdong XU. Geodetector: Principle and prospective[J]. Acta Geographica Sinica, 2017, 72(1): 116-134 https://doi.org/10.11821/dlxb201701010