NeighborGeo:基于neighbors的IP地理定位
X. Wang, D. Zhao, X. Liu, Z. Zhang, T. Zhao, NeighborGeo: IP geolocation based on neighbors, Comput. Netw. 257 (2025) 110896,
3. NeighborGeo
本文提出NeighborGeo,利用圖結構學習和有監督對比學習來建立可靠的地標-目標關系,并識別適當的相鄰地標,從而提高預測精度。在接下來的幾節中,我們將討論這個問題的定義,并詳細介紹NeighborGeo的設計。
3.1. Problem definition
3.1.1. IP geolocation
IP地理定位旨在根據地標IP之間的特征關系和地標IP的位置信息來預測目標IP的位置。具體地說,鑒于給定IP數據的??個地標,特征信息(如asname、ISP,ping時間和路由路徑)
,和位置信息(經度和緯度)表示
,我們的目標是使用數據驅動的模型預測的精確位置信息,定義為
,為一個目標IP地址
有它自己的特性信息
。
為了實現這一目標,我們將地標IP地址、目標IP地址、地標的特征信息、目標IP的特征信息以及地標的位置信息整合到模型中。目的是讓模型學習和計算目標IP地址的位置信息作為輸出。此外,提高模型提供準確位置信息的精度,需要對學習率、模塊比例等可學習參數進行細化和調整。NeighborGeo模型由Eq.(1)表示:
其中??表示模型的可學的參數集。
3.1.2. Uniform/uneven distribution of landmarks
地標點的均勻分布可以提高IP地址的定位精度。當周圍路標數據均勻密集分布時,目標-路標關系的魯棒性更強,從而提高定位精度。此外,這種均勻分布降低了不可靠的目標-地標關系的發生率,并最小化了近鄰選擇中的錯誤,因為與地標的更接近限制了顯著不準確性的潛在可能性。為了更好地理解路標分布,給出了路標分布均勻性和不均勻性的明確定義。
均勻分布(Uniform Distribution):當路標在空間中均勻分布時,每個路標周圍都有足夠數量的其他路標,它們之間的距離變化很小。標記點在整個區域的分布是平衡的,沒有明顯的簇或稀疏區域。
分布不均勻(Uneven Distribution):當路標在空間中分布不均勻時,它們之間的距離存在顯著變化。一些地區可能有高度集中的地標,而其他地區幾乎沒有地標。這種類型的分布通常會導致顯著的離群點或大的稀疏區域,使地標的分布看起來是分散的和不規則的。
為了量化這一概念,通過結合地標數量、地標間距的標準差和信息熵來評估地標分布的均勻性。標記點的數量確保有足夠的參考點;標準[33]偏差評估路標間距的離散度,有助于識別潛在的離群點;而信息熵衡量的是分布的整體均勻性。當路標數量充足時,通過核密度估計(Kernel Density Estimation, KDE)計算得到的信息熵[33]與均勻分布的參考熵緊密吻合,且路標間距的標準差較低,認為路標分布均勻且相鄰點足夠多。該方法能夠更準確地表示路標的空間分布特征。
3.2. NeighborGeo
3.2.1. Model overview
如圖1所示,建模過程從生成和優化IP分布圖開始。首先,數據初始化對特征數據進行預處理,創建以最后一跳公共路由器為中心的初始IP分布圖;然后,圖結構優化模塊利用Gumbel重參數化生成可靠的目標-地標地圖;然后,對比學習模塊通過最小化相鄰地標之間的距離來細化模型對鄰居關系的理解。經過多次迭代,形成最終的優化地圖結構,準確表示地標與目標IP之間的關系,實現精確的地理位置預測。
圖1所示。NeighborGeo IP分布圖生成與優化的基本工作流程。
我們的模型NeighborGeo的主要架構如圖2所示。NeighborGeo主要由4個部分組成:
(1)數據初始化(Data Initialization):該部分使用公共路由器作為中心集線器連接目標和地標。同一公共路由器下的目標和地標被分組為批次,以方便后續的模型訓練。
(2)圖結構學習模塊(