文章目錄
- Clustering Techniques
- Partitioning-Based Algorithms
- Density-Based Algorithms
- Hierarchical-based algorithms
- Clustering Enabled Channel Modeling
- Cluster-Based Channel Models
- Clustering Algorithms
Clustering Techniques
聚類是一種已被廣泛用于數據分析的技術。聚類的目標是以某種方式發現一組對象的自然分組,使得同一組(稱為一個簇)中的對象彼此之間的相似性(在某種意義上)要大于與其他組中對象的相似性。它有助于獲取數據的潛在結構并從數據中獲得洞察力,因此被認為是分析海量數據的強大工具。
聚類算法用于將數據劃分成簇,其中簇的數量既可以預先指定,也可以是聚類過程的結果。通常,不同的聚類算法可以大致分為 [2, 3]
- 基于劃分的算法
- 基于密度的算法
- 基于層次的算法。
Partitioning-Based Algorithms
基于劃分的算法通常通過優化一個準則函數來產生簇。平方誤差和函數是最直觀且常用的準則之一,它對于處理孤立且緊湊的簇效果很好。K-means算法是基于平方誤差的最著名的聚類算法,因其易于實現和低復雜度而廣受歡迎,這也促使了其在無線信道建模中的應用,具體將在后文報告。圖1a闡釋了K-means算法的主要思想。它從一個隨機的初始劃分開始,并不斷地將每個對象重新分配到最近的簇,直到滿足收斂準則。K-means算法的一個主要問題是它對初始劃分和簇的數量很敏感,并且K-means的迭代優化過程不能保證收斂到全局最優。其他基于劃分的算法包括K-medoids、K-modes、fuzzy c-means等。
Density-Based Algorithms
在這種情況下,首先需要定義數據的密度,然后將密度高于數據集其余區域的區域作為簇。因此,基于密度的算法能夠發現任意形狀的簇,并且不需要預先指定簇的數量。最流行的基于密度的聚類算法是DBSCAN。在DBSCAN中,所有數據點被分為核心點(core points)、密度可達點(density-reachable points)和離群點(outliers)。圖1b闡釋了DBSCAN的主要思想。DBSCAN通過吸收一個數據對象鄰域半徑內的所有對象(即,從該對象可達的對象)來創建一個新簇,并且該鄰域需要滿足用戶指定的密度閾值(即,形成一個簇所需的最少點數)。DBSCAN算法的一個主要問題是它對密度閾值的選擇很敏感。如果數據沒有被很好地理解,選擇一個有意義的密度閾值是具有挑戰性的。其他基于密度的算法包括OPTICS、DENCLUE等等。
Hierarchical-based algorithms
特別是其中的凝聚式算法,其起始時每個觀測點自成一簇,然后以“自下而上”的方式將簇逐層合并。然而,為大型數據集構建一個譜系圖(樹)的計算開銷可能是巨大的。許多其他的聚類算法被用于大數據,例如,圖論和基于模型的算法(見[2, 3]及其參考文獻)。由于它們在信道建模中使用較少,本文不介紹其細節。
Clustering Enabled Channel Modeling
無線信道建模的目的是精確地模擬無線信道中的多徑分量(MPC),其動因在于許多測量活動已發現MPC具有簇結構,即,一些MPC組具有相似的特性(例如,角度、時延)。聚類確保了主導的MPC和相應的散射體能夠被更好地識別,物理環境可以在傳播層面得到更好的分析;如前所述,通過分離簇內和簇間統計數據,它還提供了一個更緊湊的描述。
測量數據的分析通常包括三個階段,如圖2所示:
-
通過使用一些估計算法從原始數據中提取MPC。
-
MPC聚類:這是一種依據多徑分量(MPC)的特征將其分組的統計學方法,在信道建模中起著關鍵作用。聚類流程對最終生成的信道模型具有重大影響,因為它決定了從數據中提取哪些特征以及這些特征的呈現方式。值得一提的是,物理信道的特性深刻地影響著“對于MPC而言,何為一次好的聚類?”這一問題的答案,同時,驗證標準(validation criteria)也為如何設計能達成預期結果的算法提供了深刻的洞見。
-
MPC/簇的表征,這主要涉及參數估計,如路徑損耗、衰落、時延和角度擴展等。利用這些參數和基礎知識,就可以建立一個信道模型。
Cluster-Based Channel Models
基于簇的信道建模已被學術界和工業界廣泛接受,主要原因如下:
- 許多高分辨率算法被用于MPC提取,因此可以更頻繁地觀察到聚類的MPC。
- 4G和5G系統中的多輸入多輸出(MIMO)和大規模MIMO要求 a double-directionally characterized channel,這再次有助于更清晰地看到MPC的聚類結構。
- 聚類信道建模已被證明可以在保持精度的同時降低復雜性。
從用于單輸入單輸出(SISO)信道的Saleh-Valenzuela模型到MIMO信道模型(如COST 259、COST 2100等)[1],基于簇的信道建模已被廣泛采用。通常,信道模型中使用以下四種簇的概念:
時延域簇:主要在時延域中觀察到(例如,從SISO信道沖激響應CIR中),尤其是在測量帶寬較大時。單個時延域主導簇的功率時延分布(PDP)通常被建模為單邊指數函數,如圖3a所示,不同的簇可能具有相同或不同的初始時延和衰減時間常數。時延域聚類的一個典型應用是Saleh-Valenzuela模型。
角度域(或角-時延域)簇:當從定向(或MIMO)信道探測中提取出MPC的角度(例如,到達角AOA和離開角AOD)時,通常會發現離散的MPC在角度域或聯合角-時延域中呈簇狀分布,如圖3b所示。為了表征此類簇,需要根據角擴展和簇內角度分布來對MPC的角度進行建模。這類簇被廣泛用于雙向信道模型中,例如COST 259。
孿生簇:在基于幾何的隨機信道模型中,當表征一個MPC與環境的多次相互作用所帶來的影響時被廣泛使用。如圖3c所示,孿生簇是兩個耦合的等效相互作用對象的簇,用于表示多次反射或衍射的MPC。孿生簇的位置可以獨立選擇,從而允許在發射機和接收機處對角度進行獨立調整。孿生簇的概念已被COST 273信道模型采納為一種基礎建模方法。
公共簇:用于模擬多鏈路場景中鏈路間的相關特性。其主要思想是通過允許不同鏈路中的一定比例的能量通過相同的簇進行傳播,從而控制不同鏈路之間的相關性。如圖3d所示,如果兩個傳播鏈路受到同一個簇(即公共簇)的影響,那么相應的兩個鏈路就是相關的。公共簇被用于COST 2100信道模型的多鏈路仿真中。
值得注意的是,上述這些簇的概念是相互重疊的,例如,孿生簇或公共簇可以以角-時延域簇的形式存在,或者它們可以在幾何(x?y?zx-y-zx?y?z)平面中被描述。請注意,聚類也可以在傳播環境的幾何維度上進行,特別是當它基于射線追蹤時。然而,由于篇幅所限,本文的其余部分將專注于時延/角度域的聚類。
Clustering Algorithms
由于MPC受到隨機且復雜的傳播環境的顯著影響,簇的概念往往是憑直覺而非明確定義的。大多數情況下,不存在客觀上“正確”的聚類結果。在2007年之前,MPC聚類主要通過目視檢查完成,因為人眼即使在嘈雜的數據中也能檢測到模式和結構。然而,這種方法耗時、易錯(人眼即使在完全隨機的數據中也傾向于檢測到簇),并且無法對多維數據進行聚類。這些缺點,加上測得的MPC在數量和種類上的增加,限制了目視檢查的應用。因此,信道建模需要自動聚類算法。
盡管如前所述,聚類分析已在大數據分析中得到廣泛討論,但找到好的MPC聚類算法在很大程度上仍是一個開放性課題。接下來,我們將介紹該領域最廣泛使用的聚類算法,這些算法也總結在表1中。
KPowerMeans算法 [4]:該算法基于K-means框架,并在確定MPC的質心時包含了其功率。選擇簇的方式是使MPC到其質心的總距離最小化。簇數量的上限和下限必須預先知道,最終的簇數量通過使用一些有效性指標來確定,這些指標強調每個簇的緊湊性以及簇之間的隔離度。由于KPowerMeans算法需要關于簇數量的先驗知識,如何選擇簇的數量仍然是一個開放性課題,盡管文獻中已提出了各種標準。圖4a和4b展示了使用KPowerMeans算法對室內測量進行MPC聚類分析的結果,其中MPC分布在時延域和角度域。圖4b中的簇數量是通過目視檢查確定的,其產生的聚類結果通常不具說服力。
基于KPD的算法 [5]:最近提出的基于核功率密度(KPD)的聚類算法是一個基于密度的聚類框架。在基于KPD的算法中,通過使用MPC的核功率密度估計來融入MPC的建模行為,并且僅考慮KKK個最近的MPC來更好地識別局部密度變化。MPC的聚類是通過檢測MPC之間的密度可達路徑來自動進行的。該算法不需要關于簇的先驗知識,并且在簇數量多和簇的角度擴展大的情況下表現良好。圖4c顯示了使用基于KPD的算法對室內測量進行MPC聚類分析的結果,并提供了對簇數量的可信估計。圖4c還顯示了MPC簇在角-時延空間中被很好地分開了。
基于峰度(Kurtosis)的算法 [6]:該算法基于一個假設,即一個簇中MPC的幅度呈對數正態分布,并使用峰度測量來融入這一假設。聚類通過使用區域競爭技術進一步執行。該算法不需要特定于信道的設置;然而,它只能用于在時延域中對MPC進行聚類。
基于稀疏度(Sparsity)的算法 [7]:該算法考慮了Saleh-Valenzuela模型的一個特征,即一個簇的PDP是單邊的,并隨著時延的增加呈指數下降,它利用基于稀疏度的優化來恢復信道沖激響應(CIR)。研究發現,與直接在原始CIR中識別簇相比,使用恢復后的CIR進行簇識別提高了準確性。該算法不需要關于簇的初始信息的先驗知識;然而,它依賴于這樣一個假設,即每個簇的PDP都是以一個突然的起始然后緊隨一個衰減開始的。圖4d-4f顯示了在與圖4a相似的環境下使用測量數據得到的PDP聚類結果,其中MPC分布在時延域。研究發現,基于稀疏度的算法提供的聚類結果很好地反映了Saleh-Valenzuela模型的建模假設。圖4e中的KPowerMeans算法未能提供與Saleh-Valenzuela模型一致的結果。
其他:一些其他的算法也被用于MPC聚類,例如,[8]中使用了模糊c均值(Fuzzy-c-means)算法,[9]中使用了DBSCAN算法,并且在仿真信道上獲得了良好的性能。對于測量數據的進一步驗證仍是必要的。