發布于24年國際學習和控制論雜志 文獻地址
簡要總結
《Online streaming feature selection for high-dimensional small-sample data》研究了高維小樣本數據(HDSS)在類別不平衡情況下的在線流式特征選擇問題,提出了一種名為OSFSHS的算法。該算法基于類別密度自適應鄰域關系假設,利用在線顯著性分析、相關性分析和冗余更新技術,動態選擇特征子集。通過12個數據集的實驗驗證,OSFSHS在分類準確率、F-score和G-mean指標上優于六種主流算法,尤其在少數類預測中表現突出。其創新點在于自適應鄰域定義和在線特征評估框架,為實時數據處理提供了新思路。
以下是詳細說明:
1. 研究背景
高維小樣本數據(HDSS)是指特征維度遠大于樣本數量的數據類型,常見于圖像識別、文本分類和醫療診斷等領域。這種數據面臨以下挑戰:
- 高維性與過擬合:特征維度高導致維度災難,模型易過擬合。
- 小樣本性:樣本量不足,難以充分訓練模型。
- 類別不平衡:多數類樣本占主導,少數類樣本稀少,模型往往偏向多數類,而少數類(如欺詐檢測中的異常樣本)在應用中更關鍵。
- 在線流式場景:特征逐個或成組到達,需動態選擇最優特征子集,而非傳統靜態選擇。
傳統特征選擇方法假設特征空間固定且完整,忽視類別不平衡,導致少數類預測性能不足。現有的類別不平衡處理方法(如過采樣、欠采樣)改變數據分布,可能引入噪聲或丟失信息;而直接建模方法(設計特定算法直接處理不平衡數據)對難以適應特征流式到達的動態環境。因此,亟需一種兼顧HDSS特性、類別不平衡和在線需求的特征選擇方法。
2. 基于的假設
OSFSHS算法基于以下核心假設:
- 類別密度決定鄰域關系:樣本的鄰域關系應由其所在類別的分布密度決定,而非統一固定距離或鄰居數量。這種假設認為類內密度信息能更準確反映不平衡數據的結構。
- 特征重要性動態變化:新到達的特征可能比已有特征更重要,特征子集需隨時間動態調整。
- 原始分布保持:不改變數據原始分布,僅通過類內信息評估特征,避免采樣方法帶來的偏差。
這些假設旨在解決傳統方法對不平衡數據分布的忽視,同時適應在線流式場景的實時性需求。
3. 使用的技術路線
OSFSHS的技術路線分為三個核心模塊,構成完整的在線流式特征選擇框架:
- 在線顯著性分析:
- 評估新到達特征的鄰域一致性,若高于已有特征子集,則替換或加入。
- 在線相關性分析:
- 檢查新特征與已有特征的聯合依賴性,若聯合效果更好,則保留新特征。
- 在線冗余更新:
- 移除特征子集中冗余特征,保證子集高效性。
技術路線依托自適應鄰域關系和鄰域一致性度量,通過動態調整實現特征選擇的實時性和準確性。
4. 實現的技術細節
OSFSHS的具體實現包括以下步驟:
(1) 自適應鄰域關系
- 定義:基于類別密度為每個樣本動態分配鄰居數量,而非固定k值。
- 過程:利用目標樣本所在類別的分布信息,計算類內密度,確定鄰域范圍。
- 優勢:避免傳統k近鄰方法對稀疏或密集區域的統一處理,適應不平衡數據。
(2) 鄰域一致性度量
- 定義:衡量特征子集與標簽空間的一致性,作為特征重要性標準。
- 計算:基于新鄰域關系,評估特征如何區分不同類別。
- 應用:用于后續的顯著性、相關性和冗余分析。
(3) 在線流式特征選擇
- 階段1:在線顯著性分析
- 輸入新特征,計算其鄰域一致性。
- 若一致性高于已有特征子集,則替換低效特征。
- 階段2:在線相關性分析
- 計算新特征與已有特征子集的聯合依賴性。
- 若聯合依賴性優于單一特征,則保留新特征。
- 階段3:在線冗余更新
- 檢查已有特征子集,若某特征與新特征聯合依賴性低于新特征單獨依賴性,則移除冗余特征。
(4) 算法流程
- 輸入:流式到達的特征、樣本數據、標簽。
- 輸出:動態更新的特征子集。
- 特點:實時性強,計算復雜度低,適合在線場景。
5. 詳細的數學公式表達
以下是OSFSHS的關鍵數學表達(因原文未提供具體公式,此處根據描述推導典型形式):
(1) 鄰域一致性度量
設特征子集 S S S,樣本 x i x_i xi? 的類別標簽為 y i y_i yi?,鄰域為 N ( x i ) N(x_i) N(xi?),一致性定義為:
C ( S ) = 1 n ∑ i = 1 n I ( y i = majority ( N ( x i , S ) ) ) C(S) = \frac{1}{n} \sum_{i=1}^n \mathbb{I}(y_i = \text{majority}(N(x_i, S))) C(S)=n1?i=1∑n?I(yi?=majority(N(xi?,S)))
其中:
- n n n 為樣本數;
- I \mathbb{I} I 為指示函數,若 y i y_i yi? 與鄰域多數類別一致則為1,否則為0;
- N ( x i , S ) N(x_i, S) N(xi?,S) 是基于特征子集 S S S 計算的鄰域。
(2) 在線顯著性分析
新特征 f new f_{\text{new}} fnew? 的顯著性:
Sig ( f new ) = C ( S ∪ { f new } ) ? C ( S ) \text{Sig}(f_{\text{new}}) = C(S \cup \{f_{\text{new}}\}) - C(S) Sig(fnew?)=C(S∪{fnew?})?C(S)
若 Sig ( f new ) > θ \text{Sig}(f_{\text{new}}) > \theta Sig(fnew?)>θ(閾值),則 f new f_{\text{new}} fnew? 加入 S S S。
(3) 聯合依賴性
特征 f new f_{\text{new}} fnew? 與子集 S S S 的聯合依賴性可用互信息表示:
I ( f new , S ; Y ) = H ( Y ) ? H ( Y ∣ f new , S ) I(f_{\text{new}}, S; Y) = H(Y) - H(Y | f_{\text{new}}, S) I(fnew?,S;Y)=H(Y)?H(Y∣fnew?,S)
其中:
- H ( Y ) H(Y) H(Y) 為標簽熵;
- H ( Y ∣ f new , S ) H(Y | f_{\text{new}}, S) H(Y∣fnew?,S) 為條件熵。
(4) 冗余判斷
對于已有特征 f j ∈ S f_j \in S fj?∈S,若:
I ( f new , f j ; Y ) < I ( f new ; Y ) I(f_{\text{new}}, f_j; Y) < I(f_{\text{new}}; Y) I(fnew?,fj?;Y)<I(fnew?;Y)
則 f j f_j fj? 被視為冗余并移除。
這些公式體現了OSFSHS的動態評估過程,具體實現中可能涉及參數調整和優化。
6. 提出的創新點
OSFSHS的創新點包括:
- 基于類別密度的鄰域關系:
- 通過類內密度動態定義鄰域,克服傳統方法的固定假設,適應不平衡數據。
- 在線特征評估框架:
- 包含顯著性分析、相關性分析和冗余更新,形成完整在線選擇體系。
- 保持原始分布:
- 不依賴采樣,僅利用類內信息選擇特征,避免數據分布改變。
這些創新提升了算法在HDSS和類別不平衡場景中的適用性。
7. 實驗分析
(1) 實驗設置
- 數據集:12個公開數據集(10個不平衡,2個常規),特征維度2308至12600,類別比例差異大(如GENE9為32.83)。
- 評估指標:分類準確率、F-score(綜合精確率和召回率)、G-mean(平衡正負類效果)。
- 對比算法:OSFS、FOSFS、SAOLA、KOFSD、OFSD、OFSI。
(2) 結果分析
- 性能表現:
- OSFSHS在多數數據集上優于對比算法,尤其在F-score和G-mean上。例如,BREAST數據集F-score達0.9836(KNN)。
- 少數類預測:
- 在不平衡數據集上,OSFSHS顯著提升少數類性能,體現了對類別不平衡的處理能力。
- 統計檢驗:
- Friedman和Nemenyi檢驗顯示OSFSHS性能差異顯著,平均排名第一。
- 穩定性:
- 雷達圖顯示OSFSHS總體穩定,但在GENE10等極端稀疏數據集上略有波動。
(3) 結論
實驗證明OSFSHS在HDSS在線流式特征選擇中表現優異,尤其適合類別不平衡場景。
算法流程圖
實驗結果
8. 總體評價
OSFSHS通過自適應鄰域關系和在線評估框架,解決了HDSS數據在類別不平衡下的特征選擇難題。其技術路線清晰,實驗結果令人信服,創新點突出,為實時數據處理提供了理論和實踐價值。未來可擴展至群體特征選擇和多標簽學習,進一步提升應用前景。