高維小樣本數據的在線流特征選擇

發布于24年國際學習和控制論雜志文獻地址

簡要總結

《Online streaming feature selection for high-dimensional small-sample data》研究了高維小樣本數據（HDSS）在類別不平衡情況下的在線流式特征選擇問題，提出了一種名為OSFSHS的算法。該算法基于類別密度自適應鄰域關系假設，利用在線顯著性分析、相關性分析和冗余更新技術，動態選擇特征子集。通過12個數據集的實驗驗證，OSFSHS在分類準確率、F-score和G-mean指標上優于六種主流算法，尤其在少數類預測中表現突出。其創新點在于自適應鄰域定義和在線特征評估框架，為實時數據處理提供了新思路。

以下是詳細說明：

1. 研究背景

高維小樣本數據（HDSS）是指特征維度遠大于樣本數量的數據類型，常見于圖像識別、文本分類和醫療診斷等領域。這種數據面臨以下挑戰：

高維性與過擬合：特征維度高導致維度災難，模型易過擬合。
小樣本性：樣本量不足，難以充分訓練模型。
類別不平衡：多數類樣本占主導，少數類樣本稀少，模型往往偏向多數類，而少數類（如欺詐檢測中的異常樣本）在應用中更關鍵。
在線流式場景：特征逐個或成組到達，需動態選擇最優特征子集，而非傳統靜態選擇。

傳統特征選擇方法假設特征空間固定且完整，忽視類別不平衡，導致少數類預測性能不足。現有的類別不平衡處理方法（如過采樣、欠采樣）改變數據分布，可能引入噪聲或丟失信息；而直接建模方法（設計特定算法直接處理不平衡數據）對難以適應特征流式到達的動態環境。因此，亟需一種兼顧HDSS特性、類別不平衡和在線需求的特征選擇方法。

2. 基于的假設

OSFSHS算法基于以下核心假設：

類別密度決定鄰域關系：樣本的鄰域關系應由其所在類別的分布密度決定，而非統一固定距離或鄰居數量。這種假設認為類內密度信息能更準確反映不平衡數據的結構。
特征重要性動態變化：新到達的特征可能比已有特征更重要，特征子集需隨時間動態調整。
原始分布保持：不改變數據原始分布，僅通過類內信息評估特征，避免采樣方法帶來的偏差。

這些假設旨在解決傳統方法對不平衡數據分布的忽視，同時適應在線流式場景的實時性需求。

3. 使用的技術路線

OSFSHS的技術路線分為三個核心模塊，構成完整的在線流式特征選擇框架：

在線顯著性分析：
- 評估新到達特征的鄰域一致性，若高于已有特征子集，則替換或加入。
在線相關性分析：
- 檢查新特征與已有特征的聯合依賴性，若聯合效果更好，則保留新特征。
在線冗余更新：
- 移除特征子集中冗余特征，保證子集高效性。

技術路線依托自適應鄰域關系和鄰域一致性度量，通過動態調整實現特征選擇的實時性和準確性。

4. 實現的技術細節

OSFSHS的具體實現包括以下步驟：

(1) 自適應鄰域關系

定義：基于類別密度為每個樣本動態分配鄰居數量，而非固定k值。
過程：利用目標樣本所在類別的分布信息，計算類內密度，確定鄰域范圍。
優勢：避免傳統k近鄰方法對稀疏或密集區域的統一處理，適應不平衡數據。

(2) 鄰域一致性度量

定義：衡量特征子集與標簽空間的一致性，作為特征重要性標準。
計算：基于新鄰域關系，評估特征如何區分不同類別。
應用：用于后續的顯著性、相關性和冗余分析。

(3) 在線流式特征選擇

階段1：在線顯著性分析
- 輸入新特征，計算其鄰域一致性。
- 若一致性高于已有特征子集，則替換低效特征。
階段2：在線相關性分析
- 計算新特征與已有特征子集的聯合依賴性。
- 若聯合依賴性優于單一特征，則保留新特征。
階段3：在線冗余更新
- 檢查已有特征子集，若某特征與新特征聯合依賴性低于新特征單獨依賴性，則移除冗余特征。

(4) 算法流程

輸入：流式到達的特征、樣本數據、標簽。
輸出：動態更新的特征子集。
特點：實時性強，計算復雜度低，適合在線場景。

5. 詳細的數學公式表達

以下是OSFSHS的關鍵數學表達（因原文未提供具體公式，此處根據描述推導典型形式）：

(1) 鄰域一致性度量

設特征子集 $S$ ，樣本 $x_i$ 的類別標簽為 $y_i$ ，鄰域為 $N(x_i)$ ，一致性定義為：

$\frac{1}{n} \sum_{i=1}^n \mathbb{I}(y_i = \text{majority}(N(x_i, S)))$

其中：

$n$ 為樣本數；
$\mathbb{I}$ 為指示函數，若 $y_i$ 與鄰域多數類別一致則為1，否則為0；
$N(x_i, S)$ 是基于特征子集 $S$ 計算的鄰域。

(2) 在線顯著性分析

新特征 $f_{\text{new}}$ 的顯著性：

$\text{Sig}(f_{\text{new}}) = C(S \cup \{f_{\text{new}}\}) - C(S)$

若 $\text{Sig}(f_{\text{new}}) > \theta$ （閾值），則 $f_{\text{new}}$ 加入 $S$ 。

(3) 聯合依賴性

特征 $f_{\text{new}}$ 與子集 $S$ 的聯合依賴性可用互信息表示：

$I(f_{\text{new}}, S; Y) = H(Y) - H(Y | f_{\text{new}}, S)$

其中：

$H (Y)$ 為標簽熵；
$f_{\text{new}}, S)$ 為條件熵。

(4) 冗余判斷

對于已有特征 $f_j \in S$ ，若：

$I(f_{\text{new}}, f_j; Y) < I(f_{\text{new}}; Y)$

則 $f_j$ 被視為冗余并移除。

這些公式體現了OSFSHS的動態評估過程，具體實現中可能涉及參數調整和優化。

6. 提出的創新點

OSFSHS的創新點包括：

基于類別密度的鄰域關系：
- 通過類內密度動態定義鄰域，克服傳統方法的固定假設，適應不平衡數據。
在線特征評估框架：
- 包含顯著性分析、相關性分析和冗余更新，形成完整在線選擇體系。
保持原始分布：
- 不依賴采樣，僅利用類內信息選擇特征，避免數據分布改變。

這些創新提升了算法在HDSS和類別不平衡場景中的適用性。

7. 實驗分析

(1) 實驗設置

數據集：12個公開數據集（10個不平衡，2個常規），特征維度2308至12600，類別比例差異大（如GENE9為32.83）。
評估指標：分類準確率、F-score（綜合精確率和召回率）、G-mean（平衡正負類效果）。
對比算法：OSFS、FOSFS、SAOLA、KOFSD、OFSD、OFSI。

(2) 結果分析

性能表現：
- OSFSHS在多數數據集上優于對比算法，尤其在F-score和G-mean上。例如，BREAST數據集F-score達0.9836（KNN）。
少數類預測：
- 在不平衡數據集上，OSFSHS顯著提升少數類性能，體現了對類別不平衡的處理能力。
統計檢驗：
- Friedman和Nemenyi檢驗顯示OSFSHS性能差異顯著，平均排名第一。
穩定性：
- 雷達圖顯示OSFSHS總體穩定，但在GENE10等極端稀疏數據集上略有波動。

(3) 結論

實驗證明OSFSHS在HDSS在線流式特征選擇中表現優異，尤其適合類別不平衡場景。

算法流程圖

在這里插入圖片描述

實驗結果

在這里插入圖片描述

8. 總體評價

OSFSHS通過自適應鄰域關系和在線評估框架，解決了HDSS數據在類別不平衡下的特征選擇難題。其技術路線清晰，實驗結果令人信服，創新點突出，為實時數據處理提供了理論和實踐價值。未來可擴展至群體特征選擇和多標簽學習，進一步提升應用前景。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/73509.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/73509.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/73509.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！