機器學習11——特征選擇與稀疏學習

上一章:機器學習10——降維與度量學習
下一章:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備@[TOC]
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備@[TOC]

文章目錄

      • 一、特征的基本概念與分類
      • 二、特征選擇的意義與方法
        • (一)基本思路
        • (二)常見特征選擇方法
      • 三、稀疏學習與字典學習
        • (一)稀疏表示
        • (二)字典學習
      • 總結

一、特征的基本概念與分類

特征是描述物體的屬性,根據與學習任務的相關性可分為三類:

  • 相關特征:對當前學習任務有用的屬性(如判斷“好瓜”時的“根蒂”“紋理”等);
  • 無關特征:與當前學習任務無關的屬性(如判斷“好瓜”時的“西瓜顏色”);
  • 冗余特征:信息可由其他特征推演出來的屬性(如“西瓜重量”和“西瓜體積”可能存在冗余)。

(注:文檔暫不深入討論冗余特征)

二、特征選擇的意義與方法

特征選擇是從給定特征集合中選出任務相關特征子集,核心是確保不丟失重要特征,目的是減輕維度災難(在少量屬性上構建模型)和降低學習難度(保留關鍵信息)。

(一)基本思路

特征選擇需解決兩個問題:子集搜索(生成候選特征子集)和子集評價(判斷子集好壞)。

  1. 子集搜索

    • 前向搜索:從空集開始,逐步添加最優特征(每次新增一個能提升評價的特征);
    • 后向搜索:從完整特征集開始,逐步移除最差特征(每次刪除一個降低評價的特征);
    • 雙向搜索:同時進行前向添加和后向刪除,提升搜索效率。
  2. 子集評價
    常用信息熵衡量特征子集的區分能力:

    • 特征子集AAA將數據集DDD劃分為VVV個子集DvD^vDv
    • 評價指標為信息增益:Gain(A)=Ent(D)?∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(A) = Ent(D) - \sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)Gain(A)=Ent(D)?v=1V?DDv?Ent(Dv),其中Ent(D)=?∑k=1∣Y∣pklog?2pkEnt(D) = -\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2 p_kEnt(D)=?k=1Y?pk?log2?pk?pkp_kpk?為第kkk類樣本占比)。
(二)常見特征選擇方法
  1. 過濾式選擇
    獨立于學習器,先對特征進行評分,再根據評分選擇特征。典型方法為Relief:

    • 核心思想:為每個特征計算“相關統計量”,衡量其區分同類與異類樣本的能力;
    • 關鍵概念
      • 猜中近鄰(near-hit):樣本xix_ixi?的同類最近鄰xi,nhx_{i,nh}xi,nh?
      • 猜錯近鄰(near-miss):樣本xix_ixi?的異類最近鄰xi,nmx_{i,nm}xi,nm?
    • 相關統計量計算
      δj=∑i[?diff(xij,xi,nhj)2+diff(xij,xi,nmj)2]\delta^j = \sum_i \left[-diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2\right]δj=i?[?diff(xij?,xi,nhj?)2+diff(xij?,xi,nmj?)2]
      diffdiffdiff為屬性差異度量:離散屬性不同取1,相同取0;連續屬性取歸一化后的絕對差);
    • 特點:計算效率高(時間開銷隨特征數線性增長),但未考慮學習器特性。
  2. 包裹式選擇
    以特定學習器的性能為評價標準,為其“量身定制”特征子集:

    • 優點:直接優化學習器性能,通常比過濾式效果好;
    • 缺點:需多次訓練學習器,計算開銷大。
  3. 嵌入式選擇
    將特征選擇嵌入模型訓練過程,通過正則化實現特征篩選:

    • L1范數正則化:在損失函數中加入λ∥w∥1\lambda\|w\|_1λw1?(如LASSO回歸),易產生稀疏解(部分特征權重wj=0w_j=0wj?=0),實現特征選擇;
    • L2范數正則化(嶺回歸):加入λ∥w∥22\lambda\|w\|_2^2λw22?,權重趨于小值但不稀疏,無法直接篩選特征;
    • 原理:L1正則化的等值線與損失函數等值線的交點常出現在坐標軸上,導致部分權重為0。

三、稀疏學習與字典學習

(一)稀疏表示

指數據矩陣中存在大量零元素(非整行/列零值),優勢包括:

  • 存儲高效(僅需記錄非零元素);
  • 增強模型可解釋性(非零特征為關鍵因素);
  • 適用于文本等天然稀疏數據。
(二)字典學習

通過學習“字典”矩陣BBB,將樣本表示為字典的稀疏線性組合(xi=Bαix_i = B\alpha_ixi?=Bαi?αi\alpha_iαi?為稀疏系數)。

  1. 優化目標
    minB,αi∑i=1m∥xi?Bαi∥22+λ∑i=1m∥αi∥1min_{B,\alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|_2^2 + \lambda\sum_{i=1}^m \|\alpha_i\|_1minB,αi??i=1m?xi??Bαi?22?+λi=1m?αi?1?
    (第一項為重構誤差,第二項為稀疏正則化)。

  2. 求解方法(迭代優化)

    • 固定字典BBB:求解稀疏系數αi\alpha_iαi?(類似LASSO問題);
    • 固定系數αi\alpha_iαi?:更新字典BBB,最小化重構誤差∥X?BA∥F2\|X - BA\|_F^2X?BAF2?XXX為樣本矩陣,AAA為系數矩陣);
    • KSVD算法:逐列更新字典,對殘差矩陣進行奇異值分解,取最大奇異值對應的向量更新字典列。

總結

特征選擇通過篩選相關特征減輕維度災難,分為過濾式(高效但獨立于學習器)、包裹式(針對性強但開銷大)、嵌入式(結合正則化,如L1范數)。稀疏學習通過稀疏表示和字典學習,在高效存儲和特征提取中發揮重要作用,適用于高維數據處理。

上一章:機器學習10——降維與度量學習
下一章:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備@[TOC]
機器學習實戰項目:【從 0 到 1 落地】機器學習實操項目目錄:覆蓋入門到進階,大學生就業 / 競賽必備@[TOC]

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/95983.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/95983.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/95983.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

整理python快速構建數據可視化前端的Dash庫

一.Dash框架# 導入 Dash 相關庫 import dash from dash import dcc, html # dcc 是 Dash 核心組件庫,html 是 HTML 組件庫 from typing import Generic# 創建一個 Dash 應用實例 app dash.Dash(__name__)# 定義應用的布局 app.layout html.Div(children[# 添加一…

RNN循環神經網絡(一):基礎RNN結構、雙向RNN

RNN循環神經網絡 什么是循環神經網絡? 循環神經網絡(Recurrent Neural Network, RNN)是一類專門用于處理序列數據的神經網絡架構。與傳統的前饋神經網絡不同,RNN具有"記憶"能力,能夠捕捉數據中的時間依賴關系…

#C語言——刷題攻略:牛客編程入門訓練(十):攻克 循環控制(二),輕松拿捏!

🌟菜鳥主頁:晨非辰的主頁 👀學習專欄:《C語言刷題合集》 💪學習階段:C語言方向初學者 ?名言欣賞:"代碼行數決定你的下限,算法思維決定你的上限。" 目錄 1. BC82 乘法表…

daily notes[16]

文章目錄意大利語單詞 **“bello”**一、核心含義二、變形規則:最重要的部分1. 當 “bello” 位于 **名詞前面** 時2. 當 “bello” 位于 **名詞后面** 或 **動詞后面** 時三、用法總結與對比四、其他用法和常見表達references意大利語單詞 “bello” 融合了 指示形…

【知識庫】計算機二級python操作題(二)

文章目錄基本操作題1基本操作題2基本操作題3簡單應用題1簡單應用題2綜合應用題1基本操作題1考生文件夾下存在一個文件PY101.py,請寫代碼替換橫線,不修改其他代碼,實現以下功能,隨機選擇一個手機品牌屏幕輸出。 # 請在...處使用一行…

Nginx 服務用戶與防盜鏈配置

目錄 Nginx 服務用戶與防盜鏈配置 1. 隱藏版本號 1.1 配置方法 1.2 生效與驗證 2. 修改當前程序賬號 2.1 操作步驟 3. 緩存時間 3.1 配置方法 3.2 說明 4. 日志分割 4.1 實現方式(腳本自動分割) 5. 連接超時時間 5.1 核心超時指令&#xff0…

域格4G模塊通信協議之HTTP(三):下載大文件的兩種方式

域格ASR系列模塊支持HTTP下載大文件,本文將提供兩種方式。一、直接通過URC上報數據基礎操作核心指令說明配置說明響應說明應用示例注意點二、HTTP Range分段下載核心指令說明注意點一、直接通過URC上報數據 若文件體積適中,且需要 MCU 即時處理數據&…

Android 圖片 OOM 防護機制設計:大圖加載、內存復用與多級緩存

1. 為什么圖片加載總讓 Android 開發抓狂? 圖片是 Android 應用中不可或缺的元素,從用戶頭像到高清壁紙,從商品詳情頁到動態表情包,圖片無處不在。然而,圖片加載是內存管理的雷區,稍不留神就可能觸發臭名昭著的 OutOfMemoryError(OOM)。為啥圖片這么“吃內存”?原因很…

9月9日

TCP 服務器端#include <myhead.h> #define SER_PORT 8888 //服務器端口號 #define SER_IP "192.168.108.179" //服務器IP地址 int main(int argc, const char *argv[]) {//創建一個用于連接的套接字文件描述符int sfd socket(AF_INET, SOCK_STRE…

Docker生產部署

目錄 一、準備工作&#xff1a;理解 Docker 與 Spring Boot 的關系 1. Docker 是什么&#xff1f; 2. Spring Boot 為什么適合 Docker&#xff1f; 二、編寫Dockerfile 三、配置管理 掛載外部配置文件 四、用 docker-compose 編排多服務 一、準備工作&#xff1a;理解 Do…

ARM 基礎(3)

ARM匯編與C語言函數的相互調用及參數傳遞匯編調用C函數參數傳遞規則 前4個參數通過寄存器 R0-R3 傳遞&#xff0c;超出部分從右向左壓棧。32位返回值存于 R0&#xff0c;64位整數用 R0 和 R1&#xff0c;浮點數通過 S0/D0 返回。示例&#xff1a;ARM匯編調用C函數.global _star…

OpenCV計算機視覺筆記合集

參考課程&#xff1a; 【黑馬程序員 OpenCV入門教程】 [https://www.bilibili.com/video/BV1Fo4y1d7JL] ZZHow(ZZHow1024) 學習路線 基本的圖像處理方法&#xff1a;幾何變換&#xff0c;形態學變換&#xff0c;圖像平滑&#xff0c;直方圖操作&#xff0c;模板匹配&#…

Mybatis-12 第三方緩存-EhCache

配置文檔 Ehcache配置文件ehcache.xml Java Ehcache緩存的timeToIdleSeconds和timeToLiveSeconds區別 基本介紹 1.EhCache是一個純Java的緩存框架&#xff0c;具有快速、精干等特點 2.MyBatis有自己默認的二級緩存&#xff08;前面我們已經使用過了&#xff09;&#xff0c;…

元器件--電容器

文章目錄一、技術理論??1、電容定義??2、定義式??3、單位換算??4、電容作用??5、電容特性二、組成結構??1、極板&#xff08;電極&#xff09;??????2、介質&#xff08;絕緣層&#xff09;????3、引線&#xff08;電極引出端&#xff09;????4、封裝…

【Leetcode hot 100】146.LRU緩存

問題鏈接 146.LRU緩存 問題描述 請你設計并實現一個滿足 LRU (最近最少使用) 緩存 約束的數據結構。 實現 LRUCache 類&#xff1a; LRUCache(int capacity) 以 正整數 作為容量 capacity 初始化 LRU 緩存int get(int key) 如果關鍵字 key 存在于緩存中&#xff0c;則返回關…

MySQL超大數據量查詢與刪除優化

引言 在處理TB級數據時&#xff0c;傳統SQL操作可能導致性能崩潰。本文揭示MySQL超大數據量場景下的核心優化策略&#xff0c;通過生產環境案例展示如何將億級數據刪除耗時從8小時壓縮至8分鐘&#xff0c;并附完整監控方案與容災措施。 深度剖析海量數據操作痛點 1. 傳統刪除操…

【內存管理】常用的頁表映射函數

1、pgd_addr_end 根據當前虛擬地址 addr 和目標結束地址 end&#xff0c;計算當前 PGD 項 能夠覆蓋的最大虛擬地址范圍的結束地址 next。 如果 addr 和 end 跨越多個 PGD 項&#xff08;即 end 超出當前 PGD 項的地址范圍&#xff09;&#xff0c;則返回當前 PGD 項的地址邊界。…

XR數字融合工作站賦能新能源汽車專業建設的創新路徑

XR數字融合工作站作為集PC、VR、MR技術于一體的軟硬件集成平臺&#xff0c;憑借其多維交互、虛實融合、智能管理等特性&#xff0c;為新能源汽車專業的教學改革與創新提供了全新解決方案。一、教學場景革新&#xff1a;構建沉浸式、互動化學習環境XR數字融合工作站通過多形態拼…

C語言通用鏈表終章:優雅的收尾 - 清空與銷毀

各類資料學習下載合集 ?https://pan.quark.cn/s/8c91ccb5a474? 經過前面的學習,我們已經從零構建了一個功能強大的通用鏈表,它能自如地進行節點的插入和刪除。我們的“數據火車”已經可以馳騁在內存的世界里。然而,旅途終有終點,當火車完成任務后,如何安全、徹底地讓…