從聚類到集成,兩種實用算法框架分享

一、K-means:讓數據自己 “找組織”

什么是聚類?

聚類屬于無監督學習的范疇 —— 簡單說就是手里沒有標簽時,我們要把長得像的樣本分到一組。比如給一堆用戶數據,不需要提前知道 “高價值用戶”“潛在用戶” 這些標簽,聚類算法能自動幫我們發現數據中隱藏的分組規律。

怎么衡量 “像不像”?

判斷樣本是否相似,關鍵看距離度量方式:

  • 歐式距離:最常用的一種,就像平面上兩點間的直線距離,擴展到 n 維空間就是各維度差值的平方和開根號。
  • 曼哈頓距離:更像城市里打車的路線,算的是坐標差值的絕對值之和(比如從 (1,2) 到 (3,5),距離就是 | 1-3|+|2-5|=5)。

K-means 的核心步驟

  1. 先定一個 k 值(想分成幾類),隨機選 k 個樣本當初始 “聚類中心”
  2. 算每個樣本到這 k 個中心的距離,把樣本分到最近的中心那組
  3. 重新計算每組的均值,作為新的聚類中心
  4. 重復第 2、3 步,直到中心位置不再變化,聚類結果就穩定了

怎么評價聚類效果?

可以看CH 指標:這個值越大,說明組內樣本越集中(緊湊),組間差異越明顯(分散),聚類效果就越好。

優缺點很鮮明

  • 優點:簡單快速,對常規數據集很友好
  • 缺點:k 值得自己定(這點很麻煩),對非凸形狀的簇不太敏感,計算量會隨樣本數線性增長

二、集成學習:三個臭皮匠頂個諸葛亮

核心思想

就像做決策時,多聽幾個專家的意見往往比單聽一個更靠譜。集成學習就是把多個 “弱學習器”(性能一般的模型)組合起來,變成一個 “強學習器”(性能更優的模型)。

常見的三種組合套路

  1. Bagging(并行模式)
    代表是隨機森林

    • 隨機:既隨機采樣數據,又隨機選特征,讓每個決策樹都有點 “個性”
    • 森林:多棵決策樹并行生長,最后投票(分類)或平均(回歸)出結果
      優勢是能處理高維數據,還能告訴我們哪些特征更重要,訓練速度也快(樹可以并行生成)。
  2. Boosting(串行模式)
    典型如 AdaBoost:
    從弱學習器開始,每次都根據上一輪的錯誤調整樣本權重 —— 分錯的樣本會被 “重點關照”(權重提高),下一個學習器會更關注這些難分的樣本。最后按每個學習器的表現給權重,組合成強學習器。

  3. Stacking(堆疊模式)
    更 “暴力” 的組合方式:先讓各種模型(KNN、SVM、隨機森林等)分別輸出結果,再把這些結果當新特征,訓練一個 “元模型” 來做最終預測,相當于 “用模型的結果再建模”。

組合策略

  • 簡單平均 / 加權平均(回歸常用)
  • 投票法(分類常用,少數服從多數)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96720.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96720.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96720.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Elasticsearch:什么是神經網絡?

神經網絡定義 神經網絡(Neural networks)是機器學習(machine learning)的一個子集,旨在模擬生物大腦的結構和功能。也稱為人工神經網絡 (artificial neural networks - ANNs),神經網絡由互連的節點或人工神…

XTDrone——無人機基于2D激光Lidar進行二維運動規劃(細節提醒以及相關報錯解決)

參考XTDrone文檔: 二維激光SLAM(HectorSLAM) 語雀 二維運動規劃 語雀 相關ROS依賴庫: 本地基于的是20.04的ubuntu系統: sudo apt install -y ros-noetic-move-base \ ros-noetic-costmap-2d \ ros-noetic-dwa-l…

機器學習算法-樸素貝葉斯

樸素貝葉斯分類器就是根據貝葉斯公式計算結果進行分類的模型,“樸素”指事件之間相互獨立無影響. 例 如:有如下數據集:Text CategoryA great game(一個偉大的比賽)Sports(體育運動)The e…

RoPE, 2D RoPE, 3D RoPE和復數

旋轉位置編碼是一種用于Transformer架構中的位置編碼方法,從復數的角度來看,其主要利用了復數的乘法性質來實現位置編碼,以下作為學習記錄:1. 旋轉位置編碼1)對于輸入序列的每個位置的嵌入向量,將嵌入向量分…

Java靜態代理與動態代理實戰解析

Java靜態代理 示例代碼 接口: package com.ssg.aop.interfaces;public interface MathCalculator { // 加法public int add(int a, int b); }接口實現類: package com.ssg.aop.impl; import com.ssg.aop.interfaces.MathCalculator;public class Math…

如何排查服務器DNS解析失敗的問題

服務器 DNS 解析失敗會導致無法訪問域名(如 google.com),可能影響服務器的正常運行。以下是排查 DNS 解析失敗問題的詳細步驟,包括可能的原因、診斷方法和解決方案。1. 原因分析DNS 解析失敗通常由以下原因引起:DNS 配…

音視頻面試題集錦第 32 期

音視頻學習群:https://gjzkeyframe.github.io/posts/wechat-group/ 音視頻面試題集錦第 32 期: 1、請詳細解釋 H.264 編碼中的熵編碼方式(CAVLC 和 CABAC),它們的區別和適用場景是什么?2、解釋 H.264/H.2…

最大矩形+單調棧

題目&#xff1a;思考1&#xff1a; 利用柱形圖最大矩形的思想對于矩陣的每一行看作是柱形圖的地基對每一行&#xff08;認定為柱形圖&#xff09;執行找最大矩形 實現&#xff1a; class Solution { public:int maximalRectangle(vector<vector<char>>& matri…

NewsNow搭建喂飯級教程

大家在自媒體寫文章里遇到最難的問題便是查找題材了&#xff0c;隨便選擇的題材沒多少人會去看&#xff0c;平臺也不會給流量推送&#xff0c;所以&#xff0c;只有圍繞熱門題材去進行文章創作&#xff0c;才能得到平臺的重點推送以及大家的關注&#xff01; 在做這個功能前&a…

大疆無人機平臺 資源開放

一、部署包說明 目前基于大疆上云api開發的平臺經過多輪測試&#xff0c;已經有了個穩定的版本&#xff0c;并且有山東濱州、陜西西安、河南鄭州、上海、廣東深圳、廣東廣州、寧夏以及安徽等各地的用戶使用在公路巡檢、森林防火、電力巡查等行業中。 下面將會先將部署包免費開…

惡劣天氣下漏檢率↓79%!陌訊多模態時序融合算法在道路事故識別的實戰優化

原創聲明 本文為原創技術解析文章&#xff0c;核心技術參數與架構設計引用自 “陌訊技術白皮書&#xff08;道路事故識別專項版&#xff09;”&#xff0c;禁止任何形式的抄襲與轉載。文中代碼示例、性能數據均來自實測驗證&#xff0c;技術描述已完成差異化重寫&#xff0c;不…

visual studio編譯的軟件查找所依賴的運行庫方法

使用visual studio編譯生成的exe軟件&#xff0c;在單獨運行的時候&#xff0c;總是會提示vs運行庫找不到&#xff0c;比如vcruntime140.dll&#xff0c;msvcp140d.dll等找不到&#xff0c;此時如果在開發電腦中查找&#xff0c;會找出一堆各種版本的同名字動態庫來&#xff0c…

ARINC 825板卡的應用

ARINC概覽AEEC&#xff08;航空電子工程委員會&#xff09;是SAE ITC&#xff08;SAE行業技術聯盟&#xff09;的下屬機構之一&#xff0c;旨在為航空業制定標準。SAE ITC下設多個委員會和分委員會&#xff0c;各委員會設工作組負責制定航空電子設備和系統的各種標準。其中&…

試析微劇《云端愛人》:AI時代的數字愛情寓言與情感覺醒

《云端愛人》作為一部聚焦人工智能與人類情感關系的短劇&#xff0c;其文本價值遠超普通都市愛情題材&#xff0c;可視為數字化時代的情感寓言。以下從社會鏡像、敘事張力、哲學思辨三個維度展開深度解析&#xff1a;一、「賽博戀愛」的社會預演&#xff1a;當代人的情感代償機…

多線程下單例如何保證

系列文章目錄 文章目錄系列文章目錄一、方法1、懶漢式雙重檢查鎖2、餓漢式靜態初始化3、使用靜態內部類&#xff08;懶漢式的一種變體&#xff09;4、使用 AtomicReference5、使用依賴注入框架&#xff0c;Spring一、方法 懶漢式&#xff1a;延遲加載&#xff0c;第一次調用get…

Java的數字計算

目錄 一、基本數據類型 二、包裝類 三、精確計算&#xff1a;BigDecimal 四、大整數&#xff1a;BigInteger 五、實際應用示例&#xff1a;RSA 加密算法核心計算 一、基本數據類型 這是進行數字計算最高效的方式&#xff0c;直接在棧上分配內存。它們分為整數型和浮點型。…

手寫MyBatis第32彈-設計模式實戰:Builder模式在MyBatis框架中的精妙應用

&#x1f942;(???)您的點贊&#x1f44d;?評論&#x1f4dd;?收藏?是作者創作的最大動力&#x1f91e;&#x1f496;&#x1f4d5;&#x1f389;&#x1f525; 支持我&#xff1a;點贊&#x1f44d;收藏??留言&#x1f4dd;歡迎留言討論&#x1f525;&#x1f525;&am…

小白成長之路-k8s原理(一)

文章目錄前言一、k8s組件1.1master部分1.2node節點二、網絡2.1網絡模型2.2CNI2.3流程2.4網絡解決方案2.5網絡模式三、資源清單3.1概述3.2常見的資源3.3資源清單的編寫四、Pod4.1概念圖4.2pause4.3概述4.4pod生命周期4.5pod探針4.6鉤子4.7pod控制器1.RC 控制器2.RS控制器3.deplo…

木筏求生 PC/手機雙端 單機+聯機(Raft)免安裝中文版

網盤鏈接&#xff1a; 木筏求生 免安裝中文版 名稱&#xff1a;木筏求生 PC/手機雙端 單機聯機&#xff08;Raft&#xff09;免安裝中文版 描述&#xff1a; 無論是獨自一人還是與朋友一起&#xff0c;你的任務是在危險的海洋中度過一場史詩般的海洋冒險 &#xff01;收集…

vue中v-show 和 v-if 指令的區別

v-show 和 v-if 是 Vue.js 中兩個非常重要的指令&#xff0c;都用于條件性地顯示或隱藏元素&#xff0c;但它們的實現方式和適用場景有本質區別。 簡單來說&#xff0c;最核心的區別是&#xff1a; v-if 是 “真正的”條件渲染&#xff0c;它會確保在切換過程中條件塊內的事件監…