學習筆記:機器學習中的數學原理(一)

1. 集合

集合分為有限集和無限集;

對于有限集,兩集合元素數相等即為等勢;

對于無限集,兩集合元素存在一一映射關系即為等勢;

無限集根據是否與正整數集等勢分為可數集和不可數集。

2. sigmoid函數(也叫logistic函數)

公式:f(x)=\frac{1}{1+e^{-x}}

含義:將實數集R映射到區間(0,1),兩個區間是等勢的,公式就是雙射函數(一對一映射函數)。

3. 支持向量機

支持向量機的目標是尋找一個最優超平面,能夠最大化分類間隔。

超平面形式:


?

數據到超平面的距離如下:

我們希望SVM在邊界點數據(支持向量)的輸出是

考慮上非邊界點,輸出是

我們最大化這個兩個邊界的距離的一半(支持向量到超平面的距離):

在這兩個的約束下,即可求解最優w和b。

4. 決策樹

1)信息論概念

信息量是事后的判斷:指的是一個隨機變量某個可能性(具體事件)發生所帶來的信息,滿足概率越低信息量越大、不相關事件信息量相加對應概率相乘,因此公式為:

𝐡(𝐱) = ?𝒍𝒐𝒈𝟐𝒑(𝒙)

信息熵是事前的預估:指的是一個隨機變量所有可能性的信息量的期望,公式為:

𝐇(𝐱) = ?𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))

2)決策樹理解

決策樹是要找到一棵樹,按照這棵樹的節點進行遞歸判斷就可以得到判斷結果,例如一個瓜是不是好瓜,需要判斷一系列特征然后得到結論。

決策樹算法則是為了找到這樣一顆樹,需要確定節點順序。顯然應該優先判斷重要特征,即那些對確定性增益最大的,或者說熵減最多的。

3)決策樹實現

基于信息論的決策樹算法有ID3?、C4.5和?CART等算法,其中C4.5CART兩種算法從ID3算法中衍生而來。

ID3算法使用?信息增益?作為分裂的規則,信息增益越大,則選取該分裂規則。具體來說,首先計算好瓜壞瓜這個隨機變量的信息熵,然后計算特征A各個可能性下的好瓜壞瓜的信息熵的期望,相減得到信息增益,計算所有特征的信息增益,選取信息增益最大的作為節點。下一個節點則是在該特征的各個可能下繼續上述操作來確定。

4)優缺點
優點缺點
易于理解和解釋容易過擬合
能夠處理多種數據類型對數據分布敏感
對缺失值不敏感傾向于選擇具有更多取值的特征
不需要特征縮放難以處理高維稀疏數據
能夠捕捉非線性關系不穩定性
計算效率較高對類別不平衡數據敏感
支持分類和回歸任務難以表達復雜關系

5)改進方法

為了克服決策樹的缺點,可以采用以下方法:

剪枝:通過預剪枝或后剪枝減少過擬合。

集成學習:使用隨機森林(Random Forest)或梯度提升樹(Gradient Boosting Trees)來提高模型的穩定性和泛化能力。

類別平衡處理:通過過采樣、欠采樣或調整類別權重來處理類別不平衡問題。

特征工程:對高維稀疏數據進行降維或特征選擇。

6)剪枝處理

如果按照我們之前的方法形成決策樹后,會存在一定的問題。決策樹會無休止的生長,直到訓練樣本中所有樣本都被劃分到正確的分類。實際上訓練樣本中含有異常點,當決策樹節點樣本越少的時候,異常點就可能使得該結點劃分錯誤。另外,我們的樣本屬性并不一定能完全代表分類的標準,可能有漏掉的特征,也可能有不準確的特征。這樣就會導致決策樹在訓練集上準確率超高,但是在測試集上效果不好,模型過擬合,泛化能力弱。因此我們需要適當控制決策樹的生長。

5. 樸素貝葉斯

1)貝葉斯公式

先驗概率:通過經驗來判斷事情發生的概率

后驗概率:事情發生后推測原因的概率

條件概率:一個事件在另一個事件發生條件下的概率,即P(B|A),若兩者獨立,則等于P(B)

全概率公式:P(Y) =?P(Y,X1) + ... +?P(Y,Xn)?=?P(X1)P(Y|X1) + ... + P(Xn)P(Y|Xn)

貝葉斯公式:

2)樸素貝葉斯(貝葉斯分類器)

樸素貝葉斯,假設每個輸入變量之間獨立。即全概率中各個X是獨立的。

貝葉斯分類器就是在這種假設下的分類器,只需要求出在輸入變量(特征)X1...Xn的條件下,各個可能類別的條件概率,找到最大的即為要分的類

貝葉斯分類器的參數(先驗概率 P(c) 和條件概率 P(xi?∣c))通常是通過一次訓練過程計算得到的,不需要多輪訓練。這是因為貝葉斯分類器的訓練過程主要是基于訓練數據來估計這些參數,而這些參數的估計通常是直接的統計計算,不需要像一些復雜的神經網絡模型那樣通過迭代優化來調整參數。

參考:【機器學習算法筆記系列】決策樹(Decision Tree)算法詳解和實戰_decisiontreeclassifier是什么算法-CSDN博客

決策樹原理詳解(無基礎的同樣可以看懂)-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895022.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895022.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895022.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【信息系統項目管理師-案例真題】2016下半年案例分析答案和詳解

更多內容請見: 備考信息系統項目管理師-專欄介紹和目錄 文章目錄 試題一【問題1】4 分【問題2】12 分【問題3】3 分【問題4】6 分試題二【問題1】3 分【問題2】4 分【問題3】8 分【問題4】5 分【問題5】5 分試題三【問題1】4 分【問題2】8 分【問題3】5 分【問題4】8 分試題一…

基于javaweb的SpringBoothis智能醫院管理系統(源碼+文檔+部署講解)

🎬 秋野醬:《個人主頁》 🔥 個人專欄:《Java專欄》《Python專欄》 ??心若有所向往,何懼道阻且長 文章目錄 運行環境開發工具適用功能說明一、項目運行 環境配置: 運行環境 Java≥8、MySQL≥5.7、Node.js≥14 開發工具 后端&…

JS實現燈光閃爍效果

在 JS中&#xff0c;我們可以實現燈光閃爍效果&#xff0c;這里主要用 setInterval 和 clearInterval 兩個重要方法。 效果圖 源代碼 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>燈閃爍效果<…

Linux ltrace跟蹤入門

文章目錄 背景ltrace原理ltrace使用跟蹤程序調用庫函數跟蹤指定pid進程調用 參考 本文介紹ltrace跟蹤 背景 ltrace 會攔截并記錄正在執行的進程所調用的動態庫調用以及該進程接收到的信號&#xff0c;它還可以攔截并打印程序執行的系統調用。 其代碼位置在&#xff1a;https:/…

PCA9685 16路PWM 控制板 STM32F103 驅動

PCA9685 擁有16路PWM&#xff0c;通過 IIC 與 STM32 進行通信&#xff0c;以下驅動代碼已通過測試&#xff0c;你可以進行更多代碼優化 #include "pca9685.h"// 向 PCA9685 寫入一個字節數據 static void PCA9685_write8( uint8_t addr, uint8_t d) {while (I2C_Get…

使用 Apache Spark 進行大數據分析

使用 Apache Spark 進行大數據分析 環境準備 為了能夠在本地環境中運行Spark程序&#xff0c;需要先完成環境搭建。確保已經安裝了Jupyter Notebook和Apache Spark&#xff0c;并完成了兩者之間的集成。 創建 SparkSession 在 Python 中使用 PySpark 時&#xff0c;通常會創…

2025 專業的物聯網軟件開發公司有哪些

物聯網&#xff08;Internet of Things&#xff0c;簡稱IoT&#xff09;具有多個顯著的優勢&#xff0c;主要包括提高效率、節省成本、數據收集與分析、自動化控制、改善用戶體驗、增強決策能力和創新業務模式?。2025&#xff0c;有哪些比較專業的物聯網開發公司呢&#xff1f…

7.PPT:“中國夢”學習實踐活動【20】

目錄 NO1234? NO5678? NO9\10\11 NO1234 考生文件夾下創建一個名為“PPT.pptx”的新演示文稿Word素材文檔的文字&#xff1a;復制/挪動→“PPT.pptx”的新演示文稿&#xff08;藍色、黑色、紅色&#xff09; 視圖→幻燈片母版→重命名&#xff1a;“中國夢母版1”→背景樣…

學習筆記十九:K8S生成pod過程

K8S生成pod過程 流程圖具體生成過程用戶提交 Pod 定義API Server 處理請求調度器分配節點&#xff08;Scheduling&#xff09;目標節點上的 Pod 創建網絡配置狀態上報與監控控制器管理&#xff08;Controller Manager&#xff09;就緒與服務發現 關鍵錯誤場景高級特性 流程圖 具…

封裝descriptions組件,描述,靈活

效果 1、組件1&#xff0c;dade-descriptions.vue <template><table><tbody><slot></slot></tbody> </table> </template><script> </script><style scoped>table {width: 100%;border-collapse: coll…

21.2.6 字體和邊框

版權聲明&#xff1a;本文為博主原創文章&#xff0c;轉載請在顯著位置標明本文出處以及作者網名&#xff0c;未經作者允許不得用于商業目的。 通過設置Rang.Font對象的幾個成員就可以修改字體&#xff0c;設置Range.Borders就可以修改邊框樣式。 【例 21.6】【項目&#xff…

FPGA VGA timing

概念 VGA(Video Graphics Array)時序是控制VGA接口顯示圖像的關鍵參數,它主要包括行時序和場時序兩部分。以下是對VGA時序的詳細解釋: 一、VGA接口簡介 VGA接口是IBM公司在1987年推出的一種使用模擬信號的視頻傳輸標準,具有成本低、結構簡單、應用靈活等優點,至今仍被廣…

中級通信工程師綜合教材(5、6章節)

五、現代通信網 1、通信網的構成要素 通信網在硬件設備方面的構成要素是交換設備、傳輸鏈路和終設備。 構成要素 功能作用 常見設備舉例 終端設備 通信的源點和目的地 電話機、傳真機、計算機、視頻終端、多媒體終端等 交換設備 通信網的核心設備,主要完成呼叫處理、信令處理…

360手機刷機 360手機解Bootloader 360手機ROOT

360手機刷機 360手機解Bootloader 360手機ROOT 問&#xff1a;360手機已停產&#xff0c;現在和以后&#xff0c;能刷機嗎&#xff1f; 答&#xff1a;360手機&#xff0c;是肯定能刷機的 360手機資源下載網站 360手機-360手機刷機RootTwrp 360os.top 360rom.github.io 一、…

.net一些知識點5

1.dot Net帶out的參數如何使用 string name;//假設這個參數帶out TestMethod(1,out name);//一定要有out 方法體中&#xff0c;一定要有out參數的賦值&#xff0c;并且能輸出 2.參數的傳遞方式有哪些 a.值傳遞 b.引用傳遞 ref c.輸出傳遞 out 3.設計模式知道哪些 3.us…

鏈表專題-02

鏈表專題 /*** 鏈表的節點* param <E>*/ public class ListNode<E> {public E element;public ListNode<E> next;public ListNode() {}public ListNode(E element) {this.element element;}public ListNode(E element, ListNode<E> next) {this.eleme…

外部中斷實驗 #STM32F407

外部中斷實驗 此實驗將外部中斷配置為按鍵輸入&#xff0c;通過按鍵輸入觸發外部中斷&#xff0c;在外部中斷里面實施相應的處理&#xff0c;具體功能&#xff1a; 按下KEY0&#xff0c;翻轉LED0狀態按下KEY1&#xff0c;翻轉LED1狀態按下KEY2&#xff0c;同時翻轉LED0和LED1…

java中如何給內部類的屬性賦值

在 Java 中&#xff0c;內部類的屬性賦值方式取決于該屬性的訪問修飾符、內部類的類型&#xff08;非靜態或靜態&#xff09;&#xff0c;以及賦值的時機。以下是幾種常見的方式&#xff1a; 1. 通過構造方法賦值 class Outer {class Inner {private String name;// 構造方法賦…

機器學習8-卷積和卷積核1

機器學習8-卷積和卷積核1 卷積與圖像去噪卷積的定義與性質定義性質卷積的原理卷積步驟卷積的示例與應用卷積的優缺點優點缺點 總結 高斯卷積核卷積核尺寸的設置依據任務類型考慮數據特性實驗與調優 高斯函數標準差的設置依據平滑需求結合卷積核尺寸實際應用場景 總結 圖像噪聲與…

SVN 提交與原有文件類型不一樣的文件時的操作

SVN 提交與原有文件類型不一樣的文件時的操作 背景 SVN 服務器上原本的文件是軟鏈接類型的&#xff0c;但是我將它改成普通文件再上傳。出現了以下提示&#xff1a; 解決過程 本來想著通過 svn rm 和 svn add 來解決&#xff0c;但是行不通。 最終解決方案 svn rm --keep-…