機器學習理論梳理1: PCA主成分分析

機器學習的理論部分學習知識點比較亂且雜。我這里通過幾篇文章,簡單總結一下自己對機器學習理論的理解,以防遺忘。第一篇文章主要概述了機器學習的基本任務以及一個常用的降維方法,主成分分析。

機器學習的基本任務

機器學習能實現許多不同的任務,基本分為以下幾類:

  1. 分類 : 算法需要判斷輸入屬于哪一種類別。例如通過一張人像圖片判斷人的身份。
  2. 回歸 : 算法需要將一個數值與輸入聯系起來。例如通過氣象學的
    參數判斷24小時的溫度。
  3. 重寫 : 通過觀察輸入,將其重寫為文字形式。例如通過一張谷歌街道的圖片,識別街道的名稱。
  4. 翻譯 : 將一系列的符號文字轉化為另一種語言的符號和文字。例如將英語翻譯成中文,將Java代碼翻譯為對應的C++代碼。
  5. 異常尋找: 判斷輸入是不是非典型的。例如檢測是否有逆行的車輛。
  6. 合成 : 生成與樣本數據類似的新的樣本。例如合成另一個角度的風景圖。
  7. 降噪 : 對樣本數據進行降噪處理。

協方差矩陣

協方差矩陣用于描述各個維度之間的聯系,其元素是各個向量元素之間的協方差。
例如如果我們我們有N個維度為n的向量數據xix_ixi?,他們的協方差矩陣如下
Σ=1N∑i=1N(xi?μ)(xi?μ)T\Sigma = \frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)(x_i-\mu)^TΣ=N1?i=1N?(xi??μ)(xi??μ)T
其中μ\muμ是數據xix_ixi?的平均向量。協方差矩陣維度為n*n且對稱。協方差矩陣中編碼了數據各個維度之間的相互關系,以及各個維度的方差。例如在n=2,二維平面中,協方差矩陣可以表示為 :
Σ=(σxxσxyσyxσyy)\Sigma = \left( \begin{matrix} \sigma_{xx}\space\space \sigma_{xy}\\ \sigma_{yx}\space\space\sigma_{yy} \end{matrix} \right) Σ=(σxx???σxy?σyx???σyy??)
主對角線描述了該維度上數據的方差,副對角線描述了各個維度之間的協方差,當各個維度處于相同數量級時可以一定程度上反應各個維度之間的相關性。

主成分分析

現實生活中的樣本數據的分布可能與很多的潛在因素有關,因此使得我們的數據往往呈現出高維的形式。高維度的數據會對我們進行數據分析造成很多干擾,例如在我們進行分類分析時,隨著樣本容量的不斷增大,維度越高,計算量將呈幾何倍數的增長且難以避免的會有噪聲的影響。因此如何降維也是數據預處理十分重要的步驟。其中,主成分分析可以有效地降低樣本數據的維度,減少計算量的同時使得樣本數據對噪音干擾更不敏感。

主成分分析 principal component analysis, 其中心思想是將高維度的數據,投影到低維度,以此來實現降維。例如下圖中,將原本的二維空間(O,i1i_1i1?,i2i_2i2?)中的數據,投影到向量i1′i{_1}'i1?上。主成分分析的要點,即是將數據投影到新的坐標系中,其中坐標系的前幾個基底向量應該包含樣本數據最多的信息量。在進行主成分分析之間,要對數據進行預處理,中心化規格化數據,即對每個數據作減去平均值并除以標準差的操作。
在這里插入圖片描述
主成分分析的數學表示如下:
對于每個在原始坐標系中的數據點xix_ixi?,xi=xi1i1+xi2i1+...+xini1x_i = x_{i1}i_1 + x_{i2}i_1 +... +x_{in}i_1xi?=xi1?i1?+xi2?i1?+...+xin?i1?,其中xinx_{in}xin?xix_ixi?在各個維度的分量。將數據投影到新的坐標軸i1′i{_1}'i1?后,新的坐標為xi1′=xiTi1′x{_{i1}}' = x{_i}^Ti{_1}'xi1?=xi?Ti1?。數據集沿著新的坐標軸i1′i{_1}'i1?的方差計算如下:
σ=1N∑i=1Nxi1′2=1N∑i=1Nxi1′Txi1′=1N∑i=1Ni1′TxixiTi1′\sigma = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^2 = \frac{1}{N}\sum_{i=1}^{N}x{_{i1}}'^Tx{_{i1}}' = \frac{1}{N}\sum_{i=1}^{N}i{_1}'^Tx_ix_{i}^Ti{_1}' σ=N1?i=1N?xi1?2=N1?i=1N?xi1?Txi1?=N1?i=1N?i1?Txi?xiT?i1?

=1Ni1′T(∑i=1NxixiT)i1′= \frac{1}{N}i{_1}'^T (\sum_{i=1}^{N}x_ix_i^T)i{_1}'=N1?i1?T(i=1N?xi?xiT?)i1?
σ=i1′TΣi1′\sigma = i{_1}'^T\Sigma i{_1}' σ=i1?TΣi1?
其中 Σ\SigmaΣ 是協方差矩陣 Σ=1N(∑i=1NxixiT)\Sigma = \frac{1}{N}(\sum_{i=1}^{N}x_ix_i^T)Σ=N1?(i=1N?xi?xiT?)
在進行主成分分析時,我們假設某一維度所包含的信息量,與該維度數據的方差是呈正相關的,因此主成分分析問題就轉化成了最大值問題,使用拉格朗日乘數法,找到使方差最大化的剩余維度:
L=i1′TΣi1?λ(i1′Ti1′?1)L = i{_1}'^T \Sigma i_1 - \lambda(i{_1}'^T i{_1}' - 1)L=i1?TΣi1??λ(i1?Ti1??1)
?L?i1′=0即Σi1′=λi1′\frac{\partial L}{\partial i{_1}'} = 0 即 \Sigma i{_1}' = \lambda {i_1}'?i1??L?=0Σi1?=λi1?

其中,i1′i{_1}'i1?λ\lambdaλ 分別是數據協方差矩陣的特征向量和對應的特征值。第一個投影維度對應協方差矩陣的第一個特征向量(特征值最大的特征向量)。第二個投影維度對應第二個特征向量以此類推,我們可以得到一組對應特征值遞減的特征向量。通過選出協方差矩陣的前K個特征向量,我們就能選出包含信息量最大的主成分維度,實現對原始數據的降噪,排除掉高維度的干擾,使得后續的數據分析成果更穩定。

Tips : 協方差矩陣是對稱構成的且至少是半正定矩陣,因此其所有的特征向量都是實數,所有的特征值都是正數或0,所有的特征向量互相垂直不相關。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/386986.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/386986.shtml
英文地址,請注明出處:http://en.pswp.cn/news/386986.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

29 _react-router說明

一、SPA的理解 1.單頁面web應用(single page web application ,SPA) 2.整個應用只有一個完整的頁面 3.點擊頁面中的鏈接不會刷新頁面,本身也不會向服務器發請求 4.當點擊路由鏈接時,只會做頁面的局部更新 5.數據都需要通過ajax請求獲取,并在前…

Java程序員如何快速理解Kubernetes

我們希望微服務是可復制的,可替換的工作節點,這樣可以輕松進行升級或降級,同時無需任何停機時間,并花費最少代價的管理。我們可以說我們希望他們成為我們的小黃人(minions)。本文我們將通過一個簡單的例子來…

NLP基礎 : HMM 隱馬爾可夫模型

Hidden Markov Model, HMM 隱馬爾可夫模型,是一種描述隱性變量(狀態)和顯性變量(觀測狀態)之間關系的模型。該模型遵循兩個假設,隱性狀態i只取決于前一個隱性狀態i-1,而與其他先前的隱形狀態無關。觀測狀態也只取決于當前的隱形狀態。因此我們…

關于秒殺系統優化方向

今天聽了一節咕泡學院的公開課,有收獲。 秒殺系統的特點: 1.限時;2.限量供應;3.并發量大;如何優化: 1.客戶端數據緩存。 2.CDN加速。 3.nginx動靜分離,靜態資源緩存,負載均衡。 4.se…

Mysql插入很慢,找到了稍微快點的方法

MYSQL批量插入數據庫實現語句性能分析 假定我們的表結構如下 代碼如下 CREATE TABLE example ( example_id INT NOT NULL, name VARCHAR( 50 ) NOT NULL, value VARCHAR( 50 ) NOT NULL, other_value VARCHAR( 50 ) NOT NULL ) 通常情況下單條插入的sql語句我們會這么寫&…

Linux - 時間相關命令 - ntpdate, date, hwclock

1. 概述 最近也不知道寫啥了, 把之前的老文檔整理一下, 湊個數什么的配置時間這種工作, 偶爾還是要用一下主要描述 3 個命令的簡單適用 ntpdatehwlock2. ntpdate 1. 概述 用于同步時鐘的命令2. 機制 通常是有一個服務器對外提供時間客戶端可以與時間服務器同步ntp 是他們之間交…

RUNOOB python練習題1

用來練手的python 練習題,原鏈接 : python練習實例1 題干 : 有四個數字:1、2、3、4,能組成多少個互不相同且無重復數字的三位數?各是多少? import numpy as np cen np.array([1,2,3,4]) tens np.array([1,2,3,4])…

mysql explain用法和結果的含義

explain顯示了mysql如何使用索引來處理select語句以及連接表。可以幫助選擇更好的索引和寫出更優化的查詢語句。 使用方法,在select語句前加上explain就可以了: 如: explain select surname,first_name form a,b where a.idb.id EXPLAIN列…

日志模塊logging用法

一、常用日志記錄場景及最佳解決方案: 日志記錄方式 最佳記錄日志方案 普通情況下,在控制臺顯示輸出 print() 報告正常程序操作過程中發生的事件 logging.info()(或者更詳細的logging.debug()) 發出有關特定事件的警告 warnings.warn()或者loggin…

MySQL 億級數據需求的優化思路(一),交易流水記錄的查詢

對MySQL的性能和億級數據的處理方法思考,以及分庫分表到底該如何做,在什么場景比較合適? 比如銀行交易流水記錄的查詢 限鹽少許,上實際實驗過程,以下是在實驗的過程中做一些操作,以及踩過的一些坑&#…

RUNOOB python練習題2

用來練手的python 練習題,原鏈接 : python練習實例2 題干 : 企業發放的獎金根據利潤提成。利潤(I)低于或等于10萬元時,獎金可提10%;利潤高于10萬元,低于20萬元時,低于10萬元的部分按10%提成,高于10萬元的…

dubbo負載均衡策略和集群容錯策略

dubbo負載均衡策略 random loadbalance 默認情況下,dubbo是random load balance隨機調用實現負載均衡,可以對provider不同實例設置不同的權重,會按照權重來負載均衡,權重越大分配流量越高,一般就用這個默認的就可以了。…

MySQL 億級數據需求的優化思路(二),100億數據,1萬字段屬性的秒級檢索

最近在研究億級數據的時候,無意中看到了一個關于寫58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?fromtimeline 其實上面講的versionext的方式以及壓縮json的思路,對于我來講都可以看得懂,想得通,其…

RUNOOB python練習題3

用來練手的python 練習題,原鏈接 : python練習實例3 拿到題目就寫了如下代碼,思路是因為使用**0.5進行開平方操作時,python會將數據類型自動轉換為float單精度浮點型。這里利用提取其整數部分,來判斷這個數是否是完全平方數。 z…

使用git將項目上傳到github(最簡單方法)

使用git將項目上傳到github(最簡單方法) 首先你需要一個github賬號,所有還沒有的話先去注冊吧! https://github.com/ 我們使用git需要先安裝git工具,這里給出下載地址,下載后一路直接安裝即可&#xff1…

數據庫 概念詳解

數據庫 概念詳解 一、MySQL MySQL 事務 MySQL 鎖 MySQL 二、Redis 三、MongoDB 四、Memcached 轉載于:https://www.cnblogs.com/guozepingboke/p/10743648.html

RUNOOB python練習題4

用來練手的python習題其四, 原題鏈接: python練習實例4 題干: 輸入某年某月某日,判斷這一天是這一年的第幾天? 這個題目比較簡單,只需要注意閏年和非閏年的區別就可以了。我這里使用numpy矩陣存儲每個月的天數,之后用…

GitHub入門:如何上傳與下載工程?

由于經常要在家寫代碼,所以需要有個能夠方便訪問代碼管理工具。最近嘗試了一下GitHub。經過了一翻糾結之后,基本上掌握了他的使用方式。 要使用GitHub需要首先在其網站上進行注冊。其官方網站是https://github.com/。注冊的流程在這里就不多少了&#x…

如何解決PIP命令不可用

今天想用PIP裝一個python包,發現PIP報錯,不是內部或外部命令。。。 遇事百度,有兩種說法,一,沒安裝包,不管那么多命令執行了再說 在命令行輸入:python -m ensurepip 將pip.exe文件下載下來 再pi…

RUNOOB python練習題5

用來練手的python 練習題其五,原鏈接 : python練習實例5 題干 : 輸入三個整數x,y,z,請把這三個數由小到大輸出。 又是非常簡單的排序算法,只要使用numpy矩陣的排序方法或者使用python list的排序算法就可以輕松解決。 源代碼如下 : import …