mse均方誤差計算公式_PCA的兩種解讀:方差最大與均方誤差最小的推導

8f394ff5386a5b0e78dc1cbb81366bf2.png

6f3d6d5075016c2d211dc16badb6a090.png
這張圖片很關鍵,來自統計學習方法的PCA插圖
又要考試了,推導一下方差最大化與均方差最小化,老師上課講了一些均方差最小化,推導的過程很詳細不過自己沒有記下來,復習的時候再推一遍加深印象。感謝 @耳東陳 老師的精彩課件!

一、方差的定義

去除均值,方便計算

將均值為0后,方差就可以表示成元素平方和除以個數,即

二、協方差的定義

由于均值為 0,所以我們的協方差公式可以表示為:

三、協方差矩陣

將和變量拼成一個矩陣

那么計算協方差矩陣

順便說一下,的期望也就是它與它自身的協方差,記為

四、方差最大化

  • 假設原來有兩個變量x1,x2,三個樣本點分別為ABC,樣本分布在由軸x1x2組成的坐標系中。
  • 對坐標系進行旋轉變換,得到新的坐標軸y1,表示新的變量y1
  • 樣本點ABC在y1軸上投影,得到軸的坐標值為
  • 坐標軸的平方和
    為表示樣本在變量y1上的方差和
  • 主成分分析旨在選取正交變換中方差最大的變量,作為第一主成分,也就是旋轉變換中坐標值平方和最大的軸
  • 而我們知道,對于樣本而言,本身的
    為固有值,不變
  • 因此可以通過勾股定理知道,方差最大
    最大等價于樣本點到軸的距離
    最小

5224392341d5c3aa030ebb53db871191.png

基于PCA的線性結合的第一個主成分

那么最大化方差為

而經過了去掉均值化后,期望為0

去均值化期望為0的具體步驟如下,假設為未去除均值的情況,均值為

那么回到(9)式,繼續計算這個方差,有兩種理解辦法,過程是一樣的

  • 第一種根據方差與期望的關系,通過(10)(11)算式推得到從而最大化方差等價于最大化
  • 第二種根據(2)的算式,期望為0,得到以下形式,結果是相同的

最后得到的最優化問題是

五、均方誤差最小化(MSE)

在方差最大化的圖中,(勾股定理)可以知道Variance+MSE=定值,因此二者是等價的,換一種思路通過均方誤差最小化進行推導。

向量的投影

5224392341d5c3aa030ebb53db871191.png

以該圖的B點為例,設B點的坐標為x1,x2,其所代表的向量為

,由于
,那么可以同樣表示出直線的
單位方向向量為
,(注:由于該直線過原點就沒有寫截距項1)那么先算向量和向量的夾角
.

由于

,即
,可以繼續化簡為:

那么OB'的長度為

OB'的方向為

因此OB'的向量為

在這個部分,我們的目標是最小化均方誤差,也就是

下一步就是表示出

,由向量的知識,(方向換一下沒事,因為還要平方)可以得到

因此目標為

由于協方差

是定值,因此
越大,均方誤差越小。

即得到的最優化問題為:

六、求解最優化問題

根據拉格朗日方程:

那么對w求導可以得到

因此代入后有

即尋找最大的特征值即為所求。

那么從大到小排列

,便得到了各個主成分。

高維小樣本數據集的PCA方法預降維度方法及相關公式

  • 例如:
  • 這意味著在n很大的情況下,
    ,協方差矩陣太大并且不可逆很難分解
  • 因此要采用預處理降維度的辦法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/454145.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/454145.shtml
英文地址,請注明出處:http://en.pswp.cn/news/454145.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《操作系統》OS學習(十):進程控制

進程切換(上下文切換): 定義:暫停當前運行進程,從運行狀態變成其他狀態,調度另一個進程從就緒狀態變成運行狀態要求:切換前,保存進程上下文;切換后,恢復進程…

日志管理

1、錯誤日志配置 錯誤日志屬于核心功能模塊的參數 worker_processes 1; error_log /data/logs/nginx/error.log error; #一般配置這一行即可 events {worker_connections 1024; }語法規則:error_log file level 錯誤的日志級別有[debug|info|notice|warn|err…

GCC 命令選項使用詳解

GCC 命令行詳解[轉帖] 1、gcc包含的c/c編譯器 gcc、cc、c、g gcc和cc是一樣的,c和g是一樣的,一般c程序就用gcc編譯,c程序就用g編譯 2、gcc的基本用法 gcc test.c這樣將編譯出一個名為a.out的程序 gcc test.c -o test這樣將編譯出一個名為t…

mvn 打包_Spark源碼打包編譯的過程

前言上篇文章介紹了下 安裝sbt環境 啟動scala項目安裝SBT環境運行Scala項目為什么要弄這個 因為我本來是想對spark源碼編譯部署spark是用scala語言編譯的spark源碼https://gitee.com/pingfanrenbiji/sparkspark提供的編譯方式編譯的前提是將所有的依賴包都下載下來而資源包管理…

審計日志功能監控

背景:公司的審計日志經常出現不記錄命令的情況,但是又無法監控到審計功能是否正常。所以我們思路是,每天從CMDB服務器 ssh登錄到每一臺主機。如果審計功能正常,則一定會在auditlog.info文件中有登錄的記錄。如果24小時內這個文件沒…

清華大學《操作系統》(十一):處理機調度

一、處理機調度概念 進程切換(上下文切換):切換CPU的當前任務,從一個進程/線程到另一個,保存當前在PCB/TCB中的執行上下文,讀取下一個的上下文 CPU調度:從就緒隊列中挑選一個進程/線程作為CPU…

通過純css實現圖片居中的多種實現方式

html結構&#xff1a; 1 <div class"demo" style"width: 800px;height: 600px; border:1px solid #ddd"> 2 <img src"default.jpg" width"400" height"300"/> 3 </div> 實現img位于外層div的居中顯示…

GCC 命令行詳解

作者&#xff1a; www.linuxfans.org mozilla 1。gcc包含的c/c編譯器 gcc,cc,c,g,gcc和cc是一樣的&#xff0c;c和g是一樣的&#xff0c;(沒有看太明白前面這半句是什 么意思:))一般c程序就用gcc編譯&#xff0c;c程序就用g編譯 2。gcc的基本用法 gcc test.c這樣將編譯出一個…

Java網絡編程從入門到精通(5):使用InetAddress類的getHostName方法獲得域名

該方法可以得到遠程主機的域名&#xff0c;也可以得到本機名。getHostName方法的定義如下&#xff1a; publicString getHostName() 下面是三種創建InetAddress對象的方式&#xff0c;在這三種方式中&#xff0c;getHostName返回的值是不同的。 1&#xff0e;使用getLocalHost方…

猿輔導python面試_猿輔導面試經歷—個人感受

今天參加了猿輔導的二面&#xff0c;無數槽點&#xff0c;不知道是不是很多公司都是這樣&#xff0c;但是我還是忍不住要逼逼叨。6月10號&#xff0c;我向猿輔導投了簡歷&#xff0c;想做招聘邀約專員這個崗位&#xff0c;然后hr加了我的微信&#xff0c;要了一份簡歷之后通知我…

對稱加密與非對稱加密

&#xff08;一&#xff09;對稱加密&#xff08;Symmetric Cryptography&#xff09; 對稱加密是最快速、最簡單的一種加密方式&#xff0c;加密&#xff08;encryption&#xff09;與解密&#xff08;decryption&#xff09;用的是同樣的密鑰&#xff08;secret key&#xff…

清華大學《操作系統》(十二):臨界區與鎖

多進程并發運行&#xff0c;導致多個進程間有資源共享&#xff0c;比如CPU、內存&#xff0c;因此存在不確定性和不可重現&#xff0c;可能導致多次運行結果不一致。因此操作系統需要利用同步機制在并發執行的同時&#xff0c;保證一些操作是原子操作。 互斥是指一個進程占用了…

gcc生成靜態庫和動態庫

gcc生成靜態庫和動態庫一、庫文件簡介簡單地說&#xff0c;庫&#xff08;Library&#xff09;就是一組已經寫好了的函數和變量、經過編譯代碼&#xff0c;是為了能夠提高開發效率和運行效率而設計的。庫分為靜態庫&#xff08;Static Library&#xff09;和共享庫&#xff08;…

python 流式計算框架_流式計算的三種框架:Storm、Spark和Flink

我們知道&#xff0c;大數據的計算模式主要分為批量計算(batch computing)、流式計算(stream computing)、交互計算(interactive computing)、圖計算(graph computing)等。其中&#xff0c;流式計算和批量計算是兩種主要的大數據計算模式&#xff0c;分別適用于不同的大數據應用…

清華大學《操作系統》(十八):管程于信號量

信號量與管程也是進程間通信的方式。信號量是與鎖在同一層級實現的&#xff0c;是操作系統提供的一種協調共享資源訪問的方法。信號量由操作系統管理&#xff0c;操作系統作為管理者地位是高于進程的。 一、信號量 1、信號量&#xff08;semaphore&#xff09;&#xff1a;是操…

Iptalbes自動封殺暴力破解(Qmail郵件系統)者的IP地址

今天發現Qmail郵件系統的maillog里面有大量的“user not found”信息&#xff0c;通過下面的日志不難發現&#xff0c;是來自同一IP的很多不同的用戶連接Qmail郵件系統認證失敗的信息。黑客試圖通過這種方式來破解Qmail郵件系統的用戶名和密碼&#xff0c;從而來發送大量的垃圾…

安裝Postman

在web和移動端開發時&#xff0c;常常會調用服務器端的restful接口進行數據請求&#xff0c;為了調試&#xff0c;一般會先用工具進行測試&#xff0c;通過測試后才開始在開發中使用。 這里介紹一下如何在chrome瀏覽器利用postman應用進行restful api接口請求測試。 因為&#…

python紅樓夢詞頻統計_用 Python 分析《紅樓夢》(2)-阿里云開發者社區

6 詞頻統計完成分詞以后&#xff0c;詞頻統計就非常簡單了。我們只需要根據分詞結果把片段切分開&#xff0c;去掉長度為一的片段(也就是單字)&#xff0c;然后數一下每一種片段的個數就可以了。這是出現次數排名前 20 的單詞&#xff1a;(括號內為頻數)可以跟之前只統計出現次…

清華大學《操作系統》(二十):死鎖和進程通信

一、死鎖 死鎖&#xff1a;一組阻塞的進程&#xff08;兩個或多個&#xff09;&#xff0c;持有一種資源&#xff0c;等待獲取另一個進程所占有的資源&#xff0c;而導致誰都無法執行。 可重復使用的資源&#xff1a; 在一個時間只能一個進程使用&#xff0c;且不能被刪除。…

python操作redis實例_Java,php,Python連接并操作redis實例

1、Java連接并操作redis在Eclipse里新建一個java project&#xff0c;導入jedis-*.jar包。示例代碼&#xff0c;其他對應的操作類型見&#xff1a;http://my.oschina.net/u/2391658/blog/705069import redis.clients.jedis.Jedis;//示例代碼public class RedisTest {public sta…