線性判別結合源碼分析LDA原理

1. LDA的思想

LDA線性判別分析也是一種經典的降維方法,LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括,就是“投影后類內方差最小,類間方差最大”。什么意思呢? 我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。
可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類數據分別為紅色和藍色,如下圖所示,這些數據特征是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點盡可能的接近,而紅色和藍色數據中心之間的距離盡可能的大。

在這里插入圖片描述

上圖中提供了兩種投影方式,哪一種能更好的滿足我們的標準呢?從直觀上可以看出,右圖要比左圖的投影效果好,因為右圖的黑色數據和藍色數據各個較為集中,且類別之間的距離明顯。左圖則在邊界處數據混雜。以上就是LDA的主要思想了,當然在實際應用中,我們的數據是多個類別的,我們的原始數據一般也是超過二維的,投影后的也一般不是直線,而是一個低維的超平面。

在這里插入圖片描述
在這里插入圖片描述


2.實例結合源碼

導包

import numpy as np
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import warnings warnings.filterwarnings("ignore") 
X,y = datasets.load_iris(True)
X[:5]

array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3. , 1.4, 0.2],
[4.7, 3.2, 1.3, 0.2],
[4.6, 3.1, 1.5, 0.2],
[5. , 3.6, 1.4, 0.2]])

#特征值和特征向量 solver='eigen'/svd
lda = LinearDiscriminantAnalysis(solver='eigen',n_components=2)
X_lda = lda.fit_transform(X,y)
X_lda[:5]

array([[6.01716893, 7.03257409],
[5.0745834 , 5.9344564 ],
[5.43939015, 6.46102462],
[4.75589325, 6.05166375],
[6.08839432, 7.24878907]])

源碼截圖

def _solve_eigen(self, X, y, shrinkage):
在這里插入圖片描述

共分為五步

#1、總的散度矩陣
#協方差X.T 等同rowvar=False,源碼中有偏差值bias=1
St = np.cov(X,rowvar=False,bias=1)
St

array([[ 0.68112222, -0.04215111, 1.26582 , 0.51282889],
[-0.04215111, 0.18871289, -0.32745867, -0.12082844],
[ 1.26582 , -0.32745867, 3.09550267, 1.286972 ],
[ 0.51282889, -0.12082844, 1.286972 , 0.57713289]])

#2、類內的散度矩陣
# Scatter 散點圖,within(內)
Sw = np.full(shape = (4,4),fill_value=0,dtype = np.float64)
for i in range(3):Sw += np.cov(X[y == i],rowvar=False,bias=1)
Sw/=3
Sw

array([[0.259708 , 0.09086667, 0.164164 , 0.03763333],
[0.09086667, 0.11308 , 0.05413867, 0.032056 ],
[0.164164 , 0.05413867, 0.181484 , 0.041812 ],
[0.03763333, 0.032056 , 0.041812 , 0.041044 ]])

# 3、計算類間的散度矩陣
#Scatter between
Sb = St -Sw
Sb

array([[ 0.42141422, -0.13301778, 1.101656 , 0.47519556],
[-0.13301778, 0.07563289, -0.38159733, -0.15288444],
[ 1.101656 , -0.38159733, 2.91401867, 1.24516 ],
[ 0.47519556, -0.15288444, 1.24516 , 0.53608889]])

# scipy 這個模塊下的線性代數子模塊
from scipy import linalg
# 4、特征值 和 特征向量
eigen,ev = linalg.eigh(Sb,Sw)print(eigen )
print( ev)

[-1.84103303e-14 1.18322589e-14 2.85391043e-01 3.21919292e+01]
[[ 1.54162331 -2.82590065 0.02434685 0.83779794]
[-2.49358543 1.05970269 2.18649663 1.55005187]
[-2.86907801 1.01439507 -0.94138258 -2.22355955]
[ 4.58628831 0.45101349 2.86801283 -2.83899363]]

ev= ev[:,np.argsort(eigen)[::-1]]
ev

array([[ 0.83779794, 0.02434685, -2.82590065, 1.54162331],
[ 1.55005187, 2.18649663, 1.05970269, -2.49358543],
[-2.22355955, -0.94138258, 1.01439507, -2.86907801],
[-2.83899363, 2.86801283, 0.45101349, 4.58628831]])

# 5、篩選特征向量 ,進行矩陣運算
X.dot(ev[:,:])[:5]

array([[ 6.01716893, 7.03257409, -9.19277808, -3.96472168],
[ 5.0745834 , 5.9344564 , -9.1574493 , -3.02625362],
[ 5.43939015, 6.46102462, -8.48176814, -3.54638757],
[ 4.75589325, 6.05166375, -8.10226933, -4.02500696],
[ 6.08839432, 7.24878907, -8.80421775, -4.36824255]])


3.LDA與PCA比較

相同點

1)兩者均可以對數據進行降維。

2)兩者在降維時均使用了矩陣特征分解的思想。

3)兩者都假設數據符合高斯分布【正態分布】。

不同點

1)LDA是有監督的降維方法,而PCA是無監督的降維方法

2)LDA降維最多降到類別數k-1的維數,而PCA沒有這個限制。

3)LDA除了可以用于降維,還可以用于分類。

4)LDA選擇分類性能最好的投影方向,而PCA選擇樣本點投影具有最大方差的方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456092.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456092.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456092.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

RIFF文件規范

RIFF文件規范Peter Lee 2007-10-02 摘要:RIFF全稱為資源互換文件格式(Resources Interchange File Format),RIFF文件是windows環境下大部分多媒體文件遵循的一種文件結構,常見的如WAV文件、AVI文件等。RIFF可以看成一種…

FB宣布將回購60億美元股票 首席會計官將離職

11月19日消息,據美國媒體報道,Facebook宣布將回購60億美元股票,回購計劃將在明年第一季度開始實施。另外,該公司還宣布首席會計官賈斯艾特瓦爾將離職。 短期回購股票可使Facebook贏得時間,緩解投資長期項目如Instagram…

2017小目標

最美人間四月天,沒有三月的傲寒,沒有五月的燥熱,桃花剛偷去了紅,楊柳在風中扭著腰,櫻花正開的爛漫。工作繁忙之余。做一下深呼吸,沾衣欲濕杏花雨,吹面不含楊柳風。不知不覺2017第一季度已經結束…

【機器學習】feature_importances_ 參數源碼解析

在用sklearn的時候經常用到feature_importances_ 來做特征篩選,那這個屬性到底是啥呢。 分析源碼發現來源于每個base_estimator的決策樹的 feature_importances_ 由此發現計算邏輯來源于cython文件,這個文件可以在其github上查看源代碼 而在DecisionTree…

流行視頻格式講解

轉自 豪杰技術 http://www.herosoft.com 流行視頻格式講解 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的縮寫。這類格式包括了 MPEG-1, MPEG-2 和 MPEG-4在內的多種視頻格式。MPEG-1相信是大家接觸得最多的了,因為目前其正在被廣泛地應用在 VCD…

歐盟通過最新《數據保護法》

歐洲議會近日通過了最新的《數據保護法》,用以保護消費者的數據和隱私。該法案是數字時代的首個新規,取代了一套20年前的、在互聯網發展初期階段構想的規則。新規規定,當企業所擁有的消費者相關數據遭遇黑客攻擊等泄露事件后,消費…

ajax 長輪詢

未完成,因為需要換成webscoket來做,該ajax長輪詢有待完善 function poll(){$.ajax({type:"POST",url:"ajax",async:true,data:{"receiverType":"single","receiverId":"${receiverId}",&qu…

python中變量的作用域

變量的作用域 變量的作用域就是指變量的有效范圍。 變量按照作用范圍分為兩類,分別是 全局變量 和 局部變量。 全局變量:在函數外部聲明的變量就是全局變量 有效范圍:全局變量在函數外部可以正常使用。全局變量在函數內部也可以正常使用(需要…

【機器學習】 關聯規則Apriori和mlxtend——推薦算法

引入: 啤酒與尿布的故事 關聯規律挖掘:從交易數據中發現:買了X 還會買Y 的規則 關聯規律挖掘‘購物籃分析’Market Basket Analysis(MBA) 關聯規律->應用于推薦系統 1. 關聯規則代碼演示 使用的是mlxtend.frequent…

預防和檢測如日中天?事件響應表示不服

近些年,企業安全工作的關注點,一直聚焦在如何預防黑客攻擊。但是,頻發的大型跨國企業的數據泄露事件表明,即使是對網絡安全更為重視,同時也投入了更多成本的金融業,也明白了“無論做了怎樣的安全防護&#…

python中的內部函數和閉包函數

內部函數 在函數內部聲明的函數就是內部函數。 格式: def 函數名():局部變量...def 內部函數名():Python功能代碼...示例: def funName():name dragon#定義一個內部函數def inner():print(我是內部函數)‘’‘注釋: 1.內部函數的本質就是局…

【機器學習】K-Means(非監督學習)學習及實例使用其將圖片壓縮

非監督學習之k-means K-means通常被稱為勞埃德算法,這在數據聚類中是最經典的,也是相對容易理解的模型。算法執行的過程分為4個階段。 1、從數據中選擇k個對象作為初始聚類中心; 2、計算每個聚類對象到聚類中心的距離來劃分; 3、再次計算…

CloudCC CRM:物聯網必將成為CRM的推動力

CRM熱門話題背后的主要推動力包括云、社交、移動和大數據,CloudCC CRM認為物聯網必將成為CRM的推動力,也就是傳感器將事物連接到互聯網,創建之前我們從未想到的新型服務。 社交:在銷售、市場和客戶服務部門,營銷人員正…

關于Video Renderer和Overlay Mixer

原文作者: 陸其明 整理日期: 2004/12/27 大家知道,Video Renderer (VR)是接收RGB/YUV裸數據,然后在顯示器上顯示的Filter。為提高計算機畫圖性能,根據你計算機顯卡的能力,VR會優先使用DirectDraw以及Overlay表面;如果…

【tensorflow】tensorflow -gpu安裝及jupyter環境更改

tensorflow -gpu安裝 首先,安裝Anoconda 1. 官網下載點我:2.安裝 點擊 python 3.6 version自動下載x64版,下載好之后,然后安裝。 如圖,打上勾之后,一路next3.打開終端 1)輸入conda –-version …

張震博士:SDT是未來安防發展方向

如何挖掘安防大數據價值是未來發展方向 發展實踐證明,科技強警已經成為未來發展的必然選擇,發展科技強警,必須用技術實力說話。作為科技強警的重要組成部分,安防視頻非常重要,但是,目前,安防視頻…

關于虛擬機第二塊網卡eth1(僅主機模式)的配置問題

這里發生了一個想不明白的事情,我的真機的網卡上面并沒有192.168.100.0網段的網卡 但是我在虛擬機上面添加了一塊網卡(僅主機模式)eth1 并配置為192.168.100.60(配置文件已經寫好) 開機卻能用eth1連接上xhell&#xff…

【機器學習】樸素貝葉斯介紹及實例--對短信進行二分類 使用多項式分布

貝葉斯 首先什么是貝葉斯? 一個例子,現分別有 A、B 兩個容器,在容器 A 里分別有 7 個紅球和 3 個白球,在容器 B 里有 1 個紅球和 9 個白球,現已知從這兩個容器里任意抽出了一個球,且是紅球,問這…

H.264碼流結構

a、對照:H.263的碼流結構H.263定義的碼流結構是分級結構,共四層。自上而下分別為:圖像層(picture layer)、塊組層(GOB layer)、宏塊層(macroblock layer)和塊層(block layer)。 PSC TR PTYPE PQUANT CPM PSBI TRB DBQUANT PEI PSPARE PEI…

Gartner分享物聯網和智慧城市最新數據

主題為“移我所想 Mobile is me”的2016世界移動大會上海展正在上海如火如荼的舉行,Gartner也在第一時間分享了最新的市場數據,包括企業級用戶最為關注的物聯網和智慧城市的調查預測報告,下面就一起來看看吧! 智慧城市與物聯網 物…