機器學習-LinearRegression

思維導圖

1、 關鍵數學知識點:

邊緣概率密度 = 聯合密度對非關注變量積分:fX(x)=∫fX,Y(x,y)dyf_X(x)=∫f_{X,Y}(x,y)dyfX?(x)=fX,Y?(x,y)dy
條件概率密度 = 切片 fX∣Y(x∣y)=fX,Y(x,y)/fY(y)f_{X|Y}(x|y)=f_{X,Y}(x,y)/f_Y(y)fXY?(xy)=fX,Y?(x,y)/fY?(y)

概率密度函數和似然函數的區別:概率密度函數回答:“給定參數,數據出現的可能性有多大?”似然函數回答:“給定觀測到的數據,哪些參數值更合理?”

2、 線性回歸需要滿足的假設:

1 殘差獨立同分布:獨立同分布下邊緣概率密度的乘積=聯合概率密度,用于模型求似然函數
2 殘差正態性:模型的根本假設,模型的邊緣概率密度由正態函數求得,這個正態函數來源于殘差

3、 目標函數的推導過程:

1. 建模假設

y(i)=θ?x(i)+ε(i)y (i) =θ ? x (i) +ε (i)y(i)=θ?x(i)+ε(i),
ε(i)~i.i.d.N(0,σ2)ε (i) ~i.i.d. N(0,σ 2 )ε(i)i.i.d.N(0,σ2)
p(ε)=12π?σexp?(?ε22σ2)p(\varepsilon)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\left(-\frac{\varepsilon^{2}}{2\sigma^{2}}\right)p(ε)=2π?σ1?exp(?2σ2ε2?)

2. 單個樣本的概率密度(也就是邊緣概率密度,借由ε\varepsilonε的分布計算而來):

(只需要將ε\varepsilonε代入, ε(i)=yi?θ?xi\varepsilon^{(i)} = y^{i} - \theta^{\top} x^{i}ε(i)=yi?θ?xiε\varepsilonε的概率密度函數和y(i)y^{(i)}y(i)的概率密度函數實際上是相等的,ε\varepsilonε只是yiy^{i}yi平移了y(i)?θ?x(i)y^{(i)} - \theta^{\top} x^{(i)}y(i)?θ?x(i),對于概率密度函數,只要形狀不變,坐標軸變了也是相等的)


p(y(i)∣x(i);θ)=12πσexp???(?(y(i)?θ?x(i))22σ2)p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr)= \frac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\frac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2}\right)p(y(i)x(i);θ)=2π?σ1?exp(?2σ2(y(i)?θ?x(i))2?)

p(y(i)∣x(i);θ)p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr)p(y(i)x(i);θ) 可理解為:在給定輸入 x??? 并且模型參數取 θ 的條件下,觀測到 y??? 的概率密度是多少?

3. 寫出整個數據集的似然函數(即把觀測值y固定、把參數θ當作變量的聯合概率密度函數,稱之為似然函數,由邊緣概率密度的乘積計算得來)

(邊緣概率密度的乘積=聯合概率密度,也就是似然函數,這是獨立同分布的數學定理)


L(θ)=∏i=1mp(y(i)∣x(i);θ)=∏i=1m12πσexp???(?(y(i)?θ?x(i))22σ2)=(2πσ2)?m2exp???(?12σ2∑i=1m(y(i)?θ?x(i))2).\begin{aligned} L(\theta) &= \prod_{i=1}^{m} p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr) \\ &= \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\frac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2}\right) \\ &= (2\pi\sigma^2)^{-\frac{m}{2}}\exp\!\left(-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2\right). \end{aligned}L(θ)?=i=1m?p(y(i)x(i);θ)=i=1m?2π?σ1?exp(?2σ2(y(i)?θ?x(i))2?)=(2πσ2)?2m?exp(?2σ21?i=1m?(y(i)?θ?x(i))2).?

4. 取對數得到對數似然

?(θ)=log?L(θ)=?m2log?(2πσ2)?12σ2∑i=1m(y(i)?θ?x(i))2.\ell(\theta)=\log L(\theta) = -\frac{m}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2.?(θ)=logL(θ)=?2m?log(2πσ2)?2σ21?i=1m?(y(i)?θ?x(i))2.

5. 最大化對數似然 ? 最小化殘差平方和

( 在誤差服從高斯分布的假設下,極大似然估計與最小二乘估計恰好得到同一解)
θ^MLE=arg?max?θ?(θ)=arg?min?θ∑i=1m(y(i)?θ?x(i))2.\hat\theta_{\text{MLE}} = \arg\max_{\theta}\ell(\theta) = \arg\min_{\theta}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2.θ^MLE?=argmaxθ??(θ)=argminθ?i=1m?(y(i)?θ?x(i))2.
(arg?max?\arg\maxargmax找出讓某個函數達到最大值的輸入值(θ\thetaθ),而不是最大值本身)

6. 結論(對目標函數求極值)

根據最大似然估計的一階最優條件U(θ)=?θ?(θ)=0U(\theta) = \nabla_{\theta} \ell(\theta) = 0U(θ)=?θ??(θ)=0對對數似然函數求導并令其為零(求極值),可以推導出以下正規方程:
θ^MLE=(X?X)?1X?y, \hat\theta_{\text{MLE}} = (X^\top X)^{-1}X^\top y, θ^MLE?=(X?X)?1X?y,
其中
X=[x(1)??x(m)?]∈Rm×n,y=[y(1)?y(m)]∈Rm×1. X=\begin{bmatrix} x^{(1)\top}\\ \vdots\\ x^{(m)\top} \end{bmatrix}\in\mathbb R^{m\times n},\qquad y=\begin{bmatrix} y^{(1)}\\ \vdots\\ y^{(m)} \end{bmatrix}\in\mathbb R^{m\times 1}. X=?x(1)??x(m)???Rm×n,y=?y(1)?y(m)??Rm×1.
求解正規方程時X要加上一列x0,x0列全為1即可
在高斯噪聲假設下,線性回歸的最大似然估計等價于最小二乘估計


7. 最后對U(θ)U(\theta)U(θ)再次求導可以進一步求檢驗統計量
#%% md

4、解釋為什么有些時候為什么必須要滿足線性回歸假設,即使明明可以用OLS,而OLS不需要這些假設

1、為了使得OLS和MLE相同,因為MLE有無法替代的優勢:
(1)一致性(樣本越大,估計越接近真值);
(2)漸近有效性(樣本足夠大時,它的方差是所有估計里最小的);
(3)可推導分布(可以算出估計量的分布,從而做假設檢驗)。


2、 讓 t/F 檢驗的 p 值和置信區間在小樣本下完全準確


3、在滿足 高斯馬爾可夫定理 條件(零均值、同方差、無自相關)的線性回歸模型里,OLS 是所有線性無偏估計中(在給定解釋變量條件下)方差最小的那一個,即 BLUE(Best Linear Unbiased Estimator)。如果 GM 條件不滿足,OLS 仍是無偏且線性的,但 不再保證方差最小;這時可能有其他線性無偏估計(例如 GLS)方差更小。




結論 :對于純粹的預測,不一定需要滿足條件,因為不需要假設檢驗自然也不不需要MLE的性質,只要結果好就行

5梯度下降(SGD)

數學推導過程
  1. 假設模型:
    y^=w?x+b \hat{y} = w \cdot x + b y^?=w?x+b

  2. 定義損失函數:(這一步是和正規方程方法一樣的)
    L=12m∑i=1m(w?xi+b?yi)2 L = \frac{1}{2m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right)^2 L=2m1?i=1m?(w?xi?+b?yi?)2

  3. www 求偏導:
    ?L?w=1m∑i=1m(w?xi+b?yi)?xi \frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right) \cdot x_i ?w?L?=m1?i=1m?(w?xi?+b?yi?)?xi?

  4. bbb 求偏導:
    ?L?b=1m∑i=1m(w?xi+b?yi) \frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right) ?b?L?=m1?i=1m?(w?xi?+b?yi?)


梯度下降更新規則:
  • w=w?α?(1m∑(y^?y)?x) w = w - \alpha \cdot \left( \frac{1}{m} \sum ( \hat{y} - y ) \cdot x \right) w=w?α?(m1?(y^??y)?x)

  • b=b?α?(1m∑(y^?y)) b = b - \alpha \cdot \left( \frac{1}{m} \sum ( \hat{y} - y ) \right) b=b?α?(m1?(y^??y))

其中 α\alphaα 是學習率,mmm 是樣本數量。


梯度下降和正規方程區別:

正規方程是根據損失函數,設損失函數的所有參數的偏導(直接求導)的結果為0,通過矩陣運算一次性推出損失函數的最優參數


梯度下降是對損失函數各個參數求偏導,并不需要將偏導設為0求最優參數,而是只求偏導的結果(梯度),然后根據學習率沿著梯度的方向走,并逐步迭代

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92316.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92316.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92316.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決微信小程序中如何把npm構建的模塊與主包分離,構建到分包上面

1、配置分包2、復制packge.json到分包中3、在project.config.json中增加npm配置4、終端執行npm i下載模塊5、構建npm到miniprogram_npm中

自動駕駛中的傳感器技術21——Camera(12)

自動駕駛攝像頭的圖像評測 攝像頭的性能受到環境光照、天氣條件、運動模糊等因素的影響,因此需要通過多方面的評測來確保其在各種場景下的可靠性。 在自動駕駛領域,圖像質量評估不僅關注圖像的清晰度、分辨率等傳統指標,還需要結合目標檢測…

AI+OA原生應用 麥當秀AIPPT

麥當秀也在WAIC期間重新定義AIOA一、什么是“原生AI”?“原生AI”可以理解為:AI系統本身具備完整的辦公能力,不需要依賴傳統辦公軟件(如Word、Excel、PPT)作為載體。也就是說,用戶可以直接通過AI系統完成文…

K8S 入門操作

之前一直用kubectl這個命令操作,這些都是基于命令來操作K8S kubectl get pods kubectl get nodes kubectl get svc kubectl create deployment... kubectl expose deployment...kubectl 文檔 命令行工具 (kubectl) | Kubernetes 命令參考 Kubectl Reference Doc…

蒙文OCR識別技術難點實現及應用場景剖析

一、蒙文OCR識別核心技術難點1. 文字特性帶來的識別挑戰連寫特性:蒙文字符存在復雜的連寫形式(詞首、詞中、詞尾變形)方向特異性:傳統蒙文為垂直書寫(現代也有橫排),需特殊方向處理字符相似性&a…

通過docker構建一個java鏡像

通過docker構建一個java鏡像 FROM zlyxzq/centos7:v1 VOLUME /tmp WORKDIR /app COPY /target/aa.jar /root/app/aa.jarENV TZAsia/Shanghai RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezoneENV JAVA_HOME /usr/local/java ENV PA…

SpringBoot學習日記 Day5:解鎖企業級開發核心技能

一、前言:從玩具項目到生產系統經過前四天的學習,我們已經能夠開發基礎功能了。但要讓應用真正具備生產價值,還需要掌握數據庫高級操作、事務控制、緩存優化等企業級開發技能。今天就來攻克這些關鍵知識點!二、JPA進階&#xff1a…

將英文PDF文件完整地翻譯成中文的4類方式

文章目錄一、在線翻譯服務(最快捷,適合臨時查看)1.1 代表工具:1.2 操作流程(以Google翻譯為例)1.3 優點和缺點1.4 適用場景二、專業軟件(最佳平衡,兼顧格式與質量)2.1 代…

【分享】我國八大沙漠空間矢量范圍

今天小編整理分享的是 我國八大沙漠空間矢量范圍shp。▲ 我國八大沙漠空間矢量范圍概況數據概況我國八大沙漠空間矢量范圍。中國八大沙漠。分別為騰格里沙漠,塔克拉馬干沙漠,巴丹吉林沙漠,庫布奇沙漠,烏蘭布和沙漠,庫…

【音視頻】WebRTC C++ native 編譯

一、搭建環境 我們這里介紹在Windows10VS2019的環境下編譯WebRTC源碼,由于WebRTC源碼在外網上,需要科學的方式下載,不然下載特別慢,建議直接找國內下載好的源碼,這里的源碼是2021年的版本:https://pan.bai…

Selenium在Pyhton應用

目錄 1. selenium的基本原理 2. selenium環境的搭建步驟 3. 元素的定位和操作 4.元素的基本屬性方法 5.瀏覽器的操作方法 6.三種等待 強制等待 顯示等待 隱式等待 7. 鍵盤與鼠標的操作 鼠標懸停用 拖拽操作 8. 下拉框元素定位 9.頁面滾動操作 10. 頁面截圖操作 S…

【Docker】Redis基礎命令在Docker中的使用

文章目錄一 Redis 容器化部署指南1 獲取 Redis 鏡像2 服務啟動2.1 首次啟動新容器2.2 重啟已有容器3 服務驗證4 連接 Redis5 數據持久化方案5.1 使用 Docker 卷5.2 啟用 AOF 持久化6 容器管理6.1 停止容器6.2 刪除容器7 數據清理7.1 清空 Redis 數據7.2 完全移除7.3 刪除數據卷…

ubuntu 2024 安裝拼音輸入法

1. 卸載ibussudo apt remove ibus2. install fcitx5核心組件sudo apt install fcitx5 fcitx5-chinese-addons fcitx5-material-color3. 安裝中文語言支持sudo apt install language-pack-zh-hans4. 設置默認輸入法im-config -n fcitx55. 配置環境變量sudo vim ~/.bashrc粘貼&am…

語言模型的多個agent

是的,語言模型 在某些情況下確實可以通過多個 agent(代理)來共同協作完成任務。這種設計通常用于復雜任務或需要多步驟處理的場景,具體的流程如下: 1. 什么是 Agent? Agent(代理) 是…

CSS--:root指定變量,其他元素引用

原文網址:CSS--:root指定變量,其他元素引用-CSDN博客 簡介 本文介紹CSS中使用變量的方法。 場景描述 CSS可以使用變量,比如:指定整個網頁的主體顏色作為變量,其他的元素去使用這個顏色。這樣在修改顏色時&#xff…

秋招筆記-8.7

今天先來補充一下關于Unity和UE的一些問題,后續開始深挖項目:Unity關于fixed update和update:同一幀中物理更新優先執行?關于協程:協程是基于迭代器實現的,而迭代器是基于狀態機實現的。協程的本質是編譯器…

DAY 26 函數專題1:函數定義與參數

浙大疏錦行知識點回顧: 函數的定義變量作用域:局部變量和全局變量函數的參數類型:位置參數、默認參數、不定參數傳遞參數的手段:關鍵詞參數傳遞參數的順序:同時出現三種參數類型時 作業 #作業1 import math def calcul…

跨學科視域下的深層語義分析與人類底層邏輯一致性探索

摘要本文章旨在系統性地探討一個前沿的交叉學科研究課題:如何通過深層語義分析,探索并建模人類認知中普遍存在的底層邏輯一致性。此研究橫跨自然語言處理(NLP)、知識圖譜(KG)、認知科學、腦神經科學、系統科…

Flink CDC如何保障數據的一致性?

Flink CDC 通過 Checkpoint 機制、冪等性設計 和 事務一致性協議 保障數據同步的一致性。以下是具體實現方式和關鍵配置:1. Checkpoint 機制(核心保障)作用:定期保存同步狀態(包括 Binlog 位置和全量快照進度&#xff…

上傳文件至華為云OBS

1 創建華為云Bucket1.1 創建Bucket1.2 獲取Bucket的Endpoint1.3 獲取訪問憑證注:每個訪問密鑰僅能下載一次,為了賬號安全性,建議您定期更換并妥善保存訪問密鑰。不再使用的訪問密鑰,建議停用和刪除。2 創建Sprint Boot工程創建一個…