先驗、后驗、似然

先驗、后驗、似然

先驗分布、后驗分布和似然函數

本節轉自:先驗分布、后驗分布、似然估計這幾個概念是什么意思,它們之間的關系是什么?

通俗解釋

  • 先驗分布:根據一般的經驗認為隨機變量應該滿足的分布。先驗分布是你瞎猜參數服從啥分布

  • 后驗分布:通過當前訓練數據修正的隨機變量的分布,比先驗分布更符合當前數據。后驗分布是你學習經驗后有根據地瞎猜參數服從啥分布

  • 似然估計:已知訓練數據,給定了模型,通過讓似然性極大化估計模型參數的一種方法。似然估計是你猜參數是多少,才最能解釋某些實驗結果

舉例

這幾個概念可以用“原因的可能性”和“結果的可能性”的“先后順序”及“條件關系”來理解。

下面舉例:隔壁老王要去10公里外的一個地方辦事,他可以選擇走路,騎自行車或者開車,并花費了一定時間到達目的地。在這個事件中,可以把交通方式(走路、騎車或開車)認為是原因,花費的時間認為是結果。

后驗概率

若老王花了一個小時的時間完成了10公里的距離,那么很大可能是騎車過去的,當然也有較小可能老王是個健身達人跑步過去的,或者開車過去但是堵車很嚴重。若老王一共用了兩個小時的時間完成了10公里的距離,那么很有可能他是走路過去的。若老王只用了二十分鐘,那么很有可能是開車。這種先知道結果,然后由結果估計原因的概率分布,p(交通方式|時間),就是后驗概率

先驗概率

老王早上起床的時候覺得精神不錯,想鍛煉下身體,決定跑步過去;也可能老王想做個文藝青年試試最近流行的共享單車,決定騎車過去;也可能老王想炫個富,決定開車過去。老王的選擇與到達目的地的時間無關。先于結果,確定原因的概率分布,p(交通方式),就是先驗概率

似然函數

老王決定步行過去,那么很大可能10公里的距離大約需要兩個小時;較小可能是老王平時堅持鍛煉,跑步過去用了一個小時;更小可能是老王是個猛人,40分鐘就到了。老王決定騎車過去,很可能一個小時就能到;較小可能是老王那天精神不錯加上單雙號限行交通很通暢,40分鐘就到了;還有一種較小可能是老王運氣很差,連著壞了好幾輛共享單車,花了一個半小時才到。老王決定開車過去,很大可能是20分鐘就到了,較小可能是那天堵車很嚴重,磨磨唧唧花了一個小時才到。這種先確定原因,根據原因來估計結果的概率分布,p(時間|交通方式),就是似然估計

evidence

老王去那個地方好幾趟,不管是什么交通方式,得到了一組關于時間的概率分布。這種不考慮原因,只看結果的概率分布,p(時間),也有一個名詞:evidence(不清楚合適的中文名是什么)。

最后,甩出著名的貝葉斯公式:
p(θ∣x)=p(x∣θ)p(θ)p(x)p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)} p(θx)=p(x)p(xθ)p(θ)?
xxx:觀察得到的數據(結果)

θ\thetaθ:決定數據分布的參數(原因)

p(θ∣x)p(\theta|x)p(θx):posterior

p(θ)p(\theta)p(θ):prior

p(x∣θ)p(x|\theta)p(xθ):likelihood

p(x)p(x)p(x):evidence

最大似然估計MLE和最大后驗估計MAP

本節轉自:https://zhuanlan.zhihu.com/p/32480810

  • 頻率學派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估計)
  • 貝葉斯學派 - Bayesian - Maximum A Posteriori (MAP,最大后驗估計)

概述

有時候和別人聊天,對方會說自己有很多機器學習經驗,深入一聊發現,對方竟然對MLE和MAP一知半解,至少在我看來,這位同學的機器學習基礎并不扎實。難道在這個深度學習盛行的年代,不少同學都只注重調參數?

現代機器學習的終極問題都會轉化為解目標函數的優化問題,MLE和MAP是生成這個函數的很基本的思想,因此我們對二者的認知是非常重要的。這次就和大家認真聊一聊MLE和MAP這兩種estimator。

兩大學派的爭論

抽象一點來講,頻率學派和貝葉斯學派對世界的認知有本質不同:頻率學派認為世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的范圍;而貝葉斯學派認為世界是不確定的,人們對世界先有一個預判,而后通過觀測數據對這個預判做調整,我們的目標是要找到最優的描述這個世界的概率分布。

在對事物建模時,用 θ 表示模型的參數,**請注意,解決問題的本質就是求 θ\thetaθ **。那么:

(1) 頻率學派:存在唯一真值 θ\thetaθ。舉一個簡單直觀的例子–拋硬幣,我們用 P(head)P(head)P(head) 來表示硬幣的bias。拋一枚硬幣100次,有20次正面朝上,要估計拋硬幣正面朝上的 bias P(head)=θP(head)=\thetaP(head)=θ 。在頻率學派來看,θ=20/100=0.2\theta = 20 / 100 = 0.2θ=20/100=0.2,很直觀。當數據量趨于無窮時,這種方法能給出精準的估計;然而缺乏數據時則可能產生嚴重的偏差。例如,對于一枚均勻硬幣,即 θ=0.5\theta = 0.5θ=0.5,拋擲5次,出現5次正面 (這種情況出現的概率是1/2^5=3.125%),頻率學派會直接估計這枚硬幣 θ=1\theta = 1θ=1,出現嚴重錯誤。

(2) 貝葉斯學派θ\thetaθ 是一個隨機變量,符合一定的概率分布。在貝葉斯學派里有兩大輸入和一大輸出,輸入是先驗 (prior)和似然 (likelihood),輸出是后驗 (posterior)。先驗,即 P(θ)P(\theta)P(θ) ,指的是在沒有觀測到任何數據時對 θ\thetaθ 的預先判斷,例如給我一個硬幣,一種可行的先驗是認為這個硬幣有很大的概率是均勻的,有較小的概率是是不均勻的;似然,即 P(X∣θ)P(X|\theta)P(Xθ) ,是假設 θ\thetaθ 已知后我們觀察到的數據應該是什么樣子的;后驗,即 P(θ∣X)P(\theta|X)P(θX) ,是最終的參數分布。貝葉斯估計的基礎是貝葉斯公式,如下:
P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)?
同樣是拋硬幣的例子,對一枚均勻硬幣拋5次得到5次正面,如果先驗認為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分布),那么 P(head)P(head)P(head) ,即 P(θ∣X)P(\theta|X)P(θX) ,是一個distribution,最大值會介于0.5~1之間,而不是武斷的 θ=1\theta = 1θ=1

這里有兩點值得注意的地方:

  • 隨著數據量的增加,參數分布會越來越向數據靠攏,先驗的影響力會越來越小
  • 如果先驗是uniform distribution,則貝葉斯方法等價于頻率方法。因為直觀上來講,先驗是uniform distribution本質上表示對事物沒有任何預判

MLE - 最大似然估計

Maximum Likelihood Estimation, MLE是頻率學派常用的估計方法!

假設數據 x1,x2,...,xnx_1,x_2,...,x_nx1?,x2?,...,xn? 是 i.i.d.的一組抽樣,X=(x1,x2,...,xn)X=(x_1,x_2,...,x_n)X=(x1?,x2?,...,xn?) 。其中i.i.d.表示Independent and identical distribution,獨立同分布。那么MLE對 θ\thetaθ 的估計方法可以如下推導:
θ^MLE=argmaxP(X;θ)=argmaxP(x1;θ)P(x2;θ)…P(xn;θ)=argmaxlog?∏i=1nP(xi;θ)=argmax∑i=1nlog?P(xi;θ)=argmin?∑i=1nlog?P(xi;θ)\begin{align} \hat{\theta}_{MLE}&=argmax\ P(X;\theta)\\ &=argmax\ P(x_1;\theta)P(x_2;\theta)\dots P(x_n;\theta)\\ &=argmax\ \log\prod_{i=1}^nP(x_i;\theta)\\ &=argmax\ \sum_{i=1}^n\log P(x_i;\theta)\\ &=argmin\ -\sum_{i=1}^n\log P(x_i;\theta) \end{align} θ^MLE??=argmax?P(X;θ)=argmax?P(x1?;θ)P(x2?;θ)P(xn?;θ)=argmax?logi=1n?P(xi?;θ)=argmax?i=1n?logP(xi?;θ)=argmin??i=1n?logP(xi?;θ)??
最后這一行所優化的函數被稱為 Negative Log Likelihood (NLL),這個概念和上面的推導是非常重要的!

我們經常在不經意間使用MLE,例如

  • 上文中關于頻率學派求硬幣概率的例子,其方法其實本質是由優化NLL得出。本文末尾附錄中給出了具體的原因 😃
  • 給定一些數據,求對應的高斯分布時,我們經常會算這些數據點的均值和方差然后帶入到高斯分布的公式,其理論依據是優化NLL
  • 深度學習做分類任務時所用的cross entropy loss,其本質也是MLE

MAP - 最大后驗估計

Maximum A Posteriori, MAP是貝葉斯學派常用的估計方法!

同樣的,假設數據 x1,x2,…,xnx_1,x_2,\dots,x_nx1?,x2?,,xn? 是i.i.d.的一組抽樣,X=(x1,x2,…,xn)X=(x_1,x_2,\dots,x_n)X=(x1?,x2?,,xn?) 。那么MAP對 θ\thetaθ 的估計方法可以如下推導:
θ^MAP=argmaxP(θ∣X)=argmin?log?P(θ∣X)=argmin?log?P(X∣θ)P(θ)P(X)=argmin?log?P(X∣θ)?log?P(θ)+log?P(X)=argmin?log?P(X∣θ)?log?P(θ)\begin{align} \hat{\theta}_{MAP}&=argmax\ P(\theta|X)\\ &=argmin\ -\log P(\theta|X)\\ &=argmin\ -\log\frac{P(X|\theta)P(\theta)}{P(X)}\\ &=argmin\ -\log P(X|\theta)-\log P(\theta)+\log P(X)\\ &=argmin\ -\log P(X|\theta)-\log P(\theta) \end{align} θ^MAP??=argmax?P(θX)=argmin??logP(θX)=argmin??logP(X)P(Xθ)P(θ)?=argmin??logP(Xθ)?logP(θ)+logP(X)=argmin??logP(Xθ)?logP(θ)??
其中,第二行到第三行使用了貝葉斯定理,第四行到第五行 P(X)P(X)P(X) 可以丟掉因為與 θ\thetaθ 無關。注意 ?log?P(X∣θ)?log?P(X|\theta)?log?P(Xθ) 其實就是NLL,所以MLE和MAP在優化時的不同就是在于先驗項 ?log?P(θ)?log?P(\theta)?log?P(θ) 。好的,那現在我們來研究一下這個先驗項,假定先驗是一個高斯分布,即
P(θ)=constant×e?θ22σ2P(\theta)=constant\times e^{-\frac{\theta^2}{2\sigma^2}} P(θ)=constant×e?2σ2θ2?
那么, ?log?P(θ)=constant+θ22σ2-\log P(\theta)=constant+\frac{\theta^2}{2\sigma^2}?logP(θ)=constant+2σ2θ2? 。至此,一件神奇的事情發生了 – 在MAP中使用一個高斯分布的先驗等價于在MLE中采用L2的regularizaton!

再稍微補充幾點:

  • 我們不少同學大學里學習概率論時,最主要的還是頻率學派的思想,其實貝葉斯學派思想也非常流行,而且實戰性很強
  • CMU的很多老師都喜歡用貝葉斯思想解決問題;THU朱軍老師也在做貝葉斯深度學習的工作,有興趣可以關注一下。

后記

有的同學說:“了解這些沒用,現在大家都不用了。”這種想法是不對的,因為這是大家常年在用的知識,是推導優化函數的核心,而優化函數又是機器學習 (包含深度學習) 的核心之一。這位同學有這樣的看法,說明對機器學習的本質并沒有足夠的認識,而讓我吃驚的是,竟然有不少其他同學為這種看法點贊。內心感到有點兒悲涼,也引發了我寫這篇文章的動力,希望能幫到一些朋友 😃

Ref

  1. 先驗分布、后驗分布、似然估計這幾個概念是什么意思,它們之間的關系是什么?
  2. Agenter的回答
  3. 機器學習的數學——雷明
  4. 聊一聊機器學習的MLE和MAP:最大似然估計和最大后驗估計
  5. Bayesian Method Lecture, UT Dallas.
  6. MLE, MAP, Bayes classification Lecture, CMU.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/532430.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/532430.shtml
英文地址,請注明出處:http://en.pswp.cn/news/532430.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

max std value 宏_Rust Macro/宏 新手指南

Rust語言最強大的一個特點就是可以創建和利用宏/Macro。不過創建 Rust宏看起來挺復雜,常常令剛接觸Rust的開發者心生畏懼。這片文章 的目的就是幫助你理解Rust Macro的基本運作原理,學習如何創建自己的 Rust宏。相關鏈接:在線學編程 - 匯智網…

高斯分布及其極大似然估計

高斯分布及其極大似然估計 高斯分布 一維高斯分布 一維高斯分布的概率密度函數為: N(μ,σ2)12πσexp?(?(x?μ)22σ2)N(\mu,\sigma^2)\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) N(μ,σ2)2π?σ1?exp(?2σ2(x?μ)2?) 多維高斯分布…

農林資金 大數據審計案例_大數據審計:現狀與發展

大數據審計:現狀與發展【摘要】傳統手工環境下,審計人員常用的審計方法包括檢查法、觀察法、重新計算法、外部調查法、分析法、鑒定法等。隨著信息技術的發展,被審計單位的運行越來越依賴于信息化環境。信息化環境下審計工作發生了巨大的變化…

商標45類分類表明細表_2019版注冊商標分類表,商標注冊45類范圍明細

注冊商標的時候都是要確定具體的產品或服務的,目前我國商標分類是用《類似商品和服務區分表–基于尼斯分類第十一版》2019年版這本分類書。這本分類表也是全球通用的分類表,商標分類總共有45個類別,1-34類是產品類、35-45類是服務類。這45個大…

高維高斯分布基礎

高維高斯分布基礎 多位高斯分布的幾何理解 多維高斯分布表達式為: p(x∣μ,Σ)1(2π)p/2∣Σ∣1/2e?12(x?μ)TΣ?1(x?μ)p(x|\mu,\Sigma)\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} p(x∣μ,Σ)(2π)p/2∣Σ∣1/21?…

angularjs sill 創建項目_開源項目——博客項目MyBlogs.Core,基于.NET 5

個人博客站項目源碼,高性能低占用的博客系統,這也許是我個人目前寫過的性能最高的web項目了 。目前日均處理請求數80-120w次,同時在線活躍用戶數30-100人,數據量累計已達到100多萬條,數據庫Redis網站主程序同時運行在一…

懷舊服推薦配置_【懷舊服】狂暴戰P4畢業裝備推薦

在懷舊服開啟P4階段之后,狂暴戰玩家的輸出也得到了進一步的提升。當然,狂暴戰想要打出足夠的傷害離不開對應的裝備,現在就給大家介紹下狂暴戰P4階段的BIS裝備。散件裝備狂暴戰在這一階段依舊有非常不錯的散件裝備,個人建議玩家入手…

高斯混合模型GMM及EM迭代求解算法(含代碼實現)

高斯混合模型GMM及EM迭代求解算法(含代碼實現) 高斯分布與高斯混合模型 高斯分布 高斯分布大家都很熟悉了,下面是一元高斯分布的概率密度函數(Probability Density Function,PDF): P(x)N(μ,…

十個模塊_專欄 | ABAQUS Part模塊的十個小技巧

作者介紹星辰_北極星2012年開始從事Abaqus仿真相關工作,服務大小課題逾百項; 主要仿真領域:石油工程、巖土工程和金屬加工工藝; 重點研究方向:ABAQUS GUI二次開發、固體力學、斷裂以及損傷等。Abaqus有部件(Part)和裝配體(Assembl…

深度學習時代的視頻理解綜述

深度學習時代的視頻理解綜述 本文為b站bryanyzhu老師四期視頻理解相關論文解讀的匯總圖文筆記。 我們先精讀深度學習時代視頻理解領域最為重要的兩篇論文:雙流網絡和 I3D。它們分別是領域內兩大類方法雙流(利用光流)網絡和 3D CNN 網絡的代…

typec擴展塢hdmi沒反應_typec擴展塢轉hdmi/vga多功能網口usb轉換器蘋果華為電腦matebook6元優惠券券后價26.8元...

★typec擴展塢轉hdmi/vga多功能網口usb轉換器蘋果華為電腦matebook,6元拼多多優惠券★券后價26.8元★★★typec擴展塢轉hdmi/vga多功能網口usb轉換器蘋果華為電腦matebook¥26.8元¥32.8元已拼5097件點擊搶購猜你喜歡[速發]喵喵機P1熱敏打印機手…

NLP任務概覽

NLP任務概覽 本文為臺灣大學李宏毅老師視頻課程筆記。本課程介紹了 (2020年)NLP 領域常見的 17 種任務。本文只會從輸入輸出的角度概覽多種 NLP 任務,并簡介它們的常見做法,并不會細致地介紹每個任務模型的具體細節。 兩種模式與…

大物實驗總結模板_期中總結大會amp;期末動員大會

在逐漸降溫的雙創周麥包坊的期中總結暨期末動員大會來啦在學長團和小麥包的分享下希望大家重新啟航奮斗期末板塊一學長團經驗分享面對本學期十二門科目,作為過來人的前輩們給出很多對本學期各科目的針對性建議,可謂是干貨滿滿,快來瞧瞧吧&…

PTMs:NLP預訓練模型的全面總結

PTMs:NLP預訓練模型的全面總結 轉自:https://zhuanlan.zhihu.com/p/115014536 預訓練模型(Pre-trained Models,PTMs) 的出現將NLP帶入了一個全新時代。2020年3月18日,邱錫鵬老師發表了關于NLP預訓練模型的綜述《Pre-trained Models for Natur…

python中提取幾列_Python一鍵提取PDF中的表格到Excel(實例50)

從PDF文件獲取表格中的數據,也是日常辦公容易涉及到的一項工作。一個一個復制吧,效率確實太低了。用Python從PDF文檔中提取表格數據,并寫入Excel文件,灰常灰常高效。上市公司的年報往往包含幾百張表格,用它作為例子再合…

EM算法公式推導

EM算法公式推導 EM 算法是一種用來進行含有隱變量的概率生成模型參數估計的迭代算法。 EM算法步驟 EM 算法通過迭代求 L(θ)log?P(X∣θ)L(\theta)\log P(X|\theta)L(θ)logP(X∣θ) 的極大似然估計,每次迭代包含兩部:E步,求期望&#xf…

詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解

詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解 聲明:本文為原創文章,發表于nebulaf91的csdn博客。歡迎轉載,但請務必保留本信息,注明文章出處。 本…

elemntui icon 大小_自定義elementui中的圖標

前提elementui圖標庫圖標較少當你想用elementui的控件而不想用它的圖標時,就可以使用自定義的方式來實現實現el-icon-my-export為我自定義的圖標命名導出//使用圖片來替換//before屬性中的content文本是用來占位的,必須有//可以設置字體大小來確定大小//使用visibil…

變分推斷公式推導

變分推斷公式推導 背景介紹 機器學習中的概率模型可分為頻率派和貝葉斯派。頻率派最終是求一個優化問題,而貝葉斯派則是求一個積分問題。 頻率派 舉幾個例子: 線性回歸 樣本數據:{(xi,yi)}i1N\{(x_i,y_i)\}_{i1}^N{(xi?,yi?)}i1N? 模…

重新打開_iPhone 應用停止響應或無法打開的解決辦法

如果當您在 iPhone 上使用某個重要應用時,遇到應用停止響應、意外退出或無法打開的問題,請參考如下步驟嘗試解決:1.強制退出應用:在 iPhone 后臺強制關閉該應用之后,再次重新打開看看。2.重啟您的設備,然后…