AI算法崗面試八股面經【超全整理】
- 概率論
- 信息論
- 機器學習
- CV
- NLP
目錄
- 1、古典概型、幾何概型
- 2、條件概率、全概率公式、貝葉斯公式
- 3、先驗概率、后驗概率
- 4、離散型隨機變量的常見分布
- 5、連續型隨機變量的常見分別
- 6、數學期望、方差
- 7、協方差、相關系數
- 8、獨立、互斥、不相關
- 9.大數定理
- 10、中心極限定理
- 11、最大似然估計(極大似然估計)
1、古典概型、幾何概型
古典概型:(有限等可能)
- 樣本空間的數量是有限的
- 每個樣本點的發生是等可能性的
幾何概型:(無限等可能)
- 樣本空間的樣本點有無限個
- 每個樣本點發生的可能性是均等的
2、條件概率、全概率公式、貝葉斯公式
條件概率
設A、B是兩個時間,且 P ( A ) > 1 P(A)>1 P(A)>1代表關節位置,則稱 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)?為事件A發生條件下B的條件概率。
- P ( A ) > 0 P(A)>0 P(A)>0時, P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(B∣A)
- P ( B ) > 0 P(B)>0 P(B)>0時, P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(A∣B)
全概率公式
若事件 A 1 , A 2 , A 3 , ? , A n A_1,A_2, A_3,\cdots,A_n A1?,A2?,A3?,?,An?滿足以下條件:
- ? i =? j , A i A j = ? \forall{i\not=j},A_iAj=\emptyset ?i=j,Ai?Aj=?
- A 1 ? A 2 ? A 3 ? ? ? A n = Ω A_1\bigcup A_2\bigcup A_3\bigcup\cdots\bigcup A_n=\Omega A1??A2??A3????An?=Ω
則稱 A 1 , A 2 , A 3 , ? , A n A_1,A_2, A_3,\cdots,A_n A1?,A2?,A3?,?,An?為完備事件組
全概率公式為:
P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) \begin{aligned} P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i) \\ \end{aligned} P(B)=i=1∑n?P(Ai?)P(B∣Ai?)?
貝葉斯公式
已知結果找原因,發生了結果B, A k A_k Ak?被視作導致B發生的原因
設 A 1 , A 2 , A 3 , ? , A n A_1,A_2, A_3,\cdots,A_n A1?,A2?,A3?,?,An?為完備事件組,且 P ( A i ) > 0 ( i = 1 , 2 , ? , n ) P(A_i)>0(i=1,2,\cdots,n) P(Ai?)>0(i=1,2,?,n),B為任意事件, P ( B ) > 0 P(B)>0 P(B)>0,則
P ( A k ∣ B ) = P ( A k ) P ( B ∣ A k ) P ( B ) = P ( A k ) P ( B ∣ A k ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) \begin{aligned} P(A_k|B)=\frac{P(A_k)P(B|A_k)}{P(B)}= \frac{P(A_k)P(B|A_k)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}\\ \end{aligned} P(Ak?∣B)=P(B)P(Ak?)P(B∣Ak?)?=∑i=1n?P(Ai?)P(B∣Ai?)P(Ak?)P(B∣Ak?)??
通常把 P ( A 1 ) , P ( A 2 ) , … , P ( A n ) P(A_1),P(A_2),\dots,P(A_n) P(A1?),P(A2?),…,P(An?)叫做先驗概率,就是在做試驗前的概率,而把 P ( A k ∣ B ) ( k = 1 , 2 , … , n ) P(A_k|B)(k=1,2,\dots, n) P(Ak?∣B)(k=1,2,…,n)
叫做后驗概率。
3、先驗概率、后驗概率
先驗概率
- 由原因推結果
- 事情未發生,只根據以往數據統計,分析事情發生的可能性,即先驗概率。
- 先驗概率是指根據以往經驗和分析得到的概率,如全概率公司,它往往作為“由因求果”問題中的“因”出現。
后驗概率
- 由結果推原因
- 事情已發生,已有結果,求引起這件事情發生的因素的可能性,“由果求因”,即后驗概率。
- 后驗概率是指一句得到的結果信息所計算出的最有可能是哪種事件發生,如貝葉斯公式,是“由因求果”中的因。
全概率公式、貝葉斯公式與先驗、后驗概率的關系?
- 全概率公式,總結幾種因素,事件發生的概率的并集,由因求果
- 貝葉斯公式,事情已經發生,計算引起結果的各因素的概率,由因求果,同后驗概率
- 全概率是用原因推結果,貝葉斯是用結果推原因
- 后驗概率的計算,是一先驗概率為前提條件的,如果只知道事情結果,而不知道先驗概率(沒有以往數據統計),是無法計算后驗概率的。后驗概率需要應用到貝葉斯公式。
4、離散型隨機變量的常見分布
0-1分布(伯努利分布)
- 隨機變量只取0或1兩種值(概率分布是p和1-p)
- 隨機試驗只做一次
X ~ B ( 1 , p ) \begin{aligned} X\sim B(1,p)\\ \end{aligned} X~B(1,p)?
二項分布(伯努利概型)
- 設試驗E只有兩種可能結果: A A A及 A  ̄ \overline{A} A,則稱E為伯努利試驗
- 將E獨立重復地進行n次,則稱這一連串獨立的重復試驗為n重伯努利分布
隨機變量依然也是兩種0或1(概率分布是p和1-p),但是此時隨機試驗做了n次,其中事件X發生了k次
X ~ B ( n , p ) \begin{aligned} X\sim B(n,p)\\ \end{aligned} X~B(n,p)?
設 P ( A = k ) P(A=k) P(A=k)表示在n次試驗里面,事件A發生了k次的概率:
P ( A = k ) = C n k p k ( 1 ? p ) n ? k \begin{aligned} P(A=k)=C_n^kp^k{(1-p)}^{n-k}\\ \end{aligned} P(A=k)=Cnk?pk(1?p)n?k?
泊松分布
X ~ P ( λ ) \begin{aligned} X\sim P(\lambda)\\ \end{aligned} X~P(λ)?
P ( A = k ) = λ k k ! e ? λ \begin{aligned} P(A=k)=\frac{\lambda^k }{k!}e^{-\lambda}\\ \end{aligned} P(A=k)=k!λk?e?λ?
幾何分布
X ~ G ( p ) \begin{aligned} X\sim G(p)\\ \end{aligned} X~G(p)?
在伯努利試驗中,記每次試驗中事件A發生的概率為0,試驗進行到時間A出現為止,此時所進行的試驗次數為X,其分布律為
P ( A = k ) = ( 1 ? p ) k ? 1 p ( k = 0 , 1 , 2 , … ) \begin{aligned} P(A=k)={(1-p)}^{k-1}p ~~~~~~ (k=0,1,2,\dots )\\ \end{aligned} P(A=k)=(1?p)k?1p??????(k=0,1,2,…)?
5、連續型隨機變量的常見分別
均勻分布
X ~ U ( a , b ) \begin{aligned} X\sim U(a,b)\\ \end{aligned} X~U(a,b)?
f ( n ) = { 1 b ? a , a < x < b 0 other \begin{aligned} f(n)= \begin{cases} \frac{1}{b-a}, & \text {$a<x<b$} \\ 0 & \text{other} \end{cases}\\ \end{aligned} f(n)={b?a1?,0?a<x<bother??
指數分布
X ~ E ( λ ) \begin{aligned} X\sim E(\lambda)\\ \end{aligned} X~E(λ)?
f ( n ) = { λ e ? λ x , x > 0 0 other \begin{aligned} f(n)= \begin{cases}\lambda e^{-\lambda x}, & \text {$x>0$} \\ 0 & \text{other} \end{cases}\\ \end{aligned} f(n)={λe?λx,0?x>0other??
正態分布/高斯分布
X ~ N ( μ , σ 2 ) \begin{aligned} X\sim N(\mu, \sigma ^2)\\ \end{aligned} X~N(μ,σ2)?
f ( x ) = 1 2 π σ e ? ( x ? μ ) 2 2 σ 2 \begin{aligned} f(x)=\frac{1 }{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu)^2} }{2\sigma^2}}\\ \end{aligned} f(x)=2π?σ1?e?2σ2(x?μ)2??
特別地,當 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1時為標準正態分布, X ~ N ( 0 , 1 ) X\sim N(0, 1) X~N(0,1)
6、數學期望、方差
數學期望
數學期望(或均值、簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。
方差
方差是衡量源數據與期望值相差的度量值。(平方的期望-期望的平方)
D ( X ) = E ( ( X ? E ( X ) ) 2 ) = E ( X 2 ) ? E 2 ( X ) D(X)=E({(X-E(X))}^2)=E(X^2)-E^2(X) D(X)=E((X?E(X))2)=E(X2)?E2(X)
7、協方差、相關系數
協方差
期望值分別為 E ( X ) E(X) E(X)與 E ( Y ) E(Y) E(Y)的兩個實隨機變量X與Y之間的協方差 C o v ( A , Y ) Cov(A,Y) Cov(A,Y)定義為:
C o v ( X , Y ) = E [ ( X ? E [ X ] ) ( Y ? E [ Y ] ) ] = E [ X Y ] ? 2 E [ Y ] E [ X ] + E [ X ] E [ Y ] = E [ X Y ] ? E [ X ] E [ Y ] Cov(X,Y)=E[(X-E[X])(Y-E[Y])]\\=E[XY]-2E[Y]E[X]+E[X]E[Y]\\=E[XY]-E[X]E[Y] Cov(X,Y)=E[(X?E[X])(Y?E[Y])]=E[XY]?2E[Y]E[X]+E[X]E[Y]=E[XY]?E[X]E[Y]
即X,Y的協方差等于每一個X減去X的平均值乘上每一個Y減去Y的平均值的乘積的和的平均值。
相關系數
(皮爾遜相關系數)
p x y = C o v ( X , Y D ( X ) D ( Y ) p_{xy}=\frac{Cov(X,Y}{\sqrt{D(X)}\sqrt{D(Y)}} pxy?=D(X)?D(Y)?Cov(X,Y?
即,用X,Y的協方差除以X的標準差和Y的標準差
8、獨立、互斥、不相關
獨立
事件A與事件B獨立的定義是:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
互斥
事件A與事件B互斥的定義是:
集合A與集合B沒有相同的樣本點,即 A ? B = ? A\bigcap B =\empty A?B=?
不相關
事件A與事件B不相關的定義是:
C o v ( A , B ) = E [ A B ] ? E [ A ] E [ B ] = 0 Cov(A,B)=E[AB]-E[A]E[B]=0 Cov(A,B)=E[AB]?E[A]E[B]=0
- 如果事件A和事件B發生的概率都不為0,那么獨立和互斥有這樣一層關系:互斥不獨立,獨立不互斥
- 在數學期望存在的情況下:獨立必不相關,不相關未必獨立
9.大數定理
通俗一點來講,就是樣本數量很大的時候,樣本均值和數學期望充分接近,也就是說當我們大量重復某一相同的實驗的時候,其最后的實驗結果可能會穩定在某一數值附近。
如果有一個隨機變量X,不斷地觀察并且采樣這個隨機變量,得到了n個采樣值, X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1?,X2?,…,Xn?,然后求得這n個采樣值的平均值 X  ̄ n \overline{X}_n Xn?,當n趨于正無窮的時候,這個平均值就收斂于這個隨機變量X的期望。
lim ? n → + ∞ 1 n ∑ i = 1 n x i = μ \lim_{n \to +\infty} \frac{1}{n}\sum_{i=1}^{n}x_i=\mu n→+∞lim?n1?i=1∑n?xi?=μ
10、中心極限定理
設隨機變量 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1?,X2?,…,Xn?相互獨立,服從同一分布,且具有數學期望和方差: E ( X k ) = μ E(X_k)=\mu E(Xk?)=μ, D ( X k ) = θ 2 ( k = 0 , 1 , 2 , … ) D(X_k)=\theta^2(k=0,1,2,\dots) D(Xk?)=θ2(k=0,1,2,…),則隨機變量之和 ∑ k = 1 n X k \sum_{k=1}^{n}X_k ∑k=1n?Xk?的標準化變量:
Y n = ∑ k = 1 n X k ? E ( ∑ k = 1 n X k ) D ( ∑ k = 1 n X k ) = ∑ k = 1 n X k ? n μ n θ Y_n=\frac{\sum_{k=1}^{n}X_k-E(\sum_{k=1}^{n}X_k)}{\sqrt{D(\sum_{k=1}^{n}X_k)}}=\frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\theta} Yn?=D(∑k=1n?Xk?)?∑k=1n?Xk??E(∑k=1n?Xk?)?=n?θ∑k=1n?Xk??nμ?
對于均值為 μ \mu μ,方差為 θ 2 \theta^2 θ2的獨立同分布的隨機變量 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1?,X2?,…,Xn?之和 ∑ k = 1 n X k \sum_{k=1}^{n}X_k ∑k=1n?Xk?,當n足夠大時,有:
1 n ∑ k = 1 n X k ? μ θ n ~ N ( 0 , 1 ) \frac{\frac{1}{n}{\sum_{k=1}^{n}X_k}-\mu}{\frac{\theta}{\sqrt{n}}}\sim N(0,1) n?θ?n1?∑k=1n?Xk??μ?~N(0,1)
N個獨立同分布的隨機變量,當N充分大時,其均值服從正態分布。
大數定律和中心極限定理的區別
- 大數定理更關注的是樣本均值,后者關注的是樣本均值的分布。
- 比如擲骰子,假設一輪擲骰子n次,重復了m輪,當n足夠大時,大數定理指出這n次的均值等于隨機變量的數學期望,而中心極限定理指出這m輪的均值分布符合數學期望的正態分布。
11、最大似然估計(極大似然估計)
一個簡單的 n 重伯努利模型(二項分布):事件 A 發生的概率為 p,不發生的概率為 1-p,獨立驗概 n 次,事件 A 發生 k 次的概率為:
P ( A = k ) = C n k p k ( 1 ? p ) n ? k P(A=k)=C_n^kp^k{(1-p)}^{n-k} P(A=k)=Cnk?pk(1?p)n?k
這是一個概率模型,即已知概率p,求另一些概率,即由因求果
而一個數理統計模型是由果溯因,即求解一下問題,p是多大時,事件A發生k次的概率最大,實際上就是一個求參數問題。
- 概率質量函數(Probability Mass Function,PMF)是離散型隨機變量在個特定取值上的概率
- 概率密度函數(Probability Density Function,PDF)是統計學中常用的參數估計方法
最大似然估計(Maximum Likelihood Estimation,MLE)是統計學中常用的參數估計方法,用于根據已觀測到的樣本數據,選擇使得觀測數據出現概率最大的參數值。
- 對于離散型隨機變量,似然函數是概率質量函數的乘積:
L ( θ ) = P ( X = x 1 ) × P ( X = x 2 ) × ? × P ( X = x n ) L(\theta)=P(X=x_1)\times P(X=x_2)\times \cdots \times P(X=x_n) L(θ)=P(X=x1?)×P(X=x2?)×?×P(X=xn?)
- 對于連續型隨機變量,似然函數是概率密度函數的乘積:
L ( θ ) = f ( x 1 ∣ θ ) × f ( x 2 ∣ θ ) × ? × f ( x n ∣ θ ) L(\theta)=f(x_1|\theta)\times f(x_2|\theta)\times \cdots \times f(x_n|\theta) L(θ)=f(x1?∣θ)×f(x2?∣θ)×?×f(xn?∣θ)
最大似然估計的目標是找到使得似然函數最大化的參數值。
概率、似然
1、概率(發生前推測)
- 某件事情發生的可能性,在結果沒有產生之前依據環境所對應的參數來預測某件事情發生的可能性
- 例如拋硬幣之前,推測正面朝上的概率為50%
2、似然(發生后推測,參數)
- 是在確定的結果之后推測產生這個結果的可能環境(參數)
- 例如拋一枚硬幣1000次,其中500次正面朝上,推測這是一枚標準硬幣,正面吵上的概率為50%
統計學兩大學派
1、頻率學派
- 認為樣本信息來自總體,通過對樣本信息的研究可以合理地推斷、估計總體信息,并且隨著樣本的增加,推斷結果更加準確
- 極大似然估計
2、貝葉斯學派
- 將先驗信息和后驗信息相結合,通過貝葉斯公式將先驗信息與樣本數據結合起來,得到后驗分布,并以此作為對未知參數的推斷(先驗分布具有主觀性)