概率 Probability
1. 概率的定義
概率是一個介于 0 和 1 之間的數,表示某個事件發生的可能性:
- 0:事件不可能發生。
- 1:事件必然發生。
- 0 到 1 之間:事件發生的可能性大小。
例如,擲一枚公平的硬幣,正面朝上的概率是 0.5。
2. 概率的計算
(1)頻率學派
拋一萬次硬幣,看硬幣正面向上的概率。
P n ( x ) = n x n P_n(x)=\frac{n_x}{n} Pn?(x)=nnx??
- x x x代表證明朝上;
- n n n為實驗總數;
- n x n_x nx?為實驗過程中發生x的次數。
這種方式,實驗成本高,且誤差不可控,概率始終是個近似值。
(2)古典學派
樣本空間中,每個結果發生的可能性相等,則事件A的概率為:
P ( A ) = ∣ A ∣ ∣ S ∣ P(A)=\frac{|A|}{|S|} P(A)=∣S∣∣A∣?
- 其中|A|是事件A的結果數
- |S|是樣本空間的結果數
(3)貝葉斯學派
P ( A ∣ B ) = P ( B ∣ A ) ? P ( A ) P ( B ) P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)?P(A)?
- P(A)表示事件A發生的概率,稱為先驗(prior)概率;
- P(B)表示事件B發生的概率,稱為標準化常量或者證據(evidence);
- P(B|A)表示在事件A發生的條件下,事件B發生的概率,通常稱之為可能性或者似然(likelihood);
- P(A|B)表示在事件B發生的條件下,事件A發生的概率,也稱為后驗(posterior),也就是表示了事件發生了,并且它屬于某一類別的概率;
最大似然估計 Maximum Likelihood Estimation, MLE
1. 基本概念
- 參數估計:在統計學中,我們通常假設數據服從某個概率分布(如正態分布、泊松分布等),而分布的參數(如均值、方差)需要通過數據來估計。
- 似然函數:給定一組參數,似然函數描述了觀測數據在該參數下出現的概率。
- 最大似然估計:通過最大化似然函數,找到最可能生成觀測數據的參數值。
θ ^ = a r g m a x P ( X ∣ θ ) \hat \theta =argmaxP(X|\theta) θ^=argmaxP(X∣θ)
- θ ^ \hat \theta θ^ 是最優參數
- a r g m a x argmax argmax表示求使得 P ( X ∣ θ ) P(X|\theta) P(X∣θ)最大化的參數值。
2. 似然函數的定義
假設觀測數據為 X = x 1 , x 2 , . . . , x 3 X={x_1,x_2,...,x_3} X=x1?,x2?,...,x3?,且數據服從某個概率分布 P ( X ∣ θ ) P(X|\theta) P(X∣θ),其中 θ \theta θ是分布的參數。似然函數定義為
L ( θ ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta)=P(X|\theta)=\prod_{i=1}^n P(x_i|\theta) L(θ)=P(X∣θ)=i=1∏n?P(xi?∣θ)
3. 最大似然估計的步驟
(1)寫出似然函數
根據數據分布假設,寫出似然函數 L ( θ ) L(θ) L(θ)。
(2)取對數似然函數
為了簡化計算,通常對似然函數取對數,得到對數似然函數:
ln ? L ( θ ) = ∑ i = 1 n ln ? P ( x i ∣ θ ) \ln L(\theta) = \sum_{i=1}^n \ln P(x_i|\theta) lnL(θ)=i=1∑n?lnP(xi?∣θ)
(3)取對數似然函數
對對數似然函數關于參數 θ θ θ 求導,并令導數為零,求解使似然函數最大的參數值:
d d θ ln ? L ( θ ) = 0 \frac{d}{d\theta}\ln L(\theta) =0 dθd?lnL(θ)=0
(4)求解參數
解上述方程,得到參數的估計值 θ ^ \hat \theta θ^。
關于“最大似然值估計”,我明白它干的事情了,但是過程現在實在是沒搞懂,暫時先放一放,后面想通了以后專門出一篇理解的過程。
概率分布
在計算最大似然值的時候,要選對概率分布的類型。
a.伯努利分布(Bernoulli Distribution)**
- 定義:只有兩個可能結果的單次試驗的概率分布,即成功和失敗。
- 參數:成功的概率 $p$(0 ≤ p ≤ 1)。
- 概率質量函數(PMF):P(X=1) = p, P(X=0) = 1-p。
b. 二項分布(Binomial Distribution)
- 定義:在固定次數的獨立試驗中,每次試驗只有兩種可能結果(成功或失敗),且每次試驗成功的概率相同的概率分布。
- 參數:試驗次數 $n$ 和成功的概率 $p$。
- 概率質量函數(PMF):P(X=k) = C(n, k) × p^k × (1-p)^(n-k),其中 C(n, k) 是組合數,即從 n 個不同元素中取出 k 個元素的組合方式數量。
c. 泊松分布(Poisson Distribution)
- 定義:用于預測在固定時間間隔內某事件平均發生 $λ$ 次的條件下,該事件實際發生 $k$ 次的概率。
- 參數:事件發生的平均率 $λ$(λ > 0)。
- 概率質量函數(PMF):P(X=k) = (λ^k / k!) × e^(-λ)。
2. 連續型概率分布
a. 均勻分布(Uniform Distribution)
- 定義:在某一區間 [a, b] 內所有值出現的概率相等的概率分布。
- 參數:區間的下限 $a$ 和上限 $b$(a < b)。
- 概率密度函數(PDF):f(x) = 1 / (b - a)(當 a ≤ x ≤ b 時);否則 f(x) = 0。
b. 正態分布(Normal Distribution)/高斯分布(Gaussian Distribution)
- 定義:最常見的連續概率分布之一,許多自然現象都近似服從正態分布。
- 參數:均值 $μ$ 和標準差 $σ$(σ > 0)。
- 概率密度函數(PDF):f(x) = (1 / (√(2π)σ)) × e[-(x-μ)2 / (2σ^2)]。
c. 指數分布(Exponential Distribution)
- 定義:描述兩個相繼發生的事件之間的時間間隔的概率分布,常用于可靠性理論和排隊論。
- 參數:率參數 $λ$(λ > 0),與泊松分布的 $λ$ 相關,但意義不同。
- 概率密度函數(PDF):f(x) = λe^(-λx)(當 x ≥ 0 時);否則 f(x) = 0。
3. 其他重要分布
a. 卡方分布(Chi-Squared Distribution)
- 定義:與正態分布的樣本方差有關的概率分布,常用于假設檢驗。
- 參數:自由度 $ν$(ν 為正整數)。
b. t分布(Student’s t-Distribution)
- 定義:在小樣本情況下估計總體均值的統計量的分布,常用于假設檢驗。
- 參數:自由度 $ν$(ν 為正整數)。
c. F分布(F-Distribution)
- 定義:兩個獨立的卡方分布變量的比率的分布,常用于方差分析。
- 參數:分子自由度 $ν_1$ 和分母自由度 $ν_2$(兩者均為正整數)。