一、如何設置H0和H1假設
誰做H0,誰做H1,在統計學的假設檢驗里是有約定俗成的規定的。即:status quo(默認/現狀)是H0,而新觀點或試圖challenge現狀的是H1。H1也叫research hypothesis,所以我們做research、發文章就是要reject H0,而希望H1接受。
步驟和原則
1. 明確研究問題:
首先,需要明確你想要回答的研究問題或驗證的假設。
2. 設定原假設(H0):
H0 一般是希望被檢驗和拒絕的假設,因為它通常代表現狀或默認狀態。
3. 設定備擇假設(H1):
H1 是我們希望找到證據支持的假設。
二、 如何理解顯著性水平和p值之間的關系
p 值的定義
p 值(p-value)是一個概率值,用于衡量在原假設(H0)為真時,觀測數據(或比觀測數據更極端的數據)出現的概率。它反映了數據與原假設的一致性。
理解 p 值
假設我們進行一個假設檢驗,下面是詳細步驟和解釋:
1. 設定假設:
- 原假設(H0):沒有效果或沒有差異。例如,假設一個新藥對血壓沒有影響。
- 備擇假設(H1):存在效果或存在差異。例如,假設新藥對血壓有影響。
2. 選擇顯著性水平( α \alpha α):
- 通常設定為 0.05,這意味著我們允許有 5% 的概率犯第一類錯誤,即錯誤地拒絕原假設。
3. 收集數據:
- 例如,我們收集了一組使用新藥和一組使用安慰劑的患者的血壓數據。
4. 計算檢驗統計量和 p 值:
- 使用適當的統計方法(例如 t 檢驗),計算出一個檢驗統計量(例如 t 值),并基于此計算出 p 值。
p 值的含義
- p 值是 0.03:這表示在原假設為真(即新藥對血壓沒有影響)的情況下,獲得與實際觀測數據一樣極端(或更極端)的結果的概率是 0.03(即 3%)。
- 換句話說,如果新藥確實對血壓沒有影響,那么我們觀測到這種數據的概率是 3%。
這么小的概率事件發生了,那我們是不是應該質疑原假設,認為原假設不正確。
- 換句話說,如果新藥確實對血壓沒有影響,那么我們觀測到這種數據的概率是 3%。
決策依據
- p 值 ≤ α(例如 0.03 ≤ 0.05):我們拒絕原假設 H0,認為數據提供了足夠的證據支持備擇假設 H1。也就是說,我們認為新藥對血壓有顯著影響。
- p 值 > α(例如 0.07 > 0.05):我們不能拒絕原假設 H0,認為數據沒有提供足夠的證據支持備擇假設 H1。也就是說,我們認為新藥對血壓沒有顯著影響。
舉例說明
假設我們研究新藥對降低血壓的影響,進行了獨立樣本 t 檢驗,得到以下結果:
-
原假設 H0:新藥對血壓沒有影響(新藥組和對照組的平均血壓相同)。
-
備擇假設 H1:新藥對血壓有影響(新藥組和對照組的平均血壓不同)。
-
顯著性水平 α:0.05。
-
計算得到的 p 值:0.03。
解釋:
- p 值 0.03 表示在新藥對血壓沒有影響的情況下,獲得與實際觀測數據一樣極端或更極端結果的概率是 3%。
- 由于 p 值(0.03)小于顯著性水平 αα(0.05),我們拒絕原假設 H0,認為新藥對血壓有顯著影響。
直觀理解
可以把 p 值看作是對原假設 H0 的質疑程度:
- 小 p 值:數據與原假設 H0 的一致性很低,因此我們更傾向于認為原假設不成立(拒絕原假設)。
- 大 p 值:數據與原假設 H0 的一致性較高,因此我們沒有足夠的理由拒絕原假設。
總結
p 值衡量了在原假設為真時,觀測到當前數據的概率。通過比較 p 值和預設的顯著性水平 αα,我們可以判斷是否拒絕原假設,從而得出是否存在顯著差異的結論。
三、如何選擇合適統計量
選擇合適的統計量(statistic)進行假設檢驗是統計分析中的關鍵步驟,具體的選擇取決于數據的性質、樣本量、研究問題以及假設檢驗的類型。下面是選擇合適統計量的一些指導原則和常見的統計量。
指導原則
1. 數據類型:
- 定量數據(連續數據):如測量值、體重、溫度等。
- 定性數據(分類數據):如類別、性別、品牌等。
2. 分布類型:
- 正態分布:數據服從正態分布。
- 非正態分布:數據不服從正態分布。
3. 樣本量:
- 大樣本: 通常指樣本量大于 30。
- 小樣本: 通常指樣本量小于 30。
4. 假設檢驗類型:
- 均值檢驗:比較兩個或多個組的均值。
- 比例檢驗:比較兩個或多個組的比例。
- 相關性檢驗:檢驗兩個變量之間的關系。
- 方差分析:比較多個組的方差。
常見統計量
1. 均值檢驗:
- 單樣本 t 檢驗(One-Sample t-Test):用于檢驗單個樣本均值是否與已知值有顯著差異。適用于小樣本且數據服從正態分布。
- 獨立樣本 t 檢驗(Independent Samples t-Test):用于檢驗兩個獨立樣本均值是否有顯著差異。適用于小樣本且數據服從正態分布。
- 配對樣本 t 檢驗(Paired Samples t-Test):用于檢驗兩個相關樣本均值是否有顯著差異。適用于小樣本且數據服從正態分布。
- Z 檢驗(Z-Test):用于檢驗兩個獨立樣本均值是否有顯著差異,適用于大樣本。
2. 比例檢驗:
- 卡方檢驗(Chi-Square Test):用于檢驗分類數據的比例是否有顯著差異。適用于大樣本。
- Z 檢驗(Z-Test):用于檢驗兩個比例是否有顯著差異,適用于大樣本。
3. 相關性檢驗:
- 皮爾遜相關系數(Pearson Correlation Coefficient):用于檢驗兩個連續變量之間的線性關系,適用于數據服從正態分布。
- 斯皮爾曼等級相關系數(Spearman Rank Correlation Coefficient):用于檢驗兩個連續變量或順序變量之間的關系,不要求數據服從正態分布。
4. 方差分析(ANOVA):
- 單因素方差分析(One-Way ANOVA):用于比較多個組的均值是否有顯著差異。
- 雙因素方差分析(Two-Way ANOVA):用于比較兩個因素對多個組的均值的影響。
5. 非參數檢驗:
- 曼-惠特尼 U 檢驗(Mann-Whitney U Test):用于檢驗兩個獨立樣本的中位數是否有顯著差異,不要求數據服從正態分布。
- 威爾科克森符號秩檢驗(Wilcoxon Signed-Rank Test):用于檢驗兩個相關樣本的中位數是否有顯著差異,不要求數據服從正態分布。
- 克魯斯卡爾-沃利斯檢驗(Kruskal-Wallis Test):用于比較三個或更多獨立樣本的中位數是否有顯著差異,不要求數據服從正態分布。
選擇步驟
1. 確定研究問題: 明確需要檢驗的假設類型(如均值、比例、相關性等)。
2. 數據類型和分布: 根據數據類型和分布選擇合適的統計量。
3. 樣本量: 根據樣本量選擇合適的檢驗方法(如 t 檢驗或 Z 檢驗)。
4. 檢驗假設: 根據假設檢驗的類型(如單尾或雙尾檢驗)選擇適當的統計量。
實例
假設我們要比較兩組學生的考試成績是否有顯著差異:
- 數據類型: 連續數據(考試成績)。
- 分布類型: 假設數據服從正態分布。
- 樣本量: 兩組學生樣本量都小于 30。
根據這些信息,我們可以選擇 獨立樣本 t 檢驗 來比較兩組學生的考試成績是否有顯著差異。
通過以上步驟和指導原則,可以有效選擇合適的統計量來進行假設檢驗,從而得出可靠的結論。
四、統計量和p值有什么關系
統計量(test statistic)和 p 值之間的關系是非常密切的。統計量是從樣本數據計算得出的一個值,用于評估數據與原假設(H0)的偏離程度。p 值則是基于統計量計算出來的概率值,用于衡量在原假設為真的情況下,觀測到當前統計量或更極端的統計量的概率。
關系總結
-
統計量的計算:
- 統計量是從樣本數據計算得出的一個值,具體計算方法取決于所使用的假設檢驗類型。
- 例如,對于 t 檢驗,統計量是 t 值;對于卡方檢驗,統計量是 (\chi^2) 值;對于 z 檢驗,統計量是 z 值。
-
統計量與分布:
- 每種假設檢驗都有對應的統計分布,如 t 分布、正態分布、卡方分布等。
- 統計量的位置在對應的統計分布上決定了 p 值。
-
p 值的計算:
- p 值是根據統計量在對應統計分布中的位置計算得出的概率值。
- 它表示在原假設為真的情況下,獲得與觀測數據一樣極端或更極端的統計量的概率。
例子解釋
1. 單樣本 t 檢驗
假設我們有一個樣本數據集,樣本均值為 x ˉ = 105 \bar{x} = 105 xˉ=105,樣本標準差為 s = 15 s = 15 s=15,樣本大小為 n = 30 n = 30 n=30,已知均值為 μ 0 = 100 \mu_0 = 100 μ0?=100。
-
計算 t 統計量:
t = x ˉ ? μ 0 s / n = 105 ? 100 15 / 30 = 5 2.738 ≈ 1.83 t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{105 - 100}{15 / \sqrt{30}} = \frac{5}{2.738} \approx 1.83 t=s/n?xˉ?μ0??=15/30?105?100?=2.7385?≈1.83 -
確定 t 分布:
- 自由度 ( d f = n ? 1 = 29 ) (df = n - 1 = 29) (df=n?1=29)。
-
查找 t 分布表或使用統計軟件:
- 對應 t 值 1.83,在自由度為 29 的 t 分布中查找 p 值。
- 假設查找結果為 p 值大約是 0.038。
-
p 值解釋:
- p 值 0.038 表示在原假設為真的情況下,獲得 t 統計量等于或大于 1.83 的概率是 0.038。
2. 雙尾檢驗
假設進行一個雙尾 t 檢驗:
- 原假設(H0):樣本均值等于總體均值( μ = 0 \mu = 0 μ=0)。
- 備擇假設(H1):樣本均值不等于總體均值。
假設計算出的 t 統計量為 2.0。
-
計算統計量:
t = 2.0 t = 2.0 t=2.0 -
查找 t 分布表:
- 對應 t 值 2.0 和自由度 df 查找 p 值。
-
計算 p 值:
- 雙尾檢驗中,p 值是兩個尾部的和:
p = 2 × P ( T > 2.0 ) p = 2 \times P(T > 2.0) p=2×P(T>2.0)
- 雙尾檢驗中,p 值是兩個尾部的和:
假設查找到的 p 值為 0.05。
關系總結
- 統計量:從數據中計算得出,用于評估數據與原假設的偏離程度。
- p 值:基于統計量計算出的概率值,表示在原假設為真時,觀測到當前統計量或更極端統計量的概率。
使用統計軟件計算
在實際操作中,通常使用統計軟件來計算統計量和 p 值。例如,使用 Python 的 scipy.stats
模塊:
from scipy import stats# 樣本數據
sample_data = [105, 100, 95, 110, 120, 90, 85, 105, 100, 110]
# 已知均值
mu_0 = 100# 計算 t 統計量和 p 值
t_stat, p_value = stats.ttest_1samp(sample_data, mu_0)print(f"t 統計量: {t_stat}")
print(f"p 值: {p_value}")
這段代碼會輸出 t 統計量和對應的 p 值,幫助你判斷是否拒絕原假設。
總結
統計量和 p 值是密切相關的。統計量通過衡量樣本數據與原假設的偏離程度,p 值則通過統計量在對應分布中的位置,反映了在原假設為真時,觀測到當前數據或更極端數據的概率。理解統計量和 p 值的關系,有助于在假設檢驗中做出正確的決策。