寫在前面:本博客僅作記錄學習之用,部分圖片來自網絡,如需引用請注明出處,同時如有侵犯您的權益,請聯系刪除!
文章目錄
- 前言
- t t t 檢驗
- 配對樣本 t t t 檢驗(適用于相關組)
- 代碼
- 論文描述
- 總結
- 互動
- 致謝
- 參考
前言
在機器學習與數據科學領域,模型性能評估往往依賴單一指標(如mAP、準確率),但僅憑數值差異難以判斷其是否具有統計意義。
例如,兩個模型在測試集上的mAP分別為0.75和0.78,若直接斷言后者更優,可能因樣本波動或隨機誤差導致誤判。這種“表面差異”可能掩蓋真實性能差距,甚至誤導決策。
顯著性驗證通過統計方法(如 t t t 檢驗)量化差異的可靠性,其核心價值在于:區分隨機波動與真實效應。當樣本量有限或數據存在噪聲時,顯著性檢驗能提供客觀的置信度(如p值),避免主觀臆斷。尤其在模型迭代、算法對比或實際應用部署中,僅依賴點估計值(如均值)無法支撐科學結論,而顯著性驗證為模型性能的比較提供了可重復、可量化的標準。
t t t 檢驗
在統計學中,t檢驗用于比較兩組樣本的均值是否存在顯著差異。
配對樣本 t t t 檢驗(適用于相關組)
場景:比較同一組樣本在兩種條件下的均值差異(如同一數據集上兩個模型的重復實驗)。
公式:
t = d ˉ s d / n t = \frac { \bar { d } } { s _ { d } / \sqrt { n } } t=sd?/n?dˉ?
- d  ̄ \overline { d } d:每組樣本對的差值均值(如模型A和模型B的mAP差值)。
- s d s _ { d } sd?:差值的標準差。
- n n n:樣本對的數量。
自由度(df):
d f = n ? 1 df = n - 1 df=n?1
- t t t 值衡量差值均值相對于差值變異的程度。
- 較大的 t t t 值表示差異更顯著。
- 使用 t t t 分布表或統計軟件,根據 t t t 值和自由度計算 p p p 值。
代碼
- t分布表:根據 t t t值和自由度,查表得到對應的 p p p值。
- 統計軟件:如Python的
scipy.stats
庫可以自動計算 p p p值:
from scipy.stats import ttest_rel # 配對t檢驗# map
mAP_baseline = [27.77, 27.91, 28.20, 27.92, 27.83] # baseline
mAP_ours = [28.24, 28.33, 28.41, 28.57, 28.59] # ours # 配對t檢驗(同一數據集的重復實驗)
t_stat, p_val = ttest_rel(mAP_ours, mAP_baseline)
print(f"Paired t-test - t statistic: {t_stat:.3f}, p-value: {p_val:.3e}")
論文描述
為了證明所提方法的優越性,本文對所提模型與基線之間進行了差異顯著性試驗 。本文從同一數據集中隨機選取了若干數量的樣本作為測試集,共計N組,分別測試基線模型和所提模型在每個子集上的性能。
假設:本文所提方法的性能與基線相當,并且兩個模型處于相同的數據分布中,并設定顯著性水平設置為 α = 0.05。
本文使用了 t t t 參數檢驗,所得的 p 值小于 α 值,因此原假設 不成立,表明所提方法的性能明顯優于基線方法。
總結
-
配對樣本t檢驗:用于比較同一組樣本在兩種條件下的均值差異。
-
t值:衡量差異的顯著性,值越大差異越顯著。
-
p值:小于顯著性水平(如0.05)時,拒絕原假設,認為差異顯著。
-
數據分布:確保數據滿足t檢驗的假設(如正態性、方差齊性)。
-
樣本量:較大的樣本量可以提高檢驗的效力。
互動
上述內容對你有用嗎?
歡迎在評論區解答上述問題,分享你的經驗和疑問!
當然,也歡迎一鍵三連給我鼓勵和支持:👍點贊 📁 關注 💬評論 💰打賞。
致謝
欲盡善本文,因所視短淺,怎奈所書皆是瞽言蒭議。行文至此,誠向予助與余者致以謝意。
參考
[1] 文心一言