科普一下所謂“大數定律的四種證法”
最近網上總是調侃數學、統計博士知道所謂“大數定律的四種證法”,本身是模仿《孔乙己》的橋段,用以調侃數學、統計博士學一些沒什么用的東西。其實我是從來沒聽說過大數定律的四種證法這回事的,我相信大多數同學也都沒有聽說過。因此這件事引起了我的興趣,也順便為“大數定律”正個名。(順便說一下,百度百科的大數定律頁面遜斃了,今天(2012/11/25)我去看,歷史介紹里竟然介紹的是中心極限定理的發展過程。)
?
對于一般人來說,大數定律的非嚴格表述是這樣的:X_1,...,X_n是獨立同分布隨機變量序列,均值為u,S_n=X_1+...+X_n,則S_n/n收斂到u.?
?
如果說“弱大數定律”,上述收斂是指依概率收斂(in probability),如果說“強大數定律”,上述收斂是指幾乎必然收斂(almost surely/with probability one)。
?
大數定律通俗一點來講,就是樣本數量很大的時候,樣本均值和真實均值充分接近。這一結論與中心極限定理一起,成為現代概率論、統計學、理論科學和社會科學的基石之一,重要性在本人看來甚至不弱于微積分。(有趣的是,雖然大數定律的表述和證明都依賴現代數學知識,但其結論最早出現在微積分出現之前。而且在生活中,即使沒有微積分的知識也可以應用。例如,沒有學過微積分的學生也可以輕松利用excel或計算器計算樣本均值等統計量,從而應用于社會科學。)
?
最早的大數定律的表述可以追朔到公元1500年左右的意大利數學家Cardano。1713年,著名數學家James (Jacob) Bernouli正式提出并證明了最初的大數定律。不過當時現代概率論還沒有建立起來,測度論、實分析的工具還沒有出現,因此當時的大數定律是以“獨立事件的概率”作為對象的。后來,歷代數學家如Poisson(“大數定律”的名字來自于他)、Chebyshev、Markov、Khinchin(“強大數定律”的名字來自于他)、Borel、Cantelli等都對大數定律的發展做出了貢獻。直到1930年,現代概率論奠基人、數學大師Kolgomorov才真正證明了最后的強大數定律。
?
下面均假設X, X_1,...,X_n是獨立同分布隨機變量序列,均值為u。獨立同分布隨機變量和的大數定律常有的表現形式有以下幾種。
?
初等概率論
(1). 帶方差的弱大數定律:若E(X^2)小于無窮,則S_n/n-u依概率收斂到0。
證明方法:Chebyshev不等式即可得到。這個證明是Chebyshev給出的。
(2). 帶均值的弱大數定律:若u存在,則S_n/n-u依概率收斂到0。
證明方法:用Taylor展開特征函數,證明其收斂到常數,得到依分布收斂,然后再用依分布收斂到常數等價于依概率收斂。
?
現代概率論
(3). 精確弱大數定律:若xP(|X|>x) 當x趨于無窮時收斂到0,則S_n/n-u_n依概率收斂到0,其中u_n=E[X 1_{|X|<n}]. (在這個定理里,不需要u存在。)
證明方法:需要用到截斷隨機變量 X 1_{|X|<n}. 然后要用的三角陣列的依概率收斂定理和Fubini定理分析積分變換。
(4). 帶4階矩的強大數定律:若E(X^4)小于無窮,則S_n/n-u幾乎必然收斂到0.
證明方法:與(1)類似,先用Chebyshev不等式。然后因為4階矩的存在,得到P(S_n>nt)對任意常數t的收斂速度足夠快,滿足Borel-Cantelli的要求,用Borel-Cantelli引理得到大數定律。
(5). 帶方差的強大數定律:若E(X^2)小于無窮,則S_n/n-u幾乎必然收斂到0.
證明方法:用Kolgoromov三級數定理和Kronecker引理。
(6). 精確強大數定律:若u存在,則S_n/n-u幾乎必然收斂到0.
證明方法:這個大數定律的證明確實有幾種不同的方法。最早的證明是由數學大師Kolgoromov給出的。現在Durrett (2010)的書上用的是Etemadi (1981)的方法,需要截斷X,用到現代概率論的知識如Borel-Cantelli引理、Kolgomorov三級數定理、Fubini定理等。(感謝讀者指出,Durrett的書在倒向鞅一章中給出了大數定律的倒向鞅方法證明,只需要用到倒向鞅的知識和Hewitt-Savage 0-1律,不過這也是現代概率論的知識。)
?
此外,還有很多不同的大數定律,不同分布的,不獨立的序列等。定律也不一定是關于隨機變量的,也可以是關于隨機函數的,甚至隨機集合的等等。以數學家命名的也有Khinchin大數定律(不獨立序列的強大數定律)、Chebyshev大數定律(弱大數定律(1))、Poisson大數定律(不同概率的隨機事件序列的大數定律)、Bernoulli大數定律(隨機事件的大數定律)、Kolgomorov大數定律(強大數定律(6))等等……
?
以上(1-6)是常見的獨立同分布序列的大數定律。其中,(3)和(6)是最嚴格也是最精妙的結果,證明所涉及的高等概率論知識也最多。它們成立的條件不僅是充分條件,也是必要條件,因此它們算是完結了大數定律的發展。大數定律的發展符合數學的一般規律:想證明某一結論,條件越弱(弱大數定律:2階矩條件->1階矩條件->沒矩條件;強大數定律:4階矩條件->2階矩條件->1階矩條件),證明也就變得越難。
?
雖然只有(3)和(6)是最精確的結果,但是必須認識到,數學的發展是一個循序漸進的過程,如果沒有前面那些更強條件下的定理,也無法得到最后的大數定律。從最開始的自然界觀察到大數定律的存在,到最后證明最終形式,歷時數百年,現代概率論也在這個過程中建立起來。此外,雖然(3)和(6)比前面的(1)和(5)強很多,但是(1)和(5)的條件僅僅是2階矩(或方差)的存在,因此他們在幾百年間早就被廣泛使用,對于一般的社會科學問題、統計問題等已經足足夠用了。
?
總之,大數定律包含概率論里核心的知識。“大數定律的四種證法”盡管表述模糊,原意也充滿調侃,但并不是真如《孔乙己》里"回字四種寫法"所暗示的那樣迂腐或毫無價值。作為概率或統計專業的研究生,弄懂這些定理表述的區別和證明方法的區別和聯系,了解前代數學家的工作,對于深刻理解現代概率論是很有好處的。當然,任何人也不應去死記硬背這些證法(我自己也記不住這些證法),只要能理解、弄清其中微妙即可。