概率和統計的概念
概率統計是各類學科中唯一一門專門研究隨機現象的規律性的學科,隨機現象的廣泛性決定了這一學科的重要性。概率論是數學的分支,它研究的是如何定量描述隨機現象及其規律。
我們之前經常在天氣軟件上看到:“今天下雨的概率是95%”,這個95%就是概率,概率就是描述可能性的一個數值。
概率在機器學習中的地位
概率論在機器學習中至關重要,因為我們可以將機器學習的輸入數據看作是隨機變量,當機器學習中的輸出數據也看作是隨機變量,這樣機器學習模型本質上就是一個概率模型,這樣就可以通過概率的方式來對不確定性進行建模了。
比如概率圖模型中
,變量和變量之間是有依賴關系,那么此時需要概率論的技術。
又比如在很多隨機算法中,比如蒙特卡絡算法中,也需要概率的技術。
機器學習算法的設計通常依賴于對數據的概率假設,如果不了解概率的數學知識,很有可能在理解算法上出現問題,所以概率的重要性不言而喻。
在監督學習中,我們是從一部分帶標簽的樣本學習得到的結果預測總體的標簽,然后用這個去預測新樣本的標簽情況。也就是說我們通過一部分來估計總體,我們是從中抽一部分樣本來進行學習,這個是符合概率的思想的。
總結
在前面的課程中,我們主要學習了線性代數以及矩陣論,從本節課程之后,線性代數將告一段落,將開啟概率論和數理統計的學習。