NLP系列學習:前向算法和后向算法

在上一篇文章里,我們簡單的概述了隱馬爾科夫模型的簡單定義

在<CRF-tutorial>這一篇文章里,我們可以看到HMM經過發展之后是CRF產生的條件,因此我們需要學好隱馬爾科夫模型.

在這一部分,我比較推薦閱讀宗成慶老師的<自然語言處理>這本書,這一部分宗老師寫的很不錯,相關的資源在我之前的文章中已經上傳,有興趣的小伙伴可以閱讀下.

回到正題,說起HMM,我們知道他是一個產生型模型.這樣我們可以把它看作為一個序列化判別器,比方說我們說一句話:

上邊是我們說的話,我們說一句話,其實就可以看作為一個狀態序列,而下邊對應的,我們其實就可以看作為一個判別器,假如我們把上邊的說的話和下邊的狀態序列加上一個符號,如下圖所示

再去求Si->Oj的概率,這樣我們寫成:

這樣我們就可以引申出隱馬爾克夫模型的三大問題:

①:估計問題

②:序列問題

③:訓練問題或參數估計問題

為了更加容易理解這三個問題,我發現之前有一個博客的擲骰子的例子很生動,便特地引用過來,方便自己理解:

假設手里有三個不同的骰子。第一個骰子是我們平常見的骰子(稱這個骰子為D6)， 6個面，每個面(1，2，3，4，5，6)出現的概率是1/6。第二個骰子是個四面體(稱這個骰子為D4)，每個面(1，2，3，4)出現的概率是1/4。第三個骰子有八個面 (稱這個骰子為D8)，每個面(1，2，3，4，5，6，7，8)出現的概率是1/8。

現在我們開始擲骰子,我們先從三個骰子里挑一個，挑到每一個骰子的概率都是1/3。然后我們擲骰子，得到一個數字，1，2，3，4，5，6，7，8中的一個。不停的重復上述過程，我們會得到一串數字，每個數字都是1，2，3，4，5，6，7，8中的一個。例如我們可能得到這么一串數字(擲骰子10次):1 6 3 5 2 7 3 5 2 4 .

那這時候我們就把這投擲出來的這些數字成為可見狀態鏈,但是在隱馬爾可夫模型中，我們丌僅僅有這么一串可見狀態鏈，還有一串隱含狀態鏈。在這個例子里，這串隱含狀態鏈就是你用的骰子的序列.比如,隱含狀態鏈有可能是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8

但是一般來說,我們用的馬爾科夫鏈都是隱含狀態鏈, 因為隱含狀態(骰子)之間存在轉換概率(transition probability)。在我們這個例子里，D6的下一個狀態是 D4，D6，D8的概率都是1/3。D4，D8的下一個狀態是D4，D6，D8的轉換概率也都一樣是1/3。這樣設定是為了最開始容易說清楚，但是我們其實是可以隨意設定轉換概率的。比如，我們可以這樣定義，D6后面不能接D4，D6后面是D6的概率是0.9，是 D8的概率是0.1。這樣就是一個新的HMM。同樣的，盡管可見狀態之間沒有轉換概率，但是隱含狀態和可見狀態之間有一個概率叫做輸出概率(emission probability)。就我們的例子來說，六面骰(D6)產生1的輸出概率是1/6。產生2，3，4，5，6的概率也都是1/6。我們同樣可以對輸出概率進行其他定義。比如我有一個被賭場動過手腳的六面骰子，擲出來是1的概率更大,是 1/2，擲出來是2，3，4，5，6的概率是1/10。這時候我們再結合這個例子去理解并解決HMM中的三大問題就會容易許多了:

第一個問題:

我們知道骰子有幾種(隱含狀態數量)，每種骰子是什么(轉換概率)，根據擲骰子擲出的結果(可見狀態鏈)，我想知道每次擲出來的都是哪種骰子(隱含狀態鏈)。

第二個問題:

還是知道骰子有幾種(隱含狀態數量)，每種骰子是什么(轉換概率)，根據擲骰子擲出的結果(可見狀態鏈)，我想知道擲出這個結果的概率.

第三個問題:

知道骰子有幾種(隱含狀態數量)，但是并不知道每種骰子是什么(轉換概率)，觀測到很多次擲骰子的結果(可見狀態鏈)，我想反推出每種骰子是什么(轉換概率)。

1:估計問題:

在我們知道我們有幾種篩子的時候,并且知道篩子是什么,并且已知結果,這時候我們再去推測是哪一種篩子就會容易很多,是可以通過窮舉法進行解決的,說白話就是推測所有的隱含狀態序列,并且再去計算所以的可能觀測序列的概率,但是這樣的方法也有問題,如果你的可能,就跟上邊的三個篩子一樣,還比較OK,因為你的概率還是很大,比較容易猜得對,但是你有100個長度的話,不說多了,每個長度上對應的隱含狀態為2,這樣你的時間復雜度就是O(2的100方),這個復雜度是很高的,盡管很簡單,但是還是不實用的.就跟我們查找中的直接查找一樣,盡管簡單,但是實則更困難.這樣的話,我們就采用了前向算法和后向算法來去計算這個問題.

那下邊我們就去推一下這個公式:

首先,我們要假設一個變量at(i),這個變量的意義是說我們在t時刻(1<t<T-1),位于si的狀態下,HMM輸出了序列O1......Ot,這時候at(i)可以表示為:

而我們接下來要做的是計算這個at(i),然后就可以根據at(i)來去計算在T時刻的概率,最后也就計算出P(O|u),這時候O是0-T時刻的概率,我們自然就可以計算出所有時刻的概率.

在這里,我們要用歸納思想去計算在t+1時刻的at+1(i):

這時候我們通過一張圖去直觀的表示從i到j的狀態轉移過程:

最終的計算得到的概率為:

那后向算法其實就跟前向算法類似,過程圖如下:

那么由上述所知,前向和后向算法的時間復雜度均是O(N2T),這個相比起之前,已經優化了太多,其中N是隱藏狀態的長度,T是序列的長度.

下一篇文章,我們將去學習HMM中的第二個問題:估計序列問題

參考文章:

1:www.cnblogs.com/skyme/p/465…

2:HMM經典論文《A tutorial on Hidden Markov Models and selected applications in speech recognition》

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/255566.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/255566.shtml
英文地址，請注明出處：http://en.pswp.cn/news/255566.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！