NLP基礎——語言模型（動手學深度學習）

語言模型

聯合概率

給定文本序列 $x_1,\cdots,x_t$ ，語言模型的目標是估計聯合概率 $P(x_1,\cdots,x_t)$ . 這里的 $x_t$ 可以認為是文本序列在時間步 $t$ 處的觀測或標簽，而所謂聯合概率指的是一個句子的整體概率，即句子中所有單詞相繼出現的概率。

語言模型的用處：可以在語音識別上解決同音句歧義問題和斷句問題。

語言建模

根據上一節中的序列模型的分析，有基礎概率規則： $P(x_1,x_2,\cdots,x_T)=\prod_{t=1}^TP(x_t|x_1,\cdots,x_{t-1})$ 例如一個四個單詞的文本序列的概率表示為： $P (d ee p, l e a r nin g, i s, f u n) = P (d ee p) P (l e a r nin g ∣ d ee p) P (i s ∣ d ee p, l e a r nin g) P (f u n ∣ d ee p, l e a r nin g, i s)$

為了訓練語言模型，我們需要計算單詞的概率，以及給定前面幾個單詞后出現某個單詞的條件概率。這些概率本質上就是語言模型的參數。

計數建模

最容易想到的方法是統計單詞（詞元）在數據集中出現的次數，然后除以整個語料庫的單詞總數。例如： $P(learning|deep)=\frac{n(deep,learning)}{n(deep)}$ 其中 $n (x), n (x, x ‘)$ 分別表示單個單詞和連續單詞出現次數。

這種方法在一些高頻詞上表現的不錯，但是在一些低頻詞和長句多單詞組合的情況表現不佳，因為可能語料庫中這樣的數據很少，即使提出了一些解決辦法如拉普拉斯平滑（通過計數中添加小常量），但仍不能解決該問題。

馬爾可夫模型與n元語法

當單純使用計數法時可能存在長單詞序列樣本極少導致 $n(x_1,\cdots,x_t)\leq1$ 的情況。回憶上一章序列模型中提到的馬爾可夫模型，將其用于語言建模。

我們可以不用考慮整個序列模型，而是只用考慮長度為 $\tau$ 的時間跨度，還是以長度為 $4$ 的句子的聯合概率舉例。

一元語法 $\tau = 0$ ：不用考慮單詞之間的聯系，只考慮互相獨立概率，這樣前后文之間無關聯的語法并不適用時序的模型。 $P(x_1,x_2，x_3,x_4)=P(x_1)P(x_2)P(x_3)P(x_4)=\frac{n(x_1)n(x_2)n(x_3)n(x_4)}{n^4}$

二元語法：只與前一個詞元有關。 $P(x_1,x_2，x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3)$
通常，涉及一個、兩個和三個變量的概率公式分別被稱為一元語法（unigram）、二元語法（bigram）和三元語法。 $n$ 元語法模型最大好處在于：在處理比較長的序列時可以將所有長為 $n$ 的子序列概率存下來，假設存下來所有情況的數量為 $k$ ，那么之后查詢時復雜度固定為 $O (k)$ 而不用遍歷整個文本 $O (n)$ .

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/22363.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/22363.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/22363.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！