nlkt中BigramAssocMeasures.pmi()方法的傳參和使用

這個問題找遍全網沒看到詳細的介紹，最后用讀代碼+數學公式的方法才理解怎么用。

BigramAssocMeasures.pmi

作用：計算x和y的互信息（互信息是什么我就不科普啦）

這里有個誤區剛開始我以為是計算兩個詞之間的依賴程度，但是它其實是可以計算詞和類別的依賴程度的。

對照這個：
在這里插入圖片描述

所以我就拿t表示特征，c表示類別，要想使用BigramAssocMeasures.pmi()計算t和c的互信息（這里舉的例子是二分類問題），需要傳參如下：

注意，文檔數量也可以理解為詞頻。且參數1和參數3不能為0。

參數1：“是這個特征也是這個類”的文檔數量，是int類型
參數2：[積極類的文檔數量，消極類的文檔數量]，是一個列表（不是列表也可以，可以迭代就行）
參數3：文檔總數，是int類型

from nltk import BigramAssocMeasures# 假設觀察頻率是3，背景頻率是5
ngram = 2
total = 7
unigram = [4, 3]# 使用BigramAssocMeasures.pmi()計算互信息
score = BigramAssocMeasures.pmi(ngram, unigram, total)
print(score)

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/212778.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/212778.shtml
英文地址，請注明出處：http://en.pswp.cn/news/212778.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！