之前寫Python Web小書第三小節本來用的垃圾郵件的案例三郎:Python貝葉斯推理垃圾郵件分類?zhuanlan.zhihu.com
后來發現里面的東西,涉及到概率,程序太復雜了。。。哈哈哈
所以就想著,哪天重寫一下,選來選去,覺得垃圾郵件分類里面的單詞統計,可以深入給大家好好講講這個小案例。
這里選用的是一部英文哈利波特小說第一部:3496行,443725個字符
下面我們開始捋思路,我們拿到的是一部有很多單詞和符號的小說,我們要做的事就是要對所有的單詞出現的次數進行統計。
第一步,先讀出整部小說的內容
第二步,對小說的內容進行清洗,只保留所有的單詞
第三步,構建字典,遍歷所有單詞,進行次數統計
是不是感覺好簡單,那我們上路吧!!!!!!!
首先我們先讀取小說的全部內容
fp = open("HarryPotter1.txt",'r')#文件名,r為讀模式
print(fp.read())
打印輸出如下
我們要把上圖里面的這些符號干掉,有沒有什么好辦法呢,當然有啦,這就要用到我們的正則表達式,代碼如下:
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())#第一個參數\W和第二個參數空格的意思是替換所有非字符為空格
print(content)
同時,我們發現一個單詞如果在句首字母會大寫,比如The和the如果不處理會被理解為兩個詞匯。于是我們繼續更新代碼
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
print(content)
到現在為止,我們對初始文本做了過濾標點符號和統一大小寫的預處理,下面就是把這個文本分割為一個個單詞,代碼如下
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
content = content.split()
print(content)
現在我們得到一個包含所有單詞的列表,下面就可以進行單詞統計了,首先生成空字典word_counter,然后循環遍歷整個單詞列表進行詞數統計
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
content = content.split()
word_counter = {}
for word in content:
if word in word_counter:
word_counter[word]+=1
else:
word_counter[word]=1
print(word_counter)
因為上面看起來很別扭,我想按照順序,一行行打印,于是我試著做如下操作
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
content = content.split()
word_counter = {}
for word in content:
if word in word_counter:
word_counter[word]+=1
else:
word_counter[word]=1
for (key,value) in word_counter:
print(key,value)
結果,報錯,因為Dict不能同時對key和value同時遍歷,所以有三種方式
#1.遍歷鍵,然后索引到值
for key in word_counter:
print(key+':'+word_counter[key])
for key in word_counter.keys():
print(key+':'+word_counter[key])
#2.遍歷值
for value in word_counter.values():
print(value)
#3.遍歷字典項
for kv in word_counter.items():
print(kv)
for key,value in word_counter.items():
print(key+':'+value)
于是,需要將字典轉化為列表,也就有了如下代碼
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
content = content.split()
word_counter = {}
for word in content:
if word in word_counter:
word_counter[word]+=1
else:
word_counter[word]=1
for (key,value) in word_counter.items():
print(key,value)
因為控制臺太短,無法全部顯示,所以我們保存到文件處理,而且我們關注的字數統計,更核心的是哪些詞出現的更多,于是有了如下代碼
import re
fp = open("HarryPotter1.txt",'r')
content = re.sub('\W',' ',fp.read())
content = content.lower()
content = content.split()
word_counter = {}
for word in content:
if word in word_counter:
word_counter[word]+=1
else:
word_counter[word]=1
sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)
fp=open("result.txt","w")
for (key,value) in sort_items:
fp.write(key+" "+str(value)+"\n")
然后我們要注意,文件操作,打開一定要關閉,這里用到自動關閉的with語句,于是最終的代碼,加了注釋后如下
import re#正則表達式
#open函數打開文件會得到一個文件對象fp,'r'讀文件
with open("HarryPotter1.txt",'r') as fp:
#用正則表達式對文件內容里的標點符號全部清理掉
content = re.sub('\W',' ',fp.read())
#將所有單詞的大寫轉化為小寫,方便我們統一處理
content = content.lower()
#split分割所有的單詞,默認是用空格做分割點
#得到了一個單詞列表
content = content.split()
#我們定義一個空字典,來保存我們的單詞和統計次數
word_counter = {}
#對單詞列表做遍歷循環每個單詞
for word in content:
#如果字典里出現了這個單詞,那就次數加1
if word in word_counter:
word_counter[word]+=1
#如果沒出現過,那就次數賦值初始化為1
else:
word_counter[word]=1
#依據每個單詞出現的次數,我們來對整個單詞表做排序
sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)
print(sort_items)
#我們為了方便后面查閱,要把排序好的結果保存的文件里
#新建一個文件,以"w"寫文件的模式打開這個文件
with open("result.txt","w") as fp:
#循環遍歷我們已經排序好的單詞統計次數的列表
for (key,value) in sort_items:
#每個單詞和統計次數,按照行寫入到我們的文件里
fp.write(key+" "+str(value)+"\n")
旅程結束,希望能夠幫到你!