python統計英文句子每個單詞字數_Python小書3-文本英文單詞統計

之前寫Python Web小書第三小節本來用的垃圾郵件的案例三郎:Python貝葉斯推理垃圾郵件分類?zhuanlan.zhihu.com

后來發現里面的東西,涉及到概率,程序太復雜了。。。哈哈哈

所以就想著,哪天重寫一下,選來選去,覺得垃圾郵件分類里面的單詞統計,可以深入給大家好好講講這個小案例。

這里選用的是一部英文哈利波特小說第一部:3496行,443725個字符

下面我們開始捋思路,我們拿到的是一部有很多單詞和符號的小說,我們要做的事就是要對所有的單詞出現的次數進行統計。

第一步,先讀出整部小說的內容

第二步,對小說的內容進行清洗,只保留所有的單詞

第三步,構建字典,遍歷所有單詞,進行次數統計

是不是感覺好簡單,那我們上路吧!!!!!!!

首先我們先讀取小說的全部內容

fp = open("HarryPotter1.txt",'r')#文件名,r為讀模式

print(fp.read())

打印輸出如下

我們要把上圖里面的這些符號干掉,有沒有什么好辦法呢,當然有啦,這就要用到我們的正則表達式,代碼如下:

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())#第一個參數\W和第二個參數空格的意思是替換所有非字符為空格

print(content)

同時,我們發現一個單詞如果在句首字母會大寫,比如The和the如果不處理會被理解為兩個詞匯。于是我們繼續更新代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

print(content)

到現在為止,我們對初始文本做了過濾標點符號和統一大小寫的預處理,下面就是把這個文本分割為一個個單詞,代碼如下

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

print(content)

現在我們得到一個包含所有單詞的列表,下面就可以進行單詞統計了,首先生成空字典word_counter,然后循環遍歷整個單詞列表進行詞數統計

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

print(word_counter)

因為上面看起來很別扭,我想按照順序,一行行打印,于是我試著做如下操作

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter:

print(key,value)

結果,報錯,因為Dict不能同時對key和value同時遍歷,所以有三種方式

#1.遍歷鍵,然后索引到值

for key in word_counter:

print(key+':'+word_counter[key])

for key in word_counter.keys():

print(key+':'+word_counter[key])

#2.遍歷值

for value in word_counter.values():

print(value)

#3.遍歷字典項

for kv in word_counter.items():

print(kv)

for key,value in word_counter.items():

print(key+':'+value)

于是,需要將字典轉化為列表,也就有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

for (key,value) in word_counter.items():

print(key,value)

因為控制臺太短,無法全部顯示,所以我們保存到文件處理,而且我們關注的字數統計,更核心的是哪些詞出現的更多,于是有了如下代碼

import re

fp = open("HarryPotter1.txt",'r')

content = re.sub('\W',' ',fp.read())

content = content.lower()

content = content.split()

word_counter = {}

for word in content:

if word in word_counter:

word_counter[word]+=1

else:

word_counter[word]=1

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

fp=open("result.txt","w")

for (key,value) in sort_items:

fp.write(key+" "+str(value)+"\n")

然后我們要注意,文件操作,打開一定要關閉,這里用到自動關閉的with語句,于是最終的代碼,加了注釋后如下

import re#正則表達式

#open函數打開文件會得到一個文件對象fp,'r'讀文件

with open("HarryPotter1.txt",'r') as fp:

#用正則表達式對文件內容里的標點符號全部清理掉

content = re.sub('\W',' ',fp.read())

#將所有單詞的大寫轉化為小寫,方便我們統一處理

content = content.lower()

#split分割所有的單詞,默認是用空格做分割點

#得到了一個單詞列表

content = content.split()

#我們定義一個空字典,來保存我們的單詞和統計次數

word_counter = {}

#對單詞列表做遍歷循環每個單詞

for word in content:

#如果字典里出現了這個單詞,那就次數加1

if word in word_counter:

word_counter[word]+=1

#如果沒出現過,那就次數賦值初始化為1

else:

word_counter[word]=1

#依據每個單詞出現的次數,我們來對整個單詞表做排序

sort_items = sorted(word_counter.items(),key=lambda d:d[1],reverse=True)

print(sort_items)

#我們為了方便后面查閱,要把排序好的結果保存的文件里

#新建一個文件,以"w"寫文件的模式打開這個文件

with open("result.txt","w") as fp:

#循環遍歷我們已經排序好的單詞統計次數的列表

for (key,value) in sort_items:

#每個單詞和統計次數,按照行寫入到我們的文件里

fp.write(key+" "+str(value)+"\n")

旅程結束,希望能夠幫到你!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/260301.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/260301.shtml
英文地址,請注明出處:http://en.pswp.cn/news/260301.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java9特性_96.java基礎10(java9/10/11新特性)

126.java 9 新特性1(模塊化功能):1.java模塊化2.java 交互式環境jshell3.泛型package com.atguigu.java;import org.junit.Test;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.Ar…

MonoRail - 簡介 [基礎知識篇]

MonoRail - 簡介 起源 MonoRail是一個.NET的MVC web開發框架, 原名Castle On Rails, 是CastleProject的一個子項目. 作者hammett在使用過Ruby On Rails后, 覺得非常棒, 他希望在享受ror的開發模式的同時能使用大量現有的資源, 于是就用.NET寫出了一個Castle On Rails. 后來ror那…

結對編程(黃金點游戲)

我扮演的角色是駕駛員 一、結對伙伴 領航員:趙峻 作業地址見我的博客。 二、代碼地址 https://coding.net/u/k2048/p/huangjindian/git/blob/master/main.c 三、總結 1、個人總結 本次作業我扮演駕駛員,趙峻扮演領航員,我負責算法實現以及代碼…

qtgl 鼠標平移 c++_羅技真愛粉的MX Master 3無線鼠標體驗

?這是一篇關于羅技MX Master3的曬單,順帶也翻出我的庫存清潔整理一下吧。在決定購買一款新鼠標的時候,我的第一目標其實是MX Vertical垂直鼠標,不過MX Vertical目前優勢只在外形上,在MX系列中明顯屬于低配,自由滾輪、…

java實驗指導書(實驗四)答案_java程序設計實驗指導書答案

? 狗生活在陸地上(是一種陸生動物),既是哺乳類的也是肉食性的。狗通常的時候和人打招呼會通過“搖搖尾巴”,在被撫摸感到舒服的時候,會“旺旺叫”,而在受到驚嚇情緒煩躁時,會發出“嗚嗚”聲;? 貓也生活在…

php代碼規范說明文檔

命名規則:采用駝峰標識,盡量做到見名知義 PHP編碼規范與原則: //命名:類,方法,函數,變量, 注釋:開發中難免留下一些臨時代碼和調試代碼,此類代碼必須添加注釋…

下載網頁中的圖片到本地

簡單的一個下載如下 : string url "http://avatar.csdn.net/A/2/6/2_yefengzhixia.jpg";string filepath "D:\\pic.jpg";WebClient mywebclient new WebClient();mywebclient.DownloadFile(url, filepath);MessageBox.Show("OK");…

nacos linux啟動_微服務系列之Nacos配置中心之一:Nacos介紹與安裝

一、Nacos 介紹Nacos 是 Alibaba 公司推出的開源工具,用于實現分布式系統的服務發現與配置管理。英文全稱 Dynamic Naming and Configuration Service,Na 為 Naming/NameServer 即注冊中心,co 為 Configuration 即配置中心,Servic…

演練:在組件設計器中創建 Windows 服務應用程序

http://msdn.microsoft.com/zh-cn/library/zt39148a(vvs.80).aspx 演練:在組件設計器中創建 Windows 服務應用程序 .NET Framework 2.0其他版本5(共 5)對本文的評價是有幫助 - 評價此主題注意 Visual Studio 標準版中不提供“Windows 服務”模…

絕對震撼 7款HTML5動畫應用及源碼

除非特別聲明,PHP100新聞均為原創或投稿報道,轉載請注明作者及原文鏈接 原文地址: http://www.php100.com/html/it/mobile/2014/0702/7030.html [導讀] 關于HTML5動畫,我們已經分享太多了,當然也有很多利用純CSS3實現的…

maven打包指定main函數

2019獨角獸企業重金招聘Python工程師標準>>> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-jar-plugin</artifactId> <version>2.4</version> <configuration> <archive> …

java 任意數平均值_【編程題】通過鍵盤輸入三個任意的數字,計算三個值的平均值,并輸出結果。...

【單選題】對放大電路測試NPN型硅管測得Ube>0,Ubc>0,Uce>0【簡答題】Even ordinary men understand now that the universe is something vaster and broader than ever thought before.【單選題】【其它】The Einsteins,however,could not afford to pay for the adv…

【轉】Direct3D頂點結構使用總結

【轉】Direct3D頂點結構使用總結 D3D里面最基本的就是頂點了&#xff0c;雖說一直在用&#xff0c;可是卻也是自己比較模糊的一個點&#xff0c;知道其中的意思&#xff0c;卻不是很清楚&#xff0c;今天就總結一下&#xff0c;掃一下這個盲區&#xff1a; D3D中的頂點緩沖區的…

quick cocos2d-x 精靈大小(寬高)獲取

quick下sprite的大小獲取&#xff0c;記錄一下&#xff1a; local w sprite:getContentSize().width local h sprite:getContentSize().height 今天連這個最基本的&#xff0c;都不知道怎么獲取。挺實用的代碼額~轉載于:https://www.cnblogs.com/vokie/p/3822248.html

velocityjs 動畫庫 比jquery默認的animate強

神坑記錄&#xff1a; 1、transform: translate3d(80%,0,0); 無法作為參數&#xff0c;必須修改為這種&#xff1a;translateX: 0% 官方文檔 http://velocityjs.org/ github地址 https://github.com/julianshapiro/velocity npm下載安裝 npm install velocity-animate --save-d…

python中的可變數據類型有列表和元組_Python中列表的 += 和 .extend() 的異同

一道Python題最近有朋友“考”了我一個Python的題&#xff1a;使用和.extend()兩種方法擴展元組中的列表會發生什么。雖然我對Python中的可變數據類型、不可變數據類型的概念都有較深的理解&#xff0c;并且也對list的、、.extend()、.append()做過性能分析&#xff0c;但是和.…

簡易貪吃蛇小游戲java版_用GUI實現java版貪吃蛇小游戲

本文實例為大家分享了java版貪吃蛇小游戲的具體代碼&#xff0c;供大家參考&#xff0c;具體內容如下項目結構新建一個JFrame窗口,作為程序入口public class GameStart{public static void main(String[] args) {JFrame jFrame new JFrame();jFrame.setBounds(100,100,900,720…

幾種代價函數

SAD&#xff08;Sum of Absolute Difference&#xff09;SAE&#xff08;Sum of Absolute Error)即絕對誤差和 SATD&#xff08;Sum of Absolute Transformed Difference&#xff09;即hadamard變換后再絕對值求和 SSD&#xff08;Sum of Squared Difference&#xff09;SSE&am…

Markdown文件導出為HTML的小程序

Markdown文件導出為HTML的小程序為什么做 最近把一些學習經驗記下來&#xff0c;總結成MarkDown文件&#xff0c;不知不覺已經有12篇了。 Sublime Text 的 MarkDown Preview 插件能夠將MarkDown語法轉換為HTML&#xff0c;并提供三種預覽方式&#xff1a;瀏覽器預覽、保存為HTM…

python制作自動回復腳本_python itchat實現微信自動回復的示例代碼

今天在實驗樓發現一個特別好玩的&#xff0c;Python 微信庫itchat,可以實現自動回復等多種功能&#xff0c;好玩到根本停不下來啊&#xff0c;尤其是調戲調戲不懂計算機的&#xff0c;特別有成就感&#xff0c;哈哈&#xff01;&#xff01;代碼如下&#xff1a;#codingutf8imp…