jieba庫詞頻統計_用jieba庫統計文本詞頻及云詞圖的生成

一、安裝jieba庫

:\>pip install jieba #或者 pip3 install jieba

二、jieba庫解析

jieba庫主要提供提供分詞功能,可以輔助自定義分詞詞典。

jieba庫中包含的主要函數如下:

jieba.cut(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 精確模式,返回一個可迭代的數據類型

jieba.cut(s,cut_all=True) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 全模式,輸出文本s中所有可能的單詞

jieba.cut_for_search(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 搜索引擎模式,適合搜索引擎建立索引的分詞結果

jieba.lcut(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 精確模式,返回一個列表類型,建議使用

jieba.lcut(s,cut_all=True) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 全模式,返回一個列表類型,建議使用

jieba.lcut_for_search(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 搜索引擎模式,返回一個列表類型,建議使用

jieba.add_word(w) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 向分詞詞典中增加新詞w

三、用jieba庫統計文本的詞頻

《流浪地球》是劉慈欣的一部作品。該書講述了龐大的地球逃脫計劃,逃離太陽系,前往新家園。從網上獲取該書的文本文件,保存于桌面上,命名為“流浪地球。”

現統計其文本中出現次數最多的是個詞語,源代碼如下:

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除單個字符的分詞結果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

運行程序后,輸出結果如下:

dc1aebf2a8b07bdd07a89b95f1c2b7c0.png

故容易得知流浪地球中出現頻次較高的詞語

四、結合jieba庫的詞頻統計制作詞云圖

1、準備工作:pip 安裝 jieba , wordcloud ,matplotlib

2以阿Q正傳為例:

源代碼為:

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成詞云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#結巴分詞

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#設置詞云

wc =WordCloud(#設置背景顏色

background_color="white",#設置最大顯示的詞云數

max_words=2000,#這種字體都在電腦字體中,一般路徑

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#設置字體最大值

max_font_size=200,#設置有多少種隨機生成狀態,即有多少種配色方案

random_state=100,

)

myword= wc.generate(wl) #生成詞云

#展示詞云圖

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把詞云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正傳')

運行程序后,輸出結果如下:

4c5108e2a9a1a34f2a98d78ceafb638a.png

故可得出文本的云詞圖。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/530567.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/530567.shtml
英文地址,請注明出處:http://en.pswp.cn/news/530567.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mysql查看表描述_MySQL表記錄操作介紹(重點介紹查詢操作)

MySQL表記錄操作指的是對數據庫表中數據進行CRUD增刪改查操作&#xff0c;一下將一一給大家介紹&#xff0c;重點介紹查詢操作。一、插入數據(INSERT)二、刪除數據(DELETE)三、修改數據(UPDATE)四、查詢數據(SELECT)下面將以例子對數據查詢進行詳細講解&#xff1a;例子&#x…

python郵件的圖片放在哪里_用python保存電子郵件中的嵌入圖像

我試圖在一個嵌入的電子郵件中抓取圖像。問題是我保存的圖像不可讀&#xff0c;我不知道為什么。電子郵件(保存為我在代碼開頭加載的文件)&#xff1a;MIME-Version: 1.0Received: by 10.100.120.7 with HTTP; Tue, 18 Oct 2011 10:36:48 -0700 (PDT)In-Reply-To: <8B4FDE07…

sqoop從mysql導入hdfs_sqoop 從mysql導入數據到hdfs、hive

1.上傳sqoop安裝包 2.安裝和配置 在添加sqoop到環境變量 將數據庫連接驅動拷貝到$SQOOP_HOME/lib里 3.使用 第一類&#xff1a;數據庫中的數據導入到HDFS上 sqoop import --connect jdbc:mysql://hadoop07:3306/test --username root --password 123 --table user_info--colum…

安卓mysql插入數據_【11-25求助】關于Android 的SQLite數據庫插入數據報錯問題

該樓層疑似違規已被系統折疊 隱藏此樓查看此樓運行程序&#xff0c;不知道為何點插入數據按鈕會報錯&#xff0c;請萬能的吧友幫我看看&#xff0c;謝謝&#xff0c;不廢話&#xff0c;直接上代碼MainActivity.javapackage com.example.activity16;import android.support.v7.a…

安裝python擴展庫時只能使用pip_安裝 Python 擴展庫時只能使用 pip 工具在線安裝,如果安裝不成功就沒有別的辦法了。_學小易找答案...

【單選題】關于Python中的復數,下列說法錯誤的是_________________。【填空題】在Python程序中,導入sys模塊后,可以通過列表________________訪問命令行參數。_________________表示Python腳本名;____________________表示第一個參數。【簡答題】嘗試用顏色 表達 冷暖 感覺 !【…

opencv java_opencv的Java開發環境配置(IntelliJ idea)

1、首先我們先到官網下載opencv的包&#xff0c;在官網下載到的是一個可運行文件&#xff0c;其實就是一個解壓程序&#xff0c;運行后會把opencv的相關文件解壓到填寫的路徑。2、 在編輯環境變量窗口&#xff0c;點擊新建&#xff0c;然后將opencv文件夾里的bin路徑復制進去&a…

java session 永不過期_Java Web Application使Session永不失效(利用cookie隱藏登錄)

在做 Web Application 時&#xff0c;因為 Web Project 有 session 自動失效的問題&#xff0c;所以如何讓用戶登錄一次系統就能長時間運行三個月&#xff0c;就是個問題。后來&#xff0c;看到 session 失效的攔截器代碼&#xff0c;就猜想能否通過攔截器來實現。查資料發現可…

java is-a_java中 is - a和 has - a的區別

Java中is-a和has-a的區別1.“is-a”是繼承的關系,比如人是動物,人和動物是繼承的關系;2.“has-a”是聚合的關系,比如人有眼睛,人和眼睛是聚合的關系;也可以理解為 is-a 是“繼承”但has-a是“接口”關系。是“相互依賴”的關系&#xff0c;同時它們的生命周期都是一樣的。我們以…

支付寶支付對賬單java_[Java]解析支付寶對賬單csv

配置相關公鑰和私鑰這些需要在支付寶的賬戶中心配置image.png這些內容在支付寶平臺上都有教程,因為下載對賬單這個功能比較簡單,不需要入聚石塔下載對賬單https://docs.open.alipay.com/20180417160701241302/fd3qt1官方文檔寫的很清楚,而且能直接用,將配置好的公鑰私鑰APPID等…

cmd編譯java文件中文亂碼_亂碼 HelloWorld 世界你好 cmd 執行輸出的中文java 顯示亂碼 解決 另附 win無法執行編譯運行javac java編譯文件的解決方案...

【博客園cnblogs筆者m-yb原創&#xff0c;轉載請加本文博客鏈接&#xff0c;筆者公眾號aandb7 愛碼一生&#xff0c;QQ群927113708, github: https://github.com/mayangbo666】這是一篇java入門:java是眾多編程語言之一, 就是開發的工具技術, 沒什么特別, 是應用廣, 嚴謹的語言…

java linux獲取實時cpu_用java取得linux系統cpu、內存的實時信息(參考別人代碼)...

/**   * cat /proc/cpuinfo - cpu (i.e. vendor, mhz, flags like mmx) * cat /proc/interrupts - 中斷   * cat /proc/ioports - 設備io端口   * cat /proc/meminfo - 內存信息(i.e. mem used, free, swap size)   * cat /proc/partitions - …

自我學習--關于如何設計光耦電路

本人在項目中多次設計光耦電路&#xff0c;目前電路在項目中運行比較平穩&#xff0c;所以總結一下自己的設計經驗&#xff0c;與大家交流一下&#xff0c;如有錯誤還希望大家指出改正&#xff0c;謝謝&#xff08;V&#xff1a;Smt15921588263&#xff1b;愿與大家多交流&…

java 讀取 xmltype_java操作XMLType的幾種方法

XMLType是oracle數據庫特有的數據類型可以用來存儲一段xml,通過java(本文使用jdbc)插入XMLType根據sql中參數的類型通常有以下3種方法:本文使用的數據庫為oracle10.2.1一、String,客戶端只需傳遞一個字符串參數,創建xmltype的任務完全交給數據庫,此方法數據庫的壓力最大String …

java運算符優先級舉例_列舉出java運算符的優先級

展開全部優先級 操作符 含義 關聯性32313133353236313431303231363533e59b9ee7ad9431333337613833 用法----------------------------------------------------------------1 [ ] 數組下標 左 array_name[expr]. 成員選擇 左 o…

java websocket ie8_websocket兼容IE8

最近由于項目需要做實時聊天功能&#xff0c;選擇了html5的websocket方案(事實上node.jssocket.io兼容性更好&#xff0c;個人覺得這個方案更加完美)&#xff0c;websocket實現實時聊天的demo網上很多&#xff0c;但是兼容IE8的資料卻很少&#xff0c;這塊折騰了很久。websoket…

java newfile() bug_java初學者小白?遇到BUG就慌了?有關java異常的十大問題詳解!...

1.已檢查與未檢查簡而言之&#xff0c;必須在方法中顯式捕獲已檢查的異常&#xff0c;或在方法的throws子句中聲明該異常。未檢查的異常是由無法解決的問題引起的&#xff0c;例如被零除&#xff0c;空指針等。檢查的異常特別重要&#xff0c;因為您希望使用API的其他開發人員知…

java 日期操作工具類_java8操作日期的工具類

java8操作日期的工具類一、方法概覽該包的API提供了大量相關的方法&#xff0c;這些方法一般有一致的方法前綴&#xff1a;of&#xff1a;靜態工廠方法。parse&#xff1a;靜態工廠方法&#xff0c;關注于解析。get&#xff1a;獲取某些東西的值。is&#xff1a;檢查某些東西的…

mysql攔截器實現crud_Mybatis自定義SQL攔截器

本博客介紹的是繼承Mybatis提供的Interface接口&#xff0c;自定義攔截器&#xff0c;然后將項目中的sql攔截一下&#xff0c;打印到控制臺。先自定義一個攔截器package com.muses.taoshop.common.core.database.config;import org.apache.commons.lang3.StringUtils;import or…

python 桌面提醒_使用Python獲取桌面通知

開發一款可提醒您諸如警報或待辦事項清單等計劃的應用程序真是太好了。在本文中&#xff0c;我將引導您逐步編寫如何使用Python獲取桌面通知的程序。桌面通知應用程序如何工作&#xff1f;您今天將要學習開發的桌面通知應用程序的主要目的是不斷提醒我們我們一天中需要完成的不…

java線程同步的實現_【Java多線程系列三】實現線程同步的方法

packagecom.concurrent.test;importjava.util.Stack;importjava.util.concurrent.ArrayBlockingQueue;importjava.util.concurrent.BlockingQueue;importjava.util.concurrent.locks.Condition;importjava.util.concurrent.locks.ReentrantLock;/*** Description: 三種方法實現…