python停用詞表_多版本中文停用詞詞表 + 多版本英文停用詞詞表 + python詞表合并程序...

python停用詞表_多版本中文停用詞詞表 + 多版本英文停用詞詞表 + python詞表合并程序...

news/2025/9/13 13:17:56/文章來源:https://blog.csdn.net/weixin_39633090/article/details/110776954

文章簡介與更新記錄

如果你只想獲取中文停用詞此表,請直接到文章結尾下載項目文件,其中包括三個中文停用詞詞表,一個英文停用詞詞表和一個合并詞表的.py文件2017/07/04 創建文章,上傳文件

2017/07/04 更新了合并代碼,添加了新的中文停用詞表(哈工大擴展版本)和一個新的停用詞表,現在最全的中文停用詞表為1927,添加了英文和中英文停用詞表英文停用詞詞表為1199

停用詞

在進行漢語自然語言處理時候,分詞是必不可少的環節,但是在實際的自然語言中,有很多的非實意詞語或者其他并沒有實際作用的詞語,這些詞語我們必須在分詞環節后進行過濾—這個環節也就是過濾停用詞.不過想要獲得好的分詞效果,必須首先進行比較好的分詞處理.這一點也是十分重要的.

python合并中文停用詞詞表的代碼

# - * - coding: utf - 8 -*-

#

# 作者：田豐(FontTian)

# 創建時間:'2017/7/4'

# 郵箱：fonttian@Gmaill.com

# CSDN：http://blog.csdn.net/fontthrone

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

# 獲取停用詞的List

def GetListOfStopWords(filepath):

f_stop = open(filepath)

try:

f_stop_text = f_stop.read()

f_stop_text = unicode(f_stop_text, 'utf-8')

finally:

f_stop.close()

f_stop_seg_list = f_stop_text.split('\n')

return f_stop_seg_list

# 保存List

def SaveFile(list, filename):

f_stop = open(filename, 'w')

for item in range(len(list)):

if item != len(list):

f_stop.writelines((list[item].encode('utf-8')) + '\n')

else:

f_stop.writelines(list[item].encode('utf-8'))

f_stop.close()

# 求List并集

def GetListUnion(listName):

ListUnion = ['!']

for item in listName:

# print item

ListUnion.extend(GetListOfStopWords(item))

return list(set(ListUnion))

def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):

stopwords_pathCN = 'CNstopwords.txt' # 默認中文總表 1

stopwords_pathEN = 'ENstopwords.txt' # 默認英文總表 2

stopwords_pathCNEN = 'CNENstopwords.txt' # 默認中英文混合總表 4

if keynumber == 1:

listOfFileName.append(stopwords_pathCN)

elif keynumber == 2:

listOfFileName.append(stopwords_pathEN)

elif keynumber == 3:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

elif keynumber == 5:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 6:

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 7:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

else:

listOfFileName.append(stopwords_pathCN)

print 'The keynumber is wrong,chage keynumber to 1 '

listOfFileName.append(stopwords_pathCNEN)

ListUnion = GetListUnion(listOfFileName)

SaveFile(ListUnion, FileName)

'''

stopwords_pathCN = 'CNstopwords.txt' # 默認中文總表 1

stopwords_pathEN = 'CNstopwords.txt' # 默認英文總表 2

stopwords_pathCNEN = 'CNstopwords.txt' # 默認中英文混合總表 4

'''

listOfFileName = []

# 需要添加的中文停用詞詞表

stopwords_path1 = 'stopwords1893.txt'

stopwords_path2 = 'stopwords1229.txt'

stopwords_path3 = 'stopwordshagongdakuozhan.txt'

stopwords_path4 = 'stop_words_zh.txt'

# 需要添加的英文停用詞詞表

stopwords_path5 = 'stop_words_eng.txt'

stopwords_path6 = 'ENstopwords891.txt'

# 需要添加的中文停用詞詞表路徑

# listOfFileName.append(stopwords_path1)

# listOfFileName.append(stopwords_path2)

# listOfFileName.append(stopwords_path3)

# listOfFileName.append(stopwords_path4)

# 需要添加的英文停用詞詞表路徑

listOfFileName.append(stopwords_path5)

listOfFileName.append(stopwords_path6)

GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)

百度云下載所有文件

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/533960.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/533960.shtml
英文地址，請注明出處：http://en.pswp.cn/news/533960.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

mysql collect_set_hive列轉行（collect_set()）

mysql collect_set_hive列轉行（collect_set()）

一、問題hive如何將a b 1a b 2a b 3c d 4c d 5c d 6變為：a b 1,2,3c d 4,5,6二、數據test.txta b 1a b 2a b 3c d …

閱讀更多...

python編寫遞歸函數和非遞歸函數、輸出斐波那契數列_分別用非遞歸和遞歸的方法編寫函數求斐波那契數列第n項。斐波那契數列1，1，2，3，5，8，13，…...

python編寫遞歸函數和非遞歸函數、輸出斐波那契數列_分別用非遞歸和遞歸的方法編寫函數求斐波那契數列第n項。斐波那契數列1，1，2，3，5，8，13，…...

展開全部/**已知Fibonacci數列：1,1,2,3,5,8,……，F(1)1，F(2)1，F(n)F(n-1)F(n-2)*/#include #include typedef long long int int64;//方法1，遞歸法int64 Fibonacci(int n){int64 sum;if(n<0){printf("參數值e6…

閱讀更多...

python3.6安裝ipython_centos6.5下安裝python3.6、pip、ipython

python3.6安裝ipython_centos6.5下安裝python3.6、pip、ipython

一.先更換系統源為了下載順暢一般都會更改為國內源。1 cd /etc/yum.repos.d/2 wget http://mirrors.163.com/.help/CentOS6-Base-163.repo #下載網易源3 mv CentOS-Base.repo CentOS-Base.repo.ori #備份源4 mv CentOS6-Base-163.repo CentOS-Base.repo #把網易源更改為默認源二…

閱讀更多...

java 多線程的同步問題_java多線程解決同步問題的幾種方式，原理和代碼

java 多線程的同步問題_java多線程解決同步問題的幾種方式，原理和代碼

wait()/notify()方法await()/signal()方法BlockingQueue阻塞隊列方法PipedInputStream/PipedOutputStream阻塞隊列的一個簡單實現：public class BlockingQueue {private List queue new LinkedList();private int limit 10;public BlockingQueue(int limit){this…

閱讀更多...

python期末大作業_大一期末考試很重要，考得好不僅有機會有錢拿，還有機會換專業...

python期末大作業_大一期末考試很重要，考得好不僅有機會有錢拿，還有機會換專業...

現階段很多高校放寒假的時間已經公布，這也就意味著，大學期末考試即將到來。對于大一新生來說，大學的期末考試是比較新鮮的，因為大家都沒有經歷過。經歷過大學考試的學生，都知道大學的大概學習模式，一般情況…

閱讀更多...

java http 302重定向_Java 純HTTP請求禁止302自動重定向

java http 302重定向_Java 純HTTP請求禁止302自動重定向

Java 純HTTP Get請求獲取響應內容，如果發生302重定向，繼而模擬請求域獲取重定向后的響應內容。關鍵點：設置conn.setInstanceFollowRedirects為false即可示例代碼public static void main(String[] args) {try {StringBuffer buffer new Stri…

閱讀更多...

python 且_Pyface庫：一個基于pyqt、pyside、wx且簡化的python的GUI

python 且_Pyface庫：一個基于pyqt、pyside、wx且簡化的python的GUI

1 說明：1.1 Pyface庫由大名鼎鼎的enthought出品。1.2 介紹：1.2.1 英文：traits-capable windowing framework.The pyface project contains a toolkit-independent GUI abstraction layer, which is used to support the "visualization&…

閱讀更多...

java方法的參數類型_Java 基礎 14 方法的重載與方法參數類型詳解

java方法的參數類型_Java 基礎 14 方法的重載與方法參數類型詳解

1.1 方法重載的概述和特點方法重載概述在同一個類中，允許存在一個以上的同名方法，只要它們的參數個數或者參數類型不同即可。方法重載特點與返回值類型無關，只看方法名和參數列表在調用時，虛擬機通過參數列表的不同來區分同名方法…

閱讀更多...

crv儀表上的i是什么指示燈_汽車打不著火是怎么回事，儀表盤汽車發動機故障燈亮是什么情況故障指示燈圖解大全集...

crv儀表上的i是什么指示燈_汽車打不著火是怎么回事，儀表盤汽車發動機故障燈亮是什么情況故障指示燈圖解大全集...

如果打不著火，那有可能是起動機壞了，有可能是電池沒電了，有可能是電路出現了問題，還有可能是點火系統出現了問題。汽車發動機的點火系統主要部件是火花塞和點火線圈，火花塞是一個需要定期更換的易損件。如果火花塞長時…

閱讀更多...

python極簡教程_Python 極簡教程（六）運算符

python極簡教程_Python 極簡教程（六）運算符

運算符，我們日常生活中使用的加減乘除，都是運算符的一種。當然這種一般我們稱為算術運算符，用于處理數字運算的。但是在計算機語言中，還有很多的運算符。用于處理不用的情況。主要有以下幾類：算術運算符比較運算符邏輯…

閱讀更多...

python函數可變長參數_day14 Python函數之可變長參數

python函數可變長參數_day14 Python函數之可變長參數

函數參數1.形參變量只有在被調用時才分配內存單元，在調用結束時，即刻釋放所分配的內存單元。因此，形參只在函數內部有效。函數調用結束返回主調用函數后則不能再使用該形參變量2.實參可以是常量、變量、表達式、函數等，無論實參是…

閱讀更多...

ubuntu 安裝java jdk_「ubuntu安裝jdk」Ubuntu安裝jdk8的兩種方式 - seo實驗室

ubuntu 安裝java jdk_「ubuntu安裝jdk」Ubuntu安裝jdk8的兩種方式 - seo實驗室

ubuntu安裝jdk安裝方式：1)：通過ppa(源) 方式安裝.2)：通過官網安裝包安裝.JDK官網下載地址一：使用ppa(源)方式安裝：1)：添加ppa源sudo add-apt-repository ppa:webupd8team/javasudo apt-get update2)&#x…

閱讀更多...

restful風格_什么是RESTful風格的API設計？

restful風格_什么是RESTful風格的API設計？

隨著移動互聯網的興起，RESTful風格的API設計也隨之流行起來，但我們說了那么多RESTful設計，它到底是什么？本篇文章帶大家來了解一下它的真實面目。RESTful概念首先，我們需要明確的是RESTful，它是一個理念&am…

閱讀更多...

java jdbc 增刪改封裝_JAVA JDBC 常規增刪改查簡單封裝

java jdbc 增刪改封裝_JAVA JDBC 常規增刪改查簡單封裝

JAVA JDBC 常規增刪改查簡單封裝,可滿足大多基本要求作用：1， 查詢列表是直接返回List對象，不必再遍歷；2， 單條查詢直接返回對象；3， 執行sql僅需一個方法搞定；package com.Main.Tools…

閱讀更多...

python wget安裝_Macbook系統環境安裝wget的2個方法 - 傳統包及Homebrew安裝

python wget安裝_Macbook系統環境安裝wget的2個方法 - 傳統包及Homebrew安裝

考慮到自身項目的拓展需要，朋友建議學習Python爬蟲這樣對于做大數據采集有較大的幫助，老蔣雖然每天也都接觸一些腳本和程序的修改，但是并沒有專業和系統的學習某一項編程。所以還是準備陸續的學習Python語言，無論有沒有基礎&#…

閱讀更多...

java 程序找錯_java代碼找錯

java 程序找錯_java代碼找錯

展開全部你試一下這個行不行，輸入的時候是數字e69da5e6ba903231313335323631343130323136353331333335313138,數字,數字;數字,數字。。。。。的格式，你把我注釋的那個輸入行(String stInput input.next();)的注釋去掉，把我字符串寫死的那行(…

閱讀更多...

zookeeper 分布式鎖_關于redis分布式鎖，zookeeper分布式鎖原理的一些學習與思考

zookeeper 分布式鎖_關于redis分布式鎖，zookeeper分布式鎖原理的一些學習與思考

編輯：業余草來源：https://www.xttblog.com/?p4946首先分布式鎖和我們平常講到的鎖原理基本一樣，目的就是確保，在多個線程并發時，只有一個線程在同一刻操作這個業務或者說方法、變量。在一個進程中，也就是一…

閱讀更多...

Java線程怎么發送消息_Java客戶端Socket如何能在阻塞線程下收到服務端發送來的消息?...

Java線程怎么發送消息_Java客戶端Socket如何能在阻塞線程下收到服務端發送來的消息?...

最近在寫Socket客戶端的時候遇到點問題客戶端在創建時創建了2個線程一個監聽鍵盤輸入事件，使用的是buffered，當檢測到輸入完成時寫入流發送給服務端。String content "";while (!(content bufferedReader.readLine()).equals("exit&quo…

閱讀更多...

python函數參數傳遞機制_Python 學習筆記（一）理解Python的函數傳參機制

python函數參數傳遞機制_Python 學習筆記（一）理解Python的函數傳參機制

對于剛接觸Python不久的新手，Python的函數傳參機制往往會讓人迷惑。學過C的同學都知道函數參數可以傳值或者傳地址。比如下面這段代碼點擊(此處)折疊或打開void func(int input) {input 100;}int a 0;func(a);printf("%d", a);結果應該是打印0&#xff…

閱讀更多...

網頁無法調用java9_JAVA 9 （內部類，異常，包）

網頁無法調用java9_JAVA 9 （內部類，異常，包）

內部類：將一個類定義在另一個類里面，稱里面那個類為內部類。舉例：class Zx{public static void main(String []arr){Outer o new Outer();o.method();}}class Outer{class Inner //內部類，可以定義多個內部類{void function(){S…

閱讀更多...

最新文章