評論語義分析分詞分類python_用python調用ICTCLAS50進行中文分詞

評論語義分析分詞分類python_用python調用ICTCLAS50進行中文分詞

news/2025/8/31 6:30:38/文章來源:https://blog.csdn.net/weixin_39756273/article/details/111003487

直接上源碼吧

tokenizer類：

#_*_encoding:utf-8_*_

from ctypes import *

class tokenizer:

def __init__(self):

self._stext=['、','“','”','，','。','《','》','：','；','!','‘','’','?','？','！','·',' ',''] #枚舉標點符號包括空格

self._stopword_list=[line for line in file('stopword.txt')]

self._stopword_list=map(lambda x: x.strip(),self._stopword_list) # 去掉行尾的空格

def parse(self,text):

atext_list=[]#存放要分詞的文檔

rtext=[]#存放去標點符號和分詞后的詞

participle = cdll.LoadLibrary('X:\\API\\ICTCLAS50.dll')

participle.ICTCLAS_Init(c_char_p('X:\\API'))

strlen = len(c_char_p(text).value)

t = c_buffer(strlen*6)

a =participle.ICTCLAS_ParagraphProcess(c_char_p(text),c_int(strlen),t,c_int(3),0)

atext_list=t.value.split(' ')

participle.ICTCLAS_Exit()

rtext=[item for item in atext_list if item not in self._stext]

result_list=[iword for iword in rtext if iword not in self._stopword_list]

return result_list

調用tokenizer類，test_tokenizer類：

#_*_encoding:utf-8_*_

import tokenizer

text="文本的分類和聚類是一個比較有意思的話題，我以前也寫過一篇blog《基于K-Means的文本聚類算法》，加上最近讀了幾本數據挖掘和機器學習的書籍，因此很想寫點東西來記錄下學習的所得。"

list=tokenizer.tokenizer().parse(text)

for item in list:

print item

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/538410.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/538410.shtml
英文地址，請注明出處：http://en.pswp.cn/news/538410.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

java對日期Date類進行加減運算、年份加減，月份加減

java對日期Date類進行加減運算、年份加減，月份加減

JAVA處理日期時間常用方法： 1.Java.util.Calendar Calendar 類是一個抽象類，它為特定瞬間與一組諸如 YEAR、MONTH、DAY_OF_MONTH、HOUR 等日歷字段之間的轉換提供了一些方法，并為操作日歷字段（例如獲得下星期的日期&#xff09…

閱讀更多...

idle擴展插件_Python3.4學習筆記之 idle 清屏擴展插件用法分析

idle擴展插件_Python3.4學習筆記之 idle 清屏擴展插件用法分析

本文實例講述了Python3.4 idle 清屏擴展插件用法。分享給大家供大家參考，具體如下：python idle 清屏問題的解決，使用python idle都會遇到一個常見而又懊惱的問題——要怎么清屏?在stackoverflow看到這樣兩種答案：1.在shell中輸入…

閱讀更多...

內存堆和棧的區別

內存堆和棧的區別

原文鏈接：http://www.cnblogs.com/lln7777/archive/2012/03/14/2396164.html -------------------------------------------------------------------------------- 在計算機領域，堆棧是一個不容忽視的概念，我們編寫的C語言程序基本上都要用…

閱讀更多...

MYSQL安裝和配置

MYSQL安裝和配置

Win10安裝MySQL5.7.22 解壓縮版（手動配置 1.下載地址：https://dev.mysql.com/downloads/mysql/5.7.html#downloads 直接點擊下載項下載后： 2.可以把解壓的內容隨便放到一個目錄，我的是如下目錄（放到C盤的話&#xff0…

閱讀更多...

python刪除過期文件_python刪除過期文件的方法

python刪除過期文件_python刪除過期文件的方法

本文實例講述了python刪除過期文件的方法。分享給大家供大家參考。具體實現方法如下：# remove all jpeg image files of an expired modification date mtime# you could also use creation date (ctime) or last access date (atime)# os.stat(filename) returns …

閱讀更多...

【很久之前的一篇老文章】一位程序員工作10年總結的13個忠告

【很久之前的一篇老文章】一位程序員工作10年總結的13個忠告

展望未來，總結過去10年的程序員生涯，給程序員小弟弟小妹妹們的一些總結性忠告。走過的路，回憶起來是那么曲折，把自己的一些心得體會分享給程序員兄弟姐妹們，雖然時代在變化，但是很可能你也會走我已經做過的…

閱讀更多...

apply()與call()的區別

apply()與call()的區別

一直都沒太明白apply()與call()的具體使用原理，今日閑來無事，決定好好研究一番。 JavaScript中的每一個Function對象都有一個apply()方法和一個call()方法，它們的語法分別為： /*apply()方法*/ function.apply(thisObj[, argArray]…

閱讀更多...

java代碼執行了兩次_Java中JComboBox的itemStateChanged事件執行兩次的解釋

java代碼執行了兩次_Java中JComboBox的itemStateChanged事件執行兩次的解釋

今天做項目，用到了JComboBox，即下拉列表框。為了在被選中的項發生改變時獲得被選中的項，所以使用的ItemStateChanged事件，可是問題就來了，每次觸發該事件，它都執行兩次，屢試不爽。一開始以為是代…

閱讀更多...

python連接mongo_使用簡單的Python連接訪問MongoDB

python連接mongo_使用簡單的Python連接訪問MongoDB

繼續來聊MongoDB。MongoDB作為了一個數據庫產品軟件，除了服務器Server端進程(mongod)外，還提供了比較豐富的訪問連接接口。我們最常用的就是兩個類型，一個是原生mongo shell，另一個就是應用程序語言訪問接口。1、從Mongo Shell到應…

閱讀更多...

spring與mybatis三種整合方法

spring與mybatis三種整合方法

原文鏈接：http://www.cnblogs.com/wangmingshun/p/5674633.html ------------------------------------------------------------------------------------------------- 1、采用MapperScannerConfigurer，它將會查找類路徑下的映射器并自動將它們創建成…

閱讀更多...

js常用的2中排序方法：冒泡排序和快速排序

js常用的2中排序方法：冒泡排序和快速排序

冒泡排序：例如9 4 5 6 8 3 2 7 10 1 首先：9和4比較 4放前 4 9 5 6 8 3 2 7 10 1 4和5比較 4不動 4 9 5 6 8 3 2 7 10 1 4和6比較 4不動 4 9 5 6 8 3 2 7 10 1 4和3比較 3放前 3 9 5 6 8 4 2 7 10 1 3和2比較 2放前 2 9 5 6 8…

閱讀更多...

java 注冊頁面正則式_Java使用正則表達式對注冊頁面進行驗證功能實現

java 注冊頁面正則式_Java使用正則表達式對注冊頁面進行驗證功能實現

本文給大家介紹java使用正則表達式對注冊頁面進行驗證的代碼，代碼如下所示：package regex;import java.util.Scanner;import java.util.regex.Matcher;import java.util.regex.Pattern;public class registered {public static void main(String[] args)…

閱讀更多...

python 編程效率_如何有效提升數據分析效率？五大Python技巧

python 編程效率_如何有效提升數據分析效率？五大Python技巧

如何有效提升數據分析效率？相信這是所有數據分析工作者都想解決的問題。本文整理了五大python技巧，分別是Pandas Profiling；使用 Cufflinks 和 Plotly 繪制 Pandas 數據；IPython 魔術命令；Jupyter 中的格式編排&#x…

閱讀更多...

please select a vaild python interpret

please select a vaild python interpret

當 JetBrains PyCharm 2017.1.3 x64 遇到 please select a vaild python interpret 錯誤時： 進入PyCharm setting 選項，搜索 interpret

閱讀更多...

Grafana分析Nginx日志

Grafana分析Nginx日志

配置Groub by -Terms時報錯，提示需要設置fielddatatrue，報錯內容大概如下： "Fielddata is disabled on text fields by default ... " 解決方法如下： https://www.elastic.co/guide/en/elasticsearch/reference/curren…

閱讀更多...

php curl json post請求_php post請求發送json對象數據參數

php curl json post請求_php post請求發送json對象數據參數

網頁中發送請求時，大部分情況都參數以鍵值組合發送數據的，而一些第三方如java開發的接口中需要發送post請求，請求參數為json類型。既然要發送json數據，首頁我們需要在請求頭中定義數據類型為json，告訴服務器客服端發送…

閱讀更多...

python刪除鏈表中的最小元素_LintCode Python 入門級題目刪除鏈表元素、整數列表排序...

python刪除鏈表中的最小元素_LintCode Python 入門級題目刪除鏈表元素、整數列表排序...

刪除鏈表元素：循環列表head，判斷當前指針pre.next的val是否等于val，如果是，當前pre重指向pre.next.next，直至pre.next Null# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.va…

閱讀更多...

IDEA 更換主題

IDEA 更換主題

1、下載主題文件百度或者谷歌 IDEA themes 網址有可能會變化。目前是 http://color-themes.com 選擇自己喜歡的顏色，下載。 2、導入主題文件 File----Import Setting 導入下載的jar文件，一路確認，idea會自動重啟。 3、選擇主題點擊…

閱讀更多...

【CentOS 7筆記】cp、mv、文檔查看方式

【CentOS 7筆記】cp、mv、文檔查看方式

2019獨角獸企業重金招聘Python工程師標準>>> 一. copy 常用cp -r/R #拷貝目錄，遞歸 cp -i #覆蓋時會提示，默認項 cp -p #保留源目錄或源文件的屬性 cp -b #源文目與目的文目建立鏈接，鏈接 cp -f #強制覆蓋 cp -v …

閱讀更多...

php 情書,php趣味編程 - php輸出笛卡爾情書的秘密

php 情書,php趣味編程 - php輸出笛卡爾情書的秘密

/*笛卡爾情書的秘密心形圖案的實現。重點是心形函數ra(1-sin),據說這是笛卡爾死前寄出的最后一封情書內容。這里面隱藏著一個刻骨銘心的秘密；“一生只為等待能手繪這個函數給我的人”*/$width 500;$height 500;header("Content-type: image/gif");$img …

閱讀更多...

最新文章