python分詞代碼_中文分詞--最大正向匹配算法python實現

最大匹配法:最大匹配是指以詞典為依據,取詞典中最長單詞為第一個次取字數量的掃描串,在詞典中進行掃描(為提升掃描效率,還可以跟據字數多少設計多個字典,然后根據字數分別從不同字典中進行掃描)。例如:詞典中最長詞為“中華人民共和國”共7個漢字,則最大匹配起始字數為7個漢字。然后逐字遞減,在對應的詞典中進行查找。

下面以“我們在野生動物園玩”為例詳細說明一下正向與逆向最大匹配方法:

1、正向最大匹配法:

正向即從前往后取詞,從7->1,每次減一個字,直到詞典命中或剩下1個單字。

第1次:“我們在野生動物”,掃描7字詞典,無

第2次:“我們在野生動”,掃描6字詞典,無

。。。。

第6次:“我們”,掃描2字詞典,有

掃描中止,輸出第1個詞為“我們”,去除第1個詞后開始第2輪掃描,即:

第2輪掃描:

第1次:“在野生動物園玩”,掃描7字詞典,無

第2次:“在野生動物園”,掃描6字詞典,無

。。。。

第6次:“在野”,掃描2字詞典,有

掃描中止,輸出第2個詞為“在野”,去除第2個詞后開始第3輪掃描,即:

第3輪掃描:

第1次:“生動物園玩”,掃描5字詞典,無

第2次:“生動物園”,掃描4字詞典,無

第3次:“生動物”,掃描3字詞典,無

第4次:“生動”,掃描2字詞典,有

掃描中止,輸出第3個詞為“生動”,第4輪掃描,即:

第4輪掃描:

第1次:“物園玩”,掃描3字詞典,無

第2次:“物園”,掃描2字詞典,無

第3次:“物”,掃描1字詞典,無

掃描中止,輸出第4個詞為“物”,非字典詞數加1,開始第5輪掃描,即:

第5輪掃描:

第1次:“園玩”,掃描2字詞典,無

第2次:“園”,掃描1字詞典,有

掃描中止,輸出第5個詞為“園”,單字字典詞數加1,開始第6輪掃描,即:

第6輪掃描:

第1次:“玩”,掃描1字字典詞,有

掃描中止,輸出第6個詞為“玩”,單字字典詞數加1,整體掃描結束。

正向最大匹配法,最終切分結果為:“我們/在野/生動/物/園/玩”

2、python代碼實現

1 #-*- coding: utf-8 -*-

2 """

3 Created on Thu Jul 19 08:57:56 20184

5 @author: Lenovo6 """

7

8 test_file = ‘train/train.txt‘#訓練語料

9 test_file2 = ‘test/test.txt‘#測試語料

10 test_file3 = ‘test_sc/test_sc_zhengxiang.txt‘#生成結果

11

12 def get_dic(test_file): #讀取文本返回列表

13 with open(test_file,‘r‘,encoding=‘utf-8‘,) as f:14 try:15 file_content =f.read().split()16 finally:17 f.close()18 chars =list(set(file_content))19 returnchars20

21 dic =get_dic(test_file)22 defreadfile(test_file2):23 max_length = 5

24

25 h = open(test_file3,‘w‘,encoding=‘utf-8‘,)26 with open(test_file2,‘r‘,encoding=‘utf-8‘,) as f:27 lines =f.readlines()28

29 for line in lines:#分別對每行進行正向最大匹配處理

30 max_length = 5

31 my_list =[]32 len_hang =len(line)33 while len_hang>0 :34 tryWord =line[0:max_length]35 while tryWord not indic:36 if len(tryWord)==1:37 break

38 tryWord=tryWord[0:len(tryWord)-1]39 my_list.append(tryWord)40 line =line[len(tryWord):]41 len_hang =len(line)42

43 for t in my_list:#將分詞結果寫入生成文件

44 if t == ‘\n‘:45 h.write(‘\n‘)46 else:47 h.write(t + " ")48

49 h.close()50

51 readfile(test_file2)

3、訓練語料和測試語料見附件。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/528934.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/528934.shtml
英文地址,請注明出處:http://en.pswp.cn/news/528934.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python輸出所有組合數_python – GridSearchCV是否存儲了所有參數組合的所有分數?...

GridSearchCV使用“評分”來選擇最佳估算器.訓練GridSearchCV后,我希望看到每個組合的得分. GridSearchCV是否存儲每個參數組合的所有分數?如果它如何獲得分數?謝謝.這是我在另一篇文章中使用的示例代碼.from sklearn.feature_extraction.text import Co…

php 504網關,504 gateway timeout什么意思

504 gateway time-out(504網關超時錯誤)是HTTP狀態代碼,這意味著一個服務器在嘗試加載網頁或填寫瀏覽器的另一個請求時未從其訪問的另一臺服務器收到及時響應。換句話說,504錯誤通常表明不同的計算機,即您正在獲取504消息的網站無法控制但依賴…

python 二維數組長度_劍指offer二維數組中的查找【Java+Python】

點擊上方"藍字",關注了解更多二維數組中的查找1. 題目描述在一個二維數組中(每個一維數組的長度相同),每一行都按照從左到右遞增的順序排序,每一列都按照從上到下遞增的順序排序。請完成一個函數,輸入這樣的一個二維數組…

php 靜態變量 引用,PHP的返回引用(方法名前加)和局部靜態變量(static)

先閱讀手冊從函數返回一個引用,必須在函數聲明和指派返回值給一個變量時都使用引用操作符 & :例子 17-13. 由函數返回一個引用有關引用的更多信息, 請查看引用的解釋。在來看一段很多開源代碼喜歡用的單例注冊模式 class a{} class b{} function &am…

失物招領小程序_通知 | 保衛部擬設置失物招領處

保衛部擬設置失物招領處為規范對遺失物品的接收、登記、發放等工作,切實維護師生利益,保衛部擬設置失物招領處,現將有關失物招領的流程明確如下:1、失物招領地點:保衛部二樓中廳。2、遺失物的接收。師生將拾得的遺失物…

php獲取表所有數據類型,php excel 導入 導入三級分類 表格應該怎么設計才能得到想要的數據格式?...

就是多個1級分類 下面有不確定個二級分類 二級分類下面有不確定個三級分類 我想獲取到相關的數據組合寫入數據庫 但是這個格式不知道怎么排才能獲取到對的數據有空的親們給看看 幫下 謝謝有沒有辦法獲取整列的值 然后根據長度去區分2列 然后再區分三列現在獲取到的數據格式是按…

python數據清理的實踐總結_python3常用的數據清洗方法(小結)

首先載入各種包:import pandas as pdimport numpy as npfrom collections import Counterfrom sklearn import preprocessingfrom matplotlib import pyplot as plt%matplotlib inlineimport seaborn as snsplt.rcParams[font.sans-serif] [SimHei] # 中文字體設置…

轉轉釣魚php,最新轉轉釣魚源碼程序網站微信:mm88wk 最新轉轉源碼 - 下載 - 搜珍網...

壓縮包 : 轉轉釣魚源碼微:mm88wk.zip 列表轉轉/轉轉/360safe/轉轉/360safe/360webscan.php轉轉/360safe/webscan_cache.php轉轉/admin/轉轉/admin/add.php轉轉/admin/addsite.php轉轉/admin/adduser.php轉轉/admin/downfile.php轉轉/admin/download.php轉轉/admin/e…

PHP即將退出,PHP4即將退出歷史舞臺

http://www.phpeye.com/bbs/viewthread.php?tid92 PHP官方團隊在php.net上發布了一則公告: Today it is exactly three years ago since PHP 5 has been released. In those three years it has seen many improvements over PHP 4. PHP 5 is fast, stablehttp://w…

redis 清空db下_PHP操作redis實現的分頁列表

正文內容封裝類文件如下:/* * redis 分頁數據類庫 */class redisPage{protected $_redis;protected $_redis_ip 127.0.0.1; //ipprotected $_redis_port 6379; //端口protected $_redis_db 0; //數據庫號protected $_hash_prefix my_data; //前綴名稱public fun…

php5.1.4,apache 2.2.2 + PHP5.1.4 不能運行的解_php

apache 2.2.2 php5.1.4 不能運行的解決辦法.問題,使用傳統的模塊化方法安裝PHP5.1.* apache 2.2.2 后不能啟動,提示:"Cannot load C:/php/php5apache2.dll into server: The specified module could not be found."原因:PHP壓縮包里的php5apache2.dll只適用于apach…

python3中的zip_Python3實現將文件歸檔到zip文件及從zip文件中讀取數據的方法

Created on Dec 24, 2012將文件歸檔到zip文件,并從zip文件中讀取數據author: liury_lab# 壓縮成zip文件from zipfile import * #UnusedWildImportimport osmy_dir d:/中華十大名帖/myzip ZipFile(d:/中華十大名帖.zip, w, ZIP_DEFLATED)for file_name in os.listd…

java mariadb 使用,java連接mariaDB的設置,java連接mariadb

java連接mariaDB的設置,java連接mariadbjava連接mariaDB數據庫的設置:(tomcat 8)第一種方法:使用tomcat自帶的mysql-connector-java-5.1.40-bin.jarjava代碼中的設置:driver驅動類為:com.mysql.jdbc.Driverurl為&#…

python產品發布會_【Mac系統 + Python + Django】之開發一個發布會系統【Django模型(三)】...

上一部分給大家介紹Django的視圖。接下來繼續來了解Django框架,來看第三部分,此部分是對數據庫的操作。目錄:一、設計系統表            返回目錄首先打開sign/models.py,通過模型完成標的創建:from djang…

java 保留字符串,如何在Java中保留字符串而不使用反轉功能

有以下幾種在Java中反轉字符串的方法:使用for循環使用While循環使用靜態方法使用For循環使用for循環在Java中反轉字符串的示例在下面的示例中, 我們使用了for循環來反轉字符串。 for循環執行直到條件i> 0變為false為止。import java.util.Scanner;class ReverseS…

python增刪改查csv文件_Python增刪改查文件

#!/usr/bin/env python# -*- coding:utf-8 -*-# author:Erik Chan# datetime:2018/12/27 9:29# software: PyCharmimport os# 獲取當前文件的父目錄文件夾DIR os.path.dirname(os.path.abspath(__file__))cwd os.getcwd() #獲取當前目錄即dir目錄下print(cwd)# 創建添加一個文…

php 模塊 遠程,ThinkPHP遠程調用模塊的操作方法 URL 參數格式

* 遠程調用模塊的操作方法 URL 參數格式 [項目://][分組/]模塊/操作* param string $url 調用地址* param string|array $vars 調用參數 支持字符串和數組* param string $layer 要調用的控制層名稱* return mixedfunction R($url,$varsarray(),$layer‘‘) {$info pathinfo($…

python3 csv 讀入數組_如何將CSV數據讀入NumPy中的記錄數組?

我建議read_csv函數的pandas圖書館:import pandas as pddfpd.read_csv(myfile.csv, sep,,headerNone)df.valuesarray([[ 1. , 2. , 3. ],[ 4. , 5.5, 6. ]])DataFrame是一種具有潛在不同類型列的二維標記數據結構.你可以把它想象成一個電子表格或SQL表.我也建議…

php用cdn打不開,開啟 CDN 后 wordpress 后臺打不開的解決辦法

現在很多站長把網站放到國外,使用 CDN 加速功能提高國內的訪問速度,前面提到過開啟騰訊云 CDN 后 wordpress 后臺顯示:連接被重置的解決辦法,而今天遇到的是另外一種情況,有時候會遇到開啟 CDN 后 wordpress 后臺打不開…

android 支付寶月賬單 統計圖_記賬其實很簡單,用微信、支付寶就夠了!

用微信、支付寶記賬,從起告別糊涂賬養成記賬的好習慣,能讓你對生活中的各種收支做到心中有數,從此告別糊涂賬。長期堅持,能幫助我們理性消費、科學理財。但或許是因為記賬的過程太枯燥,或許是因為沒找到合適的記賬方法…