python分詞代碼_中文分詞--最大正向匹配算法python實現

最大匹配法：最大匹配是指以詞典為依據，取詞典中最長單詞為第一個次取字數量的掃描串，在詞典中進行掃描(為提升掃描效率，還可以跟據字數多少設計多個字典，然后根據字數分別從不同字典中進行掃描)。例如：詞典中最長詞為“中華人民共和國”共7個漢字，則最大匹配起始字數為7個漢字。然后逐字遞減，在對應的詞典中進行查找。

下面以“我們在野生動物園玩”為例詳細說明一下正向與逆向最大匹配方法：

1、正向最大匹配法：

正向即從前往后取詞，從7->1，每次減一個字，直到詞典命中或剩下1個單字。

第1次：“我們在野生動物”，掃描7字詞典，無

第2次：“我們在野生動”，掃描6字詞典，無

。。。。

第6次：“我們”，掃描2字詞典，有

掃描中止，輸出第1個詞為“我們”，去除第1個詞后開始第2輪掃描，即：

第2輪掃描：

第1次：“在野生動物園玩”，掃描7字詞典，無

第2次：“在野生動物園”，掃描6字詞典，無

。。。。

第6次：“在野”，掃描2字詞典，有

掃描中止，輸出第2個詞為“在野”，去除第2個詞后開始第3輪掃描，即：

第3輪掃描：

第1次：“生動物園玩”，掃描5字詞典，無

第2次：“生動物園”，掃描4字詞典，無

第3次：“生動物”，掃描3字詞典，無

第4次：“生動”，掃描2字詞典，有

掃描中止，輸出第3個詞為“生動”，第4輪掃描，即：

第4輪掃描：

第1次：“物園玩”，掃描3字詞典，無

第2次：“物園”，掃描2字詞典，無

第3次：“物”，掃描1字詞典，無

掃描中止，輸出第4個詞為“物”，非字典詞數加1，開始第5輪掃描，即：

第5輪掃描：

第1次：“園玩”，掃描2字詞典，無

第2次：“園”，掃描1字詞典，有

掃描中止，輸出第5個詞為“園”，單字字典詞數加1，開始第6輪掃描，即：

第6輪掃描：

第1次：“玩”，掃描1字字典詞，有

掃描中止，輸出第6個詞為“玩”，單字字典詞數加1，整體掃描結束。

正向最大匹配法，最終切分結果為：“我們/在野/生動/物/園/玩”

2、python代碼實現

1 #-*- coding: utf-8 -*-

2 """

3 Created on Thu Jul 19 08:57:56 20184

5 @author: Lenovo6 """

8 test_file = ‘train/train.txt‘#訓練語料

9 test_file2 = ‘test/test.txt‘#測試語料

10 test_file3 = ‘test_sc/test_sc_zhengxiang.txt‘#生成結果

12 def get_dic(test_file): #讀取文本返回列表

13 with open(test_file,‘r‘,encoding=‘utf-8‘,) as f:14 try:15 file_content =f.read().split()16 finally:17 f.close()18 chars =list(set(file_content))19 returnchars20

21 dic =get_dic(test_file)22 defreadfile(test_file2):23 max_length = 5

25 h = open(test_file3,‘w‘,encoding=‘utf-8‘,)26 with open(test_file2,‘r‘,encoding=‘utf-8‘,) as f:27 lines =f.readlines()28

29 for line in lines:#分別對每行進行正向最大匹配處理

30 max_length = 5

31 my_list =[]32 len_hang =len(line)33 while len_hang>0 :34 tryWord =line[0:max_length]35 while tryWord not indic:36 if len(tryWord)==1:37 break

38 tryWord=tryWord[0:len(tryWord)-1]39 my_list.append(tryWord)40 line =line[len(tryWord):]41 len_hang =len(line)42

43 for t in my_list:#將分詞結果寫入生成文件

44 if t == ‘\n‘:45 h.write(‘\n‘)46 else:47 h.write(t + " ")48

49 h.close()50

51 readfile(test_file2)

3、訓練語料和測試語料見附件。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/528934.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/528934.shtml
英文地址，請注明出處：http://en.pswp.cn/news/528934.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！