Python進行中文分詞

1. jieba庫概述

jieba(“結巴”)是Python中最流行的中文分詞庫,采用基于前綴詞典實現的高效分詞算法,支持多種分詞模式,是中文自然語言處理(NLP)的基礎工具。
核心特性

  • 精確模式:試圖將句子最精確地切開,適合文本分析
  • 全模式:把句子中所有可以成詞的詞語都掃描出來,速度非常快但有冗余
  • 搜索引擎模式:在精確模式基礎上,對長詞再次切分,提高召回率
  • 支持自定義詞典:可添加專業領域詞匯提高分詞準確度
  • 支持詞性標注:可標注分詞結果的詞性
  • 支持并行分詞:利用多核CPU加速分詞處理

2. jieba.cut函數

import jieba
seg_list = jieba.cut("這是一個測試文本", cut_all=False)

參數說明

參數類型默認值說明
sentencestr必需待分詞的字符串
cut_allboolFalse是否采用全模式
HMMboolTrue是否使用HMM模型
use_paddleboolFalse是否使用PaddlePaddle模型(需額外安裝)

返回值
關鍵點:jieba.cut()返回的是生成器(Generator),不是列表或元組。

這意味著:生成器只能被迭代一次,之后就會耗盡,無法直接索引(如seg_list[0]會報錯),無法直接獲取長度(如len(seg_list)會報錯),內存效率高,適合處理大文本,但需要特別注意使用方式。

3. 使用示例

# 安裝
pip install jieba

在這里插入圖片描述

import jieba
from collections import Countertext = "本周進行自然語言處理系列文檔示例,示例圍繞自然語言處理程序。"
words = jieba.cut(text)words_list = list(words)
words_count = Counter(words_list)
words_filter = [word for word, count in words_count.items() if count > 1]print("分詞結果:", words_list)
print("詞頻:", words_count)
print("高頻詞匯:", words_filter)

在這里插入圖片描述

4. 其他常用函數

jieba.lcut(sentence, cut_all=False, HMM=True, use_paddle=False)
功能:與cut()功能相同,但直接返回列表而非生成器,解決了生成器只能迭代一次的問題,便于多次使用分詞結果。

jieba.cut_for_search(sentence, HMM=True)
功能:搜索引擎模式分詞,對長詞再次切分以提高召回率,在精確模式基礎上,對未在詞典中找到的長詞進行二次切分

jieba.posseg.cut(sentence, HMM=True)
功能:提供詞性標注功能,基于精確模式分詞并標注詞性

jieba.add_word(word, freq=None, tag=None)
功能:向分詞詞典中添加新詞
參數:
word:要添加的詞語;
freq:詞頻(可選),用于調整詞語切分優先級;
tag:詞性(可選)

jieba.load_userdict(file_name)
功能:加載自定義詞典文件
文件格式:每行一個詞,格式為:詞語 詞頻 詞性(詞頻和詞性可選)

jieba.tokenize(sentence, mode=‘default’, HMM=True)
功能:返回詞語在原文中的位置信息
參數:mode:‘default’(精確模式)或’search’(搜索引擎模式)
返回值:元組列表,每個元組包含(詞語, 起始位置, 結束位置)

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
功能:基于TF-IDF算法提取關鍵詞
參數:
topK:返回關鍵詞數量
withWeight:是否返回權重值
allowPOS:僅提取指定詞性的詞

jieba.enable_parallel(num)
功能:利用多核CPU加速分詞處理,啟用并行分詞,參數為并行進程數,程序結束可以調用jieba.disable_parallel()關閉并行分詞

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/919577.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/919577.shtml
英文地址,請注明出處:http://en.pswp.cn/news/919577.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JavaScript 性能優化實戰:從原理到落地的完整指南

一、引言:為什么 JavaScript 性能優化至關重要?性能與用戶體驗的強關聯數據支撐:加載延遲每增加 1 秒,用戶轉化率下降 7%(來自 Google 研究)核心痛點:現代 Web 應用中 JS 代碼體積膨脹、運行時卡…

前端自動化部署

摘要:前端自動化部署是通過工具和流程自動化實現前端代碼從開發完成到線上發布的全流程,減少人工操作、提高效率并降低出錯風險。核心目標減少重復操作:自動化構建、測試、部署等步驟,替代手動上傳服務器等低效方式。提升發布效率…

peewee中db.create_tables(tables, safe=True),safe=True作用

db.create_tables(tables, safeTrue) 中的 safeTrue 參數的作用是 防止在表已經存在的情況下引發錯誤。 具體來說: 當 safeTrue 時:Peewee 會在生成的 SQL 語句中加入 IF NOT EXISTS 子句(例如:CREATE TABLE IF NOT EXISTS my_tab…

2025年計算機視覺與圖像國際會議(ICCVI 2025)

2025年計算機視覺與圖像國際會議| 視界創新,圖領未來 2025年計算機視覺與圖像國際會議(ICCVI 2025)將在中國東莞盛大召開。這不僅是一次匯聚全球頂尖科學家、工程師和學者的盛會,更是一個探索計算機視覺和圖像處理領域前沿技術與未…

Temu美國站大規模掃號封店:虛假本土店遭批量封禁,如何規避?

2025年8月,Temu平臺針對美國站再次掀起大規模掃號風暴。大量店鋪因注冊信息違規被判定為“高風險”,不僅店鋪被凍結,商品也被下架并禁止補貨。這一輪清掃,讓不少依靠“資料店”快速起盤的賣家遭遇重創。事實上,Temu的風…

航空發動機葉片yolov8模型訓練和轉換(包含適配rk3588-pt轉onnx轉rknn)

前言: 1.訓練在windows進行,因為電腦沒有顯卡,所以純cpu訓練,生成pt后轉onnx 2.onnx轉需要在Ubuntu虛擬機上運行 3.數據集標定快捷鍵 (模型訓練時不需要)官方地址和下載pt權重:鏈接&#xff…

PyTorch如何修改模型(魔改)?/替換模型,一般除了注意輸入輸出一致,還有其他要修改的嗎?

一、PyTorch如何修改模型(魔改)? 可以參考這個鏈接,看了一下還不錯: PyTorch如何修改模型(魔改)_模型魔改-CSDN博客 二、替換模型,一般除了注意輸入輸出一致,還有其他要修改的嗎?…

Pycharm Debug詳解

Pycharm Debug詳解看這個工具欄就是 PyCharm 調試器的“步進/斷點”按鈕區。常用按鈕和作用(從左到右一般是這些): Resume / 繼續運行(F9):從當前斷點繼續跑,直到下一個斷點或程序結束。Step Ov…

將SSL配置遷移到Nacos的步驟

將SSL配置遷移到Nacos的步驟 要將SSL配置從本地application.yml遷移到Nacos配置中心,需要完成以下幾個步驟: 1. 創建Nacos配置文件 在Nacos中創建一個新的配置文件(例如application-ssl.yml),內容如下: ser…

HTTP請求參數類型及對應的后端注解

在Java后端開發中,HTTP請求的不同部分需要使用不同的注解來處理。以下是四種主要請求參數類型及其對應的Spring注解:1. 請求頭(Headers)??位置??:HTTP請求的頭部信息??常用場景??:認證信息(Token)、客戶端信息、內容類型等…

服務器硬件電路設計之 SPI 問答(一):解密 SPI—— 從定義到核心特性

在服務器硬件電路設計中,SPI(Serial Peripheral Interface,串行外設接口)是一種關鍵的通信總線。它由摩托羅拉公司開發,是全雙工、同步串行通信總線,主要用于微控制器與外圍設備之間的通信,憑借…

【2025CVPR-目標檢測方向】OW-OVD:統一的開放世界和開放詞匯對象檢測

研究背景與動機? ?問題?:傳統目標檢測器(封閉集)需預定義所有類別,無法適應動態開放環境。現有研究多獨立解決開放詞匯檢測(OVD)或開放世界檢測(OWOD),未結合兩者優勢: ?OVD?:通過文本-視覺嵌入匹配實現零樣本泛化,但無法主動發現未知對象。 ?OWOD?:可主動…

基于Python的就業信息推薦系統 Python+Django+Vue.js

本文項目編號 25011 ,文末自助獲取源碼 \color{red}{25011,文末自助獲取源碼} 25011,文末自助獲取源碼 目錄 一、系統介紹二、系統錄屏三、啟動教程四、功能截圖五、文案資料5.1 選題背景5.2 國內外研究現狀 六、核心代碼6.1 查詢數據6.2 新…

el-date-picker type=daterange 日期范圍限制

html &#xff08;組件&#xff1a;element-ui&#xff09;重點&#xff1a; :picker-options"pickerOptions"<template><el-date-pickerv-model"form.dateRange"type"daterange" value-format"yyyy-MM-dd"range-separator&q…

【38頁PPT】關于5G智慧園區整體解決方案(附下載方式)

篇幅所限&#xff0c;本文只提供部分資料內容&#xff0c;完整資料請看下面鏈接 https://download.csdn.net/download/2501_92808811/91694207 資料解讀&#xff1a;《關于5G智慧園區整體解決方案》 詳細資料請看本解讀文章的最后內容。 智慧園區行業理解與建設目標 智慧園…

Kafka的ISR、OSR、AR詳解

Kafka中的ISR、OSR和AR是副本管理機制的核心概念&#xff0c;它們共同保障了Kafka的高可用性和數據一致性。下面我將詳細解釋這些概念及其相互關系。 1. 基本概念 1.1 AR (Assigned Replicas) - 分配副本 定義&#xff1a;一個分區的所有副本集合稱為AR&#xff0c;即Kafka為主…

第一階段C#基礎-13:索引器,接口,泛型

1_索引器&#xff08;1&#xff09;索引器是C#中一個強大而實用的特性&#xff0c;允許像訪問數組一樣訪問類的成員&#xff08;2&#xff09;索引器&#xff1a;一種可以讓我們使用索引來訪問對象的一種方法&#xff0c;是一組get,set訪問器&#xff0c;與屬性類似&#xff0c…

SQL-leetcode— 2356. 每位教師所教授的科目種類的數量

2356. 每位教師所教授的科目種類的數量 表: Teacher ----------------- | Column Name | Type | ----------------- | teacher_id | int | | subject_id | int | | dept_id | int | ----------------- 在 SQL 中&#xff0c;(subject_id, dept_id) 是該表的主鍵。 該表…

基于單片機溫控風扇設計/PWM調速風扇/智能風扇

傳送門 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品題目速選一覽表 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品題目功能速覽 概述 該設計基于單片機實現智能溫控風扇系統&#xff0c;通過溫度傳感器實時監測環境溫度&#xff0c;…

【datawhale組隊學習】RAG技術 - TASK02

教程地址&#xff1a;https://github.com/datawhalechina/all-in-rag/ 感謝datawhale的教程&#xff0c;以下筆記大部分內容來自該教程 文章目錄基于LangChain框架的RAG實現初始化設置數據準備索引構建查詢與檢索生成集成低代碼&#xff08;基于LlamaIndex&#xff09;conda ac…