常見的分詞算法

常見的分詞算法

diannao/2025/7/8 2:28:38/文章來源:https://blog.csdn.net/weixin_67075116/article/details/148299650

常見的分詞方法分類如下：

類型	名稱	說明	優缺點
1?? 基于空格/標點	Word-level	以空格或標點劃分，如 `"Hello, world!" → ["Hello", ",", "world", "!"]`	?簡單，?無法處理新詞，詞表太大
2?? 基于字符	Character-level	一個字符一個 token，如 `"你好" → ["你", "好"]`	?通用性好，?序列太長
3?? 子詞級	Subword-level （🔥主流）	通過數據學習出詞根、詞綴、組合形式，如 `"playing" → ["play", "ing"]`	?處理 OOV、新詞能力強，模型更穩定
4?? 拼音/詞干提取	特殊任務中使用	適合中文/特定語言，或搜索系統	?提升特定語言效果
5?? SentencePiece	通用子詞分詞器（T5、XLNet）	不依賴空格，用字符構建詞表	?適用于多語言、無空格語言（如中文）

🔥 主流 NLP 模型用的分詞方法

模型	分詞方法	工具
BERT	WordPiece	`transformers` 內置
GPT/GPT-2	Byte-Pair Encoding (BPE)	`tokenizers`
RoBERTa	BPE	`tokenizers`
T5	SentencePiece	`sentencepiece`
通義 Qwen	BPE + 中文詞粒度優化	阿里自研 tokenizer
Baidu ERNIE	WordPiece + 中文增強	百度 PaddleNLP
OpenAI GPT-4	tiktoken	支持 byte-level 分詞

🧠 重點解釋：三大子詞分詞方法（subword）

方法	原理	應用模型
? WordPiece	從大詞拆小（優先匹配最長前綴）	BERT、ERNIE
? BPE（Byte Pair Encoding）	高頻字符組合為子詞	GPT-2、RoBERTa、Qwen
? SentencePiece	無需空格，支持任意語言，直接從字符訓練	T5、ALBERT、XLNet

🔍 示例：將 unhappiness 分詞

WordPiece: ["un", "##happiness"]
BPE: ["un", "happi", "ness"]
SentencePiece: ["▁un", "happiness"]

🧪 中文分詞特別注意：

中文沒有空格，不像英文那樣天然有“詞界限”。

🔸 原始中文可以用 jieba（規則+詞典）
🔸 大模型（如 BERT 中文版）用的是字符級 + WordPiece
🔸 最新模型（如通義、百川）會特別訓練 tokenizer，更好處理“你是誰” vs “你是誰”

📦 工具推薦（直接用）：

工具庫	特點
🤗 `transformers`	預訓練模型自帶 tokenizer
`tokenizers`	更底層，可自定義訓練 tokenizer
`sentencepiece`	訓練 T5 / BERT tokenizer
`jieba`	中文規則分詞，適合快速試驗

? 總結口訣：

英文分詞有空格，中文分詞靠模型；WordPiece 拆詞根，BPE 合字符；SentencePiece 全自動，不挑語種最靈活。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84977.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84977.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84977.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

湖北理元理律師事務所觀察：債務優化如何成為民生安全網

湖北理元理律師事務所觀察：債務優化如何成為民生安全網

據央行2023年報告，中國家庭債務收入比達137.8%。面對債務高壓，湖北理元理律師事務所的實踐揭示：專業債務規劃的價值不僅是減負數字，更是構建社會穩定的微觀防線。一、從“催收恐懼”到“主動管理”的轉變該所服務數據顯示&…

閱讀更多...

服務器密碼安全運維解決新思路：憑據管理SMS+雙因素SLA認證結合的方案

服務器密碼安全運維解決新思路：憑據管理SMS+雙因素SLA認證結合的方案

引言：云服務器安全成本困局在云計算滲透率突破60%的今天，中小企業正面臨嚴峻的安全悖論：某權威機構數據顯示，72%的云上數據泄露事件源于憑據管理不當，而傳統安全解決方案的采購成本往往超過中小企業年利潤的8%。這種…

閱讀更多...

Vision Transformer網絡結構

Vision Transformer網絡結構

0.前言參考CSDN大佬(太陽花的小綠豆)的代碼，梳理了一下vit的網絡結構，代碼地址如下： deep-learning-for-image-processing/pytorch_classification/vision_transformer at master WZMIAOMIAO/deep-learning-for-image-processing GitHub …

閱讀更多...

C++ 圖像處理庫 CxImage 簡介（遷移至OpenCV）

C++ 圖像處理庫 CxImage 簡介（遷移至OpenCV）

文章目錄核心功能特點局限性與替代方案常用方法構造函數從數組創建圖像訪問屬性訪問像素點Windows平臺支持常用方法遷移至OpenCV CxImage 是一款功能強大的圖像處理類庫，主要用于 Windows 平臺的圖像處理任務。它支持多種圖像格式的加載、保存、編輯及特效處理&am…

閱讀更多...

UIAbility組件基礎

UIAbility組件基礎

UIAbility組件基礎

閱讀更多...

【博客系統】博客系統第十一彈：從零開始在 Linux 系統上搭建 Java 部署環境并部署 Web 項目

【博客系統】博客系統第十一彈：從零開始在 Linux 系統上搭建 Java 部署環境并部署 Web 項目

搭建 Java 部署環境 JDK 1. 更新軟件包 apt 命令詳細介紹 sudo apt-get update2. 安裝 OpenJDK 查找 JDK 包 apt list | grep "jdk"安裝 JDK sudo apt install openjdk-17-jdk注意： 此處安裝的是 OpenJDK，OpenJDK 是一個開源版本的 JDK&am…

閱讀更多...

智能外呼系統中 NLP 意圖理解的工作原理與技術實現

智能外呼系統中 NLP 意圖理解的工作原理與技術實現

智能外呼系統通過整合語音識別（ASR）、自然語言處理（NLP）和語音合成（TTS）等技術，實現了自動化的電話交互。其中，NLP 意圖理解是核心模塊，負責解析用戶話語中的語義和意圖&…

閱讀更多...

Sigma-Aldrich胰蛋白酶細胞解離方案速覽

Sigma-Aldrich胰蛋白酶細胞解離方案速覽

Sigma-Aldrich_胰蛋白酶用于細胞培養細胞解離是細胞傳代過程中的一個步驟，即細胞從預處理表面分離，形成懸浮液。這些懸浮液對于傳代培養重新接種、細胞計數分析和細胞增殖非常重要。有多種蛋白水解酶可用來從粘附基質上脫離細胞，胰蛋白酶就…

閱讀更多...

寶塔安裝WordPress程序

寶塔安裝WordPress程序

寶塔安裝WordPress程序一、提前準備1，下載WordPress2，在寶塔創建站點二、部署項目1，上傳下載的wordpress壓縮包至創建的項目根目錄下并解壓三、wordpress安裝1，在瀏覽器打開創建的網站2，開始按照流程安裝配置數據庫…

閱讀更多...

【LangChain】框架解析

【LangChain】框架解析

目錄 🌟 前言🏗? 技術背景與價值🩹 當前技術痛點🛠? 解決方案概述👥 目標讀者說明 🧠 一、技術原理剖析📊 核心架構圖解💡 核心作用講解🔧 關鍵技術模塊說明?? 技術選…

閱讀更多...

百度之星2024 初賽第一場補給

百度之星2024 初賽第一場補給

百度之星2024 初賽第一場補給題干描述問題分析：C代碼Java代碼：Python代碼補充說明： 題干描述參考自馬蹄集OJ，原文鏈接1 可怕的戰爭發生了，小度作為后勤保障工作人員，也要為了保衛國家而努力。現在有 …

閱讀更多...

JavaScripts console.log和console.dir區別

JavaScripts console.log和console.dir區別

console.log 和 console.dir 都是 JavaScript 中用于在瀏覽器控制臺打印信息的方法 ，二者主要有以下區別： 輸出內容和格式 console.log：主要用于輸出簡單的日志信息，直接打印數據的字符串表示。對于對象、數組等引用類型&#…

閱讀更多...

uniapp 開發企業微信小程序時，如何在當前頁面真正銷毀前或者關閉小程序前調用一個api接口

uniapp 開發企業微信小程序時，如何在當前頁面真正銷毀前或者關閉小程序前調用一個api接口

在 UniApp 開發企業微信小程序時，若需在頁面銷毀或小程序關閉前調用 API 接口，需結合頁面生命周期和應用生命周期實現。以下是具體實現方案及注意事項： 一、在頁面銷毀前調用 API（頁面級） 通過頁面生命周期鉤子 onUnl…

閱讀更多...

聊聊 Metasploit 免殺

聊聊 Metasploit 免殺

各位小伙伴們，晚上好！ 咱們今天打開宵夜“安全食材箱”，聊聊滲透測試繞過殺毒（免殺）的那些門道。你可以把免殺理解為——深夜做宵夜時，家里有人睡覺，但你非得去廚房整點美食，還不能…

閱讀更多...

Android高級開發第二篇 - JNI 參數傳遞與 Java → C → Java 雙向調用

Android高級開發第二篇 - JNI 參數傳遞與 Java → C → Java 雙向調用

文章目錄 Android高級開發第二篇 - JNI 參數傳遞與 Java → C → Java 雙向調用引言JNI基礎回顧JNI中的參數傳遞基本數據類型傳遞字符串傳遞數組傳遞對象傳遞 Java → C → Java 雙向調用從C/C調用Java方法實現一個完整的回調機制內存管理與注意事項性能優化提示結論參考資源 …

閱讀更多...

2025-05-28 Python深度學習8——優化器

2025-05-28 Python深度學習8——優化器

文章目錄 1 工作原理2 常見優化器2.1 SGD2.2 Adam 3 優化器參數4 學習率5 使用最佳實踐本文環境： Pycharm 2025.1Python 3.12.9Pytorch 2.6.0cu124 ? 優化器 (Optimizer) 是深度學習中的核心組件，負責根據損失函數的梯度來更新模型的參數，使…

閱讀更多...

Web攻防-SQL注入增刪改查HTTP頭UAXFFRefererCookie無回顯報錯

Web攻防-SQL注入增刪改查HTTP頭UAXFFRefererCookie無回顯報錯

知識點： 1、Web攻防-SQL注入-操作方法&增刪改查 2、Web攻防-SQL注入-HTTP頭&UA&Cookie 3、Web攻防-SQL注入-HTTP頭&XFF&Referer 案例說明： 在應用中，存在增刪改查數據的操作，其中SQL語句結構不一導致注入語句…

閱讀更多...

Windows MongoDB C++驅動安裝

Windows MongoDB C++驅動安裝

MongoDB驅動下載 MongoDB 官網MongoDB C驅動程序入門MongoDB C驅動程序入門安裝環境安裝CMAKE安裝Visual Studio 編譯MongoDB C驅動 C驅動依賴C驅動，需要先編譯C驅動下載MongoDB C驅動源碼打開CMAKE(cmake-gui) 選擇源碼及輸出路徑,然后點擊configure …

閱讀更多...

使用 C/C++ 和 OpenCV 調用攝像頭

使用 C/C++ 和 OpenCV 調用攝像頭

使用 C/C 和 OpenCV 調用攝像頭 📸 OpenCV 是一個強大的計算機視覺庫，它使得從攝像頭捕獲和處理視頻流變得非常簡單。本文將指導你如何使用 C/C 和 OpenCV 來調用攝像頭、讀取視頻幀并進行顯示。準備工作在開始之前，請確保你已經正確安裝…

閱讀更多...

使用微軟最近開源的WSL在Windows上優雅的運行Linux

使用微軟最近開源的WSL在Windows上優雅的運行Linux

install wsl https://github.com/microsoft/WSL/releases/download/2.4.13/wsl.2.4.13.0.x64.msi install any distribution from microsoft store, such as kali-linux from Kali office website list of distribution PS C:\Users\50240> wsl -l -o 以下是可安裝的有…

閱讀更多...

最新文章