20250324-使用 `nltk` 的 `sent_tokenize`, `word_tokenize、WordNetLemmatizer` 方法時報錯

解決使用 nltksent_tokenize, word_tokenize、WordNetLemmatizer 方法時報錯問題

第 2 節的手動方法的法1可解決大部分問題,可首先嘗試章節 2 的方法

1. nltk.download(‘punkt_tab’)

LookupError: 
**********************************************************************Resource punkt_tab not found.Please use the NLTK Downloader to obtain the resource:>>> import nltk>>> nltk.download('punkt_tab')For more information see: https://www.nltk.org/data.html  Attempted to load tokenizers/punkt_tab/english/Searched in:- 'C:\\Users\\chenw/nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\share\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\lib\\nltk_data'- 'C:\\Users\\chenw\\AppData\\Roaming\\nltk_data'- 'C:\\nltk_data'- 'D:\\nltk_data'- 'E:\\nltk_data'
**********************************************************************

根據提示可手動或自動處理這一報錯

1) 運行命令(不是每個人都能成功

your_path 換為你想安裝的文件地址(必須是上面所顯示的任一路徑)

import nltk
nltk.download('punkt_tab', download_dir=your_path)

可以使用一下方法檢查 NLTK 數據路徑

import nltk
print(nltk.data.find('tokenizers/punkt_tab'))

2) 手動

首先,從官網下載文件

NLTK Corpora: https://www.nltk.org/nltk_data/

在官網頁面搜索 punkt_tab ,在第 77 條:Punkt Tokenizer Models [ download | source ] 點擊 download 下載。
在這里插入圖片描述
之后,(我使用的是提示的第四條路徑)在上面提示路徑中的任意一個路徑中,在 ..../lib 文件夾下新建 nltk_data/tokenizers 文件夾。

然后,將下載的文件解壓到 tokenizers 文件夾下:
在這里插入圖片描述
最后,試運行一下是不會報錯的(只要沒有哪一步出錯)

2. nltk.download(‘wordnet’)

WordNetLemmatizer().lemmatize()

LookupError: 
**********************************************************************Resource wordnet not found.Please use the NLTK Downloader to obtain the resource:>>> import nltk>>> nltk.download('wordnet')For more information see: https://www.nltk.org/data.htmlAttempted to load corpora/wordnetSearched in:- 'C:\\Users\\chenw/nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\share\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\lib\\nltk_data'- 'C:\\Users\\chenw\\AppData\\Roaming\\nltk_data'- 'C:\\nltk_data'- 'D:\\nltk_data'- 'E:\\nltk_data'
**********************************************************************

同樣也是分手動和自動,按照上述的方法

1) 運行命令(不是每個人都能成功

punkt_tab 的處理方法類似

import nltk
nltk.download('wordnet', download_dir=your_path)

2) 手動

法1:直接從下面的鏈接中下載語料庫(推薦

nltk_data: https://github.com/nltk/nltk_data

將下載好的包解壓,解壓后包中 packages 中的所以文件復制到 nltk_data 文件夾中


在這里插入圖片描述


在這里插入圖片描述


tokenizers\punkt_tab.zip 文件需要解壓,之后無關文件可刪除

在這里插入圖片描述

可參考文章:nltk.download(‘wordnet‘)錯誤;Resource wordnet not found. Please use the NLTK Downloader to obtain th

法2:與 1. nltk.download('punkt_tab') 的手動操作方法相同

NLTK Corpora 的 114 個壓縮包(我沒試過,文件太大,下載太慢)

在這里插入圖片描述


3. 驗證數據包是否下載成功

from nltk.tokenize import word_tokenize
text = "This are some sample sentences to test the tokenizer."
tokens = word_tokenize(text)
print(tokens)
['This', 'are', 'some', 'sample', 'sentences', 'to', 'test', 'the', 'tokenizer', '.']
from nltk import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() # 詞形還原器
wordlist = [] # 存儲詞形還原后單詞的列表# 對每個單詞進行詞形還原
for word in tokens:# 這里默認詞性為名詞("n"),可以根據需要擴展到其他詞性# 例如:使用詞性標注工具(如 nltk.pos_tag)來確定單詞的詞性lemma_word = lemmatizer.lemmatize(word, pos="n")wordlist.append(lemma_word)print(wordlist)
['This', 'are', 'some', 'sample', 'sentence', 'to', 'test', 'the', 'tokenizer', '.']

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74344.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74344.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74344.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

『 C++ 』多線程同步:條件變量及其接口的應用實踐

文章目錄 條件變量概述條件變量簡介條件變量的基本用法 案例:兩個線程交替打印奇偶數代碼解釋 std::unique_lock::try_lock_until 介紹代碼示例代碼解釋注意事項 std::condition_variable::wait 詳細解析與示例std::condition_variable::wait 接口介紹代碼示例代碼解…

【VolView】純前端實現CT三維重建-CBCT

文章目錄 什么是CBCTCBCT技術路線使用第三方工具使用Python實現使用前端實現 純前端實現方案優缺點使用VolView實現CBCT VolView的使用1.克隆代碼2.配置依賴3.運行4.效果 進階:VolView配合Python解決卡頓1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

debug - 安裝.msi時,為所有用戶安裝程序

文章目錄 debug - 安裝.msi時,為所有用戶安裝程序概述筆記試試在目標.msi后面直接加參數的測試 備注備注END debug - 安裝.msi時,為所有用戶安裝程序 概述 為了測試,裝了一個test.msi. 安裝時,只有安裝路徑的選擇,沒…

Java Stream兩種list判斷字符串是否存在方案

這里寫自定義目錄標題 背景初始化方法一、filter過濾方法二、anyMatch匹配 背景 在項目開發中,經常遇到篩選list中是否包含某個子字符串,有多種方式,本篇主要介紹stream流的filter和anyMatch兩種方案,記錄下來,方便備…

DeepSeek vs 通義大模型:誰將主導中國AI的未來戰場?

當你在深夜調試代碼時,是否幻想過AI伙伴能真正理解你的需求?當企業面對海量數據時,是否期待一個真正智能的決策大腦? 這場由DeepSeek和通義領銜的大模型之爭,正在重塑中國AI產業的競爭格局。本文將為你揭開兩大技術巨頭的終極對決! 一、顛覆認知的技術突破 1.1 改變游戲…

3. 軸指令(omron 機器自動化控制器)——>MC_SetOverride

機器自動化控制器——第三章 軸指令 12 MC_SetOverride變量?輸入變量?輸出變量?輸入輸出變量 功能說明?時序圖?重啟運動指令?多重啟動運動指令?異常 MC_SetOverride 變更軸的目標速度。 指令名稱FB/FUN圖形表現ST表現MC_SetOverride超調值設定FBMC_SetOverride_instan…

從像素到世界:自動駕駛視覺感知的坐標變換體系

接著上一篇 如何讓自動駕駛汽車“看清”世界?坐標映射與數據融合詳解的概述,這一篇詳細講解自動駕駛多目視覺系統設計原理,并給出應用示例。 摘要 在自動駕駛系統中,準確的環境感知是實現路徑規劃與決策控制的基礎。本文系統性地解析圖像坐標系、像素坐標系、相機坐標系與…

附錄B ISO15118-20測試命令

本章節給出ISO15118-20協議集的V2G命令,包含json、xml,并且根據exiCodec.jar編碼得到exi內容, 讀者可以參考使用,測試編解碼庫是否能正確編解碼。 B.1 supportedAppProtocolReq json: {"supportedAppProtocolReq": {…

VLAN章節學習

為什么會有vlan這個技術? 1.通過劃分廣播域來降低廣播風暴導致的設備性能下降; 2.提高網絡管理的靈活性和通過隔離網絡帶來的安全性; 3.在成本不變的情況下增加更多的功能性; VLAN又稱虛擬局域網(再此擴展&#xf…

FPGA時鐘約束

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 目錄 前言 一、Create_clock 前言 時鐘周期約束&#xff0c;就是對時鐘進行約束。 一、Create_clock create_clock -name <name> -period <period> -waveform …

機房布局和布線的最佳實踐:如何打造高效、安全的機房環境

機房布局和布線的最佳實踐:如何打造高效、安全的機房環境 大家好,我是Echo_Wish。今天我們來聊聊機房布局和布線的問題,這可是數據中心和IT運維中的一個非常重要的環節。不管是剛剛接觸運維的新人,還是已經摸爬滾打多年的老兵,都應該對機房的布局和布線有一個清晰的認識。…

spring-security原理與應用系列:建造者

目錄 1.構建過程 AbstractSecurityBuilder AbstractConfiguredSecurityBuilder WebSecurity 2.建造者類圖 SecurityBuilder ???????AbstractSecurityBuilder ???????AbstractConfiguredSecurityBuilder ???????WebSecurity 3.小結 緊接上一篇文…

OpenHarmony子系統開發 - 電池管理(二)

OpenHarmony子系統開發 - 電池管理&#xff08;二&#xff09; 五、充電限流限壓定制開發指導 概述 簡介 OpenHarmony默認提供了充電限流限壓的特性。在對終端設備進行充電時&#xff0c;由于環境影響&#xff0c;可能會導致電池溫度過高&#xff0c;因此需要對充電電流或電…

xy軸不等比縮放問題——AUTOCAD c#二次開發

在 AutoCAD .net api里&#xff0c;部分實體&#xff0c;像文字、屬性、插入塊等&#xff0c;是不支持非等比縮放的。 如需對AutoCAD中圖形進行xyz方向不等比縮放&#xff0c;則需進行額外的函數封裝。 選擇圖元&#xff0c;指定縮放基準點&#xff0c;scaleX 0.5, scaleY …

如何在 HTML 中創建一個有序列表和無序列表,它們的語義有何不同?

大白話如何在 HTML 中創建一個有序列表和無序列表&#xff0c;它們的語義有何不同&#xff1f; 1. HTML 中有序列表和無序列表的基本概念 在 HTML 里&#xff0c;列表是一種用來組織信息的方式。有序列表就是帶有編號的列表&#xff0c;它可以讓內容按照一定的順序呈現&#…

kafka的文章

1.面試的問題 要點 至多一次、恰好一次數據一致性超時重試、冪等消息順序消息擠壓延時消息 1.1 kafaka 生產消息的過程。 在消息發送的過程中&#xff0c;涉及到了兩個線程&#xff0c;一個是main 線程&#xff0c;一個是sender 線程。在main 線程中創建了一個雙端隊列 Reco…

以mysql 為例,增刪改查語法及其他高級特性

以下是 MySQL 的 增刪改查語法及 高級特性的詳細整理&#xff0c;結合示例說明&#xff1a; 1. 基礎操作&#xff08;CRUD&#xff09; (1) 創建數據&#xff08;INSERT&#xff09; -- 單條插入 INSERT INTO users (id, name, email) VALUES (1, Alice, aliceexample.com);…

Postman最新詳細安裝及使用教程【附安裝包】

一、Postman介紹 ?Postman是一個功能強大的API測試工具&#xff0c;主要用于模擬和測試各種HTTP請求&#xff0c;支持GET、POST、PUT、DELETE等多種請求方法。?通過Postman&#xff0c;用戶可以發送請求并查看返回的響應&#xff0c;檢查響應的內容和狀態&#xff0c;從而驗…

第十三章 : Names in Templates_《C++ Templates》notes

Names in Templates 重難點多選題設計題 重難點 1. 名稱分類與基本概念 知識點&#xff1a; 限定名&#xff08;Qualified Name&#xff09;&#xff1a;使用::或.顯式指定作用域的名稱&#xff08;如std::vector&#xff09;非限定名&#xff08;Unqualified Name&#xff0…

整合vue+Element UI 開發管理系統

1、 安裝 Node.js 和 npm 確保安裝了 Node.js 和 npm。可以通過 Node.js 官網 下載。 2、 創建 Vue 項目 安裝cli npm install -g vue/cli 使用 Vue CLI 創建一個新的 Vue 項目。 vue create admin-system cd admin-system npm run serve 出現這個頁面表示vue創建成功 安…