【Python NTLK自然語言處理庫】

安裝流程

import nltk
nltk.download()

運行后出現一個界面,然后按Download
在這里插入圖片描述

Tokenize

###分詞

from nltk.tokenize import word_tokenize
text = "The vendor paid $20,000,000."
tokens = word_tokenize(text)
print(tokens)

輸出

['The', 'vendor', 'paid', '$', '20,000,000', '.']

###分句

import nltk
sents = "I am Angela. I am happy."
sens= nltk.sent_tokenize(sents)
print(sens)

輸出

['I am Angela.', 'I am happy.']

###中文分詞

from jieba import lcut
chinese_sentence = "我正在練習自然語言處理。"
chinese_tokens = lcut(chinese_sentence)
print(chinese_tokens)

輸出

['我', '正在', '練習', '自然', '語言', '處理', '。']

停用詞

過濾停用詞

from nltk.corpus import stopwords  
from nltk.tokenize import word_tokenize  
text = "I would like to watch movie."  
tokens = word_tokenize(text) tokens
print(tokens)  
stopwords_list = set(stopwords.words('english'))  
filtered_tokens = [word for word in tokens if word.lower() not in stopwords_list]
print(filtered_tokens)  

輸出

['I', 'would', 'like', 'to', 'watch', 'movie', '.']
['would', 'like', 'watch', 'movie', '.']

標簽

import nltk
sentence = "I am happy."
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)

輸出

[('I', 'PRP'), ('am', 'VBP'), ('happy', 'JJ'), ('.', '.')]

詞頻

import nltk
from nltk.corpus import stopwords
sentence="I would like to buy a book. The book was bought by me."
full_stop = "."
tokens = nltk.word_tokenize(sentence.lower())
stopwords_list = set(stopwords.words('english'))
stopwords_list.add(full_stop)
filtered_tokens = [word for word in tokens if word not in stopwords_list]
print(filtered_tokens)
freq = nltk.FreqDist(filtered_tokens)
for key,val in freq.items():print (str(key) + ':' + str(val))
standard_freq=freq.most_common(3)
print(standard_freq)

輸出

['would', 'like', 'buy', 'book', 'book', 'bought']
would:1
like:1
buy:1
book:2
bought:1
[('book', 2), ('would', 1), ('like', 1)]

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94571.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94571.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94571.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

GitHub 熱榜項目 - 日榜(2025-08-25)

GitHub 熱榜項目 - 日榜(2025-08-25) 生成于:2025-08-25 統計摘要 共發現熱門項目:20 個 榜單類型:日榜 本期熱點趨勢總結 本期GitHub熱榜呈現三大技術趨勢:1)AI代理開發成主流,如moeru-ai/airi的虛擬伴…

Mac相冊重復照片終結指南:技術流清理方案

你的Mac相冊是否變成了"重復照片博物館"?同一場景的多個版本、連續拍攝的相似圖片、不同設備導入的重復文件...這些數字冗余正在悄無聲息地吞噬著寶貴的存儲空間。本文將為你提供一套完整的技術解決方案。重復照片問題的技術分析重復類型分類從技術角度&a…

日語學習-日語知識點小記-構建基礎-JLPT-N3階段(19):文法復習+單詞第7回1

日語學習-日語知識點小記-構建基礎-JLPT-N3階段(19):文法單詞第7回1 1、前言(1)情況說明(2)工程師的信仰2、知識點1ー 復習3、單詞(1)日語單詞  …

完美世界招數據倉庫工程師咯

數據倉庫工程師-偏BI方向 (崗位信息經過jobleap.cn授權,可在CSDN發布)完美世界 北京 職位描述 負責數據倉庫架構設計、建模和ETL開發,構建可擴展的數據倉庫和分析解決方案; 負責對數據倉庫的性能和效率優化&#xff1…

RabbitMQ面試精講 Day 26:RabbitMQ監控體系建設

【RabbitMQ面試精講 Day 26】RabbitMQ監控體系建設 在“RabbitMQ面試精講”系列的第26天,我們將聚焦于RabbitMQ監控體系建設這一關鍵運維主題。作為消息中間件的核心組件,RabbitMQ一旦出現消息積壓、節點宕機或資源耗盡等問題,將直接影響系統…

把word按章節分為n份 一個文檔拆分為多份格式不變

如果你有一個word文檔,里面有很多章節,你想按照章節把它分為N份,每一份存放在一個獨立的文檔中,而且拆分之后的文檔格式和圖片都保持不變。那么你可以試一下這個工具。 #word拆分 #word按章節拆分 #word分為n份 #docx拆分章節 把w…

項目歷程—緩存系統v1

實現目標1:輸入key,value可以存儲新建一個文件,并存儲一個值 (√) 實現目標2:封裝方法,循環創建1000個文件,分別存儲一個值 (√) 實現目標3:通過輸入一個key可以檢測到文件里面的內容值 (√) 兩…

最新刀客IP地址信息查詢系統源碼_含API接口_首發

目錄 一、詳細介紹 二、效果展示 1.部分代碼 2.效果圖展示 三、學習資料下載 一、詳細介紹 最新刀客IP地址信息查詢系統源碼_含API接口_首發_自適應手機端 今天看到的這個接口,所以做了頁面供大家方便使用 查詢的IP信息包含: ASN編號 所屬國家…

電商商品管理效率低?MuseDAM 系統如何破解庫存混亂難題

核心要點 問題:電商企業在商品管理中面臨商品信息分散、素材查找困難、上架周期長、多渠道同步難等核心痛點。 答案:DAM數字資產管理系統通過建立統一的商品素材庫,實現智能分類標簽、自動化工作流程、多渠道同步發布,幫助電商企…

C#/.NET/.NET Core技術前沿周刊 | 第 51 期(2025年8.18-8.24)

前言 C#/.NET/.NET Core技術前沿周刊,你的每周技術指南針!記錄、追蹤C#/.NET/.NET Core領域、生態的每周最新、最實用、最有價值的技術文章、社區動態、優質項目和學習資源等。讓你時刻站在技術前沿,助力技術成長與視野拓寬。 歡迎投稿、推薦…

[MH22D3開發筆記]2. SPI,QSPI速度究竟能跑多快,雙屏系統的理想選擇

MH22D3xx系列,是兆訊公司推出的第二代芯片,主頻和第一代MH2103一樣,保持216Mhz的高主頻,RAM 64KB,FLASH可以到512KB。依然和stm32F103保持pin to pin的高度兼容,但是在局部功能和接口上已經是青出于藍而勝于…

一文速通 Python 并行計算:教程總結

一文速通 Python 并行計算:教程總結 摘要: 本教程是一個系統性的 Python 并行計算實戰指南,它從并行計算的基本概念出發,循序漸進地深入講解了 Python 中實現并發的三大核心范式:多線程、多進程和異步編程。它不僅詳細…

針對EV充電路徑優化問題的研究探討與思考

針對EV充電路徑優化問題的研究探討與思考 在本研究中,我們提出了一種基于深度強化學習的k-Hop neighborsPPO框架,用于解決電動汽車(EV)的充電路徑優化問題。盡管該框架展現了良好的性能,但在深入研究過程中&#xff0c…

GPT-5國內免費體驗

[免費體驗GPT-5) 免費體驗GPT-5 使用以下鏈接注冊 免費體驗GPT-5 入口地址:https://askmany.cn/login?if5014c45 注冊后能夠免費使用一些基礎模型,其中GPT-5 nano是可以免費使用,其余模型有些是免費有些是收費。

自由學習記錄(88)

frag里的數據哪來的 頂點階段把想傳下去的量(UV、法線、顏色、自定義 floatN…)寫在帶語義的輸出上; 固定功能光柵器用重心坐標做透視正確插值,逐像素生成這些值,片元階段按你聲明的語義“接收” 頂點著色器唯一強制…

Vue 3 defineOptions 完全指南:讓組件選項聲明更現代化

&#x1f4d6; 概述 defineOptions() 是 Vue 3.3 版本中引入的一個編譯器宏&#xff0c;用于在 <script setup> 中聲明組件選項。它解決了在 <script setup> 語法糖中無法直接聲明組件選項&#xff08;如 name、inheritAttrs 等&#xff09;的問題。 核心價值&…

Unknown Kotlin JVM target: 21

從老Android Studio版本升級到新版Android Studio Meerkat | 2024.3.1gradle版本從8.0升到8.9&#xff0c;complieSdk版本從33升到34編譯報錯Unknown Kotlin JVM target: 21原因&#xff1a;原版本中jvm版本是17而新版studio自帶的版本就是21。解決&#xff1a;將jvm版本降回17…

如何實現效率與便利?

---??## 如何使用AI大語言模型解決生活中的實際小事情&#xff1f;??### 一、引言??在日常生活和工作中&#xff0c;我們常常會遇到各種瑣碎事務&#xff0c;如名單排序、批量整理會議記錄、快速生成學習筆記等。這些小事情雖然不復雜&#xff0c;但卻會耗費我們大量的時…

動態稀疏注意力加速YOLOv11推理-(減少注意力計算復雜度,提升實時性)

文章目錄一、動態稀疏注意力機制基礎理論1.1 注意力機制的計算瓶頸與稀疏化必要性1.2 動態稀疏注意力的數學表述1.3 稀疏注意力在YOLO系列中的演進二、YOLOv11中的動態稀疏注意力實現2.1 模型架構修改與集成方案2.2 動態稀疏注意力的訓練策略2.3 與YOLOv11其他優化技術的協同三…

強化學習核心概念與算法詳解-馬爾可夫決策過程(MDP)+貝爾曼方程(Bellman Equation)

本文系統梳理強化學習(Reinforcement Learning, RL)的核心理論,從基本概念到貝爾曼方程,再到動態規劃、蒙特卡洛和時間差分三大求解方法,構建清晰的知識脈絡。特別地,我們將深入探討馬爾可夫性質與貝爾曼方程的內在聯系,揭示它們如何共同構成強化學習問題建模與求解的理…