python自然語言處理書籍_精通Python自然語言處理pdf

自然語言處理(NLP)是有關計算語言學與人工智能的研究領域之一。NLP主要關注人機交互,它提供了計算機和人類之間的無縫交互,使得計算機在機器學習的幫助下理解人類語言。

本書詳細介紹如何使用Python執行各種自然語言處理(NLP)任務,并幫助讀者掌握利用Python設計和構建基于NLP的應用的實踐。本書引導讀者應用機器學習工具來開發各種各樣的模型。對于訓練數據的創建和主要NLP應用的實現,例如命名實體識別、問答系統、語篇分析、詞義消歧、信息檢索、情感分析、文本摘要以及指代消解等,本書都進行了清晰的介紹。本書有助于讀者使用NLTK創建NLP項目并成為相關領域的專家。

通過閱讀本書,你將能夠:

● 實現字符串匹配算法以及標準化技術;

● 實現統計語言建模技術;

● 深刻理解詞干提取器、詞形還原器、形態分析器以及形態生成器的開發;

● 開發搜索引擎并實現詞性標注和統計建模(包含n-gram方法)等相關概念;

● 熟悉諸如樹型庫建設、CFG建設、CYK以及Earley線圖解析算法等相關概念;

● 開發基于NER的系統并理解和應用情感分析的相關概念;

● 理解并實現信息檢索和文本摘要等相關概念;

● 開發語篇分析系統以及基于指代消解的系統。

精通Python自然語言處理 內容簡介

自然語言處理是計算語言學和人工智能之中與人機交互相關的領域之一。

本書是學習自然語言處理的一本綜合學習指南,介紹了如何用Python實現各種NLP任務,以幫助讀者創建基于真實生活應用的項目。全書共10章,分別涉及字符串操作、統計語言建模、形態學、詞性標注、語法解析、語義分析、情感分析、信息檢索、語篇分析和NLP系統評估等主題。

本書適合熟悉Python語言并對自然語言處理開發有一定了解和興趣的讀者閱讀參考。

精通Python自然語言處理 目錄

前言

第1章 字符串操作

1.1 切分

1.2 標準化

1.3 替換和校正標識符

1.4 在文本上應用Zipf定律

1.5 相似性度量

1.6 小結

第2章 統計語言建模

2.1 理解單詞頻率

2.2 在MLE模型上應用平滑

2.3 為MLE開發一個回退機制

2.4 應用數據的插值以便獲取混合搭配

2.5 通過復雜度來評估語言模型

2.6 在語言建模中應用Metropolis-Hastings算法

2.7 在語言處理中應用Gibbs采樣法

2.8 小結

第3章 形態學:在實踐中學習

3.1 形態學簡介

3.2 理解詞干提取器

3.3 理解詞形還原

3.4 為非英文語言開發詞干提取器

3.5 形態分析器

3.6 形態生成器

3.7 搜索引擎

3.8 小結

第4章 詞性標注:單詞識別

4.1 詞性標注簡介

4.2 創建詞性標注語料庫

4.3 選擇一種機器學習算法

4.4 涉及n-gram的統計建模

4.5 使用詞性標注語料庫開發分塊器

4.6 小結

第5章 語法解析:分析訓練資料

5.1 語法解析簡介

5.2 Treebank建設

5.3 從Treebank提取上下文無關文法規則

5.4 從CFG創建概率上下文無關文法

5.5 CYK線圖解析算法

5.6 Earley線圖解析算法

5.7 小結

第6章 語義分析:意義很重要

6.1 語義分析簡介

6.2 使用Wordnet生成同義詞集id

6.3 使用Wordnet進行詞義消歧

6.4 小結

第7章 情感分析:我很快樂

7.1 情感分析簡介

7.2 小結

第8章 信息檢索:訪問信息

8.1 信息檢索簡介

8.2 向量空間評分及查詢操作符關聯

8.3 使用隱性語義索引開發IR系統

8.4 文本摘要

8.5 問答系統

8.6 小結

第9章 語篇分析:理解才是可信的

9.1 語篇分析簡介

9.2 小結

第10章 NLP系統評估:性能分析

10.1 NLP系統評估要點

10.2 IR系統的評估

10.3 錯誤識別指標

10.4 基于詞匯搭配的指標

10.5 基于句法匹配的指標

10.6 使用淺層語義匹配的指標

10.7 小結

精通Python自然語言處理 精彩文摘

自然語言處理(Natural Language Processing,NLP)關注的是自然語言與計算機之間的交互。它是人工智能(Artificial Intelligence,AI)和計算語言學的主要分支之一。它提供了計算機和人類之間的無縫交互并使得計算機能夠在機器學習的幫助下理解人類語言。在編程語言(例如C、C++、Java、Python等)里用于表示一個文件或文檔內容的基礎數據類型被稱為字符串。在本章中,我們將探索各種可以在字符串上執行的操作,這些操作將有助于完成各種NLP任務。

本章將包含以下主題:

·文本切分。

·文本標準化。

·替換和校正標識符。

·在文本上應用Zipf定律。

·使用編輯距離算法執行相似性度量。

·使用Jaccard系數執行相似性度量。

·使用Smith Waterman算法執行相似性度量。

切分可以認為是將文本分割成更小的并被稱作標識符的模塊的過程,它被認為是NLP的一個重要步驟。

當安裝好NLTK包并且Python的交互式開發環境(IDLE)也運行起來時,我們就可以將文本或者段落切分成獨立的語句。為了實現切分,我們可以導入語句切分函數,該函數的參數即為需要被切分的文本。

sent_tokenize函數使用了NLTK包的一個叫作PunktSentenceTokenizer類的實例。基于那些可以標記句子開始和結束的字母和標點符號,NLTK中的這個實例已經被訓練用于對不同的歐洲語言執行切分。

6322.jpg

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/542541.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/542541.shtml
英文地址,請注明出處:http://en.pswp.cn/news/542541.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

通達oa 2013 php解密,通達OA漏洞學習 - 安全先師的個人空間 - OSCHINA - 中文開源技術交流社區...

說明通達OA漏洞在去年上半年已爆出,這不趁著周末沒事做,將源碼下載下來進行復現學習。文件包含測試文件包含檢測,payload1:ip/ispirit/interface/gateway.php?json{"url":"/general/../../mysql5/my.ini"}利用文件包含訪…

溫趙輪 訪談

“溫趙輪”三大軟狗,你聽說過嗎?今天的1024訪談錄給大家介紹的就是程序員中當之無愧的偶像組合——溫趙輪。 Winter寒冬。阿里P8,正在向P9的道路上奔跑。傳說中的他有錢、出身好,可不是搞互聯網的屌絲程序員。 老趙,…

linux開源文檔管理系統_Linux中的系統管理員問題 免費和開源軟件

linux開源文檔管理系統根帳號 (Root Account) The "root" account is the most unrestrictive account on a Linux Operating system. This account enables you to complete all features of System admin, including accounts, changing client passwords, looking…

matlab上機實驗1,上機實驗1:熟悉matlab基本操作

其中 x 在 [-2, 2] 間共等切分為 21 點,y 在 [-1, 1] 間共等切分為 21 點,所以此曲面共有 21*21441 個點。a. 請用預設的顏色對應表(Colormap)來畫出此曲面。 b. 請以曲面的斜率來設定曲面的顏色。 c. 請以曲面的曲率來設定曲面的顏色。2. 請用 meshc 指…

公眾號 -「前端攻略 開光篇」

作為一枚程序員,每件重要項目的開始都忍不住使用"Hello World"。 這個公眾號是不是來晚了?如果你有這個疑問,那么我想說:對于寫作和思考,任何時候都不晚。我用四個簡單的自問自答,來講講這個前端…

python 桌面應用 啟動緩慢_如何加快Python 應用的啟動時間

我聽說pipenv9.0.2已經發布,啟動時間有了很大的改進。 我很快就試了一下,但我覺得并不快。所以我用Python3.7的新特性來研究它。 在本文中,我將介紹該特性以及如何使用它。 啟動時間≒導入時間 例如,pipenv -h 的執行時間比顯示幫…

python單詞首字母大寫_在Python中將每個單詞的首字母大寫

python單詞首字母大寫Here, we are implementing a python program to capitalizes the first letter of each word in a string. 在這里,我們正在實現一個python程序來大寫字符串中每個單詞的首字母。 Example: 例: Input: "HELLO WORLD!"O…

matlab中求模最大,matlab求取模極大值時出錯

本帖最后由 Nate_ 于 2016-4-17 15:57 編輯points1024 時,有波形輸出,但信號有5438個點。改為5438就不行。主程序:%小波模極大值重構是采用的交替投影法close all;points5438; level4; sr360; num_inter6; wfdb4;%所處理數據的…

stl向量_如何檢查C ++ STL中向量中是否存在元素?

stl向量Given a vector and an element to be searched in the vector. 給定一個向量和要在向量中搜索的元素。 To check whether an elements exists in a vector or not – we use find() function. find() function takes 3 arguments. 要檢查向量中是否存在元素 –我們使用…

java socket如何請求485協議_javaSE第十五部分 網絡編程(1)Socket和ServerSocket

網絡編程基礎知識C/S結構:全稱為Client/Server結構,是指客戶端和服務器結構。常見程序有QQ、迅雷等軟件。B/S結構:全稱為Browser/Server結構,是指瀏覽器和服務器結構。常見瀏覽器有谷歌、火狐等。兩種架構各…

【分享】linux下u盤使用

2019獨角獸企業重金招聘Python工程師標準>>> linux下u盤使用 方案一: Linux不像Windows一樣,接上新硬件后可以自動識別,在Linux下無法自動識別新硬件的,需要手動去識別。USB移動存儲設備通常被識別為sda1,…

kotlin中判斷字符串_Kotlin程序刪除字符串中所有出現的字符

kotlin中判斷字符串Given a string and a character, we have to remove all occurrences of the character in given string. 給定一個字符串和一個字符,我們必須刪除給定字符串中所有出現的字符。 Example: 例: Input:string "includeHelp Del…

Java9中使用jpa,jpa – eclipselink在Java 9上使用final字段進行靜態編織

我有一些JPA注釋字段,如下所示:Column(name "SOME_FIELD", updatable false, nullable false)private final String someField;當實體插入數據庫時??,這些字段存儲在數據庫中.它們無法進一步更新.對于Java編程語言,可以將這些字段視為final.使用Ecli…

python語言程序設計及醫學應用_Python語言程序設計(高等學校計算機專業規劃教材)...

第1章Python語言概述/1 1.1Python語言的發展1 1.1.1Python的起源1 1.1.2Python的發展2 1.2Python語言的特點2 1.2.1Python的特性2 1.2.2Python的缺點4 1.2.3Python與其他語言的比較5 1.3簡單的Python程序介紹5 1.4Python的程序開發工具8 1.4.1Python的版本選擇8 1.4.2Python的安…

swift 3.0 中使用 xib

文章寫于2016年9月底,Xcode 8,swift 3.0真是蛋疼,折騰了很長時間,試了網上很多教程,結果又莫名的可以了! 1.方法和OC中一樣 將一個xib文件和一個ViewController類進行關聯的幾步操作: command &…

數字圖像處理圖像反轉的實現_使用8086微處理器反轉16位數字

數字圖像處理圖像反轉的實現Problem statement: 問題陳述: Write an assembly language program in 8086 microprocessor to reverse 16 bit number using 8 bits operation. 在8086微處理器中編寫匯編語言程序,以使用8位操作反轉16位數字。 Example: …

php猴子找大王算法,教程方法;php實現猴子選大王問題算法實例電腦技巧-琪琪詞資源網...

琪琪詞資源網-教程方法;php實現猴子選大王問題算法實例電腦技巧,以下是給大家帶來的教程方法;php實現猴子選大王問題算法實例,大家可以了解一下哦!下面為你介紹php實現猴子選大王問題算法實例。本文實例講述了php實現猴子選大王問題算法。分享給大家供大…

numpy 歸一化_NumPy 數據歸一化、可視化

僅使用 NumPy,下載數據,歸一化,使用 seaborn 展示數據分布。下載數據import numpy as npurl https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.datawid np.genfromtxt(url, delimiter,, dtypefloat, usecols[1])僅提取…

java虛擬機規范閱讀(三)異常

Java虛擬機里面的異常使用Throwable或其子類的實例來表示,拋異常的本質實際上是程序控制權的一種即時的、非局部(Nonlocal)的轉換——從異常拋出的地方轉換至處理異常的地方。絕大多數的異常的產生都是由于當前線程執行的某個操作所導致的&am…

puppeteer api_使用Node.js和puppeteer API從URL創建PDF文件

puppeteer apiWe will continue using Node.js and puppeteer which is a node library. As we saw in our last article, Puppeteer is a Node library developed by Google and provides a high-level API for developers. 我們將繼續使用Node.js和puppeteer(這是一個節點庫)…