自然語言0_nltk中文使用和學習資料匯總

sklearn實戰-乳腺癌細胞數據挖掘(博主親自錄制視頻教程)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

?

http://blog.csdn.net/huyoo/article/details/12188573

?

官方數據

http://www.nltk.org/book/

Natural Language Processing with Python

– Analyzing Text with the Natural Language Toolkit

Steven Bird, Ewan Klein, and Edward Loper

This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.)

0. Preface
1. Language Processing and Python
2. Accessing Text Corpora and Lexical Resources
3. Processing Raw Text
4. Writing Structured Programs
5. Categorizing and Tagging Words (minor fixes still required)
6. Learning to Classify Text
7. Extracting Information from Text
8. Analyzing Sentence Structure
9. Building Feature Based Grammars
10. Analyzing the Meaning of Sentences (minor fixes still required)
11. Managing Linguistic Data (minor fixes still required)
12. Afterword: Facing the Language Challenge
Bibliography
Term Index


This book is made available under the terms of the Creative Commons Attribution Noncommercial No-Derivative-Works 3.0 US License.
Please post any questions about the materials to the nltk-users mailing list. Please report any errors on the issue tracker.

?

?

?

?

?

?

nltk YouTube視頻資源

先跟著模仿,再看書,要容易一些

?

https://www.pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/

擁有良好視頻和文字教程

?

?

?

?

?

?

?

nltk是一個Python工具包, 用來處理和自然語言處理相關的東西. 包括分詞(tokenize), 詞性標注(POS), 文本分類, 等等現成的工具.

1. nltk的安裝

資料1.1: 黃聰:Python+NLTK自然語言處理學習(一):環境搭建??http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html? ?這個圖文并茂, 步驟清晰, 值得一看. 我想我沒必要再重新寫一遍了, 因為我當時也是按照他這樣做的.


資料1.2:?把python自然語言處理的nltk_data打包到360云盤,然后共享給朋友們?http://www.cnblogs.com/ToDoToTry/archive/2013/01/18/2865941.html?這個是作者將接近300M的nltk_data上傳到百度云了, 我覺得, 可以試試下載, 畢竟使用資料1中nltk自帶的download()方法, 從官方網站下載所有的數據包需要很長時間.

補充: 有人說, 這個下載的鏈接已經失效了, 我把我用的nltk2.0的data目錄里的zip文件打包傳到百度云盤了, 290多M, 上傳我費了好多時間, 你們可以去下載:?http://pan.baidu.com/s/1hq7UUFU

資料1.3: Ubuntu上安裝NLTK出現的問題與解決方法?http://www.cnblogs.com/mengshu-lbq/archive/2012/09/19/2694135.html?需要的看看吧

資料1.4:?安裝nltk遇到的小問題?http://blog.upupbug.com/?p=106?

資料1.5 ?安裝nltk后導入語料的時候出錯, 一般是一些依賴包沒安裝?http://blog.tianya.cn/blogger/post_show.asp?BlogID=762305&PostID=8954744

資料1.6?NLTK中文化處理及文字筆畫音調剖析工具整合套件?http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5?臺灣一個大學對nltk的介紹

資料1.7?windows下如何安裝NLTK,并使用模塊nltk?http://zhidao.baidu.com/question/567881533.html


2. nltk初步使用入門

資料2.1 ?PYTHON自然語言處理中文翻譯 NLTK 中文版.pdf?http://ishare.iask.sina.com.cn/f/23996193.html?中文版的《PYTHON自然語言處理》 這是一個好書,強烈推薦。這本書雖然早就有人翻譯成中文了,但是還有些精力旺盛的博主還在翻譯,比如這位?http://www.cnblogs.com/yuxc/archive/2011/08/29/2157415.html?《Python自然語言處理》學習筆記索引。 他翻譯了很多, 中英文夾雜的,精神可嘉,做法不可取。不知道別人早就翻譯完了這本書嗎?

資料2.2: 黃聰:Python+NLTK自然語言處理學習(二):常用方法(similar、common_contexts、generate)?http://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html??

這篇, 初步介紹了如何開始使用nltk的語料和他的一些常用方法. 有點python基礎的可以直接看了.之所以放在這里, 還是因為, 只有安裝好了才可以進行到這一步.


資料2.3 黃聰:Python+NLTK自然語言處理學習(三):計算機自動學習機制?http://www.cnblogs.com/huangcong/archive/2011/08/29/2158447.html??

這一篇也挺淺顯易懂的.

資料2.4?python中nltk.parse_cfg是干什么用的 求例子?http://zhidao.baidu.com/question/552627368.html?


3.nltk初中級應用

資料3.1:?可愛的 Python: 自然語言工具包入門?http://www.ibm.com/developerworks/cn/linux/l-cpnltk/

這個是ibm的磚家寫的資料, 但是這個不能作為入門資料, 可以歸結到初級應用資料. 對于那些動手能力弱的人, 這個文章真的不是那么好懂的, 所以不適合入門看, 而適合那些喜歡寫代碼, 喜歡鼓搗折騰的人看.


資料3.2 詞性標注?http://blog.csdn.net/fxjtoday/article/details/5841453?這篇文章介紹了默認的詞性標注類(比如, 所有的詞都標注為名詞), 基于規則標注詞性, 基于正則表達式標注詞性,?n-gram標注詞性等等.


資料3.3:?Classify Text With NLTK?http://blog.csdn.net/fxjtoday/article/details/5862041?別看標題是英文的, 實際上內容是中英文混合的, 不過這個比上面一篇簡單些. 主要就是使用nltk對一些姓名 性別進行訓練, 并預測測試語料中的姓名是啥性別. 這篇文章能夠讓你對 分類, 樣本特征稍微有個初步入門.


資料3.4 使用nltk從非結構化數據中抽取信息?http://blog.csdn.net/fxjtoday/article/details/5871386? 這篇主要介紹了命名實體識別


4.使用nltk來處理中文資料

nltk 怎么樣使用中文?這是個大問題。這么個工具目前只能比較好的處理英文和其他的一些拉丁語系,誰讓別人的單詞與單詞之間有個空格隔開呢!中文漢字一個挨一個 的,nltk在分詞這一關就過不去了,分詞沒法分,剩下的就都做不了。唯一能做的, 就是對網上現有的中文語料進行處理,這些語料都分好了詞,可以使用nltk進行類似與英文的處理。


python處理中文首先需要設置一下文本的編碼, 文件的首行加上: #coding utf-8 這個是給python解釋器識別的,然后文件保存的時候,還需要保存為utf-8的編碼。

這些編碼設置完了, ntlk還是處理不了中文。


nltk處理中文的第一步障礙就是中文資料不是分好詞的, 詞語與詞語之間沒有空格。要使用nltk對中文進行處理, 首先的第一步就是中文分詞(臺灣叫中文斷詞)。


目前python中文分詞的包,我推薦使用結巴分詞。 使用結巴分詞,之后,就可以對輸出文本使用nltk進行相關處理。


當然中文分詞, 不應該成為使用nltk的障礙,或許很多人認為,既然用nltk,那么nltk就應該支持中文。但是我們得認清現實,現實就是nltk就是不支持處理中 文,因此,這個給國內很多自然語言處理的研究人員有了研究的空間了,nltk既然沒做中文分詞,那么中國人就應該自己做了這個。一個口碑比較好的中文分詞 工具就是ICTCLAS中文分詞。


當然,我個人覺得中國人自己開發的純python實現的結巴分詞也不錯。


總的來說,nltk不提供中文分詞,不應該糾結于此,并止步不前,我們完全可以使用其他的中文分詞工具,將需要處理的資料分好詞,然后再使用 nltk進行處理,因此,這里就不多說中文分詞的那點事了。如果你因為中文分詞而分心,并轉向到中文分詞的研究之中,那么你就掉入了另外一個深坑之中。牢 記本文的主題是nltk。當然需要多啰嗦一點的就是,nltk的默認詞性標注集使用的是Penn Treebank 的詞性標注集,因此,你選用中文分詞模塊的時候,最好能夠使用和penn詞性標注集差不多的中文分詞工具,當然,不一樣也沒事。


資料4.1 使用python結巴分詞對中文資料進行分詞?https://github.com/fxsjy/jieba?結巴分詞的github主頁

資料4.2?基于python的中文分詞的實現及應用?http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html

資料4.3 ?對Python中文分詞模塊結巴分詞算法過程的理解和分析?http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

資料4.4 賓州中文樹庫標記以及其解釋, Penn Chinese Treebank Tag Set?http://blog.csdn.net/neutblue/article/details/7375085


5.nltk的高級應用入門

啥叫高級啊? 就是基礎掌握了之后,開始運用實際工作了,就叫高級。比如什么統計推薦,評分,機器翻譯,文本分類,輿情監控等等都是高級應用。

下面是些入門資料。

資料1:?通過nltk的機器學習方法實現論壇垃圾帖的過濾?http://blog.sina.com.cn/s/blog_630c58cb0100vkw3.html

資料2:利用nltk建立一個簡單的詞庫?http://blog.sina.com.cn/s/blog_630c58cb0100vkix.html

資料3:利用概率分布進行關聯規則挖掘?http://blog.sina.com.cn/s/blog_630c58cb0100vll0.html


6. nltk的精通

何謂精通? 精通就是熟練的表達你的想法。

何謂精通一個工具? 就是你想做什么, 你就能用這個工具順利的完成。do everything you want with nltk.


至于如何精通,建議多看英文資料和多動手操練。nltk官方文檔, 一些參與nltk的大學研究機構,北大,清華的語言研究以及國際語言研究機構acl所發的論文等等。


假設你目前真的熟練的掌握了nltk的各種玩法了,那么, 你精通的標志就是改造nltk, 使它功能更強,更優,更快,更方便。

比如:

6.1 集成結巴分詞到nltk的分詞器之中

6.2 在國內多弄幾個地方,放置nltk_data數據包,方便大家下載

6.3 給nltk提供語料

等等,剩下的由你來補充。


最后說一句: nltk的中文資料確實不多,坑爹吧?相信很多人卡在了中文分詞那一步。。。堅定的要求用nltk進行中文分詞的朋友,還是先跳過這一步吧. 另外, 喜歡python和自然語言處理的朋友可以加我的QQ群:Python自然語言處理群(220373876), 歡迎來參與討論.

python風控評分卡建模和風控常識

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/260151.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/260151.shtml
英文地址,請注明出處:http://en.pswp.cn/news/260151.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python實現深度優先搜索_python中的深度優先搜索算法

假設我有一個函數,它接受一個輸入($x iui$),然后經過一個循環并生成一系列輸出($x{I,j}$)。然后,每個輸出可以再次作為同一函數的輸入,從而產生更多的輸出($x{i,j,k}$)。我試圖通過這個函數找到…

mysql函數移植到oracle,oracle到mysql的遷移,函數部分

to_date(?, YYYY-MM-DD HH24:MI:SS)"STR_TO_DATE(2003-15-10 00:00:00,%Y-%m-%d %H:%i:%s); //格式不對,會返回NULLto_char(create_time,yyyy-MM-dd)DATE_FORMAT(create_time,%Y-%m-%d)sysdatenow()或者CURRENT_TIMESTAMP //1997-12-15 23:50:26,建表的時…

學習關于時間在sql里面的對比,用if語句(這個有點特別)

需求:假如當前時間是大于starttime且小于endtime的則按starttime倒序排列顯示一條記錄;假如當前時間小于starttime且小于endtime則按starttime正序排列顯示一條記錄。要在一次sql查詢中完成。 這個是論壇里面的,人家給出答案了,我…

ruby中的回調方法和鉤子方法

在ruby中,當某些特定的事件發生時,將調用回調方法和鉤子方法。事件有如下幾種: 調用一個不存在的對象方法類混含一個模塊定義類的子類給類添加一個實例方法給對象添加一個單例方法引用一個不存在的常量對以上的事件,都可以為之編寫…

超簡單的JNI——NDK開發教程

不好意思各位,我按照網上一些教程進行JNI開發,折騰了半天也沒成功,最后自己瞎搞搞定了,其實超簡單的,網上的教程應該過時了,最新版的AS就包含了NDK編譯的功能,完全不用手動javah,各種…

查詢工資最低的3名員工的職工工號、姓名和收入_關于工資條,這6個常識必須掌握,事關你的權益!...

大狀說:找大狀,中小企業自己的法律顧問。今天為大家帶來的文章,是《關于工資條,這6個常識必須掌握,事關你的權益!》,是關于勞動法的內容,希望能給大家帶來幫助。1、單位不發工資條的…

oracle查對象創建時間,oracle:查詢某個時間之后,指定用戶,指定對象類型,并創建的表的個數...

SQL> select COUNT(*) from dba_objects where created< to_date(17-01-14,dd-mm-yy) AND owner用戶名 and object_typeTABLE;查詢某個時間之后創建的表有哪些&#xff1a;SQL> select object_name,created from dba_objects where created> to_date(17-01-14,dd-…

年末跳槽

末日過了&#xff0c;大家都在準備著年會&#xff0c;年總結&#xff0c;年終獎。 而我卻在煩著跳槽的事。 由于一個偶遇的機會&#xff0c;最近面試了公司B&#xff0c;面試過程還可以&#xff0c;跟公司B的技術管理人談得還挺開心的。他也同意我的技術。 開始的時候&#xff…

SQL之用戶自定義函數

關于SQL Server用戶自定義的函數&#xff0c;有標量函數、表值函數&#xff08;內聯表值函數、多語句表值函數&#xff09;兩種。 題外話&#xff0c;可能有部分朋友不知道SQL Serve用戶自定義的函數應該是寫在哪里&#xff0c;這里簡單提示一下&#xff0c;在Microsoft SQL Se…

hdoj3351-stack

Problem DescriptionI’m out of stories. For years I’ve been writing stories, some rather silly, just to make simple problems look difficult and complex problems look easy. But, alas, not for this one.You’re given a non empty string made in its entirety f…

vb語言程序設計_如果編程語言難度決定頭發濃度,學這語言的可能要光頭了

對于程序員來說&#xff0c;頭發真的比什么都重要&#xff0c;甚至很多程序員&#xff0c;大量的人民幣都花在了后續植發上。甚至網上還流行這么一句話&#xff0c;你發際線越高&#xff0c;編程能力越高&#xff0c;那對于程序員來說&#xff0c;那么多語言&#xff0c;到底哪…

oracle同義詞很慢,通過問題長知識----ORACLE同義詞

現象&#xff1a;create table JBPM_JOB時出錯&#xff0c;提示name is used by existing object而drop table 的時候&#xff0c;卻報table or view does not exist.這是一個很矛盾的現象。排查&#xff1a;select * from user_objects where OBJECT_NAME ‘JBPM_JOB’—注意字…

C#獲取程序集的版本號和最后編譯時間

C#獲取程序集的版本號&#xff1a;string ver System.Reflection.Assembly.GetExecutingAssembly().GetName().Version.ToString(); C#中如何將記錄項目的最后編譯時間&#xff1a;在實際的軟件開發工作中&#xff0c;我們通常需要記錄某個工程的最后編譯時間&#xff0c;原來…

無刷新上傳Excel后利用JQuery AJAX 顯示進度條的實現方式

1、前臺上傳頁面代碼 <div class"clearfix mywebsite-nodata"><div id"show"><form action"<?site_url(user/upload)?>" target"ifmupload" id"myform" method"post" accept-charset"…

怎么理解python語言_Python語言入門1-理解Python語言

本文主要向大家介紹了Python語言入門的理解Python語言&#xff0c;通過具體的內容向大家展現&#xff0c;希望對大家學習Python語言入門有所幫助。python是解釋型的腳本語言解釋型語言與C/C等編譯型語言相比&#xff0c;python語言的程序并不是首先編譯成二進制機器碼后運行&am…

SD Card Formatter for Mac Download

https://www.sdcard.org/downloads/formatter_4/eula_mac/ SDFormatter Mac版是一款Mac OS平臺上的sd卡修復工具&#xff0c;SDFormatter是一款比較好用的SD卡格式化工具&#xff0c;能夠格式化SD存儲卡和SDHC記憶Card&#xff08;SD/SDHC 存儲卡&#xff09;&#xff0c;使用遵…

linux刪除用戶oracle用戶名,linux添加用戶useradd 刪除用戶userdel

1.作用useradd或adduser命令用來建立用戶帳號和創建用戶的起始目錄&#xff0c;使用權限是超級用戶。2.格式useradd [-d home] [-s shell] [-c comment] [-m [-k template]] [-f inactive] [-e expire ] [-p passwd] [-r] name3.主要參數-c&#xff1a;加上備注文字&#xff0c…

Asp.net創建偽靜態頁面

下面是我研究了好幾天和同事一起才研究出來的&#xff0c;原創。 1偽靜態的定義&#xff1a; 偽靜態是相對真實靜態來講的&#xff0c;通常我們為了增強搜索引擎的友好面&#xff0c;都將文章內容生成靜態頁面&#xff0c;但是有的朋友為了實時的顯示一些信息。或者還想運用動態…

Spring 管理Bean(獲取Bean,初始化bean事件,自動匹配ByName······等)

1.實例化spring容器 和 從容器獲取Bean對象 實例化Spring容器常用的兩種方式&#xff1a; 方法一: 在類路徑下尋找配置文件來實例化容器 [推薦使用] ApplicationContext ctx new ClassPathXmlApplicationContext(new String[]{"beans.xml"}); 方法二: 在文件系統路徑…

directoryinfo 讀取 映射磁盤_LoaRunner性能測試系統學習教程:磁盤監控(5)

上期我們講到LoaRunner性能測試內存監控&#xff0c;這期我們講LoaRunner性能測試磁盤監控。磁盤監控在介紹磁盤監控前&#xff0c;先介紹固定磁盤存儲管理的性能&#xff0c;固定磁盤存儲器的結構層次如圖所示。每個單獨的磁盤驅動器稱為一個物理卷&#xff08;PV&#xff09;…