sklearn實戰-乳腺癌細胞數據挖掘（博主親自錄制視頻教程）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

http://blog.csdn.net/huyoo/article/details/12188573

官方數據

http://www.nltk.org/book/

Natural Language Processing with Python

– Analyzing Text with the Natural Language Toolkit

Steven Bird, Ewan Klein, and Edward Loper

This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.)

0. Preface

1. Language Processing and Python

2. Accessing Text Corpora and Lexical Resources

3. Processing Raw Text

4. Writing Structured Programs

5. Categorizing and Tagging Words (minor fixes still required)

6. Learning to Classify Text

7. Extracting Information from Text

8. Analyzing Sentence Structure

9. Building Feature Based Grammars

10. Analyzing the Meaning of Sentences (minor fixes still required)

11. Managing Linguistic Data (minor fixes still required)

12. Afterword: Facing the Language Challenge

Bibliography
Term Index

This book is made available under the terms of the Creative Commons Attribution Noncommercial No-Derivative-Works 3.0 US License.
Please post any questions about the materials to the nltk-users mailing list. Please report any errors on the issue tracker.

nltk YouTube視頻資源

先跟著模仿，再看書，要容易一些

https://www.pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/

擁有良好視頻和文字教程

nltk是一個Python工具包, 用來處理和自然語言處理相關的東西. 包括分詞(tokenize), 詞性標注(POS), 文本分類, 等等現成的工具.

1. nltk的安裝

資料1.1: 黃聰：Python+NLTK自然語言處理學習（一）：環境搭建??http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html? ?這個圖文并茂, 步驟清晰, 值得一看. 我想我沒必要再重新寫一遍了, 因為我當時也是按照他這樣做的.

資料1.2:?把python自然語言處理的nltk_data打包到360云盤，然后共享給朋友們?http://www.cnblogs.com/ToDoToTry/archive/2013/01/18/2865941.html?這個是作者將接近300M的nltk_data上傳到百度云了, 我覺得, 可以試試下載, 畢竟使用資料1中nltk自帶的download()方法, 從官方網站下載所有的數據包需要很長時間.

補充: 有人說, 這個下載的鏈接已經失效了, 我把我用的nltk2.0的data目錄里的zip文件打包傳到百度云盤了, 290多M, 上傳我費了好多時間, 你們可以去下載:?http://pan.baidu.com/s/1hq7UUFU

資料1.3: Ubuntu上安裝NLTK出現的問題與解決方法?http://www.cnblogs.com/mengshu-lbq/archive/2012/09/19/2694135.html?需要的看看吧

資料1.4:?安裝nltk遇到的小問題?http://blog.upupbug.com/?p=106?

資料1.5 ?安裝nltk后導入語料的時候出錯, 一般是一些依賴包沒安裝?http://blog.tianya.cn/blogger/post_show.asp?BlogID=762305&PostID=8954744

資料1.6?NLTK中文化處理及文字筆畫音調剖析工具整合套件?http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5?臺灣一個大學對nltk的介紹

資料1.7?windows下如何安裝NLTK，并使用模塊nltk？http://zhidao.baidu.com/question/567881533.html

2. nltk初步使用入門

資料2.1 ?PYTHON自然語言處理中文翻譯 NLTK 中文版.pdf?http://ishare.iask.sina.com.cn/f/23996193.html?中文版的《PYTHON自然語言處理》這是一個好書，強烈推薦。這本書雖然早就有人翻譯成中文了，但是還有些精力旺盛的博主還在翻譯，比如這位?http://www.cnblogs.com/yuxc/archive/2011/08/29/2157415.html?《Python自然語言處理》學習筆記索引。他翻譯了很多，中英文夾雜的，精神可嘉，做法不可取。不知道別人早就翻譯完了這本書嗎？

資料2.2: 黃聰：Python+NLTK自然語言處理學習（二）：常用方法（similar、common_contexts、generate）?http://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html??

這篇, 初步介紹了如何開始使用nltk的語料和他的一些常用方法. 有點python基礎的可以直接看了.之所以放在這里, 還是因為, 只有安裝好了才可以進行到這一步.

資料2.3 黃聰：Python+NLTK自然語言處理學習（三）：計算機自動學習機制?http://www.cnblogs.com/huangcong/archive/2011/08/29/2158447.html??

這一篇也挺淺顯易懂的.

資料2.4?python中nltk.parse_cfg是干什么用的求例子?http://zhidao.baidu.com/question/552627368.html?

3.nltk初中級應用

資料3.1:?可愛的 Python: 自然語言工具包入門?http://www.ibm.com/developerworks/cn/linux/l-cpnltk/

這個是ibm的磚家寫的資料, 但是這個不能作為入門資料, 可以歸結到初級應用資料. 對于那些動手能力弱的人, 這個文章真的不是那么好懂的, 所以不適合入門看, 而適合那些喜歡寫代碼, 喜歡鼓搗折騰的人看.

資料3.2 詞性標注?http://blog.csdn.net/fxjtoday/article/details/5841453?這篇文章介紹了默認的詞性標注類(比如, 所有的詞都標注為名詞), 基于規則標注詞性, 基于正則表達式標注詞性,?n-gram標注詞性等等.

資料3.3:?Classify Text With NLTK?http://blog.csdn.net/fxjtoday/article/details/5862041?別看標題是英文的, 實際上內容是中英文混合的, 不過這個比上面一篇簡單些. 主要就是使用nltk對一些姓名性別進行訓練, 并預測測試語料中的姓名是啥性別. 這篇文章能夠讓你對分類, 樣本特征稍微有個初步入門.

資料3.4 使用nltk從非結構化數據中抽取信息?http://blog.csdn.net/fxjtoday/article/details/5871386? 這篇主要介紹了命名實體識別

4.使用nltk來處理中文資料

nltk 怎么樣使用中文?這是個大問題。這么個工具目前只能比較好的處理英文和其他的一些拉丁語系，誰讓別人的單詞與單詞之間有個空格隔開呢！中文漢字一個挨一個的，nltk在分詞這一關就過不去了，分詞沒法分，剩下的就都做不了。唯一能做的，就是對網上現有的中文語料進行處理，這些語料都分好了詞，可以使用nltk進行類似與英文的處理。

python處理中文首先需要設置一下文本的編碼，文件的首行加上： #coding utf-8 這個是給python解釋器識別的，然后文件保存的時候，還需要保存為utf-8的編碼。

這些編碼設置完了， ntlk還是處理不了中文。

nltk處理中文的第一步障礙就是中文資料不是分好詞的，詞語與詞語之間沒有空格。要使用nltk對中文進行處理，首先的第一步就是中文分詞（臺灣叫中文斷詞）。

目前python中文分詞的包，我推薦使用結巴分詞。使用結巴分詞，之后，就可以對輸出文本使用nltk進行相關處理。

當然中文分詞，不應該成為使用nltk的障礙，或許很多人認為，既然用nltk，那么nltk就應該支持中文。但是我們得認清現實，現實就是nltk就是不支持處理中文，因此，這個給國內很多自然語言處理的研究人員有了研究的空間了，nltk既然沒做中文分詞，那么中國人就應該自己做了這個。一個口碑比較好的中文分詞工具就是ICTCLAS中文分詞。

當然，我個人覺得中國人自己開發的純python實現的結巴分詞也不錯。

總的來說，nltk不提供中文分詞，不應該糾結于此，并止步不前，我們完全可以使用其他的中文分詞工具，將需要處理的資料分好詞，然后再使用 nltk進行處理，因此，這里就不多說中文分詞的那點事了。如果你因為中文分詞而分心，并轉向到中文分詞的研究之中，那么你就掉入了另外一個深坑之中。牢記本文的主題是nltk。當然需要多啰嗦一點的就是，nltk的默認詞性標注集使用的是Penn Treebank 的詞性標注集，因此，你選用中文分詞模塊的時候，最好能夠使用和penn詞性標注集差不多的中文分詞工具，當然，不一樣也沒事。

資料4.1 使用python結巴分詞對中文資料進行分詞?https://github.com/fxsjy/jieba?結巴分詞的github主頁

資料4.2?基于python的中文分詞的實現及應用?http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html

資料4.3 ?對Python中文分詞模塊結巴分詞算法過程的理解和分析?http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

資料4.4 賓州中文樹庫標記以及其解釋， Penn Chinese Treebank Tag Set?http://blog.csdn.net/neutblue/article/details/7375085