本帖是對(印度)Jalaj Thanaki作品《python自然語言處理》的翻譯、縮減及改編~
nlp的基礎應用
NLP是AI的子分支,其相關概念可以用于以下專家系統中:
語音識別系統
問答系統
機器翻譯
文本摘要
情感分析
基于模板的聊天機器人
文本分類
主題分割
nlp的高級應用
·理解自然語言指令并通過自然語言同人類交互的類人機器人。
·構建一個通用機器翻譯系統是NLP領域的長期目標之一。因為你可以輕松地構建兩個特定語種之間的機器翻譯系統,但這個系統并不能用來翻譯這兩個語種之外的其他語言。在深度學習的幫助下,我們可以構建一個通用的機器翻譯系統,谷歌最近聲稱已經非常接近這一目標了。
·為指定文檔生成邏輯標題的NLP系統是高級應用之一。在深度學習的幫助下,我們可以為文檔生成標題和摘要。
·為某個主題或圖像生成文本是一種高級NLP應用。
·為人類生成個性化文本并忽略手寫錯誤的高級機器人也是我們努力的目標之一。圖1展現了更多的NLP應用。

NLP和Python相結合的優勢
下面的幾個因素決定了 Python是構建自然語言處理專家系統的最佳選擇之一·。使用Python為基于NLP的專家系統開發原型相當快速和便捷。
·有大量的開源NLP庫可供 Python程序員使用。
·社區支持非常強力。
·易于使用,對初學者而言不復雜。
·快速開發:測試和評估都很簡單。
·許多新框架,如 Apache Spark、 Apache Flink、 TensorFlow等,都提供 Python接口·相比其他編程范式,使用 Python構建的基于NLP的系統的最優化更為簡單。
nltk環境搭建
建議本書的所有讀者都從 GitHub 上獲取NLPython項目的分支,項目地址是https://github.com/jalajthanaki/NLPython
本書使用 Linux(Ubuntu)作為操作系統。如果對 Linux不太熟悉,最好試著習慣使用它,因為大部分的高級框架,如 Apache Hadoop、 Apache Spark、 Apache Flink、 Google TensorFlow等,都需要 Linux系統環境。
GitHub項目中包含了如何安裝 Linux,以及本書將要用到的基礎 Linux命令的教學。如果你對Git不太了解,同樣可以在項目中找到基礎的 github 操作命令,鏈接是https://github.com/jalajthanaki/NLPython/tree/master/ch1/documentation
本章所需環境的安裝指南見地址https://github.com/jalajthanaki/NLPython/tree/master/ch1/documentation
GitHub項目包含了安裝指南、代碼和wiki頁面等。如果讀者有任何問題,可以把它們發在 Gitter小組上。Gitter小組的網址是https://gitter.im/NLPython/Lobby
安裝nltk的步驟如下
①其實最簡單的安裝方法就是直接在Google colab輸入:
import nltk
nltk.download("popular")
②而書上提供的方法是針對Ubuntu的:
Installation and setup NLTK enviroment on Linux Ubuntu 14.04 (recommended way)
import sys
sys.version
sys.version_info 2_Pythonsys.version_info(major=2, minor=7, micro=6, releaselevel='final', serial=0)Installation of pyhton on Ubuntu 14.04Ubuntu system has pyhton 2.7.X inbuilt no need to download and install it To confirm whether python has been properly install or not do following steps.Step 1: Open system terminal
Step 2:
$ python -V
Python 2.7.6Install pip and setup tools On Linux ubuntu 14.04What is pip?
pip is a package management system used to install and manage software packages written in PythonOpen your system's terminal and execute following commands$ sudo apt-get install -y python-pip
$ sudo pip install -U pip
$ sudo pip install setuptools==33.1.1Confirm pip has been installed successfully.$ pip -V
pip 9.0.1 from /usr/local/lib/python2.7/dist-packages (python 2.7)Next step is to install nltk package and download nltk dataInstallation steps for NLTK on terminal execute following command
$ sudo pip install nltk
$ pythonAfter this now you are inside the python shell and check your nltk package install properly or not$ python
Python 2.7.6 (default, Oct 26 2016, 20:30:19)
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>import nltk
>>>nltk.download()Choose the path where you wnat to download nltk data and click "Download" option.Download process may take long time.
you can refer the diagram 1.4 given in chapter no 1OR If you don't want to go inside python shell you can open your system's terminal and execute the following command
Command : sudo python -m nltk.downloader -d PATH_OF_NLTK_DATA all
Actual command : sudo python -m nltk.downloader -d /usr/local/share/nltk_data all
讀者提示
本書是一本實用指南。作為專業人士,我強烈建議讀者復現 GitHub上的代碼,并完成書中的練習,這有助于理解NLP概念。不經練習而想徹底了解NLP幾乎是不可能的,我保證這些代碼很有趣。接下來的章節內容如下:
NLP概念解釋
相關應用
NLP概念的必要性
實現概念的可行方法(代碼都在 GitHub上)
面臨的挑戰
克服挑戰的方法
練習