1. 打開 Jupyter 后,在工作目錄中,新建一個文件夾命名為 Test01 ,并且在文件夾中導入數據
集。在網頁端界面點擊 “upload” 按鈕,在彈出的界面中選擇要導入的數據集。然后數據集出現
在 jupyter 文件目錄中,此時點擊文件后的 “upload” 按鈕即可將數據集導入。

2. 點擊 New->Python 3 后,跳轉至 Untitled.ipynb (課后請重命名為 NBofSMS.ipynb )

3. 導入所需的庫文件并運行

4. 將廣告類的標識置為 1 ,正常郵件標識為 0 ,編寫創建數據集、加載數據的函數
loadDataSet() ,編寫完成后編譯并運行 Cell ,箭頭處代碼自己添加,提示:字符串轉化為字符
串列表可參考本文提供的函數

5. 編寫 textParse() 函數的代碼并且編譯運行,該函數用于接收一個大字符串并將其解析為字符串
列表

6. 在 Cell 中寫入 docs2VecList() 函數的代碼,該函數用于對數據集進行預處理,編寫完成后 編譯
并運行

7. 編寫 words2Vec() 函數將單詞轉化為詞向量。

8. 在 Cell 中寫訓練函數,訓練 Na?ve Bayes 模型,完成后編譯并運行

9. 編寫使用 Naive Bayes 模型的接口,如果是垃圾郵件則返回 1 ,非垃圾郵件則返回 0

10. 用中文打印分類結果

11. 編寫主函數調用上述函數實現本次實驗
