中tr不能顯示字符_垃圾文本識別中基本操作指南和錯誤總結，第三部分

創建模型需要用到機器學習的庫，所以我們先下載sklearn庫

sklearn庫

下載完成后再輸入庫文件，就可以完美運行。

然后就是劃分測試集和訓練集，需要注意的是，在從數據處理函數中導入數據時，足足運行了有將近30多秒，可見在數據處理部分，分詞、添加停用詞等步驟是非常復雜和消耗資源的，所以我在當初講這個課題后提出的，把一次運行完后獲得的分詞數據進行保存，以便接下來的詞云繪制和模型構建兩步進行快速訪問數據，還是非常有用的。

往后在Tf-idf權重計算這一環節出現了錯誤

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())

查了百度后，得知解決辦法大致是通過控制面板的高級系統設置，更改系統給每一個硬盤分區所分配的內存來解決，我試了之后，問題果然解決了。

當然嚴格來說這其實是一個悖論，因為要想更改系統給硬盤分配的內存生效，就必須重啟計算機，而重啟計算機也會重新使系統給應用程序分配內存，這樣也可以解決內存不足問題。所以說你不可能只讓系統給應用分配的內存空間設置生效，而不讓系統重啟，這樣在邏輯上是行不通的。

之后測試集的劃分就順利多了，然后進行機器學習，輸入測試集評估模型，模型準確度為0.8525

寫到這里整個項目算是完成了，但為了加深印象，我們不妨再看一下其中的幾個數據

訓練集和測試集

這個是數據的TF idf權重計算。因為得到的是稀疏矩陣，一行中只有很少部分有值，因此我們看到的大多都是零。

我個人認為，Pycharm并不是一個完美的文本編輯器，一是他的每個項目都是一個虛擬環境，為這個項目所匹配的庫文件并不能為其他項目所適用，如果在另外的項目里邊講引用庫，就要重新下載，當然pycharm的作者可能有他自己的想法，但是我個人總覺得，這種想法，似乎并不是很適合我們中國的不是頂尖的大學的大學生的思維。

我已經在邊角時間給 Python安裝了pip，并成功的給python增加了pandas 庫，所以說理論上，我們在Pycharm里面能完成的工作也能在Python自帶的IDEI里面完成，如果時間允許，我可能會嘗試這樣的操作。

總結

總結來說，由于計算機環境不同，我們不可能完全復制我們老師所錄制視頻的操作步驟，如果遇到的錯誤老師沒有講過，就要充分利用互聯網的豐富性和我們個人思維的靈活性，嘗試通過理解編譯器報錯提示和百度搜索這兩種方法來解決問題。

最后，作為python的新學者，遇到問題首先問身邊的朋友或者老師，但有些問題并不能得到解決。這時我們可以去網絡上搜索。這里我就推薦新學者去csdn搜索來解決我們遇到的問題。里面可以解決我們遇到的各種各樣的問題。最后愿天下再無bug。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/371331.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/371331.shtml
英文地址，請注明出處：http://en.pswp.cn/news/371331.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！