中tr不能顯示字符_垃圾文本識別中基本操作指南和錯誤總結,第三部分

創建模型需要用到機器學習的庫,所以我們先下載sklearn庫

4617b8e88d394ee59756dd0718b1cef0.png

sklearn庫

下載完成后再輸入庫文件,就可以完美運行。

32cb23ab5a9f7d3acd661aee987602d4.png

然后就是劃分測試集和訓練集,需要注意的是,在從數據處理函數中導入數據時,足足運行了有將近30多秒,可見在數據處理部分,分詞、添加停用詞等步驟是非常復雜和消耗資源的,所以我在當初講這個課題后提出的,把一次運行完后獲得的分詞數據進行保存,以便接下來的詞云繪制和模型構建兩步進行快速訪問數據,還是非常有用的。

往后在Tf-idf權重計算這一環節出現了錯誤

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())
59466923aeb68f8719b42e10c8afab0f.png

查了百度后,得知解決辦法大致是通過控制面板的高級系統設置,更改系統給每一個硬盤分區所分配的內存來解決,我試了之后,問題果然解決了。

7af9a973a967baf567dbcedd9b0263cc.png

當然嚴格來說這其實是一個悖論,因為要想更改系統給硬盤分配的內存生效,就必須重啟計算機,而重啟計算機也會重新使系統給應用程序分配內存,這樣也可以解決內存不足問題。所以說你不可能只讓系統給應用分配的內存空間設置生效,而不讓系統重啟,這樣在邏輯上是行不通的。

之后測試集的劃分就順利多了,然后進行機器學習,輸入測試集評估模型,模型準確度為0.8525

1a8d6d908d9c2a997a7f0929cb0ffcab.png

寫到這里整個項目算是完成了,但為了加深印象,我們不妨再看一下其中的幾個數據

85870e4ff64c9590be5655bc6345620b.png

訓練集和測試集

e99d667d1bc0528ddc732dca774b6714.png

這個是數據的TF idf權重計算。因為得到的是稀疏矩陣,一行中只有很少部分有值,因此我們看到的大多都是零。

我個人認為,Pycharm并不是一個完美的文本編輯器,一是他的每個項目都是一個虛擬環境,為這個項目所匹配的庫文件并不能為其他項目所適用,如果在另外的項目里邊講引用庫,就要重新下載,當然pycharm的作者可能有他自己的想法,但是我個人總覺得,這種想法,似乎并不是很適合我們中國的不是頂尖的大學的大學生的思維。

我已經在邊角時間給 Python安裝了pip,并成功的給python增加了pandas 庫,所以說理論上,我們在Pycharm里面能完成的工作也能在Python自帶的IDEI里面完成,如果時間允許,我可能會嘗試這樣的操作。


總結

總結來說,由于計算機環境不同,我們不可能完全復制我們老師所錄制視頻的操作步驟,如果遇到的錯誤老師沒有講過,就要充分利用互聯網的豐富性和我們個人思維的靈活性,嘗試通過理解編譯器報錯提示和百度搜索這兩種方法來解決問題。

最后,作為python的新學者,遇到問題首先問身邊的朋友或者老師,但有些問題并不能得到解決。這時我們可以去網絡上搜索。這里我就推薦新學者去csdn搜索來解決我們遇到的問題。里面可以解決我們遇到的各種各樣的問題。最后愿天下再無bug。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/371331.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/371331.shtml
英文地址,請注明出處:http://en.pswp.cn/news/371331.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mvc后臺post發送json數據

代碼比較簡單&#xff0c;不廢話&#xff0c;直接上代碼&#xff1a; /// <summary>/// 提交json數據&#xff0c;并接收/// </summary>/// <param name"apipath">要請求的服務器地址</param>/// <param name"jsonStr">要提…

(轉載)20分鐘讀懂程序集

轉自&#xff1a;http://www.cnblogs.com/damonlan/p/3221347.html 說到程序集&#xff0c;我剛開始對這個名詞特別的郁悶&#xff01;~。然后 前些天花了些時間 好好讀了一下&#xff0c;現在比較清晰了&#xff0c;把一些書上看到的 記下來&#xff0c;以饗讀者。希望沒浪費你…

大數據胸_喂母乳會導致胸下垂?!你被這個謠言騙了多少年?

很多人認為&#xff0c;給寶寶喂奶會導致胸下垂。有些愛美的媽媽&#xff0c;甚至在寶寶出生6個月后就著急斷奶。那么&#xff0c;喂奶真的會導致胸下垂么&#xff1f;給大家講兩個真實的調查結果哈~2004年的一次針對496名新媽媽的調查結果顯示&#xff0c;有75%的母乳喂養母親…

Spring Shell項目發布

Spring Source昨天發布了Spring Shell 。 Spring Shell是一個交互式Shell&#xff0c;可以使用基于Spring的編程模型輕松地通過命令進行擴展。 它是通過除去OSGi依賴項從Spring Roo項目中提取的&#xff0c;并變成了一個獨立項目。 這使得那些只希望使用交互式外殼功能的人更容…

自制ACL+DHCP實驗(初版)

&#xff08;實驗用gns模擬器&#xff09; ACL 實驗拓撲&#xff1a; 實驗要求&#xff1a; 1.1.1.1→3.3.3.3 不通 11.11.11.11→3.3.3.3 通 2.2.2.2→3.3.3.3 通 實驗步驟&#xff1a; 步驟一&#xff1a;基本配置 R1&#xff1a; R1#conf t R1(config)#int lo0 R1(config-if…

pil 圖像最大值_第97天:圖像庫 PIL(二)

上節我們講了 Python 的圖像處理庫 PIL 的基本圖像處理功能&#xff0c;打開了 PIL 的神秘面紗。這節我們接著講 PIL 的 Image 模塊的常用方法。Image 模塊的方法convertImage.convert(modeNone, matrixNone, ditherNone, palette0, colors256)參數說明&#xff1a;mode&#x…

c#的委托用法delegate

轉載于:https://www.cnblogs.com/douzujun/p/6555886.html

yii2.0

yii是一個高性能的適用于開發web2.0應用的框架&#xff0c;它自帶豐富的功能&#xff0c;包括mvc&#xff0c;dao/aciverecord&#xff0c;緩存&#xff0c;身份驗證和基于角色的訪問控制&#xff0c;腳手架&#xff0c;測試等&#xff0c;可顯著縮短開發時間yii只加載你需要的…

Java中常見的代碼沖突

在工作中&#xff0c;最近我對現有Java項目進行了代碼清理。 完成該練習后&#xff0c;我可以看到在代碼中一次又一次地發生了一組常見的代碼沖突。 因此&#xff0c;我想出了此類常見違規的清單&#xff0c;并與同行分享&#xff0c;以使人們有意識地提高代碼質量和可維護性。…

np讀取csv文件_被 Pandas read_csv 坑了

-- 不怕前路坎坷&#xff0c;只怕從一開始就走錯了方向Pandas 是python的一個數據分析包&#xff0c;納入了大量庫和一些標準的數據模型&#xff0c;提供了高效地操作大型數據集所需的工具。Pandas 就是為解決數據分析任務生的&#xff0c;無論是數據分析還是機器學習項目數據預…

Python 第三方庫 cp27、cp35 等文件名的含義

What does version name ‘cp27’ or ‘cp35’ mean in Python? 如對于 gensim-0.12.4-cp27-none-win_amd64.whl文件名而言&#xff0c;將其文件名拆分的話&#xff0c;含義分別是&#xff1a; 0.12.4 - package version, they may be using semantic versioningcp27 - this p…

JAVA: 序列化

對象序列化 - 一個對象可以被表示為一個字節序列&#xff0c;保存對象的類型信息、對象的數據&#xff0c;還有對象中的數據類型&#xff0c;以便存儲或傳輸。 反序列化 - 將序列化對象寫入文件之后&#xff0c;可以從文件中讀取出來&#xff0c;并且對它進行反序列化&#xff…

尋找隨機的錯誤-一個真實的故事

幾周前&#xff0c;我完成了RapidFTR開源項目的錯誤查找 &#xff0c;這花了我三個晚上。 我認為可能值得分享狩獵的故事。 本文將介紹我的工作。 我將概述我的旅程&#xff0c;以實際找到正在發生的事情的根本原因。 我在本文中的目標是突出顯示可以使用的技術示例&#xff0c…

鈴木uy125摩托車機油_UY125 新瑞夢UM125發布 濟南鈴木于湖南株洲吹響國IV集結號...

?4月18日&#xff0c;濟南鈴木在湖南株洲天臺開元酒店舉行了2019年新品發布會&#xff0c;并于現場發布了兩款極具終端戰略意義的新款國IV車型&#xff0c;分別為定位“實用運動”的全新個性化踏板車型UY125&#xff0c;以及能夠進一步鞏固濟南鈴木在國IV入門級踏板車型領域絕…

473. 核電站問題

★ 輸入文件&#xff1a;nucle.in 輸出文件&#xff1a;nucle.out 簡單對比 時間限制&#xff1a;1 s 內存限制&#xff1a;128 MB 【問題描述】 一個核電站有 N 個放核物質的坑&#xff0c;坑排列在一條直線上。如果連續 M 個坑中放入核物質&#xff0c;則會發生爆炸&…

js判斷時間是早上還是下午_牛奶早上喝好,還是晚上喝好?沒想到“最佳時間”是這個點,顛覆了!...

都說喝牛奶好&#xff0c;要多喝。可什么時間喝牛奶最好呢&#xff1f;是飯前、飯后還是睡前&#xff1f;又或者喝酒前&#xff1f;確實得好好說說。傳言&#xff1a;空腹時身體比較缺能量&#xff0c;牛奶里的蛋白會去提供能量&#xff0c;不會去構成和修復組織(比如修復皮膚)…

Java模因拒絕死亡

也有標題&#xff1b; 我的寵物討厭Java編碼。 有許多Java模因讓我很煩&#xff0c;部分是因為它們總是一個壞主意&#xff0c;但主要是因為人們在找到更好的替代方案后的幾年里仍在繼續使用它們。 使用StringBuffer代替StringBuilder 從2004年開始&#xff0c;用于StringBuf…

Python TK編程第一部分 Hello Again

當你想寫大一點的程序的時候&#xff0c;將你的代碼封裝到一個或者多個類里會是一個不錯的辦法。下面hello world這個例子來自Matt Conway的Tkinter Life Preserver. [python]view plain copy from Tkinter import * class App: def __init__(self, master): …

視網膜脫離oct報告圖_剛剛,愛爾眼科發布關于艾芬醫生診療過程的核查報告

剛剛&#xff0c;愛爾眼科醫院集團發布關于艾芬女士診療過程的核查報告&#xff0c;內容如下&#xff1a;得悉艾芬女士對武漢愛爾眼科醫院白內障診療存疑&#xff0c;愛爾眼科醫院集團高度重視&#xff0c;第一時間成立了工作組奔赴武漢&#xff0c;對事件的診療全過程開展了核…

20145233《網絡對抗》第二周 后門原理與實踐

20145233《網絡對抗》第二周 后門原理與實踐 實驗內容 windows主機與kali虛擬機實現互聯互通使用netcat獲取主機操作Shell&#xff0c;cron啟動使用socat獲取主機操作Shell, 任務計劃啟動使用MSF meterpreter生成可執行文件&#xff0c;利用ncat或socat傳送到主機并運行獲取主機…