python爬蟲爬取數據如何將br去掉_Python怎么去除爬取下來的網站中的一些轉義字符串

python爬蟲爬取數據如何將br去掉_Python怎么去除爬取下來的網站中的一些轉義字符串 - 收獲啦...

基本方法

其實用python爬取網頁很簡單，只有簡單的幾句話

這樣就可以獲得到頁面的內容。接下來再用正則匹配去匹配所需要的內容就行了。但是，真正要做起來，就會有各種各樣的細節問題。

2.登錄

這是一個需要登錄認證的網站。也不太難，只要導入cookielib和urllib庫就行。

這樣就裝載進一個cookie，用urlOpener去open登錄以后就可以記住信息。

3.斷線重連

如果只是做到上面的程度，不對open進行包裝的話，只要網絡狀況有些起伏，就直接拋出異常，退出整個程序，是個很不好的程序。這個時候，只要對異常進行處理，多試幾次就行了：

4.正則匹配

其實正則匹配并不算是一個特別好的方法，因為它的容錯性很不好，網頁要完全統一。如果有稍微的不統一，就會失敗。后來看到說有根據xpath來進行選取的，下次可以嘗試一下。

寫正則其實是有一定技巧的：非貪婪匹配。比如這樣一個標簽：hello，要取出a來，如果寫成這樣的表達式，就不行了：hello。因為*進行了貪婪匹配。這是要用.?：hello。

跨行匹配。實現跨行有一種思路是運用DOTALL標志位，這樣.就會匹配到換行。但是這樣一來，整個匹配過程就會變得很慢。本來的匹配是以行為單位的。整個過程最多就是O(nc2)，n是行數，c是平均列數。現在極有可能變為O((nc)2)。我的實現方案是運用來匹配換行，這樣可以明確指出匹配最多跨躍多少行。比如：abc\s*\s*def，就指出查找的是隔一行的。(.)?就可以指定是匹配盡可能少的行。

這里其實還要注意一個點。有的行末是帶有\r的。也就是說一行是以\r結尾的。當初不知道這一點，正則就調試了很久。現在直接用\s，表示行末空格和\r。

無捕獲分組。為了不對捕獲的分組造成影響，上面的(.)可以改為(?:.)，這樣捕獲分組時，就會忽略它。

單括號要進行轉義。因為單括號在正則里是用來表示分組的，所以為了匹配單括號就進行轉義。正則字符串最好用的是帶有r前綴的字符串，如果不是的話，則要對\再進行轉義。

快速正則。寫了那么多模式，也總結出一規律出來。先把要匹配的字符相關的段落拿出來。要匹配的東西用(.?)代替。把換行替換為字符串\s\s*，再去掉行首行末的空格。整個過程在vim中可以很快就寫好。

5.Excel操作

這次的數據是放進Excel的。搜索Excel，可以得出幾個方案來，一個是用xlrt/xlwt庫，這個不管電腦上是否安裝了Excel，都可以運行，但只能是xls格式的。還有一個是直接包裝了com，需要電腦上安裝了軟件才行。這里采用的是前一種。

基本的讀寫沒有問題。但是數據量一大起來，就有問題了。內存不夠。程序一跑起來，內存占用就一點一點往上漲。后面再查了一下，知道要用flush_row_data。但是還是會出錯。一看內存占用，沒有什么問題，一直很平穩。但最后還是會出現memoryerror。這真是見鬼了。又是反復地查，反復地運行。一點結果都沒有。要命的是bug只在數據量大起來才出現，而等數據量大起來往往要好幾個小時，這debug的成本實在是太高了。一個偶然的機會，突然發現內存占用，雖然總體平穩，但是會規律性的出現小的高漲，而這規律性，會不會和flush_row_data，有關。一直疑惑的是data被flush到了哪里。原來xlwt的作法是很蛋疼的作法。把數據存在內存里，或者flush到一個temp，到save的時候，再一次性寫入。而問題正出在這一次性寫入，內存猛漲。那我要flush_row_data何用？為什么不一開始就flush進要寫入的地方。

行數限制。這個是xls格式本身決定的，最多行數只能是65536。而且數據一大，文件打開也不方便。

結合以上兩點，最終采取了這么一個策略，如果行數是1000的倍數，進行一次flush，如果行數超過65536，新開一個sheet，如果超過3個sheet，則新建一個文件。為了方便，把xlwt包裝了一下：

6.轉換網頁特殊字符

由于網頁也有自己獨特的轉義字符，在進行正則匹配的時候就有些麻煩。在官方文檔中查到一個用字典替換的方案，私以為不錯，拿來做了一些擴充。其中有一些是為保持正則的正確性。

7.總結

最終的程序要跑很久，其中網絡通信時間占了大部分。是不是可以考慮用多線程重構一下？

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/454839.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/454839.shtml
英文地址，請注明出處：http://en.pswp.cn/news/454839.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！