python爬蟲的數據如何解決亂碼_寫爬蟲時如何解決網頁亂碼問題

實戰講解,文章較長,對爬蟲比較熟悉的瀏覽翻看章節 2.3 獲取新聞文本內容。

寫爬蟲時經常對網址發起請求,結果返回的html數據除了標簽能看懂,其他的全部是亂碼。大家如果對爬蟲感興趣,請耐心閱讀本文,我們就以百度風雨榜爬蟲為例學習下亂碼處理問題。

http://top.baidu.com/buzz?b=1

百度風云榜一共有50個關鍵詞,我們先任選其中一個打開看看。

一、實驗目的

我們的目的是chardect庫學會處理網絡響應數據的亂碼問題,結合具體爬蟲實戰講解。

二、代碼實戰

2.1 定位關鍵詞及其鏈接

F12鍵盤打開開發者工具,我們定位關鍵詞及其對應的html標簽。在這里我們使用pyquery庫定位 class屬性為'keyword'的td。

#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)

fengyunbang_url = 'http://top.baidu.com/buzz?b=1'

resp = requests.get(fengyunbang_url)

#從html文件中解析出 事件字段和 網址字段

doc = PyQuery(resp.text)

for item in doc.items('.keyword'):

keyword = item('a').text().split(' ')[0]

keyword_link=item('a').attr.href

print(keyword,keyword_link)

運行,結果keyword全部為亂碼,沒有一點中文的痕跡。

這就是我們今天要克服的問題-html編碼問題。

遇到這種問題問題,我們可能會先在html標簽中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。

再次運行,漢字正常顯示。

2.2 定位搜索頁面新聞鏈接

上面我們獲取到了關鍵詞及其鏈接,瀏覽器點擊“46年吃3萬個漢堡”對應的鏈接,跳轉到 百度搜索頁,如下圖。

我們想獲取新聞內容,而要獲取新聞內容,我們就要知道新聞對應的鏈接。首先我們要定位,如下圖。這里我們使用另外一種方式定位鏈接-正則表達式。

def get_keywords_news_links(keyword_link):

"""

訪問關鍵詞百度網址,得到相關新聞的link

:param keyword_link:

:return:

"""

headers = {'User-Agent': '你的user-agent'}

resp = requests.get(keyword_link, headers=headers)

bsObj = BeautifulSoup(resp.text, 'html.parser')

news_items = bsObj.find_all('div', {'class': 'result c-container '})

news_links = []

for item in news_items:

links = re.findall('href="(.*?)"', str(item))

news_links.extend(links)

#防止鏈接重復

news_links = set(news_links)

return news_links

但是后來發現有的鏈接是無法訪問的,比如運行中居然抽取出含有http://cache.baiducontent***這種的網頁,經過測試,只要剔除掉這種鏈接,剩下的都為有效鏈接。

2.3 獲取新聞文本內容

有了上文獲取到的鏈接,我們寫個簡單的代碼獲取文本內容。由于獲取到的網址來源成百上千的網站,如果要精確獲取新聞內容,需要對每一個網站一對一的進行定位。這樣太麻煩,為了快速方便,我們使用正則匹配出所有的中文內容。

def get_news_content(link):

"""

根據新聞網址,獲取新聞數據

:return: 新聞內容

"""

resp = requests.get(link)

#最終只有漢字保留。

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

return news_text

但是運行過程中,經常返回空。說明正則匹配中文時候匹配不到。很可能的原因是頁面中沒有中文,但是我們檢測了這些頁面都是有中文的,那么很有可能是因為頁面亂碼,導致正則[\u4e00-\u9fa5]+無法匹配到中文。經過檢測,真的是亂碼。解決辦法resp.encoding='編碼'。但是編碼是什么值呢?這里我用新的方法,chardect庫檢測二進制數據中采用的編碼方式。

def get_news_content(link):

"""

根據新聞網址,獲取新聞數據

:return: 新聞內容

"""

resp = requests.get(link)

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

#網頁亂碼,導致news_text為空

if not news_text:

#根據二進制數據檢測html的編碼。

#resp.content獲取html二進制數據

chaset = chardet.detect(resp.content)['encoding']

#解決編碼問題

resp.encoding = chaset

news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))

return news_text

return news_text

2.4 編寫爬蟲主函數

編寫爬蟲主函數,將數據保存到csv中。

#主函數,訪問并保存所有的新聞數據

def FetchAndSave():

#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)

fengyunbang_url = 'http://top.baidu.com/buzz?b=1'

resp=requests.get(fengyunbang_url)

resp.encoding='gb2312'

#新建excel文件保存數據。

csvf = open('data.csv', 'a+', encoding='gbk', newline='')

writer = csv.writer(csvf)

writer.writerow(('news_content', 'keyword'))

#從heml文件中解析出 事件字段和 網址字段

doc = PyQuery(resp.text)

for itm in doc.items('.keyword'):

keyword = itm('a').text().split(' ')[0]

keyword_link = itm('a').attr.href

news_links = get_keywords_news_links(keyword_link)

for news_link in news_links:

try:

content = get_news_content(news_link)

#防止新聞內容為空的寫入csv中

if content:

writer.writerow((content, keyword))

except:

print(news_link)

#運行爬蟲

FetchAndSave()

運行爬蟲,采集了50個關鍵詞共388篇新聞內容。

數據采集

文本處理分析

數據結構

雜文

打賞還可提問哦!

如果你有什么問題,也可以掃碼提問。大鄧知無不言,言無不盡。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445929.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445929.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445929.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

FFmpeg源代碼簡單分析-其他-libswscale的sws_getContext()

參考鏈接 FFmpeg源代碼簡單分析:libswscale的sws_getContext()_雷霄驊的博客-CSDN博客 libswscale的sws_getContext() FFmpeg中類庫libswsscale用于圖像處理(縮放,YUV/RGB格式轉換)libswscale是一個主要用于處理圖片像素數據的類…

IntelliJ IDEA 學習筆記

IDEA教學視頻 文章目錄1.IntelliJ IDEA的介紹和優勢IDEA 的主要優勢2.版本介紹與安裝前的準備3.IDEA的卸載4.IDEA的安裝5.安裝目錄和設置目錄結構的說明安裝目錄設置目錄6.啟動IDEA并執行HelloWorld7.Module的使用8.IDEA的常用設置9.快捷鍵的設置10.常用的快捷鍵的使用111.常用…

機器學習頂刊文獻_人工智能頂刊TPAMI2019最新《多模態機器學習綜述》

原標題:人工智能頂刊TPAMI2019最新《多模態機器學習綜述》來源:專知摘要:”當研究問題或數據集包括多個這樣的模態時,其特征在于多模態。【導讀】人工智能領域最頂級國際期刊IEEE Transactions on Pattern Analysis and Machine I…

Windows上同時運行兩個Tomcat

步驟 1.獲得免安裝包 從Tomcat官網下載免安裝包。 2.解壓復制 解壓并創建兩個副本tomcat1和tomcat2,它們的路徑分別為: tomcat1:C:\tomcat\double\apache-tomcat-7.0.90-8081tomcat2:C:\tomcat\double\apache-tomcat-7.0.90-…

FFmpeg源代碼簡單分析-其他-libswscale的sws_scale()

參考鏈接 FFmpeg源代碼簡單分析:libswscale的sws_scale()_雷霄驊的博客-CSDN博客_bad dst image pointers libswscale的sws_scale() FFmpeg的圖像處理(縮放,YUV/RGB格式轉換)類庫libswsscale中的sws_scale()函數。libswscale是一…

布朗橋python_MATLAB 里面有哪些加快程序運行速度的方法呢,求分享?

挖墳了…睡不著覺當個備忘錄記一下用過的方法吧1. 循環向量化2. 利用函數的矩陣輸入功能批量處理3. 必須用for且費時的地方改成單層parfor,要是循環次數比cpu核數還少反而會拖慢程序4. 非常大的矩陣的運算可以用gpuArray(這個在matlab 深度學習工具箱中深有體會)5. …

FFmpeg源代碼簡單分析-其他-libavdevice的avdevice_register_all()

參考鏈接 FFmpeg源代碼簡單分析:libavdevice的avdevice_register_all()_雷霄驊的博客-CSDN博客 libavdevice的avdevice_register_all() FFmpeg中libavdevice注冊設備的函數avdevice_register_all()。avdevice_register_all()在編程中的使用示例可以參考文章&#…

Tomcat無需輸入項目名,直接用域名訪問項目

問題 在Tomcat上開發Web應用,通常是將應用放置Tomcat主目錄下webapps,然后在瀏覽器地址欄輸入域名應用名(如http://localhost:8080/app)對應用進行訪問。 為了方便開發,打算直接用域名訪問項目。例如,在瀏…

藍牙該串口設備不存在或已被占用_電腦識別不了串口設備如何解決_電腦檢測不到串口怎么辦...

2015-09-07 10:46:45win8.1系統USB轉串口不能識別設備出現錯誤代碼10的解決方法分享給大家,win8.1系統插入USB設備提示“指定不存在的設備”,左下角有小黃色感嘆號,導致設備無法識別不能識別...2016-12-02 10:52:57一般情況下,win…

FFmpeg源代碼簡單分析-其他-libavdevice的gdigrab

參考鏈接 FFmpeg源代碼簡單分析:libavdevice的gdigrab_雷霄驊的博客-CSDN博客_gdigrab libavdevice的gdigrab GDIGrab用于在Windows下屏幕錄像(抓屏)gdigrab的源代碼位于libavdevice\gdigrab.c。關鍵函數的調用關系圖如下圖所示。圖中綠色背…

分區和分片的區別_PHP: 分區和分片 - Manual

分區和分片數據庫群組是由于各種各樣的原因建立的,他可以提升處理能力、容忍錯誤,并且提升大量服務器同時工作的的性能。群組有時會組合分區和共享功能,來將大量復雜的任務分拆成更加簡單的任務,更加可控的單元。插件可以支持各種…

Ubuntu安裝GmSSL庫適用于ubuntu18和ubuntu20版本

參考鏈接 編譯與安裝【GmSSL】GmSSL 與 OpenSSL 共存的安裝方法_阿卡基YUAN的博客-CSDN博客_openssl和gmssl在Linux下安裝GmSSL_百里楊的博客-CSDN博客_安裝gmssl ubuntu18操作 需要超級管理員權限本人將下載的安裝包master.zip和安裝的位置都設定在/usr/local下創建文件夾/u…

Windows7右鍵菜單欄添加打開cmd項

背景簡介 眾所周知,在Linux桌面操作系統中的工作目錄窗口中,單擊鼠標右鍵,彈出的菜單欄通常有一項“打開終端”,然后移動鼠標點擊該項,就可以打開Shell窗口,在當前工作目錄進行命令行操作。 但是&#xf…

python11_Python11,文件操作

整了這么多雜七雜八又“沒用”的,終于來點實際的操作了。Python中用open()方法來對打開文件。我們來看看它的用法:path "C:\\Users\Frank\Desktop\\text.txt"f open(path,r,encoding"utf-8")首先給變量path指定一個路徑&#xff0…

在ubuntu環境下執行openssl編譯和安裝

參考鏈接 工具系列 | Ubuntu18.04安裝Openssl-1.1.1_Tinywan的技術博客_51CTO博客密碼學專題 openssl編譯和安裝_MY CUP OF TEA的博客-CSDN博客_openssl 編譯安裝 下載 /source/index.html編譯 使用命令sudo tar -xvzf openssl-1.1.1q.tar.gz 解壓。使用cd openssl-1.1.1q/進…

chrome 使用gpu 加速_一招解決 Chrome / Edge 卡頓緩慢 讓瀏覽器重回流暢順滑

最近一段時間,我發現電腦上的 Chrome 谷歌瀏覽器越用越卡了。特別是網頁打開比較多,同時還有視頻播放時,整個瀏覽器的響應速度都會變得非常緩慢,視頻也會卡頓掉幀。 我用的是 iMac / 32GB 內存 / Intel 四核 i7 4Ghz CPU,硬件性能應該足以讓 Chrome 流暢打開幾十個網頁標簽…

CLion運行程序時添加命令行參數 即設置argv輸入參數

參考鏈接 CLion運行程序時添加命令行參數_三豐雜貨鋪的博客-CSDN博客_clion命令行參數 操作流程 Run -> Edit -> Configuration -> Program arguments那里添內容最快捷的方式是,點擊錘子編譯圖標和運行圖標之間的的圖標,進行Edit Configurati…

python的userlist_Python Collections.UserList用法及代碼示例

Python列表是array-like數據結構,但與之不同的是它是同質的。單個列表可能包含數據類型,例如整數,字符串以及對象。 Python中的列表是有序的,并且有一定數量。根據確定的序列對列表中的元素進行索引,并使用0作為第一個…

解決 SSL_CTX_use_certificate:ca md too weak:ssl/ssl_rsa.c 問題

報錯原因分析 原因是openssl調整了安全級別,要求ca具備更高等級的安全,因此先前發布的證書,如果采用了不安全的算法,比如MD5,就會顯示上述這個錯誤 解決辦法 重新生成證書,先前證書棄用使用函數 SSL_CTX_…

向上滾動 終端_ubuntu

Ubuntu終端Terminal常用快捷鍵Ubuntu終端Terminal常用快捷鍵 快捷鍵 功能 Tab 自動補全 Ctrla 光標移動到開始位置 Ctrle 光標移動到最末尾 Ctrlk 刪除此處至末尾的所有內容 Ctrlu 刪除此處至開始的所有內容 Ctrld 刪除當前字符 Ctrlh 刪除當前字符前一個字符 Ctrlw 刪除此處到…