實戰講解,文章較長,對爬蟲比較熟悉的瀏覽翻看章節 2.3 獲取新聞文本內容。
寫爬蟲時經常對網址發起請求,結果返回的html數據除了標簽能看懂,其他的全部是亂碼。大家如果對爬蟲感興趣,請耐心閱讀本文,我們就以百度風雨榜爬蟲為例學習下亂碼處理問題。
http://top.baidu.com/buzz?b=1
百度風云榜一共有50個關鍵詞,我們先任選其中一個打開看看。
一、實驗目的
我們的目的是chardect庫學會處理網絡響應數據的亂碼問題,結合具體爬蟲實戰講解。
二、代碼實戰
2.1 定位關鍵詞及其鏈接
F12鍵盤打開開發者工具,我們定位關鍵詞及其對應的html標簽。在這里我們使用pyquery庫定位 class屬性為'keyword'的td。
#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)
fengyunbang_url = 'http://top.baidu.com/buzz?b=1'
resp = requests.get(fengyunbang_url)
#從html文件中解析出 事件字段和 網址字段
doc = PyQuery(resp.text)
for item in doc.items('.keyword'):
keyword = item('a').text().split(' ')[0]
keyword_link=item('a').attr.href
print(keyword,keyword_link)
運行,結果keyword全部為亂碼,沒有一點中文的痕跡。
這就是我們今天要克服的問題-html編碼問題。
遇到這種問題問題,我們可能會先在html標簽中查找charset字符集。一般charset值有utf-8、gbk、gb2312、ascii等。
再次運行,漢字正常顯示。
2.2 定位搜索頁面新聞鏈接
上面我們獲取到了關鍵詞及其鏈接,瀏覽器點擊“46年吃3萬個漢堡”對應的鏈接,跳轉到 百度搜索頁,如下圖。
我們想獲取新聞內容,而要獲取新聞內容,我們就要知道新聞對應的鏈接。首先我們要定位,如下圖。這里我們使用另外一種方式定位鏈接-正則表達式。
def get_keywords_news_links(keyword_link):
"""
訪問關鍵詞百度網址,得到相關新聞的link
:param keyword_link:
:return:
"""
headers = {'User-Agent': '你的user-agent'}
resp = requests.get(keyword_link, headers=headers)
bsObj = BeautifulSoup(resp.text, 'html.parser')
news_items = bsObj.find_all('div', {'class': 'result c-container '})
news_links = []
for item in news_items:
links = re.findall('href="(.*?)"', str(item))
news_links.extend(links)
#防止鏈接重復
news_links = set(news_links)
return news_links
但是后來發現有的鏈接是無法訪問的,比如運行中居然抽取出含有http://cache.baiducontent***這種的網頁,經過測試,只要剔除掉這種鏈接,剩下的都為有效鏈接。
2.3 獲取新聞文本內容
有了上文獲取到的鏈接,我們寫個簡單的代碼獲取文本內容。由于獲取到的網址來源成百上千的網站,如果要精確獲取新聞內容,需要對每一個網站一對一的進行定位。這樣太麻煩,為了快速方便,我們使用正則匹配出所有的中文內容。
def get_news_content(link):
"""
根據新聞網址,獲取新聞數據
:return: 新聞內容
"""
resp = requests.get(link)
#最終只有漢字保留。
news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))
return news_text
但是運行過程中,經常返回空。說明正則匹配中文時候匹配不到。很可能的原因是頁面中沒有中文,但是我們檢測了這些頁面都是有中文的,那么很有可能是因為頁面亂碼,導致正則[\u4e00-\u9fa5]+無法匹配到中文。經過檢測,真的是亂碼。解決辦法resp.encoding='編碼'。但是編碼是什么值呢?這里我用新的方法,chardect庫檢測二進制數據中采用的編碼方式。
def get_news_content(link):
"""
根據新聞網址,獲取新聞數據
:return: 新聞內容
"""
resp = requests.get(link)
news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))
#網頁亂碼,導致news_text為空
if not news_text:
#根據二進制數據檢測html的編碼。
#resp.content獲取html二進制數據
chaset = chardet.detect(resp.content)['encoding']
#解決編碼問題
resp.encoding = chaset
news_text = ''.join(re.findall('[\u4e00-\u9fa5]+', resp.text))
return news_text
return news_text
2.4 編寫爬蟲主函數
編寫爬蟲主函數,將數據保存到csv中。
#主函數,訪問并保存所有的新聞數據
def FetchAndSave():
#百度風云榜頁面網址(含有50個熱門新聞的關鍵詞)
fengyunbang_url = 'http://top.baidu.com/buzz?b=1'
resp=requests.get(fengyunbang_url)
resp.encoding='gb2312'
#新建excel文件保存數據。
csvf = open('data.csv', 'a+', encoding='gbk', newline='')
writer = csv.writer(csvf)
writer.writerow(('news_content', 'keyword'))
#從heml文件中解析出 事件字段和 網址字段
doc = PyQuery(resp.text)
for itm in doc.items('.keyword'):
keyword = itm('a').text().split(' ')[0]
keyword_link = itm('a').attr.href
news_links = get_keywords_news_links(keyword_link)
for news_link in news_links:
try:
content = get_news_content(news_link)
#防止新聞內容為空的寫入csv中
if content:
writer.writerow((content, keyword))
except:
print(news_link)
#運行爬蟲
FetchAndSave()
運行爬蟲,采集了50個關鍵詞共388篇新聞內容。
數據采集
文本處理分析
數據結構
雜文
打賞還可提問哦!
如果你有什么問題,也可以掃碼提問。大鄧知無不言,言無不盡。