Python爬蟲實戰(基礎篇)—13獲取《人民網》【最新】【國內】【國際】寫入Word（附完整代碼）

文章目錄

專欄導讀
背景
測試代碼
- 分析
- 請求網址
- 請求參數
- 代碼測試
數據分析
- 利用lxml+xpath進一步分析
將獲取鏈接再獲取文章內容
- 測試代碼
寫入word
完整代碼
總結

專欄導讀

????本文已收錄于《Python基礎篇爬蟲》

????本專欄專門針對于有爬蟲基礎準備的一套基礎教學，輕松掌握Python爬蟲，歡迎各位同學訂閱，專欄訂閱地址：點我直達

????此外如果您已工作，如需利用Python解決辦公中常見的問題，歡迎訂閱《Python辦公自動化》專欄，訂閱地址：點我直達
的
????此外《Python30天從入門到熟練》專欄已上線，歡迎大家訂閱，訂閱地址：點我直達

背景

由于我最近想學習關于人民網的一些信息，我看到頁面有三個模塊，分別是【最新】【國內】【國際】，于是我想獲取這三個模塊的文章，并寫入word文檔中

測試代碼

分析

1、首先我們發現請求響應的返回不在【Response】中，而是直接在網頁中

2、我們發現網頁中有三個【li】標簽，分別表示【最新】【國內】【國際】中的文章url

3、所以我們決定此次爬蟲應該是用 lxml+xpath比較合適，說干就干！

在這里插入圖片描述

請求網址

url： http://jhsjk.people.cn/

請求參數

無

代碼測試

# -*- coding: UTF-8 -*-
'''
@Project ：人民網爬蟲 
@File    ：main_.py
@IDE     ：PyCharm 
@Author  ：一晌小貪歡（278865463@qq.com）
@Date    ：2024/3/3 11:54 
'''
import jsonimport requestsurl = 'http://jhsjk.people.cn/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}res_data= requests.post(url=url, headers=headers)
# print(res_data.text)
res_data.encoding = "utf-8"
print(res_data.text)

數據分析

利用lxml+xpath進一步分析

在這里插入圖片描述

我們看見每一個文章鏈接在a標簽中，文章標題在span標簽中

知道這個就好辦了！

先利用lxml獲取所有的【li】

news_data = tree.xpath('//div[@class="news-box"]//div[@class="news"]//ul//li')

獲取文章鏈接

url_data = i.xpath('a/@href')[0]

獲取標題

title = i.xpath('a/span')<

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/718933.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/718933.shtml
英文地址，請注明出處：http://en.pswp.cn/news/718933.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！