前言
本文是該專欄的第67篇,后面會持續分享python爬蟲干貨知識,記得關注。
本文,筆者以某政務網站為例子。基于Python爬蟲采集某政務網站的文檔正文內容和其關聯的附件數據。
具體的實現思路以及完整實現代碼邏輯,筆者將在正文進行詳細介紹。廢話不多說,跟著筆者直接往下看正文詳細內容。(附帶完整代碼)
正文
地址:aHR0cHM6Ly93d3cubnJ0YS5nb3YuY24vYXJ0LzIwMjIvMi8yNS9hcnRfMzcxM181OTY1Ny5odG1s
目標:基于Python爬蟲,爬取政務網站的文檔正文內容和附件數據(注意:這里的附件數據,指的是將附件信息直接下載并保存到本地)
1. 相關依賴庫安裝
在開始之前,首先需要提前安裝好本文要用到的相關依賴庫。如下所示:
requests
lxml
python-docx
如果你本地環境已經安裝,可以直接跳過該步驟。反之,本地環境未安裝,直接在終端輸入如下所示的pip命令,進行安裝即可: