Python爬蟲實戰:從零構建完整項目(數據采集+存儲+異常處理)

Python爬蟲實戰:從零構建完整項目(數據采集+存儲+異常處理)

爬蟲不是簡單的請求+解析,而是一個系統工程。本文將帶你體驗企業級爬蟲開發的核心流程。

一、前言:為什么需要完整的爬蟲項目?

作為初學者,你可能寫過一些單文件的爬蟲腳本,但當面對真實復雜的網絡環境、海量數據存儲需求及各種突發異常時,這些腳本往往脆弱不堪。真正的爬蟲項目,是網絡請求、數據解析、持久化存儲和健壯性設計的交響樂。本次我們將綜合運用Python核心技術,構建一個可投入生產環境的爬蟲系統。

二、項目目標與技術棧

項目目標:爬取圖書網站(以豆瓣讀書為例)的書籍信息,包含:

  • 書名
  • 作者
  • 評分
  • 價格
  • ISBN
  • 簡介

技術棧

  • 網絡請求requests (處理HTTP請求/響應)
  • 數據解析BeautifulSoup4 (HTML解析)
  • 數據存儲SQLite3 (輕量級數據庫)
  • 異常處理:Python內置異常機制 + 自定義重試
  • 輔助工具logging (日志記錄), time (速率控制)

三、環境搭建(新手友好)

# 創建虛擬環境(可選但推薦)
python -m venv spider-env
source spider-env/bin/activate  # Linux/Mac
spider-env\Scripts\activate    # Windows# 安裝核心庫
pip install requests beautifulsoup4

📌 重要提示:真實項目中務必添加 requirements.txt 管理依賴!

四、分步構建爬蟲系統

4.1 數據采集模塊:與網絡對話

核心任務:穩定獲取目標網頁內容

import requests
from fake_useragent import UserAgent  # pip install fake-useragentdef fetch_page(url, retries=3):"""獲取網頁內容,含簡單重試機制:param url: 目標URL:param retries: 最大重試次數:return: HTML內容 (str) 或 None"""headers = {'User-Agent': UserAgent().random}  # 動態生成UAfor attempt in range(retries):try:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()  # 自動拋出HTTP錯誤return response.textexcept (requests.exceptions.RequestException, requests.exceptions.Timeout) as e:print(f"請求失敗 (嘗試 {attempt+1}/{retries}): {e}")time.sleep(2 ** attempt)  # 指數退避策略return None

關鍵技術解析

  1. User-Agent輪換:繞過基礎反爬
  2. timeout設置:防止請求阻塞
  3. raise_for_status():自動處理HTTP狀態碼(404, 500等)
  4. 指數退避重試:網絡波動時的自愈能力

4.2 數據解析模塊:從混沌中提取信息

核心任務:精準抽取目標數據

from bs4 import BeautifulSoupdef parse_book_page(html):"""解析圖書詳情頁:param html: 網頁HTML:return: 字典形式的結構化數據"""if not html:return Nonesoup = BeautifulSoup(html, 'html.parser')book_data = {}try:# 書名 (使用CSS選擇器更穩定)book_data['title'] = soup.select_one('h1 span').text.strip()# 作者信息 (處理多作者情況)authors = [a.text.strip() for a in soup.select('.author a')]book_data['author'] = '; '.join(authors)# 評分 (處理可能缺失的情況)rating_tag = soup.select_one('.rating_num')book_data['rating'] = float(rating_tag.text) if rating_tag else 0.0# 使用更健壯的屬性提取book_data['isbn'] = soup.find('meta', {'property': 'books:isbn'})['content']# 簡介 (處理多段文本)summary_tag = soup.select_one('.intro')book_data['summary'] = '\n'.join([p.text for p in summary_tag.find_all('p')]) except (AttributeError, TypeError) as e:print(f"解析錯誤: {e}")return Nonereturn book_data

避坑指南

  1. 優先使用CSS選擇器而非XPath(更簡潔)
  2. 所有解析操作都需考慮標簽不存在的情況
  3. 多層數據使用try-except局部捕獲
  4. 處理多值數據時用分隔符連接

4.3 數據存儲模塊:持久化藝術

為什么用數據庫而非CSV?

  • 避免重復爬取
  • 支持復雜查詢
  • 數據一致性保障
import sqlite3DB_NAME = 'books.db'def init_database():"""初始化數據庫表結構"""conn = sqlite3.connect(DB_NAME)c = conn.cursor()c.execute('''CREATE TABLE IF NOT EXISTS books(id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,author TEXT,rating REAL,isbn TEXT UNIQUE,  -- ISBN唯一標識書籍summary TEXT,created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP)''')conn.commit()conn.close()def save_book_data(book):"""保存單條圖書數據"""if not book: return Falsetry:conn = sqlite3.connect(DB_NAME)c = conn.cursor()# 使用UPSERT操作避免重復c.execute('''INSERT OR IGNORE INTO books (title, author, rating, isbn, summary)VALUES (?, ?, ?, ?, ?)''',(book['title'], book['author'], book['rating'], book['isbn'], book['summary']))conn.commit()return c.rowcount > 0except sqlite3.Error as e:print(f"數據庫錯誤: {e}")return Falsefinally:conn.close()  # 確保連接關閉

高級技巧

  1. 使用UNIQUE約束防止重復數據
  2. INSERT OR IGNORE實現去重插入
  3. finally保證資源釋放
  4. 添加時間戳追蹤數據采集時間

4.4 異常處理模塊:構建抗脆弱系統

爬蟲常見崩潰原因

  • 網絡波動(超時/斷連)
  • 網站改版(解析失敗)
  • 反爬機制(IP被封)
  • 數據異常(類型轉換錯誤)
class SpiderException(Exception):"""自定義爬蟲異常基類"""passclass RetryExhaustedError(SpiderException):"""重試耗盡異常"""def __init__(self, url):self.url = urlsuper().__init__(f"重試耗盡: {url}")def safe_crawl(url):"""帶完整異常處理的爬取流程:return: 成功保存返回True"""try:# 1. 網絡請求html = fetch_page(url)if not html:raise SpiderException(f"獲取頁面失敗: {url}")# 2. 數據解析book_data = parse_book_page(html)if not book_data:raise SpiderException(f"解析頁面失敗: {url}")# 3. 數據存儲if not save_book_data(book_data):raise SpiderException(f"數據保存失敗: {url}")print(f"成功處理: {url}")return Trueexcept SpiderException as e:print(f"業務流程異常: {e}")return Falseexcept Exception as e:  # 捕獲未預料異常print(f"系統未知異常: {type(e).__name__} - {e}")# 此處可添加郵件/釘釘報警return False

異常處理金字塔

  1. 基礎異常:網絡/解析/存儲錯誤
  2. 業務異常:自定義SpiderException
  3. 全局兜底:捕獲所有未處理異常
  4. 重試機制:網絡請求層已實現

五、項目整合:讓模塊協同工作

import time
from urllib.parse import urljoinBASE_URL = "https://book.douban.com/tag/小說"
MAX_PAGES = 5  # 演示用控制頁數def main():init_database()session = requests.Session()  # 復用連接提升性能for page in range(MAX_PAGES):list_url = f"{BASE_URL}?start={page*20}"print(f"正在爬取列表頁: {list_url}")try:list_html = fetch_page(list_url)if not list_html: continuesoup = BeautifulSoup(list_html, 'html.parser')book_links = soup.select('.subject-item .info h2 a')for link in book_links:detail_url = link['href']safe_crawl(detail_url)  # 核心調度time.sleep(1.5)  # 禮貌爬取間隔except Exception as e:print(f"列表頁處理異常: {e}")time.sleep(3)  # 頁間延遲if __name__ == "__main__":main()

六、生產級優化建議

  1. 代理IP池:解決IP封鎖問題
    proxies = {"http": "http://10.10.1.10:3128"}
    requests.get(url, proxies=proxies)
    
  2. 分布式任務隊列:使用Celery+Redis
  3. 瀏覽器渲染:對JS渲染頁面使用Selenium
  4. 增量爬取:基于數據庫時間戳過濾
  5. 配置文件:分離敏感參數(數據庫密碼等)

七、常見問題排查手冊

現象可能原因解決方案
返回403錯誤IP被封/請求頭異常更換代理/更新UserAgent
解析到空數據網站改版重新分析DOM結構
數據庫插入失敗字段超長/類型不匹配增加字段長度檢查
內存持續增長未關閉數據庫連接使用with語句管理資源
被重定向到登錄頁觸發反爬添加Cookie模擬登錄

八、總結:爬蟲工程師的思維模式

  1. 防御性編程:所有外部交互都可能失敗
  2. 可觀測性:完善的日志體系(推薦使用logging模塊)
  3. 彈性設計:重試/降級/熔斷機制
  4. 倫理邊界:遵守robots.txt,控制爬取頻率

項目完整代碼已托管Github:https://github.com/yourname/douban-spider (包含詳細注釋)

爬蟲項目的終極目標不是獲取數據,而是構建可持續的數據管道。當你掌握了數據采集、結構化存儲和異常處理這三駕馬車,就能應對互聯網上90%的數據獲取需求。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87614.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87614.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87614.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大數據時代UI前端的用戶體驗設計新思維:以用戶為中心的數據可視化

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩!一、引言:大數據重構用戶體驗設計的底層邏輯在數據爆炸式增長的今天,用…

FreeRTOS 中任務控制塊(Task Control Block,TCB)用于管理和描述任務的核心數據結構

在 FreeRTOS 中,任務控制塊(Task Control Block,TCB)是用于管理和描述任務的核心數據結構。每個任務都有一個對應的 TCB,它包含了任務的所有相關信息。 TCB 的主要功能 存儲任務狀態信息:TCB 中包含了任務…

前端-HTML-day1

目錄 1、標簽語法 2、HTML基本骨架 3、標簽的關系 4、注釋 5、標題標簽 6、段落標簽 7、換行和水平線標簽 8、文本格式化標簽 9、圖像標簽-基本使用 10、圖像標簽-屬性 11、相對路徑 12、絕對路徑 13、超鏈接 14、音頻 15、視頻 16、綜合案例1--個人簡介 17、…

OpenCV篇——項目(二)OCR文檔掃描

目錄 文檔掃描項目說明 前言 文檔掃描代碼總體演示 OCR文檔識別代碼總體演示: ?編輯 代碼功能詳解 1. 預處理階段 2. 邊緣檢測 3. 輪廓處理 4. 透視變換 5. 后處理 主要改進說明: 使用建議: 文檔掃描項目說明 前言 本項目實現了一個自動…

Java 中導出包含多個 Sheet 的 Excel 文件

在 Java 中導出包含多個 Sheet 的 Excel 文件,可以使用 Apache POI 或 EasyExcel(阿里開源庫)。以下是兩種方法的詳細實現: 方法 1:使用 Apache POI(支持 .xls 和 .xlsx) 1. 添加 Maven 依賴 …

OneCode采用虛擬DOM結構實現服務端渲染的技術實踐

一、技術背景與挑戰 隨著企業級應用復雜度的提升,傳統服務端渲染(SSR)面臨頁面交互性不足的問題,而純前端SPA架構則存在首屏加載慢和SEO不友好的缺陷。OneCode框架創新性地將虛擬DOM技術引入服務端渲染流程,構建了一套兼顧性能與開發效率的企…

變幻莫測:CoreData 中 Transformable 類型面面俱到(八)

概述 各位似禿似不禿小碼農們都知道,在蘋果眾多開發平臺中 CoreData 無疑是那個最簡潔、擁有“官方認證”且最具兼容性的數據庫框架。使用它可以讓我們非常方便的搭建出 App 所需要的持久存儲體系。 不過,大家是否知道在 CoreData 中還存在一個 Transfo…

汽車LIN總線通訊:從物理層到協議棧的深度解析

目錄一、物理層:單線傳輸的信號奧秘1.1 電平定義與信號傳輸1.2 關鍵硬件組件作用二、數據鏈路層:幀結構與通信協議2.1 LIN幀的組成與功能2.2 主從式通信機制三、波特率同步:從節點的時鐘校準原理四、軟件實現:基于S32K144的主節點…

馬爾可夫鏈:隨機過程的記憶法則與演化密碼

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術! 一、核心定義:無記憶的隨機演化 馬爾可夫鏈(M…

【vue3+tauri+rust】如何實現下載文件mac+windows

項目背景:【vue3taurirust】 由于Safari對于下載總是有諸多阻攔,目前需求windowsmac可以實現: 后端返回的url文件可以下載;前端根據dom元素生成的PDF報告可以下載(無遠程URL); 我的嘗試: 方法…

SQL 快速參考手冊-SQL001

SQL 快速參考手冊: 為方便快速學習和實踐,提供了一份 SQL 快速參考手冊,您可以打印出來隨時查看,了解常見 SQL 命令的語法和用法。 SQL 數據類型 SQL 數據類型根據不同的數據庫系統(如 Microsoft Access、MySQL、SQL…

學習java集合

集合與數組的對比集合的長度可變, 數組的長度不可變集合實際上跟數組一樣, 是一種容器, 可以存放數據數組可以直接存放基本數據類型和引用數據類型集合可以存放引用數據類型, 但是不能直接存放基本數據類型, 如果要存放基本數據類型, 需要變成一個包裝類才行泛型: 限定集合中存…

python訓練day49 CBAM

import torch import torch.nn as nn# 定義通道注意力 class ChannelAttention(nn.Module):def __init__(self, in_channels, ratio16):"""通道注意力機制初始化參數:in_channels: 輸入特征圖的通道數ratio: 降維比例,用于減少參數量,默認…

在小程序中實現實時聊天:WebSocket最佳實踐

前言 在當今互聯網應用中,實時通信已經成為一個標配功能,特別是對于需要即時響應的場景,如在線客服、咨詢系統等。本文將分享如何在小程序中實現一個高效穩定的WebSocket連接,以及如何處理斷線重連、消息發送與接收等常見問題。 W…

Python網絡爬蟲編程新手篇

網絡爬蟲是一種自動抓取互聯網信息的腳本程序,廣泛應用于搜索引擎、數據分析和內容聚合。這次我將帶大家使用Python快速構建一個基礎爬蟲,為什么使用python做爬蟲?主要就是支持的庫很多,而且同類型查詢文檔多,在同等情…

LeetCode.283移動零

題目鏈接:283. 移動零 - 力扣(LeetCode) 題目描述: 給定一個數組 nums,編寫一個函數將所有 0 移動到數組的末尾,同時保持非零元素的相對順序。 請注意 ,必須在不復制數組的情況下原地對數組進行…

2025年7月4日漏洞文字版表述一句話版本(漏洞危害以及修復建議),通常用于漏洞通報中簡潔干練【持續更新中】,漏洞通報中對于各類漏洞及修復指南

漏洞及修復指南 一、暗鏈 危害:攻擊者通過技術手段在用戶網頁中插入隱藏鏈接或代碼,并指向惡意網站,可導致用戶信息泄露、系統感染病毒,用戶訪問被劫持至惡意網站,泄露隱私或感染惡意軟件,被黑客利用進行…

python --飛漿離線ocr使用/paddleocr

依賴 # python3.7.3 paddleocr2.7.0.2 paddlepaddle2.5.2 loguru0.7.3from paddleocr import PaddleOCR import cv2 import numpy as npif __name__ __main__:OCR PaddleOCR(use_doc_orientation_classifyFalse, # 檢測文檔方向use_doc_unwarpingFalse, # 矯正扭曲文檔use…

數據結構與算法:貪心(三)

前言 感覺開始打cf了以后貪心的能力有了明顯的提升,讓我們謝謝cf的感覺場。 一、跳躍游戲 II class Solution { public:int jump(vector<int>& nums) {int n=nums.size();//怎么感覺這個題也在洛谷上刷過(?)int cur=0;//當前步最遠位置int next=0;//多跳一步最遠…

【Redis篇】數據庫架構演進中Redis緩存的技術必然性—高并發場景下穿透、擊穿、雪崩的體系化解決方案

&#x1f4ab;《博主主頁》&#xff1a;    &#x1f50e; CSDN主頁__奈斯DB    &#x1f50e; IF Club社區主頁__奈斯、 &#x1f525;《擅長領域》&#xff1a;擅長阿里云AnalyticDB for MySQL(分布式數據倉庫)、Oracle、MySQL、Linux、prometheus監控&#xff1b;并對…