一、案例背景與目標
豆瓣電影 Top250 是國內權威的電影評分榜單之一,包含電影名稱、評分、評價人數、導演、主演、上映年份、國家 / 地區、類型等關鍵信息。本案例將使用 Python 編寫爬蟲,實現以下目標:
- 自動請求豆瓣電影 Top250 的 10 個分頁(每頁 25 部電影);
- 解析頁面 HTML 結構,提取每部電影的 8 項核心信息;
- 數據清洗(處理異常字符、統一格式);
- 將最終數據保存到 Excel 文件,方便后續分析。
二、技術棧選擇
本案例使用輕量級且易上手的技術組合,適合爬蟲初學者:
工具 / 庫 | 作用 |
---|---|
requests | 發送 HTTP 請求,獲取網頁源代碼 |
BeautifulSoup4 | 解析 HTML 文檔,提取目標數據(非結構化→結構化) |
pandas | 數據清洗、整理,并將數據寫入 Excel |
time | 控制請求間隔,避免觸發網站反爬機制 |
user-agent | 偽裝瀏覽器請求頭,繞過基礎反爬 |
三、完整代碼實現
# 1. 導入所需庫
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time# 2. 定義核心配置
# 豆瓣電影 Top250 分頁 URL 規律:start 參數從 0 開始,每次加 25(0、25、50...225)
BASE_URL = "https://movie.douban.com/top250?start={}&filter="
# 偽裝瀏覽器請求頭(避免被識別為爬蟲)
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
}
# 存儲所有電影數據的列表
movie_list = []# 3. 定義頁面解析函數(提取單頁電影數據)
def parse_movie_page(html):# 初始化 BeautifulSoup 解析器(指定 lxml 解析器,效率更高)soup = BeautifulSoup(html, "lxml")# 定位所有電影項的父容器(每個 li 對應一部電影)movie_items = soup.find_all("li", class_="item")for item in movie_items:# 3.1 提取電影名稱(默認取第一個中文名稱)title_tag = item.find("span", class_="title")movie_name = title_tag.get_text(strip=True) if title_tag else "未知名稱"# 3.2 提取評分rating_tag = item.find("span", class_="rating_num")rating = rating_tag.get_text(strip=True) if rating_tag else "0.0"# 3.3 提取評價人數(處理格式,如 "123.4萬人評價" → "1234000")comment_tag = item.find("span", text=lambda x: x and "人評價" in x)comment_count = comment_tag.get_text(strip=True).replace("人評價", "").replace("萬", "0000") if comment_tag else "0"# 3.4 提取導演和主演(格式:"導演: 張藝謀 主演: 沈騰, 馬麗")info_tag = item.find("div", class_="bd").find("p", class_="")info_text = info_tag.get_text(strip=True).split("\n") if info_tag else ["", ""]director_actor = info_text[0].strip() if len(info_text) > 0 else "未知信息"# 3.5 提取上映年份、國家/地區、類型(格式:"2023 / 中國大陸 / 喜劇, 劇情")detail_text = info_text[1].strip() if len(info_text) > 1 else "未知 / 未知 / 未知"detail_list = detail_text.split(" / ")release_year = detail_list[0].strip() if len(detail_list) > 0 else "未知年份"country = detail_list[1].strip() if len(detail_list) > 1 else "未知國家"genre = detail_list[2].strip() if len(detail_list) > 2 else "未知類型"# 3.6 提取電影簡介(處理可能的空值)quote_tag = item.find("span", class_="inq")intro = quote_tag.get_text(strip=True) if quote_tag else "無簡介"# 3.7 將單部電影數據存入字典movie_dict = {"電影名稱": movie_name,"評分": rating,"評價人數": comment_count,"導演&主演": director_actor,"上映年份": release_year,"國家/地區": country,"類型": genre,"簡介": intro}movie_list.append(movie_dict)# 4. 定義主爬蟲函數(循環請求所有分頁)
def crawl_douban_top250():# 循環 10 個分頁(start=0,25,...,225)for page in range(10):start = page * 25url = BASE_URL.format(start)print(f"正在爬取第 {page+1} 頁,URL:{url}")try:# 4.1 發送 GET 請求(添加超時控制,避免無限等待)response = requests.get(url, headers=HEADERS, timeout=10)# 4.2 檢查請求是否成功(狀態碼 200 表示正常)response.raise_for_status() # 若狀態碼非 200,拋出 HTTPError 異常# 4.3 解析當前頁面數據parse_movie_page(response.text)# 4.4 控制請求間隔(1-2 秒),避免給服務器造成壓力,降低反爬風險time.sleep(1.5)except requests.exceptions.RequestException as e:print(f"爬取第 {page+1} 頁失敗,錯誤原因:{str(e)}")continue # 跳過失敗頁面,繼續爬取下一頁# 5. 定義數據保存函數(保存到 Excel)
def save_to_excel():if not movie_list:print("無數據可保存!")return# 5.1 將列表轉換為 DataFrame(pandas 數據結構,便于處理)df = pd.DataFrame(movie_list)# 5.2 數據清洗:處理評價人數的數值格式(如 "123.4000" → 1234000)df["評價人數"] = pd.to_numeric(df["評價人數"].str.replace(".", ""), errors="coerce").fillna(0).astype(int)# 5.3 保存到 Excel(index=False 表示不保存行號)excel_path = "豆瓣電影Top250數據.xlsx"df.to_excel(excel_path, index=False, engine="openpyxl")print(f"數據已成功保存到:{excel_path}")print(f"共爬取到 {len(movie_list)} 部電影數據")# 6. 程序入口(執行爬蟲流程)
if __name__ == "__main__":print("開始爬取豆瓣電影 Top250 數據...")crawl_douban_top250() # 1. 爬取數據save_to_excel() # 2. 保存數據print("爬取任務完成!")
四、代碼解析(關鍵步驟拆解)
1. 環境準備(安裝依賴庫)
在運行代碼前,需要確保所有必要的 Python 庫都已正確安裝。這些庫分別承擔不同的功能:
requests
:用于發送 HTTP 請求,獲取網頁內容beautifulsoup4
:用于解析 HTML 文檔,提取所需數據pandas
:用于數據處理和分析openpyxl
:作為 pandas 的依賴,用于寫入 Excel 文件lxml
:作為 BeautifulSoup 的解析器,提供高效的 HTML 解析能力
安裝命令:
pip install requests beautifulsoup4 pandas openpyxl lxml
提示:如果是在國內網絡環境,建議使用國內鏡像源加速安裝,例如:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests beautifulsoup4 pandas openpyxl lxml
2. 反爬機制規避(核心細節)
網絡爬蟲需要尊重目標網站的規則,同時也要采取適當措施避免被網站識別并封鎖。本代碼中采用了多種反爬策略:
2.1 偽裝請求頭
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
}
這是最基礎也最重要的反爬措施。網站服務器通過User-Agent
字段識別訪問者身份,默認情況下,requests
庫的請求頭會顯示為 "python-requests/xx.x.x",很容易被識別為爬蟲。通過設置一個真實的瀏覽器User-Agent
,可以模擬正常用戶的瀏覽器訪問。
你可以通過訪問https://httpbin.org/get查看自己瀏覽器的User-Agent
并替換。
2.2 控制請求頻率
time.sleep(1.5)
這行代碼的作用是在爬取完一頁后暫停 1.5 秒再繼續。短時間內發送大量請求是爬蟲最明顯的特征之一,通過添加合理的延遲,可以模擬人類瀏覽網頁的行為,降低被網站識別的概率。
延遲時間可以根據實際情況調整,一般建議在 1-3 秒之間。對于反爬嚴格的網站,可能需要更長的延遲。
2.3 異常處理機制
try:# 發送請求的代碼
except requests.exceptions.RequestException as e:print(f"爬取第 {page+1} 頁失敗,錯誤原因:{str(e)}")continue
這段異常處理代碼可以捕獲所有與請求相關的異常,包括網絡連接錯誤、超時、HTTP 錯誤狀態碼等。當某一頁爬取失敗時,程序不會崩潰,而是會打印錯誤信息并繼續爬取下一頁,保證了程序的健壯性。
response.raise_for_status()
方法會在 HTTP 請求返回錯誤狀態碼(4xx 或 5xx)時拋出異常,讓我們能夠及時發現并處理請求錯誤。
3. HTML 解析邏輯(如何定位數據)
解析 HTML 是爬蟲的核心步驟,需要仔細分析網頁結構,找到目標數據所在的位置。我們可以通過瀏覽器的開發者工具(F12)來查看網頁的 HTML 結構。
3.1 分析網頁結構
豆瓣電影 Top250 的頁面結構具有一定的規律性:
- 所有電影條目都包含在
<ul class="grid_view">
標簽中 - 每個電影條目對應一個
<li class="item">
標簽 - 每個條目中包含了電影的各種信息:名稱、評分、評價人數等
3.2 提取電影列表
movie_items = soup.find_all("li", class_="item")
這行代碼使用find_all
方法查找所有class
為 "item" 的li
標簽,每個標簽對應一部電影的信息。返回的movie_items
是一個列表,包含了當前頁面所有電影的信息。
3.3 提取單個電影信息
3.3.1 提取電影名稱
title_tag = item.find("span", class_="title")
movie_name = title_tag.get_text(strip=True) if title_tag else "未知名稱"
電影名稱位于class
為 "title" 的span
標簽中。get_text(strip=True)
方法用于獲取標簽內的文本內容,并去除前后的空白字符。通過if title_tag else "未知名稱"
的判斷,可以處理標簽不存在的情況,避免程序出錯。
3.3.2 提取評分
rating_tag = item.find("span", class_="rating_num")
rating = rating_tag.get_text(strip=True) if rating_tag else "0.0"
評分信息位于class
為 "rating_num" 的span
標簽中。同樣使用了條件判斷來處理可能的缺失情況。
3.3.3 提取評價人數
comment_tag = item.find("span", text=lambda x: x and "人評價" in x)
comment_count = comment_tag.get_text(strip=True).replace("人評價", "").replace("萬", "0000") if comment_tag else "0"
評價人數的提取相對復雜一些,因為它沒有特定的class
名稱。這里使用了一個 lambda 函數作為篩選條件,查找文本中包含 "人評價" 的span
標簽。
提取到文本后,還需要進行處理:
- 去除 "人評價" 字符串
- 將 "萬" 轉換為 "0000",以便后續轉換為數字
3.3.4 提取導演和主演
info_tag = item.find("div", class_="bd").find("p", class_="")
info_text = info_tag.get_text(strip=True).split("\n") if info_tag else ["", ""]
director_actor = info_text[0].strip() if len(info_text) > 0 else "未知信息"
導演和主演信息位于class
為 "bd" 的div
標簽下的第一個p
標簽中。這里的find("p", class_="")
表示查找沒有class
屬性的p
標簽。
獲取文本后,使用split("\n")
按換行符分割,取第一部分作為導演和主演信息。
3.3.5 提取上映年份、國家 / 地區、類型
detail_text = info_text[1].strip() if len(info_text) > 1 else "未知 / 未知 / 未知"
detail_list = detail_text.split(" / ")
release_year = detail_list[0].strip() if len(detail_list) > 0 else "未知年份"
country = detail_list[1].strip() if len(detail_list) > 1 else "未知國家"
genre = detail_list[2].strip() if len(detail_list) > 2 else "未知類型"
這部分信息位于上一步中分割得到的info_text
的第二部分,格式為 "年份 / 國家 / 地區 / 類型"。我們使用split(" / ")
按 "/" 分割,得到一個包含三個元素的列表,分別對應年份、國家 / 地區和類型。
每個字段都添加了條件判斷,以處理可能的缺失情況,保證程序的穩定性。
3.3.6 提取電影簡介
quote_tag = item.find("span", class_="inq")
intro = quote_tag.get_text(strip=True) if quote_tag else "無簡介"
電影簡介位于class
為 "inq" 的span
標簽中。同樣添加了條件判斷,處理沒有簡介的情況。
3.3.7 存儲電影數據
movie_dict = {"電影名稱": movie_name,"評分": rating,"評價人數": comment_count,"導演&主演": director_actor,"上映年份": release_year,"國家/地區": country,"類型": genre,"簡介": intro
}
movie_list.append(movie_dict)
將提取到的各項信息存入一個字典,然后將字典添加到movie_list
列表中。這樣處理后,movie_list
將包含當前頁面所有電影的信息。
4. 數據清洗與保存
4.1 數據轉換
df = pd.DataFrame(movie_list)
使用 pandas 庫將列表轉換為 DataFrame,這是一種二維表格數據結構,便于進行數據處理和分析。
4.2 數據清洗
df["評價人數"] = pd.to_numeric(df["評價人數"].str.replace(".", ""), errors="coerce").fillna(0).astype(int)
這行代碼對 "評價人數" 進行清洗和轉換:
str.replace(".", "")
:去除字符串中的小數點,處理 "123.4 萬" 這種格式pd.to_numeric(..., errors="coerce")
:將字符串轉換為數值類型,無法轉換的將設為 NaNfillna(0)
:將 NaN 值替換為 0astype(int)
:轉換為整數類型
經過這些處理,"評價人數" 字段將成為干凈的整數,便于后續的統計分析。
4.3 保存到 Excel
excel_path = "豆瓣電影Top250數據.xlsx"
df.to_excel(excel_path, index=False, engine="openpyxl")
使用 pandas 的to_excel
方法將數據保存到 Excel 文件:
index=False
:表示不保存 DataFrame 的索引列engine="openpyxl"
:指定使用 openpyxl 庫作為引擎,支持.xlsx 格式
保存完成后,會打印保存路徑和爬取到的電影數量,方便用戶確認結果。
5. 主程序流程
if __name__ == "__main__":print("開始爬取豆瓣電影 Top250 數據...")crawl_douban_top250() # 1. 爬取數據save_to_excel() # 2. 保存數據print("爬取任務完成!")
這是程序的入口點,使用if __name__ == "__main__":
確保只有在直接運行該腳本時才會執行以下代碼,而在被導入為模塊時不會執行。
五、運行結果與驗證
- 運行代碼:執行程序后,控制臺會輸出爬取進度(如 “正在爬取第 1 頁...”);
- 生成文件:程序結束后,當前目錄會生成?
豆瓣電影Top250數據.xlsx
?文件; - 驗證數據:打開 Excel 文件,可看到 250 行數據(若部分頁面爬取失敗,行數可能少于 250),列包含 “電影名稱”“評分” 等 8 項信息,數據格式統一、無亂碼。
六、拓展與注意事項
1. 功能拓展
- 多線程爬取:使用?
threading
?或?concurrent.futures
?庫實現多線程,提升爬取速度(注意控制線程數,避免給服務器造成過大壓力); - 數據可視化:用?
matplotlib
?或?seaborn
?繪制評分分布直方圖、類型占比餅圖等; - 增量爬取:記錄上次爬取的最后一部電影,下次只爬取更新的數據。
2. 注意事項
- 遵守網站 robots 協議:豆瓣電影的?
robots.txt
(https://movie.douban.com/robots.txt)允許爬取 Top250 數據,但需控制頻率; - 反爬升級應對:若出現 “驗證碼” 或 “403 禁止訪問”,可嘗試添加?
Cookie
(模擬登錄狀態)、使用代理 IP 池; - 法律風險:不得將爬取的數據用于商業用途,遵守《網絡安全法》《數據安全法》等法律法規。
通過本案例,可掌握爬蟲的核心流程(請求→解析→清洗→保存),理解 HTML 結構分析、反爬規避、數據處理的關鍵技巧,為后續爬取更復雜網站(如動態加載、需要登錄的網站)打下基礎。