初學者如何用 Python 寫第一個爬蟲？

一、爬蟲的基本概念

（一）爬蟲的定義

爬蟲，英文名為 Web Crawler，也被叫做網絡蜘蛛、網絡機器人。想象一下，有一個勤勞的小蜘蛛，在互聯網這個巨大的蜘蛛網中穿梭。它能夠模擬人類用戶瀏覽網頁的行為，自動地在網頁間跳轉，其主要目的就是從網頁里精準地提取出我們想要的特定內容。比如說，你想知道某電商平臺上某款手機的所有評論，或者某個新聞網站上關于特定主題的所有文章，爬蟲就可以幫你快速獲取這些信息。

（二）爬蟲的主要工作流程

發送請求：依據 HTTP 協議，就像是你去商店買東西要遵循商店的規則一樣，爬蟲按照這個規則向目標網頁發起請求。它會帶著一些必要的信息，比如告訴網頁它想要獲取什么內容，然后得到網頁的 HTML 源代碼，這就像是拿到了商店給你的商品清單。例如，當你在瀏覽器地址欄輸入一個網址并回車，瀏覽器就會按照 HTTP 協議向對應的服務器發送請求，獲取網頁內容，爬蟲也是類似的原理。

解析數據：獲取到的 HTML 內容就像是一團雜亂的線球，里面包含了很多我們不需要的信息。解析數據這一步就是要把這團線球理順，精準地提取出我們真正需要的數據。比如從 HTML 代碼中找到網頁的標題、正文內容、圖片鏈接等等。可以把這一步想象成從一堆雜物中挑出你需要的寶貝。

存儲數據：將提取出的數據妥善保存起來，就像你把買到的寶貝放在合適的地方，方便后續進一步處理與分析。可以保存到文件中，比如常見的 txt 文本文件，也可以保存到數據庫里，方便進行數據的管理、查詢等操作。

（三）常用 Python 工具

requests：它是一個用于高效發送 HTTP 請求的庫。使用它就像給網頁發送一封 “郵件”，輕松獲取網頁內容。比如，你想獲取百度首頁的內容，使用 requests 庫幾行代碼就能搞定。它支持多種請求方式，如 GET、POST 等，滿足不同場景下的需求。

BeautifulSoup：這個庫專注于解析 HTML 或 XML 數據，能把復雜的 HTML 結構轉化為 Python 對象，讓我們可以很方便地提取特定內容。它就像是一個專業的 “整理師”，把 HTML 代碼整理得井井有條，我們可以輕松地找到自己想要的標簽和內容。例如，要找到網頁中的所有鏈接，使用 BeautifulSoup 就能快速實現。

re（正則表達式）：正則表達式就像是一個強大的 “搜索工具”，可以精準匹配并提取復雜文本中的特定模式。比如，當你要從一段文本中找出所有符合郵箱格式的字符串，或者提取出所有的電話號碼，正則表達式就能發揮巨大作用。它有一套自己獨特的語法規則，掌握了這些規則，就能在文本處理中如魚得水。

pandas：在數據清洗與分析方面表現出色，是處理數據的得力助手。它可以對爬取到的數據進行清洗、轉換、分析等操作。例如，將爬取到的雜亂無章的數據整理成整齊的表格形式，方便進行數據分析和可視化展示。

二、環境搭建

（一）安裝 Python

確保你的計算機已安裝 Python，建議使用 3.7 及以上版本。如果還沒有安裝，別擔心，這很簡單。你可以前往 Python 官方網站（https://www.python.org/），在網站上找到下載按鈕，根據你計算機的系統（Windows、Mac 或 Linux）選擇對應的安裝包進行下載。下載完成后，按照安裝向導的提示一步步進行安裝即可。安裝過程中，記得勾選添加 Python 到系統路徑選項，這樣在后續使用命令行時就能更方便地調用 Python 了。

（二）安裝必要庫

安裝好 Python 后，接下來要安裝我們編寫爬蟲所需的庫。打開命令行或終端（在 Windows 系統中可以通過搜索 “命令提示符” 找到，Mac 系統中可以在 “應用程序 - 實用工具” 中找到 “終端”）。在命令行中運行以下命令來安裝所需的 Python 庫：

pip install requests beautifulsoup4

這里的pip是 Python 的包管理工具，就像一個軟件管家，通過它可以方便地安裝、升級和卸載 Python 庫。requests庫用于發送 HTTP 請求，beautifulsoup4庫用于解析 HTML 數據。安裝過程中，命令行會顯示安裝進度，耐心等待安裝完成即可。

三、編寫第一個簡單爬蟲

現在，我們就來動手實現一個簡單的爬蟲，目標是抓取某個網頁的標題與正文內容。比如說，我們以一個簡單的示例網頁https://example.com為例（實際使用時你可以替換為你感興趣的網頁，但要注意網頁的使用條款和法律規定，確保合法合規地進行數據爬取）。

（一）完整代碼示例

import requestsfrom bs4 import BeautifulSoupdef simple_crawler(url):try:# 發送HTTP請求response = requests.get(url)# 檢查請求狀態response.raise_for_status()# 解析HTML數據soup = BeautifulSoup(response.text, 'html.parser')# 提取網頁標題title = soup.find('title').text# 提取網頁正文段落paragraphs = soup.find_all('p')print(f"網頁標題: {title}")print("網頁內容:")# 遍歷并打印段落內容for p in paragraphs:print(p.text)except requests.exceptions.RequestException as e:print(f"請求失敗: {e}")url = "https://example.com"simple_crawler(url)

（二）代碼逐步解析

發送 HTTP 請求

response = requests.get(url)

這一行代碼使用requests.get()方法向目標網址發起 GET 請求。這里的url就是我們要爬取的網頁地址。requests.get()方法會返回一個response對象，這個對象包含了網頁的全部內容，其中就有我們需要的 HTML 源代碼。就好比你向一個地方發送了一個請求，對方給你寄回了一個包裹，這個包裹里裝著網頁的信息。

檢查請求狀態

response.raise_for_status()

這行代碼借助raise_for_status()方法來檢查請求是否成功。HTTP 協議中有很多狀態碼，比如 200 表示請求成功，404 表示網頁未找到，500 表示服務器內部錯誤等。如果返回的 HTTP 狀態碼代表錯誤，raise_for_status()方法就會觸發異常，這樣我們就能知道請求過程中出現了問題。這就像是你收到包裹后，先檢查一下包裹是否完好無損，如果有問題就及時發現。

解析 HTML 數據

soup = BeautifulSoup(response.text, 'html.parser')

這一步使用BeautifulSoup庫來解析 HTML 內容。response.text就是前面獲取到的網頁 HTML 源代碼，'html.parser'指定使用 Python 內置的 HTML 解析器。BeautifulSoup會把 HTML 內容轉化為一個便于操作的 Python 對象，就像把雜亂的物品整理分類，方便我們后續查找和提取需要的信息。

提取網頁內容

title = soup.find('title').textparagraphs = soup.find_all('p')

find('title')方法用于精準定位 HTML 代碼中的<title>標簽，并通過.text獲取標簽內的文本內容，也就是網頁的標題。find_all('p')方法則是提取所有的段落標簽<p>，并以列表的形式呈現。這就像是在整理好的物品中，專門挑出標題和所有段落的物品。

打印結果

for p in paragraphs:print(p.text)

這部分代碼通過一個循環遍歷提取到的段落內容，并逐一打印每個段落的文本。這樣我們就能在控制臺看到網頁的標題和正文內容了。就像你把挑出的段落物品一個一個拿出來展示。

四、優化爬蟲功能

（一）添加請求頭

有些網站很 “聰明”，會識別并阻止爬蟲程序的訪問。這時候，我們可以通過添加請求頭來模擬瀏覽器的訪問行為，讓網站以為是真實用戶在訪問。比如：

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}response = requests.get(url, headers=headers)

這里的headers就是我們設置的請求頭，User - Agent字段模擬了一個 Chrome 瀏覽器的信息。當我們發送請求時，帶上這個請求頭，網站就更有可能允許我們訪問。

（二）控制爬取頻率

為了避免對目標網站造成過大負載，我們可以在每次請求后合理設置延時。比如：

import timedef delay_request(url):response = requests.get(url)time.sleep(2)return response

在這個函數中，使用time.sleep(2)讓程序暫停 2 秒后再繼續執行下一次請求。這樣可以減輕目標網站的壓力，也能避免因為頻繁請求而被網站封禁。

（三）保存數據

將爬取到的數據妥善保存至文件或數據庫中。

保存至文件：

with open("output.txt", "w", encoding="utf - 8") as f:f.write(f"標題: {title}n")for p in paragraphs:f.write(p.text + "n")

這段代碼使用with open()語句打開一個名為output.txt的文件，以寫入模式（"w"），并指定編碼為utf - 8。然后將網頁標題和段落內容逐行寫入文件中。

保存至 CSV 文件：

import csvwith open("output.csv", "w", newline="", encoding="utf - 8") as csvfile:writer = csv.writer(csvfile)writer.writerow(("段落內容"))for p in paragraphs:writer.writerow((p.text))

這里使用csv模塊將數據保存為 CSV 文件。先創建一個csv.writer對象，然后寫入表頭"段落內容"，再將每個段落內容逐行寫入文件。

五、應對復雜網頁

（一）動態加載網頁

對于由 JavaScript 渲染的網頁，requests庫無法獲取完整內容，因為它不會執行 JavaScript 代碼。這時候我們可以選用selenium或playwright。以selenium為例：

from selenium import webdriverurl = "https://example.com"driver = webdriver.Chrome()driver.get(url)html = driver.page_source

首先導入webdriver模塊，然后創建一個Chrome瀏覽器驅動對象（需要提前下載對應版本的 ChromeDriver 并配置好路徑）。通過driver.get(url)方法打開網頁，driver.page_source可以獲取到經過 JavaScript 渲染后的完整網頁源代碼，這樣就能進一步解析和提取我們需要的數據了。

（二）處理 AJAX 請求

有些網頁會通過 AJAX 請求來動態加載數據。要處理這種情況，我們需要分析網頁的網絡請求，找到 AJAX 請求的 URL 和參數。比如，在 Chrome 瀏覽器中，打開網頁后按 F12 鍵，進入開發者工具，切換到 “Network” 選項卡，刷新網頁，就能看到網頁發起的所有請求。找到 AJAX 請求對應的 URL，然后使用requests庫模擬發送這個請求，獲取數據。例如：

ajax_url = "https://example.com/ajax - data"params = {"param1": "value1", "param2": "value2"}response = requests.get(ajax_url, params=params)data = response.json()

這里ajax_url是 AJAX 請求的 URL，params是請求參數，通過requests.get()方法發送請求，假設返回的數據是 JSON 格式，使用.json()方法將其解析為 Python 的字典或列表形式，方便進一步處理。

結語

恭喜你，勇敢的編程探險家！你已經成功邁出了用 Python 編寫爬蟲的第一步，這是一段充滿無限可能的奇妙旅程的開始。也許在這個過程中，你遇到了一些挑戰，比如代碼報錯、數據提取不準確，但請相信，每一次解決問題都是一次成長。

學會 Python 之后，你的世界將變得更加廣闊。在數據領域，你可以輕松地從互聯網上收集大量數據，進行數據分析和挖掘，發現隱藏在數據背后的規律和價值，無論是用于學術研究、商業決策還是個人興趣項目都非常有用。在自動化辦公方面，Python 爬蟲可以幫你自動獲取工作中需要的信息，如市場數據、行業報告等，大大提高工作效率。甚至在網絡安全領域，你可以利用爬蟲技術進行漏洞掃描和安全評估。所以，不要停下腳步，繼續探索 Python 的世界，不斷學習和實踐，你會發現自己的潛力遠超想象，能夠創造出令人驚嘆的作品。加油，未來的編程大師就是你！