Python 爬蟲如何偽裝 Referer？從隨機生成到動態匹配

一、Referer 的作用與重要性

Referer 是 HTTP 請求頭中的一個字段，用于標識請求的來源頁面。它在網站的正常運行中扮演著重要角色，例如用于統計流量來源、防止惡意鏈接等。然而，對于爬蟲來說，Referer 也可能成為被識別為爬蟲的關鍵因素之一。許多網站會檢查 Referer 字段，如果發現請求頭中缺少 Referer 或者 Referer 的值不符合預期，網站可能會拒絕服務或者返回錯誤信息。

因此，偽裝 Referer 成為了爬蟲開發者的重要任務。通過合理地設置 Referer，可以降低爬蟲被檢測到的風險，提高數據采集的成功率。

二、隨機生成 Referer

隨機生成 Referer 是一種簡單但有效的偽裝方法。通過生成一些常見的、看似合法的 Referer 值，可以欺騙網站的反爬蟲機制。以下是一個使用 Python 實現隨機生成 Referer 的示例代碼：

import random# 定義一些常見的 Referer 值
referer_list = ["https://www.google.com","https://www.bing.com","https://www.baidu.com","https://www.sogou.com","https://www.yahoo.com","https://www.duckduckgo.com","https://www.yandex.com","https://www.bing.com/search?q=python+爬蟲","https://www.google.com/search?q=python+爬蟲","https://www.sogou.com/web?query=python+爬蟲","https://www.baidu.com/s?wd=python+爬蟲","https://www.yandex.com/search/?text=python+爬蟲","https://www.duckduckgo.com/?q=python+爬蟲"
]# 隨機選擇一個 Referer
def random_referer():return random.choice(referer_list)# 使用 requests 庫發送請求
import requestsdef fetch_with_random_referer(url):headers = {"Referer": random_referer(),"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)return response# 測試
url = "https://example.com"
response = fetch_with_random_referer(url)
print(response.status_code)
print(response.headers)

代碼解析

定義 Referer 列表：我們定義了一個包含常見搜索引擎和搜索結果頁面的 Referer 列表。這些 Referer 值看起來像是用戶通過搜索引擎訪問目標頁面的來源。
隨機選擇 Referer：通過 random.choice() 方法從列表中隨機選擇一個 Referer 值。
發送請求：使用 requests 庫發送 HTTP 請求時，將隨機選擇的 Referer 添加到請求頭中。同時，我們還添加了一個常見的 User-Agent，以進一步偽裝請求。

優點

簡單易實現：隨機生成 Referer 的方法非常簡單，只需要定義一個 Referer 列表并隨機選擇即可。
成本低：不需要復雜的邏輯和額外的資源，適合初學者快速上手。

缺點

容易被識別：雖然隨機生成的 Referer 可以欺騙一些簡單的反爬蟲機制，但對于復雜的網站，這種方法可能很容易被識別。因為隨機生成的 Referer 可能與實際的用戶行為模式不一致。

三、動態匹配 Referer

為了進一步提高偽裝效果，我們可以采用動態匹配 Referer 的方法。動態匹配是指根據目標網站的頁面結構和鏈接關系，動態生成合理的 Referer 值。這種方法需要對目標網站的結構進行分析，并根據實際的用戶行為路徑生成 Referer。

以下是一個動態匹配 Referer 的實現示例：

import requests
from bs4 import BeautifulSoup# 獲取目標頁面的鏈接
def get_links(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, "html.parser")links = []for link in soup.find_all("a", href=True):links.append(link["href"])return links# 動態生成 Referer
def dynamic_referer(url, links):# 選擇一個與目標頁面相關的鏈接作為 Refererreferer = random.choice(links)if not referer.startswith("http"):referer = url + refererreturn referer# 使用動態 Referer 發送請求
def fetch_with_dynamic_referer(url):links = get_links(url)referer = dynamic_referer(url, links)headers = {"Referer": referer,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)return response# 測試
url = "https://example.com"
response = fetch_with_dynamic_referer(url)
print(response.status_code)
print(response.headers)

代碼解析

獲取目標頁面的鏈接：使用 requests 和 BeautifulSoup 庫獲取目標頁面的 HTML 內容，并解析出頁面中的所有鏈接。
動態生成 Referer：從獲取到的鏈接列表中隨機選擇一個鏈接作為 Referer 值。如果鏈接是相對路徑，則將其轉換為絕對路徑。
發送請求：將動態生成的 Referer 添加到請求頭中，并發送請求。

優點

偽裝效果更好：動態生成的 Referer 更符合實際的用戶行為模式，因為它是根據目標頁面的實際鏈接關系生成的。
適應性強：這種方法可以根據不同的目標網站動態調整 Referer，具有較強的適應性。

缺點

實現復雜：需要對目標網站的結構進行分析，并且需要解析 HTML 內容，實現成本較高。
性能問題：動態生成 Referer 的過程需要額外的網絡請求和解析操作，可能會對爬蟲的性能產生一定影響。

四、結合代理和 IP 池

除了偽裝 Referer，結合代理和 IP 池可以進一步提高爬蟲的偽裝效果和穩定性。代理服務器可以隱藏爬蟲的真實 IP 地址，而 IP 池可以提供多個代理 IP，避免因頻繁訪問而被封禁。

以下是一個結合代理和 IP 池的實現示例：

import random
import requests
from requests.auth import HTTPProxyAuth# 定義代理服務器信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 構造代理地址
proxy_url = f"http://{proxyHost}:{proxyPort}"# 定義代理認證信息
proxy_auth = HTTPProxyAuth(proxyUser, proxyPass)# 動態生成 Referer（假設 get_links 和 dynamic_referer 函數已定義）
def get_links(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, auth=proxy_auth)soup = BeautifulSoup(response.text, "html.parser")links = []for link in soup.find_all("a", href=True):links.append(link["href"])return linksdef dynamic_referer(url, links):referer = random.choice(links)if not referer.startswith("http"):referer = url + refererreturn referer# 使用動態 Referer 和代理發送請求
def fetch_with_proxy_and_referer(url):links = get_links(url)referer = dynamic_referer(url, links)headers = {"Referer": referer,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}proxies = {"http": proxy_url,"https": proxy_url}response = requests.get(url, headers=headers, proxies=proxies, auth=proxy_auth)return response# 測試
url = "https://example.com"
response = fetch_with_proxy_and_referer(url)
print(response.status_code)
print(response.headers)

代碼解析

定義代理 IP 池：定義一個包含多個代理 IP 的列表。
隨機選擇代理：通過 random.choice() 方法從代理 IP 池中隨機選擇一個代理。
發送請求：將動態生成的 Referer 和隨機選擇的代理添加到請求中，并發送請求。

優點

偽裝效果更強：結合代理和 IP 池可以同時隱藏爬蟲的真實 IP 地址和偽裝 Referer，大大提高了偽裝效果。
穩定性更高：使用 IP 池可以避免因頻繁訪問而被封禁，提高了爬蟲的穩定性。

總結

偽裝 Referer 是 Python 爬蟲中應對反爬蟲機制的重要手段之一。通過隨機生成 Referer 和動態匹配 Referer，可以有效降低爬蟲被檢測到的風險。結合代理和 IP 池，可以進一步提高爬蟲的偽裝效果和穩定性。在實際應用中，開發者需要根據目標網站的反爬蟲機制和自身的需求，選擇合適的偽裝方法。