Java使用Selenium反爬蟲優化方案

當我們爬取大站的時候,就得需要對抗反爬蟲機制的場景,因為項目要求使用Java和Selenium。Selenium通常用于模擬用戶操作,但效率較低,所以需要我們結合其他技術來實現高效。

在這里插入圖片描述

在 Java 中使用 Selenium 進行高效反爬蟲對抗時,需結合特征隱藏、行為模擬、代理管理及驗證碼處理等策略,以下為系統性優化方案及代碼實現:

一、特征隱藏:消除自動化痕跡

Selenium 暴露的 JS 特征(如 window.navigator.webdriver=true)是主要檢測點。需通過啟動參數和 JS 注入主動消除:

1. 修改瀏覽器啟動參數
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;public class StealthDriver {public static ChromeDriver createStealthDriver() {ChromeOptions options = new ChromeOptions();// 關鍵:排除自動化標志options.setExperimentalOption("excludeSwitches", List.of("enable-automation"));options.addArguments("--disable-blink-features=AutomationControlled");return new ChromeDriver(options);}
}
2. 注入 JS 重寫 Navigator 屬性

在頁面加載前覆蓋關鍵屬性:

import org.openqa.selenium.JavascriptExecutor;public class NavigatorMask {public static void maskWebDriver(ChromeDriver driver) {String js = "Object.defineProperty(navigator, 'webdriver', { get: () => undefined });";((JavascriptExecutor) driver).executeScript(js);}
}

作用:使 navigator.webdriver 返回 undefined

二、行為模擬:模仿人類操作模式

通過隨機化操作間隔、鼠標軌跡等降低行為規律性:

1. 隨機化操作間隔
import java.util.Random;public class HumanBehavior {public static void randomDelay(int minMs, int maxMs) throws InterruptedException {int delay = minMs + new Random().nextInt(maxMs - minMs);Thread.sleep(delay);}
}// 使用示例
HumanBehavior.randomDelay(1000, 5000); // 隨機等待1~5秒
2. 模擬鼠標移動與點擊

使用 Actions 類實現非線性移動:

import org.openqa.selenium.interactions.Actions;
import org.openqa.selenium.WebElement;public void simulateHumanClick(WebElement element, ChromeDriver driver) {Actions actions = new Actions(driver);actions.moveToElement(element, randomOffset(), randomOffset()) // 隨機偏移坐標.pause(Duration.ofMillis(500)).click().perform();
}private int randomOffset() {return new Random().nextInt(20) - 10; // -10~10像素偏移
}

三、代理與請求管理:分散訪問源

避免 IP 封禁需結合代理池和請求頭動態化:

1. 代理 IP 池集成
import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import java.util.List;
import java.util.Random;public class ProxyManager {private static final List<String> PROXY_LIST = List.of("ip1:port", "ip2:port"); // 代理池public static Proxy getRandomProxy() {String proxyAddr = PROXY_LIST.get(new Random().nextInt(PROXY_LIST.size()));Proxy proxy = new Proxy();proxy.setHttpProxy(proxyAddr);return proxy;}
}// 使用示例
ChromeOptions options = new ChromeOptions();
options.setProxy(ProxyManager.getRandomProxy());
WebDriver driver = new ChromeDriver(options);
2. 動態請求頭設置
options.addArguments("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...");
options.addArguments("referer=https://google.com"); // 動態變換引用來源

四、驗證碼處理:半自動與自動化結合

1. 人工介入型驗證碼
import java.util.Scanner;public class CaptchaSolver {public static String solveManually(WebElement captchaImage) {System.out.println("請查看瀏覽器中的驗證碼并輸入:");return new Scanner(System.in).nextLine();}
}// 使用:輸入框.sendKeys(CaptchaSolver.solveManually(captchaImage));
2. 第三方 API 集成(如 2Captcha)
import com.twocaptcha.TwoCaptcha;public String solveViaAPI(String imageUrl) {TwoCaptcha solver = new TwoCaptcha("API_KEY");return solver.normal(imageUrl); // 返回識別結果
}

五、Cookie 復用:繞過登錄限制

通過手動獲取 Cookie 實現免登錄訪問:

import org.openqa.selenium.Cookie;public void loadCookies(ChromeDriver driver) {driver.get("https://example.com/login");// 手動登錄后獲取Cookie并存儲到文件/數據庫Set<Cookie> cookies = driver.manage().getCookies();// 后續自動加載cookies.forEach(cookie -> driver.manage().addCookie(cookie));driver.navigate().refresh(); // 刷新后生效
}

六、高級技巧:無頭瀏覽器與底層協議控制

1. 接管已開啟的瀏覽器會話

繞過部分指紋檢測:

# 命令行啟動Chrome
chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium_profile"
ChromeOptions options = new ChromeOptions();
options.setExperimentalOption("debuggerAddress", "127.0.0.1:9222");
WebDriver driver = new ChromeDriver(options); // 接管現有會話
2. 使用無頭瀏覽器(Headless Chrome)
options.addArguments("--headless=new"); // Chrome 111+ 推薦語法

注意:無頭模式更易被檢測,需配合特征隱藏使用。

最佳實踐總結

策略適用場景關鍵優勢
JS 特征重寫所有基于檢測的網站根本性繞過自動化標志
隨機行為模擬行為分析型反爬(如鼠標軌跡監測)大幅降低行為規律性
動態代理池IP 高頻訪問封禁場景分散請求源,避免黑名單
Cookie 復用登錄態驗證的網站跳過登錄流程,減少驗證碼觸發
graph LR
A[啟動Driver] --> B[注入JS隱藏特征]
B --> C[加載代理/IP池]
C --> D[模擬人類操作]
D --> E{遇到驗證碼?}
E -->|是| F[人工/API解決]
E -->|否| G[提取數據]
F --> G
G --> H[存儲結果]

通過組合使用特征隱藏(JS 重寫 + 啟動參數)、行為模擬(隨機延遲 + 鼠標移動)、資源管理(動態代理 + Cookie 復用),可顯著提升 Selenium 在 Java 環境中的反爬能力。復雜驗證碼場景推薦結合第三方 API 實現自動化突破。

以上就是今天全部的內容,如果有任何疑問都可以留言交流交流。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86693.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86693.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86693.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

狀態管理方案對比與決策

1. 狀態管理的基本概念 現代前端應用隨著功能復雜度提升&#xff0c;狀態管理已成為架構設計的核心挑戰。狀態管理本質上解決的是數據的存儲、變更追蹤和響應式更新問題&#xff0c;以確保UI與底層數據保持同步。 核心挑戰: 狀態共享與組件通信可預測的狀態變更性能優化與重…

Fetch與Axios:區別、聯系、優缺點及使用差異

Fetch與Axios&#xff1a;區別、聯系、優缺點及使用差異 文章目錄 Fetch與Axios&#xff1a;區別、聯系、優缺點及使用差異一、聯系二、區別1. 瀏覽器支持與兼容性2. 響應處理3. 請求攔截和響應攔截4. 錯誤處理 三、優缺點1. Fetch API優點缺點 2. Axios優點缺點 四、使用上的差…

【Docker】快速入門與項目部署實戰

我們在部署一個項目時&#xff0c;會出現一系列問題比如&#xff1a; 命令太多了&#xff0c;記不住軟件安裝包名字復雜&#xff0c;不知道去哪里找安裝和部署步驟復雜&#xff0c;容易出錯 其實上述問題不僅僅是新手&#xff0c;即便是運維在安裝、部署的時候一樣會覺得麻煩…

Java面試題尚硅谷版第1季

1、寫出如下代碼運行結果 1.1、 使用局部變量表和操作數棧解題 1.2、使用前置和后置遞增解題 2、寫一個單例模式 2.1、考察知識點 2.2、單例模式實現 3、類加載和初始化順序 package classload;public class Father {private int i test();private static int j method();st…

關于Qt阻斷樣式繼承的解決辦法

引言 在使用 Qt 開發桌面應用時&#xff0c;借助樣式表&#xff08;StyleSheet&#xff09;來統一定義界面風格是非常常見的做法。通常&#xff0c;你會在主程序中通過 qApp->setStyleSheet(...) 或者直接給某個父控件設置樣式表&#xff0c;讓所有的子控件都采用相同的配色…

鼠標右鍵添加新建某種文件的方法

場景 我經常用到.emmx&#xff0c;.eddx文件&#xff0c;電腦上裝的是wpsX億圖&#xff08;因為有wps會員&#xff09;&#xff0c;沒有開億圖會員。 然后問題就是&#xff0c;思維導圖和流程圖我都能正常開&#xff0c;正常編輯&#xff0c;但鼠標右鍵沒有新建這兩個文件的按…

Inxpect安全雷達傳感器與控制器:動態檢測 + 抗干擾技術重構工業安全防護體系

Inxpect 推出工業安全領域新型智能傳感器與控制器&#xff0c;其核心產品為雷達掃描儀&#xff0c;具備動態調整檢測區域、抗干擾能力強等特點&#xff0c;可精準檢測危險區域人員進入或存在情況&#xff0c;適用于移動機器人等場景。 Inxpect安全雷達傳感器核心功能 動態檢測…

【AI學習】李廣密與階躍星辰首席科學家張祥雨對談:多模態發展的歷史和未來

仔細閱讀了文章《專訪張祥雨&#xff1a;多模態推理和自主學習是未來的 2 個 「GPT-4」 時刻》 https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw 非常贊嘆的一篇文章&#xff0c;說清楚了NLP、CV發展中的許多重大問題&#xff0c;讀來醍醐灌頂&#xff01;這樣的文章&…

C++中std::deque詳解和實戰工程代碼示例

C中std::deque詳解和實戰工程代碼示例 std::deque&#xff08;雙端隊列&#xff09;是 C 標準庫中的一個序列容器&#xff0c;與 std::vector 類似&#xff0c;但它支持從頭部和尾部高效地插入和刪除元素。它底層采用分段連續空間實現&#xff0c;兼具靈活性與性能。 一、基本…

【AI大模型入門指南】概念與專有名詞詳解 (二)

【AI大模型入門指南】概念與專有名詞詳解 &#xff08;二&#xff09; 一 、前言 當你和聊天機器人聊得天花亂墜時&#xff0c;當你用文字讓AI生成精美圖片時&#xff0c;當手機相冊自動幫你分類照片時 —— 這些看似智能的操作背后&#xff0c;都藏著 AI 大模型的身影。 本…

AIStor 的模型上下文協議 (MCP) 服務器:管理功能

在本系列的上一篇博文中&#xff0c;我們討論了 MinIO AIStor 的模型上下文協議 (MCP) 服務器的基本用戶級功能。我們學習了如何使用人類語言命令查看存儲桶的內容、分析對象并標記它們以便將來處理&#xff0c;以及如何通過 LLM&#xff08;例如 Anthropic Claude&#xff09;…

期權末日輪實值期權盈利未平倉怎么辦?

本文主要介紹期權末日輪實值期權盈利未平倉怎么辦&#xff1f;期權末日輪實值期權盈利未平倉該怎么辦&#xff0c;需要明確幾個關鍵點&#xff1a;末日輪指的是期權到期日臨近的時候&#xff0c;通常指最后一周&#xff0c;尤其是最后一天&#xff0c;這時候時間價值衰減很快&a…

C++/Qt 聯合編程中的定時器使用陷阱:QObject::startTimer 報錯詳解

在 Qt 開發中&#xff0c;QTimer 是一個常用的工具類&#xff0c;用于處理定時事件。但不少開發者在 C/Qt 聯合編程&#xff0c;尤其是在工具類、靜態類、線程中使用定時器時&#xff0c;會遇到如下令人困惑的報錯&#xff1a; QObject::startTimer: Timers can only be used …

CentOS7.9 查詢運維安全日志,排查惡意用戶

1、查看系統版本 cat /etc/redhat-release uname -a 2、查看所有賬號 cat /etc/shadow 3、修改 root 密碼 passwd 3、查看賬號ID id jinzhi 4、查看登錄日志 lastlog 5、查看操作日志 cat .bash_history sudo cat /home/yunwei/.bash_history sudo grep root /va…

多模態大語言模型arxiv論文略讀(117)

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ?? 論文標題&#xff1a;Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ?? 論文作者&#xff1a;Ren-Di Wu, Yu-Yen L…

如何正確的配置eureka server集群

將 Eureka Server 實例的 hostname 都配置成相同的值&#xff0c;在 Eureka Server 集群環境下同樣是不推薦且通常會導致嚴重問題的&#xff0c; 核心問題&#xff1a;Eureka Server 集群的工作機制 Eureka Server 集群通過相互注冊&#xff08;Peering&#xff09;來實現高可…

AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用

查看原文>>> 從入門到精通-AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用 結合ArcGIS和GPT的優勢&#xff0c;本文重點進行AI大模型應用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力數據讀取與處理、AI助力空間分析、AI助力遙感…

vue3-ts: v-model 和 props 的關系

在 Vue.js 中&#xff0c;v-model 是一個語法糖&#xff0c;它實際上是 :value 和 input 事件的組合。 當你使用 v-model 綁定一個組件時&#xff0c;默認情況下&#xff0c;組件會通過 props 接收 value 這個 prop&#xff0c; 并通過觸發 input 事件來更新父組件中的數據。 …

學車筆記 變擋

超15就可以加一檔了 有些人對手動擋的檔位有一些誤解_嗶哩嗶哩_bilibili 獻給所有新司機.開手動檔擺脫頓挫的根本方法.學會看轉速!沒那么復雜!_嗶哩嗶哩_bilibili 減速到怠速降一檔

STM32的DMA簡介

STM32的DMA簡介 一、DMA概述 DMA&#xff08;Direct Memory Access&#xff0c;直接存儲器存取&#xff09;是一種硬件機制&#xff0c;它允許外設和存儲器之間或者存儲器和存儲器之間進行高速數據傳輸&#xff0c;而無需CPU的干預。這種機制可以極大地節省CPU資源&#xff0c…