用Python采集動態網頁Requests就不那么好用了，試試Selenium

用Python采集動態網頁Requests就不那么好用了，試試Selenium

news/2025/9/10 18:29:18/文章來源:https://blog.csdn.net/sohoqq/article/details/136255847

Requests + BeautifulSoup + 額外的庫：

對于一些簡單的動態內容，你能通過分析網絡請求來找到并直接獲取這些數據。

使用 requests 庫來發送 HTTP 請求，并使用 BeautifulSoup 來解析 HTML。

對于 AJAX 請求，你可能需要使用額外的庫（如 mitmproxy 或 BrowserMob Proxy）來攔截和分析這些請求。

這種方法需要深入了解目標網頁的工作原理和數據加載方式。

采集動態網頁，通常指的是抓取那些通過 JavaScript、AJAX 或其他客戶端腳本技術動態生成內容的網頁。這種網頁在初始加載時可能只包含基本的 HTML 結構，而實際的數據和內容則是通過客戶端腳本在瀏覽器加載后從服務器獲取并動態添加到頁面中的。

為了采集這樣的網頁，你不能僅僅依賴簡單的 HTTP 請求來獲取 HTML 內容，因為這樣會錯過由 JavaScript 加載的數據。相反，你需要模擬瀏覽器的行為，執行 JavaScript 并等待頁面加載完成。

以下是一些 Python 工具和方法，可以幫助你采集動態網頁：

一、Selenium：

Selenium 是一個自動化測試工具，但它也可以用來采集動態網頁。

你可以使用 Selenium 啟動一個瀏覽器實例，并控制它加載和交互網頁。

一旦頁面加載完成，你可以獲取完整的 DOM 結構，包括由 JavaScript 動態添加的內容。

示例代碼：

from selenium import webdriver  driver = webdriver.Chrome()  # 使用 Chrome 瀏覽器

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/697711.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/697711.shtml
英文地址，請注明出處：http://en.pswp.cn/news/697711.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

武漢AAA企業信用等級認證

武漢AAA企業信用等級認證

AAA企業信用等級認證 1. 什么是AAA企業信用等級認證 AAA企業信用等級認證是由國家知名的第三方機構對企業的信用狀況進行評估和認證的一種方式。它是根據企業在市場經濟中所展示出的信用水平、經營實力、企業形象等方面的表現來確定企業的信用等級，以此為企業提供…

閱讀更多...

在線進制轉換工具

在線進制轉換工具

在線進制轉換 - BTool在線工具軟件，為開發者提供方便。在線進制轉換器提供了二進制，八進制，十進制，十六進制等相互轉換功能。

閱讀更多...

Putty中運行matlab文件

Putty中運行matlab文件

首先使用命令 cd /home/ya/CodeTest/Matlab進入路徑：到Matlab文件夾下然后鍵入matlab，進入matlab環境，如果main.m文件在Matlab文件夾下，直接鍵入main即可運行該文件。細節代碼如下： Unable to use key file "y…

閱讀更多...

LeetCode 2828.判別首字母縮略詞

LeetCode 2828.判別首字母縮略詞

給你一個字符串數組 words 和一個字符串 s ，請你判斷 s 是不是 words 的首字母縮略詞。如果可以按順序串聯 words 中每個字符串的第一個字符形成字符串 s ，則認為 s 是 words 的首字母縮略詞。例如，“ab” 可以由 [“apple”, “banana”…

閱讀更多...

【OpenAI官方課程】第三課：ChatGPT文本總結Summarizing

【OpenAI官方課程】第三課：ChatGPT文本總結Summarizing

歡迎來到ChatGPT 開發人員提示工程課程（ChatGPT Prompt Engineering for Developers）！本課程將教您如何通過OpenAI API有效地利用大型語言模型（LLM）來創建強大的應用程序。本課程由OpenAI 的Isa Fulford和 DeepLearn…

閱讀更多...

【數據分析——Python Pandas庫——數據清洗——電商數據分析】

【數據分析——Python Pandas庫——數據清洗——電商數據分析】

引言現如今，我們在電商平臺上購物已經成為日常生活的一部分。對于電商公司而言，如何準確理解消費者的需求，提供更好的服務是非常重要的。在這里，數據分析成為提供關鍵洞察力的工具。Python語言與其數據處理庫Pandas，…

閱讀更多...

K8S部署Java項目 pod報錯 logs日志內容：no main manifest attribute, in app.jar

K8S部署Java項目 pod報錯 logs日志內容：no main manifest attribute, in app.jar

天行健，君子以自強不息；地勢坤，君子以厚德載物。每個人都有惰性，但不斷學習是好好生活的根本，共勉！ 文章均為學習整理筆記，分享記錄為主，如有錯誤請指正，共同學習進步。…

閱讀更多...

hash，以及數據結構——map容器

hash，以及數據結構——map容器

1.hash是什么？ 定義：hash,一般翻譯做散列、雜湊，或音譯為哈希，是把任意長度的輸入（又叫做預映射pre-image）通過散列算法變換成固定長度的輸出， 該輸出就是散列值。這種轉換是一種壓縮映射&…

閱讀更多...

Ubuntu/WSL下生產密鑰腳本

Ubuntu/WSL下生產密鑰腳本

說明： 有時候需要為開發人員配發密鑰，為方便寫了個小腳本，在linux下運行，要求 python10, putty-tools。使用時，在staffList定義用戶列表，運行后程序自動產生對應目錄及密鑰。安裝： apt inst…

閱讀更多...

jenkins報錯：Pseudo-terminal will not be allocated because stdin is not a terminal

jenkins報錯：Pseudo-terminal will not be allocated because stdin is not a terminal

jenkins的流水線部分代碼如下 sh ssh root192.168.2.234 << remotessh cd /var/lib/jenkins/workspace/txkc /usr/local/maven/apache-maven-3.8.6/bin/mvn clean package -U ls remotessh執行流水線出現報錯：Pseudo-terminal will not be allocated because…

閱讀更多...

如何把電腦上的png圖片變為jpg？圖片格式在線轉化的方法

如何把電腦上的png圖片變為jpg？圖片格式在線轉化的方法

由于jpg文件比較小，把png格式轉換后更適合我們的保存和使用，尤其是對于一些平臺上傳來說，很多地方都要求圖片格式為jpg，為了能更順利的上傳，本文就叫大家一個圖片格式轉換的方法，使用壓縮圖網站&#xff0c…

閱讀更多...

第2.1章 StarRocks表設計——概述

第2.1章 StarRocks表設計——概述

注：本篇文章闡述的是StarRocks-3.2版本的表設計相關內容。建表是使用StarRocks非常重要的一環，規范化的表設計在某些場景下能使查詢性能有數倍的提升。StarRocks的表設計涉及到的知識點主要包括數據表類型、數據分布（分區分桶及排序鍵&#…

閱讀更多...

golang命令行工具gtcli,實現了完美集成與結構化的gin腳手架,gin-restful-api開箱即用

golang命令行工具gtcli,實現了完美集成與結構化的gin腳手架,gin-restful-api開箱即用

關于gtools golang非常奈斯，gin作為web框架也非常奈斯，但我們在開發過程中，前期搭建會花費大量的時間，且還不盡人意。為此我集成了gin-restful-api的模板gin-layout，還有腳手架一鍵生成項目。集成相關 ginviperz…

閱讀更多...

【Android】性能優化之內存、網絡、布局、卡頓、安裝包、啟動速度優化

【Android】性能優化之內存、網絡、布局、卡頓、安裝包、啟動速度優化

歡迎來到 Android 開發老生常談的性能優化篇，本文將性能優化劃分為內存、網絡、布局、卡頓、安裝包、啟動速度七塊，從這七塊優化出發，闡述優化的 Application 的方式。目錄內存優化避免內存泄漏使用內存分析工具優化數據結構和算法數據緩存…

閱讀更多...

Jmeter基礎(1) Mac下載安裝啟動

Jmeter基礎(1) Mac下載安裝啟動

目錄 Jmeter下載安裝啟動下載啟動 Jmeter下載安裝啟動注意??：使用jmeter需要有java環境下載官網下載地址：https://jmeter.apache.org/ 會看到這里有兩個版本，那么有什么區別么？ Binaries是可執行版，直接下載解…

閱讀更多...

Python算法題集_圖論(課程表)

Python算法題集_圖論(課程表)

Python算法題集_課程表題207：課程表1. 示例說明2. 題目解析- 題意分解- 優化思路- 測量工具 3. 代碼展開1) 標準求解【循環遞歸全算】2) 改進版一【循環遞歸緩存】3) 改進版二【循環遞歸緩存反向計算】4) 改進版三【迭代剝離計數器檢測】 4. 最優算法5. 相關資源本…

閱讀更多...

Spring整合Junit4和Junit5

Spring整合Junit4和Junit5

1、整合的好處好處1：不需要自己創建IOC容器對象了好處2：任何需要的bean都可以在測試類中直接享受自動裝配 2、操作整合junit4 ①加入依賴 <dependency><groupId>junit</groupId><artifactId>junit</artifactId><…

閱讀更多...

代碼隨想錄算法訓練營第二十三天補|669. 修剪二叉搜索樹 ● 108.將有序數組轉換為二叉搜索樹 ● 538.把二叉搜索樹轉換為累加樹

代碼隨想錄算法訓練營第二十三天補|669. 修剪二叉搜索樹 ● 108.將有序數組轉換為二叉搜索樹 ● 538.把二叉搜索樹轉換為累加樹

平衡樹、二叉樹、靈活應用中序遍歷（值大小有序） 669. 修剪二叉搜索樹給你二叉搜索樹的根節點 root ，同時給定最小邊界low 和最大邊界 high。通過修剪二叉搜索樹，使得所有節點的值在[low, high]中。修剪樹不應該改變保留在樹中…

閱讀更多...

Window部署SkyWalking

Window部署SkyWalking

SkyWalking mysql的驅動依賴選擇下載版本 v9.4 現在后解壓縮目錄結構一、修改config目錄文件 application.yml 修改1： selector: ${SW_STORAGE:h2} 修改后： selector: ${SW_STORAGE:mysql} 修改2：使用mysql數據庫 mysql: properti…

閱讀更多...

通俗易懂分析：Vite和Webpack的區別

通俗易懂分析：Vite和Webpack的區別

1、對項目構建的理解先從瀏覽器出發， 瀏覽器是由瀏覽器內核和JS引擎組成；瀏覽器內核編譯解析html代碼和css代碼，js引擎編譯解析JavaScript代碼；所以從本質上，瀏覽器只能識別運行JavaScript、CSS、HTML代碼。而我們在…

閱讀更多...

最新文章