python爬取js動態網頁_Python 爬取網頁中JavaScript動態添加的內容（一）

python爬取js動態網頁_Python 爬取網頁中JavaScript動態添加的內容（一）

news/2025/8/14 23:12:32/文章來源:https://blog.csdn.net/weixin_39674414/article/details/109877441

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 數據中提取出有效的信息。但是如果網頁中含有 JavaScript 代碼，我們必須經過渲染處理才能獲得原始數據。此時，如果我們仍采用常規方法從中抓取數據，那么我們將一無所獲。那么，通過Web kit可以簡單解決這個問題。Web kit 可以實現瀏覽器所能處理的任何事情。對于某些瀏覽器來說，Web kit就是其底層的網頁渲染工具。Web kit是QT庫的一部分，因此如果你已經安裝QT和PyQT4庫，那么你可以直接運行之。

1、環境準備

Linux：sudo apt-get install python-qt4

2、使用

首先通過 Web kit 發送請求信息，然后等待網頁被完全加載后將其賦值到某個變量中。接下來我們利用lxml從 HTML 數據中提取出有效的信息。這個過程需要一點時間。

importsysfrom PyQt4.QtWebKit import *

from PyQt4.QtGui import *

from PyQt4.QtCore import *

class Render(QWebPage): #用來渲染網頁,將url中的所有信息加載下來并存到一個新的框架中

def __init__(self,url):

self.app=QApplication(sys.argv)

QWebPage.__init__(self)

self.loadFinished.connect(self._loadFinished)

self.mainFrame().load(QUrl(url))

self.app.exec_()def_loadFinished(self, result):

self.frame=self.mainFrame()

self.app.quit()

url= 'http://jandan.net/ooxx'r=Render(url)

html=r.frame.toHtml()print(html)

那么，后面的工作就是解析HTML代碼了，這里不做講解。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/542771.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/542771.shtml
英文地址，請注明出處：http://en.pswp.cn/news/542771.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

mac mysql 忘記密碼卸載_MySQL忘記密碼后重置密碼（Mac ）

mac mysql 忘記密碼卸載_MySQL忘記密碼后重置密碼（Mac ）

轉：http://www.cnblogs.com/lihuanqing/p/5623872.html安裝好MySQL以后，系統給了個默認的的密碼，然后不小心關了，慘了密碼沒有了。1、關閉mysql服務器 sudo /usr/local/mysql/support-files/mysql.server stop 也可以在系統偏好里…

閱讀更多...

MATLAB學習——變量、數組

MATLAB學習——變量、數組

變量、數組變量賦值顯示格式數組一維數組生成數組元素提取提取單個元素抽取二維數組生成數組提取提取單個元素提取子矩陣添加字符數組空數組變量賦值賦值語句一般形式：變量數、字符或表達式 a 1 #自定義為雙精度double x x y 1*2*3顯示格式可以…

閱讀更多...

Nginx嚴格訪問代理HTTP資源

Nginx嚴格訪問代理HTTP資源

為什么80%的碼農都做不了架構師？>>> 1 嚴格訪問訪問能基于客戶端的IP地址允許或拒絕或使用基于HTTP驗證。為了允許或拒絕從某個地址及或所有地址的訪問，使用allow和deny指令： location / { deny 192.168.1.2; allow 192.168…

閱讀更多...

Java LinkedList公共布爾boolean offerLast（Object o）方法（帶示例）

Java LinkedList公共布爾boolean offerLast（Object o）方法（帶示例）

LinkedList公共布爾布爾offerLast(Object o)方法 (LinkedList public boolean offerLast(Object o) method) This method is available in package java.util.LinkedList.offerLast(Object o). 軟件包java.util.LinkedList.offerLast(Object o)中提供了此方法。 This method is…

閱讀更多...

csv 字符串_Python實現json轉csv格式

csv 字符串_Python實現json轉csv格式

利用Python實現json格式轉換為csv文件格式前言本文是學校的課程設計，這里我沒有用封裝好的json庫來實現，而是把讀進來的文件當一個字符串來處理，核心函數其實是python的eval()類型轉換函數。什么是 JSON?我們要考慮到json格式下key-value對的…

閱讀更多...

MATLAB學習——常用語句

MATLAB學習——常用語句

MATLAB學習——常用語句if語句if endif elseif elseifswitch語句for語句while語句if語句 if end n input(n); if rem(n,2) 0A even endif else n input(n); #輸入空數組判斷為odd if rem(n,2) 0A even elseA odd endif elseif n input(n); if rem(n,2) 0;even els…

閱讀更多...

mysql 線性表_數據結構之線性表

mysql 線性表_數據結構之線性表

概要參考《大話數據結構》，把常用的基本數據結構梳理一下。線性表定義線性表(List)：零個或多個數據元素的有限序列。若將線性表記為 \((a_1, \cdots, a_{i-1}, a_i, a_{i1}, \cdots, a_n)\)，則表中 \(a_{i-1}\) 領先于 \(a_i\)，\(…

閱讀更多...

使用JavaScript修改瀏覽器URL地址欄的實現代碼

使用JavaScript修改瀏覽器URL地址欄的實現代碼

現在的瀏覽器里,有一個十分有趣的功能，你可以在不刷新頁面的情況下修改瀏覽器URL;在瀏覽過程中.你可以將瀏覽歷史儲存起來，當你在瀏覽器點擊后退按鈕的時候，你可以沖瀏覽歷史上獲得回退的信息，這聽起來并不復雜，是可以…

閱讀更多...

ruby array_在Ruby中使用Array.pop和Array.shift方法從Array中刪除元素

ruby array_在Ruby中使用Array.pop和Array.shift方法從Array中刪除元素

ruby arrayRuby Array.pop和Array.shift方法 (Ruby Array.pop and Array.shift methods) If you are reading an article that is related to deleting elements from the instance of Array class then it is expected from you that you are aware of the basic things relat…

閱讀更多...

python語言百分號的含義_python中百分號意思的是什么

python語言百分號的含義_python中百分號意思的是什么

python中百分號意思的是什么發布時間：2020-07-09 16:38:13 來源：億速云閱讀：158 python中百分號意思的是什么？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有…

閱讀更多...

MATLAB學習——矩陣

MATLAB學習——矩陣

矩陣矩陣運算算術運算基本算術運算點運算關系運算邏輯運算元素處理取整取模和取余矩陣分析與處理矩陣行列式、秩與跡、特征值分析矩陣的逆與線性方程組求解矩陣的分解與變換矩陣運算算術運算基本算術運算 #檢查矩陣階數[n,m] size(A),l length(A) A [1 2;3 4] B [1 1;…

閱讀更多...

sqldeveloper mysql遷移_通過SQL Developer工具將MySQL數據庫內容遷移至Oracle的步驟

sqldeveloper mysql遷移_通過SQL Developer工具將MySQL數據庫內容遷移至Oracle的步驟

通過SQL Developer工具將MySQL數據庫內容遷移至Oracle的步驟發布時間：2020-06-08 15:52:18來源：51CTO閱讀：210作者：三月本篇文章給大家主要講的是關于通過SQL Developer工具將MySQL數據庫內容遷移至Oracle的步驟的內容&#xff0c…

閱讀更多...

未能成功加載擴展程序_【JAVA虛擬機（JVM）精髓】09-幾種不同的類加載器

未能成功加載擴展程序_【JAVA虛擬機（JVM）精髓】09-幾種不同的類加載器

持續更新JVM相關知識，敬請關注：Java虛擬機精髓專欄?zhuanlan.zhihu.com上一節說了下類加載器和類加載過程。這一節我們看下幾種不同的類加載器。JVM支持的類加載器有兩類，分別是引導類加載器和自定義加載器。這里的自定義自定義加載器&#…

閱讀更多...

Oracle .事物，提交，回滾

Oracle .事物，提交，回滾

事物（transaction） -->作為單個邏輯工作單元執行的一系列操作（要么全部成功要么全部失敗） 提交（commit） -->系列操作全部成功的場合才會執行回滾（rollback） -->系列操作其…

閱讀更多...

perl 哈希數組的哈希_第一個元素使用哈希在數組中出現K次

perl 哈希數組的哈希_第一個元素使用哈希在數組中出現K次

perl 哈希數組的哈希Prerequisite: Hashing data structure 先決條件： 哈希數據結構 Problem statement: 問題陳述： Find the first element occurring K times in the array. 查找數組中出現K次的第一個元素。 Example: 例： Input array…

閱讀更多...

圖片md5修改工具_如何修改視頻和圖片的MD5，用電腦自帶的命令

圖片md5修改工具_如何修改視頻和圖片的MD5，用電腦自帶的命令

首先說下，md5到底是啥，它是一段固定長度的數據。無論原始數據是多長或多短，其MD5值都是128bit。另外md5是確定性，一個原始數據的MD5值是唯一的，同一個原始數據不可能會計算出多個不同的MD5值；類似人類的身份…

閱讀更多...

iOS - UISearchController

iOS - UISearchController

前言 NS_CLASS_DEPRECATED_IOS(3_0, 8_0, "UISearchDisplayController has been replaced with UISearchController")interface UISearchDisplayController : NSObjectavailable(iOS, introduced3.0, deprecated8.0, message"UISearchDisplayController has bee…

閱讀更多...

浮點數轉換為整數四舍五入_定義宏以將浮點值四舍五入為C中最接近的整數

浮點數轉換為整數四舍五入_定義宏以將浮點值四舍五入為C中最接近的整數

浮點數轉換為整數四舍五入Given a float value and we have to round the value to the nearest integer with the help of Macro in C language. 給定一個浮點值，我們必須借助C語言中的Macro將其舍入到最接近的整數。 Macro Definition: 宏定義： #def…

閱讀更多...

c語言遍歷文件內容_C語言學習第28篇---動態內存分配剖析

c語言遍歷文件內容_C語言學習第28篇---動態內存分配剖析

為什么C語言要動態分配內存的意義？1.C語言中的一切操作都是基于內存的2.變量和數組都是內存的別名---內存分配由編譯器在編譯期間決定的---定義數組的時候必須指定數組長度---數組長度是在編譯期就必須確定的需求：程序運行的過程中，可能需要使…

閱讀更多...

重啟mysql的命令 linux_linux重啟mysql命令

重啟mysql的命令 linux_linux重啟mysql命令

如何啟動/停止/重啟MySQL一、啟動方式1、使用 service 啟動：service mysqld start2、使用 mysqld 腳本啟動：/etc/inint.d/mysqld start3、使用 safe_mysqld 啟動：safe_mysqld&二、停止1、使用 service 啟動：service mysqld s…

閱讀更多...

最新文章