22爬蟲:使用Drission Page的兩個案例

案例一:使用DrissionPage抓取BOSS上的招聘信息

使用requests獲取BOSS網站上的內容是非常困難的,但是通過網頁自動化工具DrissionPage或者是Playwright或者是Seleenium是非常容易的,接下來我們就給出使用DrissionPage爬取BOSS網站python招聘的信息,僅供學習參考。

import time
from DrissionPage import Chromium
import pandas as pdpage = Chromium().latest_tab # 打開一個標簽頁,并讓該標簽頁訪問BOSS直聘
page.listen.start('https://www.zhipin.com/wapi/zpgeek/search/joblist.json') # 監聽對應的能夠返回數據的Ajax請求(監聽可以放在訪問頁面之前也可以放在訪問頁面之后)
page.get('https://www.zhipin.com/yantai/?ka=header-home') # 訪問BOSS直聘page.ele('xpath=//p[@class="ipt-wrap"]/input').input('python')
page.ele('xpath=//button[@class="btn btn-search"]').click()res = page.listen.wait() # 獲取監聽到的Ajax請求的響應
print('res:::',res.response.body)
joblist = res.response.body['zpData']['jobList']for i in range(10):next_btn = page.ele("xpath=//div[@class='options-pages']/a/i[@class='ui-icon-arrow-right']")next_btn_a = next_btn.parent().attr('class') # 取出next_btn標簽父標簽的class屬性if 'disabled' not in next_btn_a:next_btn.click()time.sleep(2)print('爬蟲中---')res = page.listen.wait()joblist += res.response.body['zpData']['jobList']else:print('爬蟲結束')# 數據保存
df = pd.DataFrame(joblist)
df.to_excel('boss直聘.xlsx', index=False)page.close()

?在上述的程序中,我們使用DrissionPage種自帶的監聽技術獲取Ajax相應數據。分析BOSS網站返回的數據,發現他是Ajax請求,當讓頁不可以使用監聽技術,直接等待頁面加載完畢之后定位元素所在的位置即可。

程序運行過程中可能會出現卡在某一個頁面不動了,需要我們手動點擊下一頁(人工接管一下再程序接管)才可以正常運行。

案例二:使用DrissionPage破解瑞數

使用requests破解瑞數是非常困難的,我們接下來仍然使用DrissionPage獲取相應的數據,本代碼僅供大家參考學習。

from DrissionPage import Chromium,ChromiumOptions
import time,random# 定義一個方法用于獲取某個網頁的內容
def get_url_content(page): # 傳入的對象是一個頁面對象li_s = page.eles('xpath=//div[@class="pd0-20"]/ul/li')for li in li_s:title = li.ele('xpath=./a[@class="dy_title"]').text  # 取出標題content = li.ele('xpath=.//p[@class="neirong"]').text  # 取出內容print(title)print(content)print('==========================================')options = ChromiumOptions()
options.auto_port()browser = Chromium(options)
page = browser.latest_tabpage.get(url='https://sugh.szu.edu.cn/Html/News/Columns/7/Index.html',retry=3,timeout=15,interval=3)
get_url_content(page) # 獲取第一頁的page內容next_btn = page.ele('xpath=//a[@class="pagination_nextpage ui-state-default ui-corner-all"]')# 翻頁爬取
while next_btn.attr('href'):next_btn.click()time.sleep(random.randint(3, 5))  # 設置一個等待網頁加載的時間print('正在爬取下一頁-----------------------------------------------------------------------------------')get_url_content(page)  # 獲取下一頁的page內容next_btn = page.ele('xpath=//a[@class="pagination_nextpage ui-state-default ui-corner-all"]')
print('爬蟲結束')page.close()'''
pagination_nextpage ui-state-default ui-corner-all
pagination_lastpage ui-state-default ui-corner-all
'''

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896152.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896152.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896152.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Ubuntu 下 nginx-1.24.0 源碼分析 - ngx_atoi 函數

ngx_atoi 聲明在 src/core/ngx_string.h ngx_int_t ngx_atoi(u_char *line, size_t n); 定義在 src/core/ngx_string.c ngx_int_t ngx_atoi(u_char *line, size_t n) {ngx_int_t value, cutoff, cutlim;if (n 0) {return NGX_ERROR;}cutoff NGX_MAX_INT_T_VALUE / 10;cutlim…

具有整合各亞專科醫學領域知識能力的AI智能體開發綱要(2025版)

整合各亞專科醫學領域知識能力的AI代理的開發與研究 一、引言 1.1 研究背景 在科技飛速發展的當下,人工智能(AI)已成為推動各行業變革的關鍵力量,醫療領域也不例外。近年來,AI 在醫療行業的應用取得了顯著進展,從醫學影像診斷到疾病預測,從藥物研發到個性化醫療,AI 技…

如何設計app測試用例

功能測試 測試方法:等價類劃分法、邊界值法、場景法、因果圖法。優先級設定:核心業務功能設為高優先級。需求覆蓋 正向場景、反向場景、關聯接口串場景 與后端開發確認測試用例是否全面覆蓋后端邏輯。和產品確認用例是否覆蓋本次需求,以及是否…

YOLO11 【四】 【DNF制作自己的數據集,切割視頻以及labelimg 閃退問題】

一、問題labelimg 閃退 一點w打標 labelimg就閃退 **原因 : python 版本太高 ** 解決辦法:單獨創建一個虛擬環境用于打標 conda create -n labelimg python3.9 二、使用python腳本切割視頻 # -*- coding: utf-8 -*- import cv2 import osdef video_…

[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction

論文網址:[2401.10134] Spatial-Temporal Large Language Model for Traffic Prediction 論文代碼:GitHub - ChenxiLiu-HNU/ST-LLM: Official implementation of the paper "Spatial-Temporal Large Language Model for Traffic Prediction" …

k2路由器登錄校園網

教程1刷入Breed,并手動刷入Padavan固件:斐訊K1、K2、K2P 刷機、刷入Breed 輔助工具 | tb (tbvv.net) Padavan下載網址: 我用的是: Padavan 登錄的網址是 192.168.123.1 Padavan配置教程: 先用網線連上校園網&#…

多源 BFS 算法詳解:從原理到實現,高效解決多源最短路問題

多源 BFS 是一種解決 邊權為 1 的多源最短路問題 的高效算法。其核心思想是將所有源點視為一個“超級源點”,通過一次 BFS 遍歷即可計算所有節點到最近源點的最短距離。以下從原理、實現和代碼示例三個方面深入講解: 目錄 一、原理分析 1. 單源 BFS vs…

【藍橋杯集訓·每日一題2025】 AcWing 6123. 哞叫時間 python

6123. 哞叫時間 Week 1 2月18日 農夫約翰正在試圖向埃爾茜描述他最喜歡的 USACO 競賽,但她很難理解為什么他這么喜歡它。 他說「競賽中我最喜歡的部分是貝茜說 『現在是哞哞時間』并在整個競賽中一直哞哞叫」。 埃爾茜仍然不理解,所以農夫約翰將競賽以…

C++,設計模式,【工廠方法模式】

文章目錄 如何用汽車生產線理解工廠方法模式?一、傳統生產方式的困境二、工廠方法模式解決方案三、模式應用場景四、模式優勢分析五、現實應用啟示?C++,設計模式,【目錄篇】 如何用汽車生產線理解工廠方法模式? 某個早晨,某車企CEO看著會議室里堆積如面的新車訂單皺起眉…

貪心算法

int a[1000], b5, c8; swap(b, c); // 交換操作 memset(a, 0, sizeof(a)); // 初始化為0或-1 引導問題 為一個小老鼠準備了M磅的貓糧,準備去和看守倉庫的貓做交易,因為倉庫里有小老鼠喜歡吃的五香豆,第i個房間有J[i] 磅的五香豆&#xf…

機器學習·數據處理

前言 對于大規模數據,我們經常會使用python內置函數或者編寫腳本進行批量化處理,從而提高后續使用算法的效率。 1. 正則表達式 定義:用于檢索、替換符合某個模式的文本,是文本預處理常用技術。基本語法 符號描述.匹配除換行符 …

大廠出品!三個新的 DeepSeek 平替網站

前幾天給大家分享了幾個 DeepSeek 免費平替網站,今天又來更新啦。 新增了以下三個平臺:火山引擎、知乎直達、百度搜索。 經過實際測試,這幾個平臺的服務響應速度快,穩定性表現優異,基本不會出現宕機或服務器繁忙的情…

[創業之路-321]:創新開拓思維和經營管理思維的比較

目錄 一、概述 1.1、定義與內涵 1、創新開拓思維: 2、經營管理思維: 1.2、特點與優勢 1、創新開拓思維的特點與優勢: 2、經營管理思維的特點與優勢: 3、應用場景與限制 4、總結 二、創新開拓思維與經營管理思維&#xf…

《深度學習實戰》第1集:深度學習基礎回顧與框架選擇

本專欄系列博文旨在幫助讀者從深度學習的基礎知識逐步進階到前沿技術,涵蓋理論、實戰和行業應用。每集聚焦一個核心知識點,并結合實際項目進行實踐,避免空談理論,簡潔明快,快速切入代碼,所有代碼都經過驗證…

經典復古嘻哈說唱朋克風格專輯海報標題設計psai英文字體安裝包 Punk Of Sad — Ransom Font

Punk Of Sad 將確保您忘記所有簡潔的線條和企業潤色。這種經典的贖金風格字體是一封寫給 DIY 文化的情書,誕生于雜志、演出海報和地下場景的原始能量的剪切和粘貼混亂。每個字母都是不可預測的,都帶有叛逆的邊緣。 這種字體有三種不同的樣式 – Regular…

hot100-滑動窗口

3. 無重復字符的最長子串 給定一個字符串 s ,請你找出其中不含有重復字符的 最長子串的長度。 思路:雙指針指向不含重復字符的連續字串的頭和尾,用集合存儲子串中的元素,有重復時,左指針持續右移,無重復后…

MariaDB 歷史版本下載地址 —— 筑夢之路

MariaDB 官方yum源里面只有目前在維護的版本,而有時候對于老項目來說還是需要老版本的rpm包,國內很多鏡像站都是同步的官方倉庫,因此下載老版本也不好找,這里主要記錄下從哪里可以下載到歷史版本的MariaDB rpm包。 1. 官方歸檔網…

Linux-Ansible模塊進階

文章目錄 Copy和FetchFile模塊 Copy和Fetch copy和fetch模塊實踐 copy模塊需要注意的點:在收集日志之前需要對文件先進行改名或者備份fetch模塊需要注意的點:復制的源文件的路徑必須是文件不能是目錄建議全部使用絕對路徑,別使用相對路徑確保…

網絡空間安全(1)web應用程序的發展歷程

前言 Web應用程序的發展歷程是一部技術創新與社會變革交織的長卷,從簡單的文檔共享系統到如今復雜、交互式、數據驅動的平臺,經歷了多個重要階段。 一、起源與初期發展(1989-1995年) Web的誕生: 1989年,歐洲…

國產開源PDF解析工具MinerU

前言 PDF的數據解析是一件較困難的事情,幾乎所有商家都把PDF轉WORD功能做成付費產品。 PDF是基于PostScript子集渲染的,PostScript是一門圖靈完備的語言。而WORD需要的渲染,本質上是PDF能力的子集。大模型領域,我們的目標文件格…