【Python】讓Selenium 像Beautifulsoup一樣,用解析HTML 結構的方式提取元素!

我在使用selenium的find_element的方式去獲取網頁元素,一般通過xpath、css_selector、class_name的方式去獲取元素的絕對位置。

但是有時候如果網頁多了一些彈窗或者啥之類的,絕對位置會發生變化,使用xpath等方法,需要經常變動。

于是我在想,能不能讓selenium也能像Beautifulsoup一樣,可以根據html的結構找到需要的部分,并解析出來。

在這里插入圖片描述

方法:

  1. 復制那里的css_selector
  2. 對比css_selector的構建和html上的元素的上下位置
products=page_soup.find('div', {'id': 'List'}).ul.findAll("li") #找到最大的那個位置
for product in products:# 提取商品鏈接link_element = product.find_element(By.CSS_SELECTOR, "p-name  a")product_link = link_element.get_attribute("href")product_title = link_element.get_attribute("title")

寫法類似beautifulsoup的寫法。

  1. 如果想要多個條件并列,寫法:
   tags_elements = product.find_elements(By.CSS_SELECTOR, "div.p-icons img, div.p-icons i")

這個是想同時獲得icons 下的img 和i 的節點元素的內容。

  1. 提取上一級或者下一級的寫法:

例如:提取 div 的p-icons的,下一級元素img;
在這里插入圖片描述

css_selector : #J_pro_100151669791 > img:nth-child(1)
在div class為“p-icons”下的

具體寫法:

 tags_elements = product.find_elements(By.CSS_SELECTOR, "div.p-icons  img:nth-child(1)")
  1. 提取其中的具體標簽值,例如 像上面的desc的:
for tag_element in tags_elements:tag = tag_element.get_attribute("desc") or tag_element.textif "XX超市" in tag or "五星旗艦店" in tag or "自營" in tag:tags.append(tag.strip())

可以批量判斷是否為這個標簽值


總的寫法:

for product in products:print()# 提取商品鏈接 link_element = product.find_element(By.CSS_SELECTOR, "div.p-name a")#print('提取商品鏈接:',link_element)#產品鏈接 產品名稱product_link = link_element.get_attribute("href") #產品鏈接product_title = link_element.text #產品名稱print(product_title)print('提取商品鏈接:',product_link)#價格     product_price_element = product.find_element(By.CSS_SELECTOR, "div.p-price i")product_price = product_price_element.text if product_price_element else "無"print(product_price)#評價數 #warecard_10116099611938 > div.p-commit > strongcomment_count_element = product.find_element(By.CSS_SELECTOR, "div.p-commit a")comment_count = comment_count_element.text if comment_count_element else "無"print(comment_count)# 提取店鋪名稱shop_name_element = product.find_element(By.CSS_SELECTOR, "div.p-shop a, div.p-shop span")  ##warecard_10129282745285 > div.p-shop > spanshop_name = shop_name_element.text if shop_name_element else "無"print(shop_name)#劃線價original_price= is_exist_element(product,"div.p-price span.originalPrice")print(original_price)#自營is_self_operated = is_extact_element_element(product,"div.p-name.p-name-type-2 img","alt","自營")print(is_self_operated)#X東超市is_jd_supermarket = is_extact_element_element(product, "div.p-icons img","desc",'XX超市')print(is_jd_supermarket)#5星店鋪  is_five_star = is_element(product,"div.p-shop img")print(is_five_star)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904555.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904555.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904555.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用xlwings將excel表中將無規律的文本型數字批量轉化成真正的數字

之前我寫了一篇文章excel表中將無規律的文本型數字批量轉化成真正的數字-CSDN博客 是使用excel自帶的操作,相對繁瑣。 今天使用xlwings操作,表格如下(有真正的數字,也有文本型數字,混在在一起)&#xff1…

ICML 2025錄取率公布,spotlight posters僅占2.6%

近日,ICML 2025公布了論文錄用結果。本次大會共收到 12,107篇有效論文投稿,比去年增加了28%,今年錄取論文3,260篇,錄取率為 26.9%。其中僅有313篇被列為“焦點海報”(即所有投稿中排名前2.6%的論文)&#x…

全局網絡:重構數字時代的連接范式

從局部到全局 —— 網絡架構的范式革命 在全球化與數字化深度融合的今天,傳統網絡架構的 “碎片化” 問題日益凸顯:跨地域數據流通低效、設備互聯孤島化、安全策略難以統一。 全局網絡作為一種突破地域與技術邊界的新型網絡架構,正成為企業…

SpringAI實現AI應用-內置顧問

SpringAI實戰鏈接 1.SpringAl實現AI應用-快速搭建-CSDN博客 2.SpringAI實現AI應用-搭建知識庫-CSDN博客 3.SpringAI實現AI應用-內置顧問-CSDN博客 4.SpringAI實現AI應用-使用redis持久化聊天記憶-CSDN博客 5.SpringAI實現AI應用-自定義顧問(Advisor&#xff09…

Nginx核心原理以及案例分析(AI)

一、Nginx核心原理分析 1. ?事件驅動與非阻塞模型? ?Epoll異步機制?:基于Linux的epoll模型實現異步非阻塞I/O處理,單線程可高效管理數萬并發連接,避免傳統select模型的輪詢性能瓶頸。?多進程架構?:采用Master-Worker模式&…

【Bug經驗分享】SourceTree用戶設置必須被修復/SSH 主機密鑰未緩存(踩坑)

文章目錄 配置錯誤問題原因配置錯誤問題解決主機密鑰緩存問題原因主機密鑰緩存問題解決 更多相關內容可查看 配置錯誤問題原因 電腦太卡,曾多次強制關機,在關機前沒有關閉SourceTree,導致配置錯誤等問題 配置錯誤問題解決 方式一&#xff…

阿里云服務器-centos部署定時同步數據庫數據-dbswitch

前言: 本文章介紹通過dbswitch工具實現2個mysql數據庫之間實現自動同步數據。 應用場景:公司要求實現正式環境數據庫數據自動冷備 dbswitch依賴環境:git ,maven,jdk 方式一: 不需要在服務器中安裝git和maven,直接用…

windows10 環境下通過huggingface_hub下載huggingface社區模型

項目場景: 有一些模型需要在huggingface下載,因為國內限制,一般無法訪問huggingface網站進行下載。然而,可以通過國內的鏡像下載。網上大部分都是在linux系統下,通過huggingface提供的指令下載。本文針對采用python腳…

C++之異常

目錄 前言 一、什么是異常 二、C中的異常 2.1 C語言中的異常處理 2.2 C中的異常處理 2.3 異常的拋出與捕獲 2.4 棧展開 2.5 查找匹配的處理代碼 2.6 異常重新拋出 2.7 異常安全問題 2.8 異常規范 2.9 標準庫的異常 前言 在之前我們已經學習了C中不少知識了,但是其中…

$在R語言中的作用

在 R 語言中,$ 是一個非常重要的操作符,主要用于訪問對象的成員或組件。它的用途非常廣泛,不僅限于數據框(data frame),還可以用于列表(list)、環境(environment&#xf…

設計一個分布式系統:要求全局消息順序,如何使用Kafka實現?

一、高吞吐低延遲 Kafka 集群設計要點 1. 分區策略優化 // 計算合理分區數公式(動態調整) int numPartitions max(Tp, Tc) / min(Tp, Tc) // Tp生產者吞吐量 Tc消費者吞吐量建議初始按業務鍵(如訂單ID)哈希分區單分區吞吐建議…

[dify]官方模板DeepResearch工作流學習筆記

一、功能 根據用戶輸入的主題進行多輪搜索并生成綜合報告 1、流程分析 1.1 初始階段 Start節點:接收用戶輸入的"depth"參數,決定搜索的深度/輪數 參數可以不填,不填的時候取默認值3 Create Array節點:根據depth參數…

hadoop中的序列化和反序列化(3)

3. Java的序列化 Java提供了內置的序列化機制,通過java.io.Serializable接口實現。 3.1 如何實現Java序列化 讓類實現Serializable接口。 使用ObjectOutputStream進行序列化。 使用ObjectInputStream進行反序列化。 示例代碼 序列化 java 復制 import jav…

6、CMake基礎:流程控制

流程控制 1. 條件判斷1.1 基本表達式1.2 邏輯判斷1.3 比較基于數值的比較基于字符串的比較 1.4 文件操作1.5 其他 2. 循環2.1 foreach方法1方法2方法3方法4 2.2 while 在 CMake 的 CMakeLists.txt 中也可以進行流程控制,也就是說可以像寫 shell 腳本那樣進行條件判斷…

【網絡編程】二、UDP網絡套接字編程詳解

文章目錄 前言Ⅰ. UDP服務端一、服務器創建流程二、創建套接字 -- socketsocket 屬于什么類型的接口???socket 是被誰調用的???socket 底層做了什么???和其函數返回值有沒有什么關系??? 三、綁定對應端口號、IP地址到套接字 -- bind四、數據的發送和接收 -- sendto…

準確--Notepad++ 實用的插件介紹

Notepad 提供了很多實用的插件,可以極大地提升編程和文本編輯的效率。以下是一些常用且有用的插件介紹: 1. NPP Export 功能:可以將打開的文件導出為 HTML 或 RTF 格式,方便生成漂亮的代碼文檔。用途:適合需要將代碼…

[20250507] AI邊緣計算開發板行業調研報告 ??(2024年最新版)?

[20250507] AI邊緣計算開發板行業調研報告 ??(2024年最新版)? 一、行業背景?? 隨著物聯網設備激增與AI模型輕量化,邊緣計算成為AI落地核心場景。AI邊緣計算開發板(Edge AI Board)作為硬件載體,需滿足??低延遲…

傳輸層協議 1.TCP 2.UDP

傳輸層協議 1.TCP 2.UDP TCP協議 回顧內容 傳輸層功能:定義應用層協議數據報文的端口號,流量控制對原始數據進行分段處理 傳輸層所提供服務 傳輸連接服務數據傳輸服務:流量控制、差錯控制、序列控制 一、傳輸層的TCP協議 1.面向連接的…

LVGL -meter的應用

1 meter介紹 lv_meter 是 LVGL v8 引入的一種圖形控件,用于創建儀表盤樣式的用戶界面元素,它可以模擬像速度表、電壓表、溫度表這類模擬表盤。它通過可視化刻度、指針、顏色弧線等來展示數值信息,是一種非常直觀的數據展示控件。 1.1 核心特…

GoFly企業版框架升級2.6.6版本說明(框架在2025-05-06發布了)

前端框架升級說明: 1.vue版本升級到^3.5.4 把"vue": "^3.2.40",升級到"vue": "^3.5.4",新版插件需要時useTemplateRef,所以框架就對齊進行升級。 2.ArcoDesign升級到2.57.0(目前最新2025-02-10&a…