使用Puppeteer提取頁面內容的技巧

在這里插入圖片描述

在現代的Web開發和爬蟲開發中,Puppeteer是一個非常強大的工具,它可以幫助我們自動化瀏覽器操作,提取頁面內容。本文將從初階到高階,詳細介紹如何使用Puppeteer提取頁面內容的各種技巧,特別關注多層類關系選擇器的使用。

初階技巧

1. 提取單個元素的文本內容

使用page.$page.evaluate來提取單個元素的文本內容。

const titleElement = await page.$('h1');
const title = await titleElement.getProperty('textContent').then(t => t.jsonValue());
console.log(title);

2. 提取多個元素的文本內容

使用page.$$page.$$eval來提取多個元素的文本內容。

const spanTexts = await page.$$eval('span', spans => spans.map(span => span.textContent));
console.log(spanTexts);

3. 提取元素的屬性

使用page.$page.evaluate來提取單個元素的屬性。

const linkElement = await page.$('a');
const href = await linkElement.getProperty('href').then(h => h.jsonValue());
console.log(href);

4. 提取多個元素的屬性

使用page.$$page.$$eval來提取多個元素的屬性。

const links = await page.$$eval('a', links => links.map(link => link.getAttribute('href')));
console.log(links);

中階技巧

1. 提取嵌套元素的內容

使用page.evaluate來提取嵌套元素的內容。

const nestedData = await page.evaluate(() => {const items = document.querySelectorAll('.item');return Array.from(items).map(item => ({title: item.querySelector('h2').textContent,description: item.querySelector('p').textContent}));
});
console.log(nestedData);

2. 提取動態加載的內容

使用page.waitForSelector來等待動態加載的內容。

await page.waitForSelector('.dynamic-content');
const dynamicContent = await page.$eval('.dynamic-content', el => el.textContent);
console.log(dynamicContent);

3. 提取頁面中的JSON數據

使用page.evaluate來提取頁面中的JSON數據。

const jsonData = await page.evaluate(() => {const script = document.querySelector('script[type="application/json"]');return JSON.parse(script.textContent);
});
console.log(jsonData);

4. 提取頁面中的表單數據

使用page.$$eval來提取表單中的數據。

const formData = await page.$$eval('form input', inputs => {return inputs.map(input => ({name: input.name,value: input.value}));
});
console.log(formData);

高階技巧

1. 提取復雜選擇器的內容

使用page.$$eval來提取復雜選擇器的內容。例如,提取content .top .info:last-child span:last-child的內容。

const complexData = await page.$$eval('.content .top .info:last-child span:last-child', spans => {return spans.map(span => ({text: span.textContent,}));
});
console.log(complexData);

2. 提取頁面中的所有數據

使用page.evaluate來提取頁面中的所有數據。

const allData = await page.evaluate(() => {const data = {};document.querySelectorAll('*').forEach(el => {if (el.textContent.trim() !== '') {data[el.tagName.toLowerCase()] = el.textContent;}});return data;
});
console.log(allData);

3. 提取頁面中的所有鏈接和內容

使用page.$$eval來提取頁面中的所有鏈接和內容。

const linksAndContent = await page.$$eval('a', links => {return links.map(link => ({href: link.href,text: link.textContent}));
});
console.log(linksAndContent);

4. 提取頁面中的所有圖片和內容

使用page.$$eval來提取頁面中的所有圖片和內容。

const imagesAndContent = await page.$$eval('img', images => {return images.map(image => ({src: image.src,alt: image.alt}));
});
console.log(imagesAndContent);

5. 提取頁面中的所有表格數據

使用page.$$eval來提取頁面中的所有表格數據。

const tableData = await page.$$eval('table', tables => {return tables.map(table => {const rows = Array.from(table.querySelectorAll('tr'));return rows.map(row => {const cells = Array.from(row.querySelectorAll('td, th'));return cells.map(cell => cell.textContent);});});
});
console.log(tableData);

6. 提取頁面中的所有腳本數據

使用page.$$eval來提取頁面中的所有腳本數據。

const scriptData = await page.$$eval('script', scripts => {return scripts.map(script => script.textContent);
});
console.log(scriptData);

7. 提取頁面中的所有樣式數據

使用page.$$eval來提取頁面中的所有樣式數據。

const styleData = await page.$$eval('style', styles => {return styles.map(style => style.textContent);
});
console.log(styleData);

復雜選擇器的使用技巧

1. 提取特定類名的最后一個子元素

使用page.$$eval來提取特定類名的最后一個子元素。

const lastChildData = await page.$$eval('.content .top .info:last-child span:last-child', spans => {return spans.map(span => ({text: span.textContent,}));
});
console.log(lastChildData);

2. 提取特定類名的最后一個子元素的屬性

使用page.$$eval來提取特定類名的最后一個子元素的屬性。

const lastChildAttributes = await page.$$eval('.content .top .info:last-child span:last-child', spans => {return spans.map(span => ({text: span.textContent,className: span.className,id: span.id}));
});
console.log(lastChildAttributes);

3. 提取特定類名的最后一個子元素的子元素

使用page.$$eval來提取特定類名的最后一個子元素的子元素。

const nestedChildData = await page.$$eval('.content .top .info:last-child span:last-child', spans => {return spans.map(span => ({text: span.textContent,nestedText: Array.from(span.querySelectorAll('span')).map(nestedSpan => nestedSpan.textContent)}));
});
console.log(nestedChildData);

4. 提取特定類名的直接子元素

使用page.$$eval來提取特定類名的直接子元素。

const directChildren = await page.$$eval('.content > .top', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(directChildren);

5. 提取特定類名的二代子元素

使用page.$$eval來提取特定類名的二代子元素。

const secondLevelChildren = await page.$$eval('.content .top > .info', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(secondLevelChildren);

6. 提取特定類名的多代子元素

使用page.$$eval來提取特定類名的多代子元素。

const multiLevelChildren = await page.$$eval('.content .top .info span', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(multiLevelChildren);

7. 提取特定類名的多代子元素的屬性

使用page.$$eval來提取特定類名的多代子元素的屬性。

const multiLevelChildrenAttributes = await page.$$eval('.content .top .info span', elements => {return elements.map(el => ({text: el.textContent,className: el.className,id: el.id}));
});
console.log(multiLevelChildrenAttributes);

類的層次關系說明

1. 直接子元素選擇器 (>)

直接子元素選擇器用于選擇某個元素的直接子元素。例如,選擇.content類下的直接子元素.top

const directChildren = await page.$$eval('.content > .top', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(directChildren);

2. 二代子元素選擇器

二代子元素選擇器用于選擇某個元素的二代子元素。例如,選擇.content類下的二代子元素.info

const secondLevelChildren = await page.$$eval('.content .top > .info', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(secondLevelChildren);

3. 多代子元素選擇器

多代子元素選擇器用于選擇某個元素的多代子元素。例如,選擇.content類下的多代子元素span

const multiLevelChildren = await page.$$eval('.content .top .info span', elements => {return elements.map(el => ({text: el.textContent,className: el.className}));
});
console.log(multiLevelChildren);

4. 多代子元素的屬性選擇器

多代子元素的屬性選擇器用于選擇某個元素的多代子元素及其屬性。例如,選擇.content類下的多代子元素span及其屬性:

const multiLevelChildrenAttributes = await page.$$eval('.content .top .info span', elements => {return elements.map(el => ({text: el.textContent,className: el.className,id: el.id}));
});
console.log(multiLevelChildrenAttributes);

總結

從初階到高階,這些技巧可以幫助你逐步掌握如何使用Puppeteer提取頁面的各種內容。初階技巧主要集中在基本的元素選擇和屬性提取上,中階技巧則涉及到動態內容的等待和嵌套元素的提取,高階技巧則更加復雜,可以提取頁面中的所有數據,包括表格、腳本、樣式等。通過這些技巧,你可以應對各種復雜的頁面爬取任務。

希望這篇文章對你有所幫助!如果你有任何問題或建議,請隨時在評論區留言。

以我之思,借AI之力

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/912710.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/912710.shtml
英文地址,請注明出處:http://en.pswp.cn/news/912710.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL server 獲取表中所有行的序號

在SQL Server中,要獲取某個表中的某一行所在的記錄總數,通常有幾種方法可以實現,具體使用哪種方法取決于你的具體需求。以下是幾種常見的方法: 1. 使用COUNT()函數結合子查詢 如果你想要知道某個特定行在表中的位置(…

《CSDN 用戶視角:見證 AI 重構企業辦公,在智能協同、數據驅動下實現組織進化》

在數字化轉型的大潮洶涌而至的當下,人工智能(AI)宛如一場疾風驟雨,以前所未有的速度重塑著企業辦公的格局。從瑣碎流程的自動化,到智能決策的深度賦能,AI 技術正掀起一場對傳統工作模式的徹底顛覆&#xff…

PYQT實戰:天氣助手

應用采用了現代化的界面設計,包括圓角邊框、卡片式布局和響應式建議功能。 這個天氣應用可以作為學習PyQt5開發的實例,展示了GUI設計、定時更新、數據處理和用戶交互的實現方法 #!/usr/bin/env python # -*- coding: GBK -*- import sys import request…

PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines

PL-SLAM 文章目錄 PL-SLAM摘要系統介紹綜述方法綜述LINE-BASED SLAM一、基于線的SLAM二、基于線和點的BA三、全局重定位使用線條初始化地圖實驗結果說明位姿求解三角化LSD 直線檢測算法?? **一、核心原理**?? **二、實現方法**?? **三、應用場景**?? **四、優缺點與優化…

快速手搓一個MCP服務指南(八):FastMCP 代理服務器:構建靈活的 MCP 服務中介層

在分布式系統和微服務架構日益普及的今天,服務間的通信與集成變得至關重要。FastMCP 從 2.0.0 版本引入的代理服務器功能,為 MCP (Model Context Protocol) 生態提供了強大的服務中介能力。本文將深入解析 FastMCP 代理服務器的核心概念、應用場景與實踐…

Ubuntu20下安裝SAMBA服務

1、安裝Samba: 在 Ubuntu 上,打開終端,并運行以下命令以安裝 Samba sudo apt update sudo apt install samba 2、配置共享目錄 修改共享目錄的權限,我的共享目錄是samba_share sudo chmod -R 777 ./samba_share 創建Samba用戶賬號 sud…

Python 數據分析與機器學習入門 (一):環境搭建與核心庫概覽

Python 數據分析與機器學習入門 (一):環境搭建與核心庫概覽 本文摘要 本文是 Python 數據分析與機器學習入門系列的第一篇,專為初學者設計。文章首先闡明了 Python在數據科學領域的優勢,然后手把手指導讀者如何使用 Anaconda 搭建一個無痛、專…

編譯UltraleapTrackingWebSocket

最近要在項目中用到 Leap Motion,無意中發現了一個 Go 語言的 Leap Motion 庫: https://gobot.io/documentation/platforms/leapmotion/ 示例代碼看起來很簡單,但是要實際運行起來還需要一些條件。 在示例代碼中,我們看到它連接…

[ linux-系統 ] 磁盤與文件系統

1.認識磁盤結構 機械鍵盤是計算機中唯一的機械設備,磁盤是外設,容量大,速度慢,價格便宜 物理結構: 磁頭是一面一個,左右擺動,兩個整體移動的,有磁頭停靠點磁頭和盤面不接觸&#x…

Spring AI RAG

目錄 Spring AI 介紹 Spring AI 組件介紹 Spring AI 結構化輸出 Srping AI 多模態 Spring AI 本地Ollama Spring AI 源碼 Spring AI Advisor機制 Spring AI Tool Calling Spring AI MCP Spring AI RAG Spring AI Agent 一、技術架構與核心流程? 檢索增強生成 (RA…

深入Linux開發核心:掌握Vim編輯器與GCCG++編譯工具鏈

文章目錄 一、Vim:終端環境下的編輯藝術1.1 Vim設計哲學:模態編輯的終極實踐1.2 高效導航:超越方向鍵的移動藝術1.3 定制化開發環境:從基礎到專業IDE1.4 調試集成:Vim作為調試前端 二、GCC/G:Linux編譯基石…

阿里云-spring boot接入arms監控

目標:在ecs中啟動一個java應用,且攜帶arms監控 原理:在java應用啟動時,同時啟動一個agent探針,時刻監控java應用變化(如:接口調用、CPU、線程池狀態等) 1.arms接入中心添加java應用…

昆泰芯3D霍爾磁傳感器芯片在汽車零部件中的應用

HUD即抬頭顯示系統(Head-Up Display),HUD 是一種將重要的車輛或飛行等相關信息(如速度、導航指示、警告信息等)投射到駕駛員或操作員前方視野范圍內的透明顯示屏或直接投射到風擋玻璃上的技術。 HUD即抬頭顯示系統(Head-Up Display)&#xff…

new Vue() 的底層工作原理

當你調用 new Vue() 時,Vue.js 會執行一系列復雜的初始化過程。讓我們深入剖析這個看似簡單的操作背后發生的事情: 1. 初始化階段 (1) 內部初始化 function Vue(options) {if (!(this instanceof Vue)) {warn(Vue is a constructor and should be cal…

最簡安裝SUSE15SP7導致大部分命令缺失

我嘞個去~~~明明選擇Enable了ssh,結果也沒給裝。 俺習慣使用NetworkManager管理網絡,沒給裝,用不了nmcli和nmtui。不高興歸不高興,最簡安裝的話,也情有可原。我嘞個去去~~連ping、vi都沒有裝,這也太簡了。…

Vue-14-前端框架Vue之應用基礎嵌套路由和路由傳參

文章目錄 1 嵌套路由1.1 News.vue1.2 Detail.vue1.3 router/index.ts2 路由傳參2.1 query參數2.1.1 News.vue(傳遞參數)2.1.2 Detail.vue(接收參數)2.2 params參數2.2.1 router/index.ts(需要提前占位)2.2.2 News.vue(傳遞參數)2.2.3 Detail.vue(接收參數)2.3 props配置2.3.1 r…

Python網安-ftp服務暴力破解(僅供學習)

目錄 源碼在這里 需要導入的模塊 連接ftp,并設置密碼本和線程 核心代碼 設置線程 源碼在這里 https://github.com/Wist-fully/Attack/tree/cracker 需要導入的模塊 import ftplib from threading import Thread import queue 連接ftp,并設置密碼…

ES6數組的`flat()`和`flatMap()`函數用法

今天給大家分享ES6中兩個超實用的數組函數:flat()和flatMap(),學會它們能讓數組處理變得更輕松! 1. flat()函數 1.1 基本介紹 flat()用于將嵌套數組"拍平",即將多維數組轉換為一維數組。 1.2 語法 const newArray …

upload-labs靶場通關詳解:第15-16關

第十五關 getimagesize函數驗證 一、分析源代碼 function isImage($filename){$types .jpeg|.png|.gif;if(file_exists($filename)){$info getimagesize($filename);$ext image_type_to_extension($info[2]);if(stripos($types,$ext)>0){return $ext;}else{return false…

【Linux】基礎IO流

好的代碼自己會說話,清晰的邏輯與優雅的結構,是程序員與世界對話的方式。 前言 這是我自己學習Linux系統編程的第五篇筆記。后期我會繼續把Linux系統編程筆記開源至博客上。 上一期筆記是關于進程: 【Linux】進程-CSDN博客https://blog.csdn…