用深度學習提升DOM解析——自動提取頁面關鍵區塊

爬蟲代理

一、時間軸:一次“抓不到重點”的二手車數據爬蟲事故

  • 2025/03/18 09:00
    產品經理希望抓取懂車帝平臺上“北京地區二手車報價”作為競品監測數據源。我們初步使用傳統XPath方案,試圖提取車型、年限、里程、價格等數據。
  • 2025/03/18 10:00
    初版腳本運行失敗,返回的數據全是空值,XPath定位的路徑在頁面中根本不存在。
  • 2025/03/18 11:00
    檢查HTML源代碼發現,頁面由**前端異步渲染(JavaScript動態生成)**構建,傳統靜態DOM無法解析真實內容。
  • 2025/03/18 14:00
    改用Playwright模擬瀏覽器渲染,成功獲取完整DOM。但新的問題是:頁面結構復雜、不穩定,多個汽車列表卡片并非結構統一,手動XPath依舊容易出錯。
  • 2025/03/19 10:00
    啟動深度學習方案:利用預訓練模型BERT對HTML做塊級語義識別,自動提取“車卡片”結構與核心字段。

二、方案分析:XPath失效 vs 語義塊提取

1. 初始方案失敗原因

  • 頁面為前端渲染(SPA架構),傳統的requests + XPath方案根本無法加載數據;
  • 即使用Playwright動態渲染后獲取HTML,汽車信息DOM結構依舊不穩定,嵌套層級深,XPath脆弱;
  • 頁面存在部分反爬機制(navigator.webdriver特征、IP頻控、UA檢測),需解決隱藏身份問題。

2. 深度學習方案構思

  • 將完整HTML節點轉為token序列(含標簽結構+文本);
  • 使用BERT或LayoutLM模型對DOM節點進行語義分類,標注“車卡片”、“車型名”、“報價”等字段;
  • 利用位置+標簽結構配合抽取規則,提高抗變動能力;
  • 構建領域微調訓練樣本,通過正則與標注相結合構建少量訓練集。

三、架構改進方案:深度語義解析 + 隱身身份訪問

以下是優化后的爬蟲架構,融合了:

  • Playwright動態渲染頁面
  • 代理IP隱藏身份(爬蟲代理)
  • 設置cookie與user-agent
  • 調用深度學習模塊提取語義塊

? 示例代碼如下:

import asyncio
from playwright.async_api import async_playwright
import base64
import json
import torch
from transformers import BertTokenizer, BertForTokenClassification
from typing import List# === 億牛云代理配置 www.16yun.cn ===
PROXY_SERVER = "http://proxy.16yun.cn:3100"
PROXY_USERNAME = "16YUN"
PROXY_PASSWORD = "16IP"# Base64編碼代理身份
def get_proxy_auth():credentials = f"{PROXY_USERNAME}:{PROXY_PASSWORD}"return "Basic " + base64.b64encode(credentials.encode()).decode()# === 深度學習模型加載(模擬)===
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = BertForTokenClassification.from_pretrained("bert-base-chinese")def predict_blocks(text_list: List[str]) -> List[str]:"""使用BERT模擬DOM區塊分類輸入:文本列表(如標簽+內容組成)輸出:每個文本的分類結果,如[車型] [年限] [報價]"""inputs = tokenizer(text_list, return_tensors="pt", padding=True, truncation=True)with torch.no_grad():outputs = model(**inputs).logitspredictions = torch.argmax(outputs, dim=-1)labels = [model.config.id2label[idx.item()] for idx in predictions[0]]return labels# === Playwright爬蟲主流程 ===
async def main():async with async_playwright() as p:browser = await p.chromium.launch(headless=True)# 啟動代理 + 設置UA和Cookiecontext = await browser.new_context(proxy={"server": PROXY_SERVER},user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/122.0.0.0 Safari/537.36",extra_http_headers={"Proxy-Authorization": get_proxy_auth(),"Cookie": "your_cookie_here"  # 真實抓包填入cookie})page = await context.new_page()# 搜索“北京二手車”await page.goto("https://www.dongchedi.com/usedcar/search?city_name=%E5%8C%97%E4%BA%AC")await page.wait_for_timeout(5000)  # 等待JS加載完# 提取頁面HTMLhtml = await page.content()# 簡化提取所有車卡片文本(真實項目中解析DOM結構)elements = await page.query_selector_all("div.CarCard_card__...")  # 選擇器根據真實頁面調整for el in elements:text = await el.inner_text()label = predict_blocks([text])[0]print(f"[{label}] {text}")await browser.close()asyncio.run(main())

四、總結與優化建議

📌 深度學習DOM解析優點:

  • 抗結構變化能力強,不再依賴脆弱的XPath;
  • 適合復雜網頁(如懂車帝、汽車之家等)中提取卡片、列表、評論等區域;
  • 可結合小樣本微調適應特定領域,如二手車、新聞等。

?? 技術架構演進圖

[靜態爬蟲Requests+XPath] ──> [動態爬蟲Playwright+XPath] ──> [Playwright+DOM語義BERT]?失效                          ??結構脆弱                     ?語義提取,穩定高效

附加建議

  • 如需更高精度,可構建100~300條有標注數據微調BERT;
  • 可加入圖神經網絡(如DOM-GCN)提升DOM上下文理解;
  • 建議結合VisualDOM信息(元素位置+截圖)形成多模態提取模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84612.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

React與Vue的內置指令對比

React 與 Vue 不同,它沒有內置的模板指令系統。React 采用了 JavaScript 優先 的聲明式方式,使用 JSX 語法將 HTML 和 JavaScript 結合在一起。因此,React 中沒有類似 Vue 的 v-if、v-for、v-bind 等內置指令。 React 中的替代方案 條件渲染…

Spring聲明式事務源碼全鏈路剖析與設計模式深度解讀

Spring聲明式事務源碼全鏈路剖析與設計模式深度解讀 作者:AI 日期:2025-05-22 一、前言 Spring事務是企業級開發的基石,但“為什么有時事務失效?”、“不同傳播行為背后發生了什么?”、“Spring事務源碼到底如何實現&…

云原生安全基礎:深入探討容器化環境中的權限隔離與加固策略

🔥「炎碼工坊」技術彈藥已裝填! 點擊關注 → 解鎖工業級干貨【工具實測|項目避坑|源碼燃燒指南】 在云原生環境中,容器化技術(如 Docker 和 Kubernetes)的廣泛應用帶來了靈活性與效率,但也引入了新的安全挑…

如何在 ONLYOFFICE 演示文稿中調整段落首行縮進

在制作演示文稿時,保持內容的一致性與可讀性至關重要,而段落首行縮進作為格式設置的關鍵環節,直接影響著整體呈現效果。在本文中,我們將介紹如何通過創建 ONLYOFFICE 宏,快速設置演示文稿中所有段落的首行縮進。 關于 …

[Asp.Net]GridView、Repeater 導出Excel長數字顯示成科學計數

類似身份證純數字的格式時 ,excel默認是數字格式 變成了科學計數法 , GridView:RowDataBound 添加e.Row.Cells[2].Attributes.Add(“style”, “vnd.ms-excel.numberformat:;”); protected void GridView1_RowDataBound(object sender, GridViewRowE…

Ntfs!NtfsReadBootSector函數分析之nt!CcGetVacbMiss中得到一個nt!_VACB結構

第一部分: 1: kd> g Breakpoint 3 hit nt!CcGetVacbMiss: 80a1a19e 6a30 push 30h 1: kd> kc # 00 nt!CcGetVacbMiss 01 nt!CcGetVirtualAddress 02 nt!CcMapData 03 Ntfs!NtfsMapStream 04 Ntfs!NtfsReadBootSector Ntfs…

Linux10正式版發布,擁抱AI了!

📢📢📢📣📣📣 作者:IT邦德 中國DBA聯盟(ACDU)成員,10余年DBA工作經驗 Oracle、PostgreSQL ACE CSDN博客專家及B站知名UP主,全網粉絲10萬 擅長主流Oracle、MySQL、PG、高斯…

關于 SSE(Server-Sent Events)過程的簡要解剖

Js前端:發送普通請求 fetch(...) .then(()>{}) .catch(()>{})Java后端:接收請求后調用請求處理函數,函數返回一個emiiter對象 public SseEmitter handleRequest(...) {// 創建一個 SseEmitter 對象,用于發送 SSE 事件SseE…

PyTorch 中unsqueeze(-1)用法

unsqueeze(-1) 是 PyTorch 中的一個張量操作,用于?在指定維度上增加一個長度為1的維度?(即擴展維度)。具體解析如下: 功能說明 ?作用位置? -1 表示在張量的?最后一個維度?后添加新維度。 (等價于 dimlen(tensor.…

RTC技術

什么是RTC RTC(Real time communication)實時通信,是實時音視頻的一個簡稱,我們常說的RTC技術一般指的是WebRTC技術,已經被 W3C 和 IETF 發布為正式標準。由于幾乎所有主流瀏覽器都支持 WebRTC 標準 API ,…

vue+cesium示例:3Dtiles三維模型高度調整(附源碼下載)

接到一位知識星友的邀請,實現他需要3Dtiles三維模型的簡單高度調整需求,適合學習Cesium與前端框架結合開發3D可視化項目。 demo源碼運行環境以及配置 運行環境:依賴Node安裝環境,demo本地Node版本:推薦v18。 運行工具:…

詳解3DGS

4 可微分的3D高斯 splatting 核心目標與表示選擇 我們的目標是從無法線的稀疏SfM點出發,優化出一種能夠實現高質量新視角合成的場景表示。為此,我們選擇3D高斯作為基本圖元,它兼具可微分的體表示特性和非結構化的顯式表示優勢,既…

構建版本沒mac上傳APP方法

在蘋果開發者的app store connect上架Ios應用的時候,發現需要使用xode等軟件來上傳iOS的APP。 但是不管是xcode也好,transporter也好,還是命令行工具也好,都必須安裝在mac電腦才能使用,。 假如沒有mac電腦&#xff0…

Gitee PPM:智能化項目管理如何重塑軟件工廠的未來格局

在數字化轉型浪潮席卷全球的當下,軟件開發行業正經歷著前所未有的變革。隨著企業項目復雜度呈指數級增長,傳統項目管理方式已難以應對多項目并行、跨團隊協作等挑戰。Gitee項目組合管理(PPM)作為新一代智能化項目管理解決方案&…

node入門:安裝和npm使用

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 前言一、安裝npm命令nvm 前言 因為學習vue接觸的,一直以為node是和vue綁定的,還以為vue跑起來必須要node,后續發現并不是。 看…

單例模式,餓漢式,懶漢式,在java和spring中的體現

目錄 餓漢式單例模式 懶漢式單例模式 Spring中的單例模式 關鍵差異對比 在Java和Spring中的應用場景 手寫案例 單例模式是一種創建型設計模式,其核心在于確保一個類僅有一個實例,并提供一個全局訪問點來獲取該實例。下面將詳細介紹餓漢式和懶漢式…

網絡編程——UDP網絡編程

文章目錄 1、sendto(),recvfrom() 與TCP編程不同的是: 無需建立連接,在recvfrom()阻塞等待客戶端的數據,收到數據后進入do something進行數據的處理。 1、sendto(),recvfrom() ssize_t sendto(int socket, void *mes…

OpenSSL詳解

這里寫目錄標題 選項:**通用選項:**1. genrsa:生成RSA密鑰對3. req:生成證書簽名請求4. x509:生成自簽名證書 **證書管理:**1. verify:驗證證書2. x509:查看證書詳情3. crl&#xff…

MySQL的日志和備份

目錄 一. MySQL的日志 1.1 日志的作用 1.2 日志的分類 1.3 事務日志 1.4 錯誤日志 1.5 通用日志 1.6 慢查詢日志 1.7 二進制備份 二. 備份 2.1 數據備份的重要性 2.2 備份的分類 2.3 MySQL備份的內容 2.4 備份的注意點 2.5 備份的工具 2.6 實戰案例 2.7 mysql…

前端性能優化:如何讓網頁加載更快?

摘要 想象一下,滿心期待點開一個網頁,卻等了十幾秒還卡在加載界面,你是不是瞬間就想關掉走人?這可不是個別用戶的 “急性子”,數據顯示,網頁每多延遲 1 秒,用戶流失率可能增加 11%!…