【項目實訓】各種反爬策略及爬蟲困難點總結

在這里,我總結了本次項目的數據收集過程中遇到的反爬蟲策略以及一些爬蟲過程中容易出現問題的地方。

user-agent

簡單的設置user-agent頭部為瀏覽器即可:
在這里插入圖片描述

爬取標簽中帶href屬性的網頁

對于顯示崗位列表的頁面,通常檢查其源代碼就會發現,相應的標簽處存在一個a標簽,其中存在href屬性值:
在這里插入圖片描述
于是可以選擇,爬取出該網頁中的所有的href屬性,再依次對href屬性中的所有的網址進行爬取,

current_job_links=browser.find_elements(by=By.XPATH,value='//li[@class="border-top"]//a[@target="_blank"]')
for link in current_job_links:job_path = link.get_attribute("href")job_url = urljoin(self.base_url, job_path)job_links.append(job_url)

爬取使用js跳轉的網頁,進行選型卡管理

現在好多都是不存在href,而是使用javascript進行跳轉,也就是點擊卡片之后會新開一個選項卡,因此這里要使用selenium的選項卡管理來實現browser的url變化,從而獲得新打開頁面的url(如果不切換選項卡,即使模擬單擊了卡片,也不能對打開的頁面進行爬蟲)
重點在于一定要記得切換選項卡!!

for card_element in card_elements:# 單擊卡片元素browser.execute_script("arguments[0].click();",card_element)# 等待新頁面加載完成wait.until(EC.number_of_windows_to_be(2))# 切換到新的窗口browser.switch_to.window(browser.window_handles[1])# 獲取新頁面的URLcurrent_url2 = browser.current_urlcurrent_url_list.append(current_url2)browser.close()

分頁爬取

url變化實現換頁

大部分網頁都是通過url的變化實現翻頁的:
在這里插入圖片描述
因此只需要修改相應網址的pageNo即可,

if self.page < 100:self.page += 1# 換urlurl = 'https://zhaopin.meituan.com/web/position?hiringType=2_6&pageNo=' +str(self.page)#再次調用爬蟲yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)time.sleep(3)  # 設置3秒間隔

換頁url不變

使用selenium模擬瀏覽器點擊下一頁按鈕。所以需要在網頁中定位到”下一頁“按鈕的位置

next_button = browser.find_element(by=By.XPATH,value='//[@id="target_list"]/div/div[2]/div[3]/button[2]')
if not next_button.is_enabled():break
browser.execute_script("arguments[0].click();", next_button)

同時注意判斷停止條件,當按鈕不可用時表示到達最后

登錄問題

在爬取京東招聘時需要首先進行登錄
使用如下代碼實現模擬登陸:
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/36621.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/36621.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/36621.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入理解鏈表:基礎概念、操作及應用

前言 鏈表&#xff08;Linked List&#xff09;是一種重要的數據結構&#xff0c;廣泛應用于各種算法和系統設計中。本文將詳細介紹鏈表的基本概念、類型、基本操作及其在實際編程中的應用&#xff0c;并使用C語言代碼示例進行說明。 鏈表的基本概念 鏈表是一種線性數據結構…

【數據結構】(C語言):動態數組

動態數組&#xff1a; 內存區域連續&#xff0c;即每個元素的內存地址連續。可用索引查看元素&#xff0c;數組[索引號]。指定位置刪除元素&#xff0c;該位置之后的元素全部往前移動一位。指定位置添加元素&#xff0c;從最后到該位置的元素全部往后移動一位。物理大小&#…

【保姆級講解ECMAScript和JavaScript之間的區別】

&#x1f3a5;博主&#xff1a;程序員不想YY啊 &#x1f4ab;CSDN優質創作者&#xff0c;CSDN實力新星&#xff0c;CSDN博客專家 &#x1f917;點贊&#x1f388;收藏?再看&#x1f4ab;養成習慣 ?希望本文對您有所裨益&#xff0c;如有不足之處&#xff0c;歡迎在評論區提出…

mysql 升級到8.0

MySQL :: MySQL 8.0 Reference Manual :: 3.7 Upgrading MySQL Binary or Package-based Installations on Unix/Linux 2種升級方式&#xff1a; In-Place Upgrade &#xff1a; data目錄替換 Logical Upgrade&#xff1a; 通過 mysqldump 導出為sql文本后&#xff0c;導入…

全面國產化信創適配改造方案說明

一、概敘 系統的全面國產化適配改造需要從多個方面進行考慮&#xff0c;改造前需要進行充分的論證&#xff0c;在滿足具體業務場景的前提下&#xff0c;以確保系統的穩定性和安全性&#xff0c;同時還要考慮技術的發展&#xff0c;不斷優化和更新。因此全面國產化適配改造也面臨…

Redis集群安裝(三主三從一哨兵)

Redis集群安裝&#xff08;三主三從一哨兵&#xff09; 一&#xff0c;搭建環境 ? 在三臺服務器上分別搭建redis并測試是否能啟動&#xff08;搭建方法&#xff09; 二&#xff0c;Redis cluster三主三從 配置環境變量 vim /etc/profile #添加如下內容 export REDIS_HOME…

AI 開發平臺(Coze)搭建《AI女友(多功能版本)》

前言 本文講解如何從零開始&#xff0c;使用扣子平臺去搭建《AI女友&#xff08;多功能版本&#xff09;》 bot直達&#xff1a;AI女友&#xff08;多功能版&#xff09; - 扣子 AI Bot (coze.cn) 歡迎大家前去體驗&#xff01;&#xff01;&#xff01; 正文 功能介紹 …

系統架構師考點--系統配置與性能評價

大家好。今天我們來總結一下系統配置與性能評價的考點內容&#xff0c;這一部分一般是出在上午場的選擇題中&#xff0c;占1-2分左右。 一、性能指標 計算機 對計算機評價的主要性能指標有&#xff1a;時鐘頻率(主頻)&#xff1b;運算速度&#xff1b;運算精度內存的存儲容量…

ManageEngine連續榮登Gartner 2024年安全信息和事件管理魔力象限

我們很高興地宣布&#xff0c;ManageEngine再次在Gartner的安全信息和事件管理&#xff08;SIEM&#xff09;魔力象限中榜上有名&#xff0c;這是我們連續第七年獲得這一認可。 Gartner ManageEngine Log360是一款全面的SIEM解決方案&#xff0c;旨在幫助組織有效處理日志數據…

計算機共形幾何簡介

計算機共形幾何&#xff08;Computational Conformal Geometry&#xff09;是一門研究計算機圖形學和幾何學結合的領域&#xff0c;主要研究曲面的表示、形變和分析等問題。共形幾何是研究保持角度度量不變的幾何變換&#xff0c;而計算機共形幾何則是將共形幾何的概念和方法應…

cuda 學習筆記4

一 基本函數 在GPU上開辟空間&#xff0c;無論定義的數據是float還是int ,還是****gpu_int,分配空間的函數都是下面固定的形式 (void**)& 1.函數定義&#xff0c;global void 是配套使用的&#xff0c;是在GPU上定義&#xff0c;也就是GPU上執行&#xff0c;CPU上調用的函數…

python pyautogui.position實時輸出坐標

import pyautogui import timewhile True:# 獲取鼠標當前坐標x, y pyautogui.position()# 打印坐標print(f"當前坐標&#xff1a;({x}, {y})")# 暫停1秒time.sleep(1) 輸出實時鼠標位置坐標

Java高手的30k之路|面試寶典|精通MySQL(二)

分區表 分區類型 MySQL 支持以下幾種表分區類型&#xff0c;這些分區類型有助于優化大型表的管理和查詢性能&#xff1a; Range Partitioning&#xff08;范圍分區&#xff09;&#xff1a; 范圍分區是基于列的值范圍來分配數據的。你可以定義一個或多個列的值區間&#xff0…

62.指針和二維數組(2)

一.指針和二維數組 1.如a是一個二維數組&#xff0c;則數組中的第i行可以看作是一個一維數組&#xff0c;這個一維數組的數組名是a[i]。 2.a[i]代表二維數組中第i行的首個元素的地址&#xff0c;即a[i][0]的地址。 二.進一步思考 二維數組可以看作是數組的數組&#xff0c;本…

springboot+vue+mybatis母嬰二手銷售系統+PPT+論文+講解+售后

目前由于我國二手銷售的規模較小,同發達國家相比,二手銷售比重始終偏低,消費總額增長緩慢,進一步抑制了市場消費的提升,隨著市場競爭的日益激烈,雖然許多商家主動選用二手銷售模式,但卻缺乏對其充分的重視與銷售風險的良性控制,一些商家沒有建立獨立的信用實踐管理部門,無法在交…

linux使用docker部署kafka集群

1、拉取kafka docker pull wurstmeister/kafka docker pull wurstmeister/zookeeper 2、創建網絡 docker network create app-kafka 3、啟動zookeeper docker run -d \--name zookeeper \-p 2181:2181 \--network app-kafka \--restart always \wurstmeister/zookeeper …

【ISAC】通感一體化講座(劉凡)

高斯信道下通信感知一體化的性能極限(劉凡) 文章目錄 背景背景 通信和感知在硬件結構上相似,高效地利用資源,實現相互的增益; 感知是基于不同的任務,比如目標檢測(檢測概率,虛警概率),估計任務(從收到的信號中去估計有用的參數,均方誤差,CRB),識別(知道目標的…

Str.format()方法

自學python如何成為大佬(目錄):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 語法參考 在Python2.6之后&#xff0c;提供了字符串的format()方法對字符串進行格式化操作。format()功能非常強大&#xff0c;格式也比較復雜&…

基于ADRC自抗擾算法的UAV飛行姿態控制系統simulink建模與仿真

目錄 1.課題概述 2.系統仿真結果 3.核心程序與模型 4.系統原理簡介 4.1 控制系統概述 4.2 ADRC基本框架 4.3 控制律設計 5.完整工程文件 1.課題概述 基于ADRC自抗擾算法的UAV飛行姿態控制系統simulink建模與仿真&#xff0c;分別對YAW&#xff0c;PITCH&#xff0c;ROL…

K-Means 算法詳解

K-Means 是一種常用的無監督學習算法&#xff0c;廣泛應用于數據聚類分析。本文將詳細講解 K-Means 算法的原理、步驟、公式以及 Python 實現&#xff0c;幫助你深入理解這一經典算法。 什么是 K-Means 算法&#xff1f; K-Means 算法是一種基于原型的聚類算法&#xff0c;其…