【BOSS直聘爬取系統功能介紹】

完整代碼關注公眾號 :

圖片

爬取網站:BOSS直聘:https://www.zhipin.com/

難點

1. boss直聘不論什么崗位都只會展示10頁數據,就算在網頁里加到了11,內容也會和10一樣。

2.多次訪問會有驗證碼需要登錄,這部分需要手動解除

3. 網站源碼被加密了,沒法通過request直接鏈接網站獲取源碼

圖片

解決辦法:

采用selenium控制瀏覽器的方式,成功獲取源碼,并且獲取頁面元素

防止頁面需要驗證來中斷爬取,采用企業微信(或者釘釘機器人)的方式來提醒需要驗證了(這部分沒法代碼通過,除非后續采用圖像識別跳過驗證碼)

既然每個崗位只能爬取10頁,我們可以采取一個崗位分10個地區,比如我需要爬取長沙市的xx崗位,直接爬取只能出現10頁總共300個崗位,但是可以拆分成8個區的爬取,每個區假設都有10頁,就可能爬取到80頁數據。

爬取系統介紹

功能介紹:

1. 首先在配置文件config中更改爬取要求,

jobs = ['數據分析師']citys = {            # '101280600':'深圳'         '101250100': "長沙",         # '101280100': '廣州',         # '101230200':'廈門'         }# areaBusiness = '330113,'.split(',')experience = (",".join    ([  # 不需要的可以注釋掉    #     '108',    # 在校生    #     '102',    # 應屆生    '101',  # 經驗不限    '103',  # 1年以內    '104',  # 1-3年    # '105',    # 3-5年    # '106',    # 5-10年    # '107',    # 10年以上]))degree = ",".join([  # 學歷要求    '209',  # 初中及以下    '208',  # 中專/中技    '206',  # 高中    '202',  # 大專    '203',  # 本科    # '204',    # 碩士    # '205',    # 博士])# 獲取該城市的各一級區域區號

圖片

確定好爬取需求之后,會在當前目下創建一個根據崗位和城市名的文件,后續爬取好的崗位信息都會保存在該文件內。

2. 開始爬取

這是整體系統框架,包含五個函數,最下面是系統的入口

圖片

首先需要知道每個地區總共有多個頁面可以爬取,首先完成

if __name__ == "__main__":    boss = webdriver.Edge(service=Service(EdgeChromiumDriverManager().install()), options=edge_options)    存放文件夾位置=f'D:\Marshal1\Anacada__\工作項目\爬蟲\\boss_project\\'+f'{文件名}'    對應頁碼表=查看每個區存在多少頁崗位(存放文件夾位置)

這里需要更改文件存放位置,選擇想要將文件保存的地址

執行完函數“查看每個區存在多少頁崗位(存放文件夾位置)”之后,在存放文件夾位置下會生成一個文件“對應頁碼表”,后續需要根據這個文件來確定不同區需要爬取的頁碼數,防止爬取重復數據。

圖片

 
if __name__ == "__main__":
boss = webdriver.Edge(service=Service(EdgeChromiumDriverManager().install()), options=edge_options)
存放文件夾位置=f'D:\Marshal1\Anacada__\工作項目\爬蟲\\boss_project\\'+f'{文件名}' 對應頁碼表=查看每個區存在多少頁崗位(存放文件夾位置)對應頁碼表=pd.read_csv(f"{存放文件夾位置}\對應頁碼表.csv") 獲取對應崗位信息(對應頁碼表,存放文件夾位置)
然后執行“獲取對應崗位信息(對應頁碼表,存放文件夾位置)”,之后在本地生成一個csv文件,不包含崗位的職位描述的文件,如果還需要職位的描述字段需要繼續執行最后一行代碼
獲取崗位職責(存放文件夾位置)

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12687.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12687.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12687.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

短視頻世上無人再似她:成都鼎茂宏升文化傳媒公司

短視頻世上無人再似她 —— 記憶中的光影傳奇 在短視頻盛行的今天,每一位創作者都在用鏡頭捕捉生活,記錄世界,但有那么一位藝術家,她的作品如同夜空中最亮的星,即便是在信息洪流中,也依然閃耀著獨一無二的…

jupyter_lab修改默認目錄

1、配置jupyterlab和jupyternotebook的默認工作路徑。 2、不廢話,直接上步驟 在Jupyter Notebook或者cmd命令行中輸入: jupyter notebook --generate-config jupyter-lab --generate-config生成配置文件“jupyter_notebook_config.py"和jupyter_la…

高通Android 11/12/13 通過包名設置默認launcher

背景&#xff1a;最近在封裝供第三應用系統SDK 接口&#xff0c;遇到一個無法通過包名設置主launcher代碼坑所以記錄下。 涉及類roles.xml # <!---~ see com.android.settings.applications.defaultapps.DefaultHomePreferenceController~ see com.android.settings.appl…

重啟服務器后node節點顯示NotReady

場景&#xff1a;夜間進行了斷電維護&#xff0c;重啟后發現業務無法使用&#xff0c;檢查發現一個node節點顯示NotReady. 去到目標服務器查看kubelet服務未成功啟動 journalctl -u kubelet 執行journalctl -u kubelet 查看日志發現提示&#xff1a; ailed to run Kubelet: run…

BFS和DFS優先搜索算法

1. BFS與DFS 1.1 BFS DFS即Depth First Search&#xff0c;深度優先搜索。它是一種圖遍歷算法&#xff0c;它從一個起始點開始&#xff0c;逐層擴展搜索范圍&#xff0c;直到找到目標節點為止。 這種算法通常用于解決“最短路徑”問題&#xff0c;比如在迷宮中找到從起點到終…

鐵路機輛作業移動智能終端的特點是什么?

在鐵路機輛作業的現代化進程中&#xff0c;移動智能終端以其獨特的優勢成為了不可或缺的裝備。這些終端以其高度的便攜性&#xff0c;使得工作人員能夠隨時隨地處理各種作業任務&#xff0c;極大地提升了工作效率。它們具備出色的抗干擾性和高防護性&#xff0c;能夠在復雜多變…

算法學習系列(六十一):樹形DP

目錄 引言一、沒有上司的舞會二、樹的重心三、樹的最長路徑四、樹的中心 引言 關于這個樹形 D P DP DP 代碼其實都是那一套&#xff0c;核心還是在于思維上的難度&#xff0c;關鍵是這個思路你能不能想明白&#xff0c;想明白了就非常的簡單&#xff0c;因為代碼幾乎長得都差…

LLM應用-prompt提示:讓大模型總結生成思維導圖

第一步&#xff1a;大模型生成markdown思維導圖格式 例如&#xff1a;kimi 總結pdf文檔案例&#xff1a; 生成的markdown格式&#xff1a; # 知識圖譜的構建及應用 ## 一、知識圖譜的構建 ### 1. 數據采集 - 來源&#xff1a;結構化數據庫、半結構化網頁、非結構化文本 - 預處…

React useState 的調用規則與最佳實踐:為何不在條件語句內使用 useState

在React中&#xff0c;useState 的調用確實有一些特定的規則和最佳實踐 以下是為什么通常不推薦在 if 語句內調用 useState 的原因&#xff1a; 1、Hooks 規則&#xff1a; React Hooks 的規則之一是&#xff0c;你應該在函數組件的頂層調用它們&#xff0c;而不是在循環、條…

技術管理者如何建立權威?

很多技術管理者經常抱怨管理不好做&#xff0c;還是做技術容易&#xff0c;完全受自己控制。員工一點都不聽自己的&#xff0c;安排的工作拖拖拉拉&#xff0c;一點執行力都沒有。 不是管理難做&#xff0c;而是管理者沒有建立權威。如何建立權威&#xff0c;參考以下四點。 …

PCIE V3.0物理層協議學習筆記

一、說明 PCI-Express(peripheral component interconnect express)是一種高速串行計算機擴展總線標準&#xff0c;它原來的名稱為“3GIO”&#xff0c;是由英特爾在2001年提出的&#xff0c;旨在替代舊的PCI&#xff0c;PCI-X和AGP總線標準。 PCIe屬于高速串行點對點雙通道高…

8.11 矢量圖層線要素單一符號使用二

文章目錄 前言箭頭&#xff08;Arrow&#xff09;QGis設置線符號為箭頭(Arrow)二次開發代碼實現 總結 前言 本章介紹矢量圖層線要素單一符號中箭頭&#xff08;Arrow&#xff09;的使用說明&#xff1a;文章中的示例代碼均來自開源項目qgis_cpp_api_apps 箭頭&#xff08;Arr…

證照之星是什么軟件 證照之星哪個版本好用?證照之星支持哪些相機 證照之星XE免費版

許多人都需要使用證件照&#xff0c;為了滿足這一需求&#xff0c;人們會使用照相機、手機、電腦等工具進行拍攝。除此之外&#xff0c;市面上還存在專門的證件照拍攝軟件&#xff0c;比如證照之星。那么&#xff0c;各位小伙伴是否了解證照之星哪個版本好用&#xff0c;證照之…

如何利用3D可視化大屏提升信息展示效果?

老子云3D可視化平臺https://www.laozicloud.com/ 引言 在信息爆炸的時代&#xff0c;如何有效地傳達和展示信息成為了各行各業的一大挑戰。傳統的平面展示方式已經無法滿足人們對信息展示的需求&#xff0c;3D可視化大屏應運而生&#xff0c;成為了提升信息展示效果的利器。本…

會員管理系統應該具備哪些功能?

?會員管理系統應該具備一系列核心功能&#xff0c;以滿足企業在會員管理、營銷和客戶服務等方面的需求。 以下是一些關鍵的會員管理系統功能&#xff1a; 1、會員信息管理&#xff1a;這是會員管理系統的基本功能&#xff0c;包括會員注冊、信息錄入、修改和查詢等。系統應支…

URL入參出參請求頭可配置化

整體思路 通過spring的Spell表達式解析變量的參數值&#xff0c;參數名定義為${XXX},在解析參數值后&#xff0c;將${XXX}替換成#XXX以匹配Spell表達式。 核心實現類 package com.example.spring_boot_study.spring.spell;import cn.hutool.core.map.MapUtil; import cn.hut…

大模型相關內容的研究學習

大模型研究學習 1.大模型的“幻覺” 幻覺可以分為事實性幻覺和忠實性幻覺。 事實性幻覺&#xff0c;是指模型生成的內容與可驗證的現實世界事實不一致。 比如問模型“第一個在月球上行走的人是誰&#xff1f;”&#xff0c;模型回復“Charles Lindbergh在1951年月球先驅任務…

the7主題下載,探索WordPress主題的無限可能

在數字時代&#xff0c;一個出色的網站是任何企業或個人品牌的必備。但在這個競爭激烈的網絡世界中&#xff0c;如何讓您的網站脫穎而出&#xff1f;答案就是 the7 —— 一款專為創造獨特和視覺沖擊力強的網站而設計的 WordPress 主題。 1. 無限設計可能性 the7 以其獨特的設…

探索政務熱線24小時在線服務:提升政府服務效能與民眾滿意度

一. 引言 在信息化、網絡化日益深入的今天&#xff0c;政府服務的方式也在不斷地變革與創新。政務熱線系統作為政府與民眾溝通的重要橋梁&#xff0c;其重要性不言而喻。政務熱線不僅是政府傾聽民眾聲音、回應社會關切的重要渠道&#xff0c;更是推動政府服務向數字化、智能化…