仿拉鉤app（一）---爬蟲數據準備

工欲善其事必先利其器，準備做一個拉鉤的app，但是沒數據可怎么辦，那就直接扒褲衩去爬吧一般爬蟲的思路為：

分析頁面結構
是否有接口
模仿請求（解決反爬的各種方式）
解析數據
存儲數據

按照以上的思路，先分析了一波拉鉤網的結構，發現拉鉤是直接通過接口傳遞數據的（這也太爽了），但是有ip訪問限制，大概是1分鐘請求5次的頻率，所以準備一個ip代理池（土豪可以直接買一個）

接下來直接上代碼了

配置信息：

client = pymongo.MongoClient(host='localhost', port=27017)
db = client['data_name']
data_collection = db['data_collection ']
headers = {"Referer": "https://www.lagou.com/jobs/list_",#必填，否則沒數據"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36",
}
復制代碼

篩選關鍵詞：

keywords = ['java','python','前端',...#你想要的崗位或要求
]
復制代碼

主要爬取流程先使用本地ip獲取->當被限制時，從代理ip池中取出ip爬取數據（該ip不可用則刪除，可以使用則連續使用該ip）->將爬取的數據，進行查重并存儲。

base_request = requests.post(url, data=data, headers=headers, timeout=3)
if not base_request.json().get('content', ''):flag = Falsewhile not flag:  # 若代理ip沒走通則換一個try:r = requests.post(url, data=data, headers=headers, timeout=3, proxies=proxies)if not r.json().get('content', ''):raise Exception('這個ip不能用')save_to_db(r.json().get('content', ''))  # 存入數據庫flag = True  # 成功獲取數據跳出循環except Exception as e:if 'HTTPSConnectionPool' in str(e):delete_proxy(proxy) # 代理本身不可用則刪除該代理proxy = str(get_proxy(), encoding='utf-8')proxies = {'http': 'http://{}'.format(proxy),'https': 'http://{}'.format(proxy),}  # 切換代理else:save_to_db(base_request.json().get('content', ''),'data') # 存入數據庫def save_to_db(content, now_type):if now_type == 'data':data_list = contentfor item in data_list:print(item)find_data = data_collection .find_one({'companyId': item.get('companyId')})if not find_data:  # 查重后插入數據庫data_collection .insert(item)復制代碼

詳細代碼戳

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/537926.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/537926.shtml
英文地址，請注明出處：http://en.pswp.cn/news/537926.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！