有些網站需要用戶登錄才能顯示相關信息,如果要采集這類網站,有以下幾個方法:
????1.?寫發布模塊來抓包獲取post的數據;
? ? 2. 有些采集器內置瀏覽器獲取這些信息,但是經常獲取的不準確,可靠性太低;
? ? 3. 獲取到登錄后網站cookie ,用采集器模擬用戶登錄來采集;
簡數采集器使用第3種方法,操作相對簡單,可靠性高。
詳細步驟如下:
?一、獲取登錄網站后的cookie方法
方式1---最簡單的方法是通過現代瀏覽器來獲取,以chrome為例:
1. F12或右鍵檢查進入開發者模式界面;
2. 點擊NetWork,F5重新加載頁面;
3. 選擇對應頁面名稱的html文件;
4. 獲取cookie;
方式2---還可以使用fiddler工具來進行抓取
fiddler是介于客戶端和服務器端的HTTP代理,也是常用的http抓包工具之一 。 它可以記錄下客戶端和服務器之間的所有HTTP請求,也可以針對指定的HTTP請求,進分析請求數據、設置斷點、修改請求的數據,甚至還可以修改服務器返回的數據,功能十分強大,是網站調試的得力助手。
fiddler官網下載:?Download Fiddler Web Debugging Tool for Free by Telerik
下載安裝完成后,按照以下流程來操作:(本文章是基于Fiddler 4版本)
1.? 右側顯示頁面中先選擇Inspectors欄;
? ? ? ??
2. 由于左側顯示頁面已有許多訪問網站的信息,我們接下先清空一下,方便接下來尋找指定的網頁;
可以用快捷鍵ctrl+x或者在左側顯示頁面右鍵Remove------>>all sessions;
? ? ? ? ? ??
????????? ?
3.? 接下來登陸上需要抓取cookie的網站或者刷新已經登錄的網頁,就可以在左側顯示欄輕松找到網站的Host(網站域名)+ URL,以我這個
例子,選取的就是這一條,注意URL內容是斜杠 /? 的那一條信息;
? ? ? ? ? ? ?
4. 右邊顯示欄選擇raw欄,這時能看到獲取的cookie了;
? ? ? ? ??
5. 為了獲取完整的cookie,我們點擊右側顯示欄中間的view in Notepad,即打開記事本來獲取完整的cookie;
? ? ? ? ??
?
二、獲取的cookie填寫入簡數
最后把獲取的cookie和user-engent信息拷貝到采集器中,再打開詳情提取器即可查看到之前隱藏的內容;
簡數采集器有三處入口可填寫cookie:
I、新建任務時,高級選項處:
II、點擊? “啟動 | 定時采集 ”? ,在網絡配置中填上相關信息;
III、打開提起器左側列表下方的網絡配置: