采集需要登錄網站的教程

有些網站需要用戶登錄才能顯示相關信息,如果要采集這類網站,有以下幾個方法:

????1.?寫發布模塊來抓包獲取post的數據;

? ? 2. 有些采集器內置瀏覽器獲取這些信息,但是經常獲取的不準確,可靠性太低;

? ? 3. 獲取到登錄后網站cookie ,用采集器模擬用戶登錄來采集;

簡數采集器使用第3種方法,操作相對簡單,可靠性高。

詳細步驟如下:

?一、獲取登錄網站后的cookie方法

方式1---最簡單的方法是通過現代瀏覽器來獲取,以chrome為例:

1. F12或右鍵檢查進入開發者模式界面;

2. 點擊NetWork,F5重新加載頁面;

3. 選擇對應頁面名稱的html文件;

4. 獲取cookie;

方式2---還可以使用fiddler工具來進行抓取

fiddler是介于客戶端和服務器端的HTTP代理,也是常用的http抓包工具之一 。 它可以記錄下客戶端和服務器之間的所有HTTP請求,也可以針對指定的HTTP請求,進分析請求數據、設置斷點、修改請求的數據,甚至還可以修改服務器返回的數據,功能十分強大,是網站調試的得力助手。

fiddler官網下載:?Download Fiddler Web Debugging Tool for Free by Telerik

下載安裝完成后,按照以下流程來操作:(本文章是基于Fiddler 4版本)

1.? 右側顯示頁面中先選擇Inspectors欄;

? ? ? ??

2. 由于左側顯示頁面已有許多訪問網站的信息,我們接下先清空一下,方便接下來尋找指定的網頁;

可以用快捷鍵ctrl+x或者在左側顯示頁面右鍵Remove------>>all sessions;

? ? ? ? ? ??

????????? ?

3.? 接下來登陸上需要抓取cookie的網站或者刷新已經登錄的網頁,就可以在左側顯示欄輕松找到網站的Host(網站域名)+ URL,以我這個

例子,選取的就是這一條,注意URL內容是斜杠 /? 的那一條信息;

? ? ? ? ? ? ?

4. 右邊顯示欄選擇raw欄,這時能看到獲取的cookie了;

? ? ? ? ??

5. 為了獲取完整的cookie,我們點擊右側顯示欄中間的view in Notepad,即打開記事本來獲取完整的cookie;

? ? ? ? ??


?

二、獲取的cookie填寫入簡數

最后把獲取的cookie和user-engent信息拷貝到采集器中,再打開詳情提取器即可查看到之前隱藏的內容;

簡數采集器有三處入口可填寫cookie:

I、新建任務時,高級選項處:

II、點擊? “啟動 | 定時采集 ”? ,在網絡配置中填上相關信息;

III、打開提起器左側列表下方的網絡配置:

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83871.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83871.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83871.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

六足連桿爬行機器人的simulink建模與仿真

目錄 1.課題概述 2.系統仿真結果 3.核心程序 4.系統原理簡介 5.完整工程文件 1.課題概述 六足連桿爬行機器人的simulink建模與仿真。通過simulink,對六足機器人的六足以及機身進行simulink建模,模擬其行走,仿真輸出機器人行走時六足的坐…

什么是物聯網 (IoT):2024 年物聯網概述

物聯網(IoT)是一個有望徹底改變我們生活、工作以及與環境互動方式的概念。如今,越來越多的新興企業和老牌企業都在利用物聯網的力量創造創新產品與服務。正因為這一轉變,互聯互通已成為我們生活中不可或缺的一部分,科技…

MVC入門(5)-- HttpMessageConverter 消息轉換器

概念 HttpMessageConverter 是 Spring 框架中用于處理 HTTP 請求和響應數據的核心接口,負責在 Java 對象與 HTTP 消息體(請求體或響應體)之間進行雙向轉換。簡單來說,它是 Spring 用來將 HTTP 請求中的原始數據(如 JS…

Spark,連接MySQL數據庫,添加數據,讀取數據

以下是使用Spark連接MySQL數據庫、添加數據和讀取數據的步驟(基于Scala API): 1. 準備工作 - 添加MySQL驅動依賴 在Spark項目中引入MySQL Connector JAR包(如 mysql-connector-java-8.0.33.jar ),或通過Sp…

關于 APK 反編譯與重構工具集

一、apktool — APK 解包 / 重打包 apktool 是一款開源的 Android APK 工具,用于: 反編譯 APK 查看資源和布局文件 生成 smali 文件(DEX 的反匯編) 對 APK 進行修改后重新打包 它不能還原 Java 源碼,只能將 D…

[解決方案] Word轉PDF

背景: 之前做過一些pdf導出, 客戶提了一個特別急的需求, 要求根據一個模版跟一個csv的數據源, 批量生成PDF, 因為之前用過FOP, 知道調整樣式需要特別長的時間, 這個需求又特別急, 所…

01 基本介紹及Pod基礎

01 查看各種資源 01-1 查看K8s集群的內置資源 [rootmaster01 ~]# kubectl api-resources NAME SHORTNAMES APIVERSION NAMESPACED KIND bindings v1 …

19 C 語言位運算、賦值、條件、逗號運算符詳解:涵蓋運算符優先級與復雜表達式計算過程分析

1 位運算符 位運算符是對整數的二進制表示&#xff08;補碼形式&#xff09;進行逐位操作的運算符。以下是主要的位運算符及其功能描述&#xff1a; 運算符描述操作數個數副作用&按位與2無|按位或2無^按位異或2無~按位取反1無<<按位左移2無>>按位右移2無 1.1…

哈希查找方法

已知哈希表長度為11&#xff0c;哈希函數為H&#xff08;key&#xff09;&#xff1d;key&#xff05;11&#xff0c;隨機產生待散列的小于50的8個元素&#xff0c;同時采用線性探測再散列的方法處理沖突。任意輸入要查找的數據&#xff0c;無論是否找到均給出提示信息。 int f…

JavaScript性能優化實戰(10):前端框架性能優化深度解析

引言 React、Vue、Angular等框架雖然提供了強大的抽象和開發效率,但不恰當的使用方式會導致嚴重的性能問題,針對這些問題,本文將深入探討前端框架性能優化的核心技術和最佳實踐。 React性能優化核心技術 React通過虛擬DOM和高效的渲染機制提供了出色的性能,但當應用規模…

類和對象------2

目錄 一. C面向對象模型初探1 .成員變量和函數的存儲 二 this指針1 &#xff09;this指針工作原理2 &#xff09;this指針的使用3&#xff09; const修飾成員函數4 &#xff09;const修飾對象(常對象) 3.友元1 )友元語法2) 課堂練習 4 強化訓練(數組類封裝) 四 運算符重載&…

量子計算在金融科技中的應用前景

隨著量子計算技術的飛速發展&#xff0c;其在各行業的應用潛力逐漸顯現&#xff0c;金融科技領域更是備受關注。量子計算的強大計算能力有望為金融行業帶來前所未有的變革&#xff0c;從風險評估到投資組合優化&#xff0c;從高頻交易到加密技術&#xff0c;量子計算都可能成為…

Redisson 四大核心機制實現原理詳解

一、可重入鎖&#xff08;Reentrant Lock&#xff09; 可重入鎖是什么&#xff1f; 通俗定義 可重入鎖類似于一把“智能鎖”&#xff0c;它能識別當前的鎖持有者是否是當前線程&#xff1a; 如果是&#xff0c;則允許線程重復獲取鎖&#xff08;重入&#xff09;&#xff0c;并…

srs-7.0 支持obs推webrtc流

demo演示 官方教程: https://ossrs.net/lts/zh-cn/blog/Experience-Ultra-Low-Latency-Live-Streaming-with-OBS-WHIP 實現原理就是通過WHIP協議來傳輸 SDP信息 1、運行 ./objs/srs -c conf/rtc.conf 2、obs推流 3、web端播放webrtc流 打開web:ht

面試題——JDBC|Maven|Spring的IOC思想|DI思想|SpringMVC

目錄 一、JDBC 1、jdbc連接數據庫的基本步驟&#xff08;掌握**&#xff09; 2、Statement和PreparedStatement的區別 &#xff08;掌握***&#xff09; 二、Maven 1、maven的作用 2、maven 如何排除依賴 3、maven scope作用域有哪些&#xff1f; 三、Spring的IOC思想 …

從代碼學習數學優化算法 - 拉格朗日松弛 Python版

文章目錄 前言1. 問題定義 (Problem Definition)2. 拉格朗日松弛 (Lagrangian Relaxation)3. 拉格朗日對偶問題 (Lagrangian Dual)4. 次梯度優化 (Subgradient Optimization)5. Python 代碼實現導入庫和問題定義輔助函數:求解拉格朗日松弛子問題次梯度優化主循環結果展示與繪圖…

密碼學實驗

密碼學實驗二 一、實驗目的&#xff08;本次實驗所涉及并要求掌握的知識點&#xff09; 掌握RSA算法的基本原理并根據給出的RSA算法簡單的實現代碼源程序,以及能夠使用RSA對文件進行加密。掌握素性測試的基本原理&#xff0c;并且會使用Python進行簡單的素性測試以及初步理解…

力扣面試150題-- 從中序與后序遍歷序列構造二叉樹

Day 44 題目描述 思路 這題類似與昨天那題&#xff0c;首先來復習一下&#xff0c;后序遍歷&#xff0c;對于后序遍歷每一個元素都滿足以下規律&#xff1a; &#xff08;左子樹&#xff09;&#xff08;右子樹&#xff09;&#xff08;根&#xff09;&#xff0c;那么我們直…

2區組的2水平析因實驗的混區設計

本文是實驗設計與分析&#xff08;第6版&#xff0c;Montgomery著傅玨生譯)第7章2k析因的區組化和混區設計第7.4節的python解決方案。本文盡量避免重復書中的理論&#xff0c;著于提供python解決方案&#xff0c;并與原書的運算結果進行對比。您可以從Detail 下載實驗設計與分析…

反向傳播算法——矩陣形式遞推公式——ReLU傳遞函數

總結反向傳播算法。 來源于https://udlbook.github.io/udlbook/&#xff0c;我不明白初始不從 x 0 \boldsymbol{x}_0 x0?開始&#xff0c;而是從 z 0 \boldsymbol{z}_0 z0?開始&#xff0c;不知道怎么想的。 考慮一個深度神經網絡 g [ x i , ? ] g[\boldsymbol{x}_i, \bold…