火車頭使用Post方法采集Ajax頁面教程

前面有寫過一篇瀑布流的采集方法,今天在添加一個POST方法來采集Ajax刷新頁面的教程。

之前的文章請看:火車頭采集動態加載Ajax數據(無分頁瀑布流網站)

如果遇到POST方法來架子Ajax數據,這和我之前寫的是兩個類型,瀑布流是直接刷新出數據的頁面。

采集網站分析

采集任何一個新站前我們都要對他進行一番分析才好下手。

列表頁分析

這個網站的列表頁,前面并不是通過Ajax加載的。CTRL+U可以直接看到列表內容,通過瀏覽器也看不到相關請求地址。

火車頭使用Post方法采集Ajax頁面教程

火車頭使用Post方法采集Ajax頁面教程

因為習慣原因,我直接看了下尾頁列表頁。然后順手CTRL+U看看網站代碼結構有沒有大的變化。防止后期采集出錯。結果就發現無法看到列表內容。瀏覽器可以看到一個通過post請求的地址。

火車頭使用Post方法采集Ajax頁面教程

火車頭使用Post方法采集Ajax頁面教程

這時候就意識到這網站列表頁可能后面的應該全是通過Ajax加載的。

通過笨方法,手動訪問頁面看看Ajax加載大概是哪些。最后找到大概從2200頁左右開始Ajax加載。

那我們采集的時候,前面的列表頁就可以使用普通方式去采集(速度更快)。

2200頁開始到尾頁就通過post請求Ajax頁面數據。

抓包獲取Post數據

這個Ajax地址我在瀏覽器看不到任何跟頁碼有關的數據。最后只能使用抓包工具看一下詳細的請求內容了。

火車頭使用Post方法采集Ajax頁面教程

使用抓包工具Fiddler

Fiddler下載地址:OneDrive-Fiddler-Setup_v5.0.20204.45441.zip

安裝設置完成后我們打開瀏覽器。重新訪問一下采集頁面,Fiddler會抓到很多請求地址。

查看分析Post數據

Ctrl+F 我們搜索那個Ajax地址

火車頭使用Post方法采集Ajax頁面教程

Fiddler會以黃色將搜索到的結果顯示出來,我們點擊一下他。

火車頭使用Post方法采集Ajax頁面教程

在Fiddler右側會顯示這個請求地址的相關詳細信息。

火車頭使用Post方法采集Ajax頁面教程

信息頂部可以看到是post請求方法。往下拉。

可以看到有我們請求的頁碼相關內容。

火車頭使用Post方法采集Ajax頁面教程

訪問不同頁碼的頁面,經過研究發現規律。

火車頭使用Post方法采集Ajax頁面教程

currentPageIndex的值和頁碼相關,值等于頁碼減一。我們訪問6139頁時,currentPageIndex值是6138。

這就找到了規律,我們打開火車頭采集器。

火車頭采集器配置

分頁設置

起始網址填入Ajax請求地址

火車頭使用Post方法采集Ajax頁面教程

點“高級模式”。

火車頭使用Post方法采集Ajax頁面教程

點“分頁設置”,http請求方式“post”。

火車頭使用Post方法采集Ajax頁面教程

把我們Fiddler抓包獲取的內容填進去。

火車頭使用Post方法采集Ajax頁面教程

將currentPageIndex值的內容替換成火車頭采集器的“分頁”標簽。

火車頭使用Post方法采集Ajax頁面教程

下面填入頁碼。

頁面地址是從2200到6140,上面我們分析得出post請求內容的currentPageIndex值是實際頁碼減一。所以這里面我們填2199到6139.

火車頭使用Post方法采集Ajax頁面教程

網址獲取選項設置

為了篩選出我們需要的內容,我們設置一下網址獲取選項。

打開瀏覽器F12開發工具,預覽一下Ajax獲取的內容。

火車頭使用Post方法采集Ajax頁面教程

可以看到鏈接的形式是

 
  1. <a href=\"/chengrenzikao/20200611152022.html\">自考成考報名條件有哪些?</a>

完整的鏈接地址是

 
  1. https://域名/chengrenzikao/20200611152022.html

那我們就可以使用下面的規則提取地址。

火車頭使用Post方法采集Ajax頁面教程

我們測試一下網址采集。

測試網址采集

點擊測試可能提示“post請求必須選擇網頁編碼”我們在火車頭其他設置中將編碼選為“UTF8”即可。

火車頭使用Post方法采集Ajax頁面教程

可以看到已經正確獲取到了鏈接。不放心可以復制鏈接實際訪問一下看看是否正確。

火車頭使用Post方法采集Ajax頁面教程

注意事項

采集過程注意運行線程和請求間隔時間。教程在測試時因為開的線程較多,頻率過高導致對方網站開啟了防CC設置。拉黑了我一個服務器IP,此教程寫完用了兩臺服務器。

我們實際采集可以只開1個線程,并設置合適的間隔時間,比如1000ms到1500ms左右。

本文由來自2號站長網,轉載請注明出處:https://www.zz2zz.com/331414.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94197.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94197.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94197.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【學習記錄】structuredClone,URLSearchParams,groupBy

structuredClone() 可以進行深拷貝&#xff0c;這里有詳細講解&#xff1a;Window&#xff1a;structuredClone() 方法 當需要處理包含嵌套對象或數組的復雜數據結構時&#xff0c;建議使用 structuredClone() 來保護原始數據。 舉例&#xff1a;別再用 … 擴展運算符了&#x…

30條AI編程指令

大家好&#xff0c;小機又來分享AI了。 前言&#xff1a; 凌晨三點&#xff0c;你還在像素級對齊那個永遠對不齊的按鈕&#xff1b;剛寫完的API文檔&#xff0c;產品經理一句"需求變了" 讓你瞬間崩潰&#xff1b;更扎心的是&#xff0c;實習生用AI十分鐘搞定了你要…

AI+虛擬仿真:以科技之光照亮希望的田野

在鄉村振興與農業現代化的全新征程中&#xff0c;農林專業人才肩負著科技賦能土地、守護綠色發展的重任。然而&#xff0c;現有的教育模式卻越發不適應農業人才的培養需求。“AI虛擬仿真”正在為農業現代化人才建設提供創新的技術引擎。市場風口與政策紅據統計&#xff0c;2024…

04_函數

第4課&#xff1a;函數 課程目標 掌握函數的定義和調用方法學習參數傳遞和返回值的使用理解函數的作用域和命名空間 1. 函數的基本概念 函數是一段可重復使用的代碼塊&#xff0c;用于執行特定的任務。 2. 函數的定義和調用 # 定義函數 def greet():print("你好&#xff0…

STM32學習筆記19-FLASH

FLASH簡介STM32F1系列的FLASH包含程序存儲器、系統存儲器和選項字節三個部分&#xff0c;通過閃存存儲器接口&#xff08;外設&#xff09;可以對程序存儲器和選項字節進行擦除和編程&#xff0c;讀取指定寄存器直接使用指針讀即可讀寫FLASH的用途&#xff1a;利用程序存儲器的…

電蚊拍的原理及電壓電容參數深度解析:從高頻振蕩到倍壓整流的完整技術剖析

1. 引言在炎炎夏日&#xff0c;蚊蟲成為人們生活中的一大困擾。電蚊拍作為一種高效、環保的物理滅蚊工具&#xff0c;憑借其便攜性和實用性在全球范圍內得到了廣泛應用。然而&#xff0c;許多用戶對這種看似簡單的小家電背后的工作原理知之甚少。電蚊拍是一種新型的滅蚊小家電&…

Mac簡單測試硬盤讀寫速度

一、下載軟件 Blackmagic Disk Speed Test 「達芬奇 磁盤速度測試」二、選中測試位置可以隨便選個文件比如“下載”目錄三、開始測速

? 零 ? ? 安全體系構建內容結構

&#x1f44d;點「贊」&#x1f4cc;收「藏」&#x1f440;關「注」&#x1f4ac;評「論」在金融科技深度融合的背景下&#xff0c;信息安全已從單純的技術攻防擴展至架構、合規、流程與創新的系統工程。作為一名從業十多年的老兵&#xff0c;系統闡述數字銀行安全體系的建設路…

XP系統安裝Android Studio 3.5.3并建立Java或Native C++工程,然后在安卓手機上運行

第一節 安裝Android Studio 3.5.3Android Studio 3.5.3下載地址&#xff1a;Android Studio 3.5.3 December 5, 2019 Windows (32-bit): android-studio-ide-191.6010548-windows32.zip (756.1 MB) https://redirector.gvt1.com/edgedl/android/studio/ide-zips/3.5.3.0/androi…

calchash.exe和chckhash.exe計算pe文件hash值的兩個實用小工具

第一部分&#xff1a; C:\WINDOWS\system32\CatRoot\{F750E6C3-38EE-11D1-85E5-00C04FC295EE}\NT5.CAT t部分內容B B D 0 2 2 2 1 A A 6 5 5 6 2 8 F 4 9 5 F 6 C D 3 0 3 9 0 8 B B E 0 0 F 9 5 9 5 第二部分&#xff1a; D:\>calchash.exe pidgen.dll BB D0 22 21 AA 65 …

lanczso算法中的額外正交化代碼解釋

額外正交化 定義&#xff1a;在Lanczos算法中&#xff0c;由于浮點誤差&#xff0c;生成的向量可能不完全正交&#xff0c;需要額外正交化步驟。代碼實現&#xff1a;def extra_orthogonalization(v, basis):for u in basis:v - u * (v.dot(u) / u.dot(u))

Rabbit 實戰指南-學習筆記

第 4 章 RabbitMQ 進階 mandatory 參數 Returning | RabbitMQ 當 mandatory 參數設為 true 時&#xff0c;交換器無法根據自身的類型和路由鍵找到一個符合條件的隊列&#xff0c;那么RabbitMQ 會調用 Basic.Return 命令將消息返回給生產者,通過調用channel.addReturnListener …

BEVDet4D

1. BEVDet4D算法動機及開創性思路 1&#xff09;BEVDet算法概述輸入輸出&#xff1a;輸入為6視角圖像&#xff08;NuScenes數據集&#xff09;&#xff0c;輸出為3D檢測結果核心模塊&#xff1a; 圖像編碼器&#xff1a;由Backbone網絡和多尺度特征融合網絡組成&#xff0c;處理…

當 AI 學會 “理解” 人類:自然語言處理的進化與倫理邊界

大家可以去我的資源看看&#xff0c;有很多關于AI的免費資源可以下載&#xff0c;不下載也可以看看&#xff0c;真的對你有用引言&#xff1a;從 “對話” 到 “理解”——AI 語言能力的時代躍遷現實錨點&#xff1a;以日常場景切入&#xff08;如 ChatGPT 流暢回應復雜問題、A…

WPF控件隨窗體大寬度高度改變而改變

前臺控件中&#xff1a;Width"{Binding RelativeSource{RelativeSource AncestorTypeWindow}, PathWidth}"后臺代碼&#xff1a;定義在加載事件里面this.SizeChanged ProductData_SizeChanged;private void ProductData_SizeChanged(object sender, SizeChangedEven…

E10 通過RPC實現賬號批量鎖定與解鎖

需求背景&#xff1a;賬號信息由三方系統管理&#xff0c;包含賬號狀態&#xff0c;所以需要通過提供給三方的 Rest 接口中&#xff0c;實現賬號鎖定與解鎖。參考基線版本&#xff1a;10.0.2506.01&#xff0c;過低的版本可能無法使用。 鎖定分為兩種&#xff1a; &#xff08;…

什么是AI寵物

什么是AI寵物AI寵物是由AI大腦驅動的生命體AI產品。它能主動產生情緒和意圖&#xff0c;并通過情緒和意圖去驅動自己的動作和行為。它根據自己的意愿和用戶互動&#xff0c;不受用戶控制。從一定意義上講&#xff0c;它擁有了人工生命和自由意志。它有自己的行為邏輯&#xff0…

簡單AI:搜狐公司旗下AI繪畫產品

本文轉載自&#xff1a;簡單AI&#xff1a;搜狐公司旗下AI繪畫產品 - Hello123工具導航 ** 一、平臺定位與技術特性 搜狐簡單 AI 是搜狐推出的多模態 AI 創作平臺&#xff0c;基于自研大模型提供文生圖、文生文等能力。它專注于零門檻內容生成&#xff0c;用戶無需專業技能即…

vue3 3d餅圖

完整3D餅圖項目下載 https://download.csdn.net/download/weixin_54645059/91716476 只有一個vue文件 直接下滑到完整代碼就闊以 本文介紹了如何使用ECharts和ECharts-GL插件實現3D餅圖效果&#xff0c;并提出了數值顯示未解決的問題。主要包含以下內容&#xff1a; 安裝所需…

全球電商業財一體化趨勢加速,巨益科技助力品牌出海精細化運營

行業背景&#xff1a;跨境電商進入品牌化發展新階段隨著國內電商市場競爭日趨激烈&#xff0c;跨境電商已成為中國品牌尋求增長突破的重要賽道&#xff0c;在TikTok、Temu等平臺出海浪潮推動下&#xff0c;越來越多的中國品牌開始布局全球市場。然而&#xff0c;從單一市場的鋪…