網絡爬蟲的危害,如何有效的防止非法利用

近年來,不法分子利用“爬蟲”軟件收集公民隱私數據案件屢見不鮮。2023年8月23日,北京市高級人民法院召開北京法院侵犯公民個人信息犯罪案件審判情況新聞通報會,通報侵犯公民個人隱私信息案件審判情況,并發布典型案例。在這些典型案例中,不法分子多是通過社交軟件群、網站論壇等平臺買賣或交換個人信息,“爬蟲”軟件成為收集大量信息的常用軟件之一。

網絡數據爬蟲,又稱為網絡數據蜘蛛、互聯網機器人等。它通過爬取互聯網上網站的內容來工作。它是用計算機語言編寫的程序或腳本,用于自動從Internet上獲取任何信息或數據。爬蟲掃描并抓取每個所需頁面上的某些信息,自動實現對目標站點和目標信息的批量獲取,包括信息采集、數據存儲、信息提取。在利用爬蟲技術時應采用搜索引擎的爬蟲來對網頁上的信息進行搜集和存儲,應當嚴格遵守Robots協議規范爬取網頁數據(如URL)。禁止未經合法授權或超越授權去侵入它人的網站服務器,確保爬蟲程序不會突破或繞開網站服務器的防護措施。

爬蟲技術手段

爬蟲通用架構如下:

爬蟲從待抓取URL隊列依次讀取,并將URL通過DNS解析,把鏈接地址轉換為網站服務器對應的IP地址。然后將其和網頁相對路徑名稱交給網頁下載器,網頁下載器負責頁面的下載。對于下載到本地的網頁,一方面將其存儲到頁面庫中,等待建立索引等后續處理;另一方面將下載網頁的URL放入已抓取隊列中,這個隊列記錄了爬蟲系統已經下載過的網頁URL,以避免系統的重復抓取。對于剛下載的網頁,從中抽取出包含的所有鏈接信息,并在已下載的URL隊列中進行檢查,如果發現鏈接還沒有被抓取過,則放到待抓取URL隊列的末尾,在之后的抓取調度中會下載這個URL對應的網頁。如此這般,形成循環,直到待抓取URL隊列為空。

爬蟲的幾種分類:

通用爬蟲:

通用爬蟲又稱全網爬蟲,它將爬取對象從一些種子 URL擴充到整個Web上的網站,主要用途是為門戶站點搜索引擎和大型Web服務提供商采集數據。

聚焦爬蟲:

聚焦爬蟲,又稱主題網絡爬蟲,是指選擇性地爬行那些與預先定義好的主題相關的頁面的網絡爬蟲。

增量式爬蟲:

增量式網絡爬蟲是指在具有一定量規模的網絡頁面集合的基礎上,采用更新數據的方式選取已有集合中的過時網頁進行抓取,以保證所抓取到的數據與真實網絡數據足夠接近。

表層爬蟲:

爬取表層網頁的爬蟲叫做表層爬蟲。表層網頁是指傳統搜索引擎可以索引的頁面,以超鏈接可以到達的靜態網頁為主構成的Web頁面。

深層爬蟲:

爬取深層網頁的爬蟲就叫做深層爬蟲。深層網頁是那些大部分內容不能通過靜態鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關鍵詞才能獲得的 Web 頁面。

數據防護措施方案:

不法分子利用惡意爬蟲不遵守網站的robots協議,對網站中某些深層次的、不愿意公開的數據肆意爬取,其中不乏個人隱私或者商業秘密等重要信息,并有可能給對方服務器性能造成極大損耗。未經過網站服務器的合法授權去抓取數據會干擾網站的正常運營,而非正規爬蟲自動持續且高頻次地對網站服務器發起請求,服務器負載飆升,同一時間大量的爬蟲請求會讓網站服務器過載或崩潰,尤其是中小網站可能會面臨網站打不開、網頁加載極其緩慢、甚至直接癱瘓的情況。下面我講介紹幾種防護方法:

1.Uswe-Agent?反爬蟲

User-Agent是請求頭的一部分,在用戶請求網站時會告訴網站服務器,網站服務器可以通過請求頭參數中的?User-Agent?來判斷請求方是否是瀏覽器、客戶端程序或者其他的終端,如果是通過爬蟲方式請求則為默認的請求頭信息,直接過濾拒絕訪問,如果是用戶瀏覽器,就會應答。

在網站服務器設置User-Agent,添加指定的User-Agent請求頭信息,User-Agent存放于Headers中,網站服務器就是通過查看Headers中的User-Agent字段中的值來判斷是誰在請求訪問網站。當用戶或者爬蟲程序請求訪問網站時網站服務器會自動的去檢測連接對象,如果檢測到請求頭中未包含指定的User-Agent的話,網站本身的反爬蟲程序就會識別出你是通過爬蟲程序在訪問網站,網站服務器會判斷是非法請求,從而拒絕訪問 。如果檢測對象的User-Agent為指定的請求頭信息則接受訪問。

2.黑名單策略

在網站服務器中配置黑名單策略,當請求方發起請求后網站服務器進行識別、只要編程語言出現在黑名單策略中,都視為爬蟲,對于此類請求可以不予處理或者返回相應的錯誤提示。

2.User-Agent訪問

網站服務器后臺對訪問進行統計,如果單個User-Agent訪問超過指定閾值,予以臨時封鎖或永久性封鎖。

3.單個IP訪問

網站服務器后臺對請求訪問的IP進行統計,如果單個IP訪問超過指定閾值,予以臨時封鎖或永久性封鎖。

結語?:

當前,互聯網數據作為新型生產要素,正深刻影響著國家經濟社會的發展。大量惡意爬蟲竊取網站核心數據,應當采取數據防護措施手段,保障數據得到有效保護和合法利用,并使數據持續處于安全狀態的能力以及保障網站服務器的正常運轉和降低服務器的壓力與運營成本。通過反爬蟲技術手段對網站數據進行防護,避免被那些不遵守網站robots協議的惡意爬蟲肆意高頻次的從網站爬取個人信息數據、企業非公開和國家重要等數據。??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711872.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711872.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711872.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

獲取PDF中的布局信息——如何獲取段落

PDF解析是極其復雜的問題。不可能靠一個工具解決全部問題,尤其是五花八門,格式不統一的PDF文件。除非有鈔能力。如果沒有那就看看可以分為哪些問題。 提取文本內容,提取表格內容,提取圖片。我認為這些應該是分開做的事情。python有…

百度百科數據爬取 python 詞條數據獲取

最近需要補充一些電力名詞的解釋,尤其是文字相關內容。百度百科上的詞條質量有差異,因此我們需要先手工選擇一些高質量詞條。 假設我們選擇了互感器頁面中的儀用變壓器詞條,首先: import requests from bs4 import BeautifulS…

DataSpell 2023:專注于數據,加速您的數據科學之旅 mac/win版

JetBrains DataSpell 2023是一款專為數據科學家和數據分析師設計的集成開發環境(IDE)。這款IDE提供了強大的數據分析和可視化工具,旨在幫助用戶更快速、更高效地進行數據科學工作。 DataSpell 2023軟件獲取 DataSpell 2023在保持其一貫的數…

【多線程】常見鎖策略詳解(面試常考題型)

目錄 🌴 樂觀鎖 vs 悲觀鎖🎍重量級鎖 vs 輕量級鎖🍀自旋鎖(Spin Lock)🎋公平鎖 vs ?公平鎖🌳可重?鎖 vs 不可重?鎖🎄讀寫鎖?相關面試題 常?的鎖策略 注意: 接下來講解的鎖策略不…

udp丟包問題研究

//發現udp 有收不到數據包現象. 一: 觀察丟包 1. ifconfig enp8s0 2. netstat -s -u 二: 修改系統緩存參數. recv_buffer_size 修改系統buffer_size sysctl -w net.core.rmem_max26214400 sysctl -w net.core.rmem_default26214400 三: 應用程序考慮 av_dict_set(&m_o…

cpp基礎學習筆記03:類型轉換

static_cast 靜態轉換 用于類層次結構中基類和派生類之間指針或者引用的轉換。up-casting (把派生類的指針或引用轉換成基類的指針或者引用表示)是安全的;down-casting(把基類指針或引用轉換成子類的指針或者引用)是不安全的。用于基本數據類型之間的轉換&#xff…

【C# 】進度條控件 ProgressBar 使用

進度條控件ProgressBar控件,一般作為UI界面表示某個事情進行到某個程度的外觀的體現。 那么進度條控件ProgressBar控件,在form中是怎么使用的呢? 該控件必須要用的屬性如下: private System.Windows.Forms.ProgressBar progressB…

Flutter Version Manager (FVM): Flutter的版本管理終極指南

Flutter筆記 Flutter Version Manager (FVM) - 文章信息 - Author: 李俊才 (jcLee95) Visit me at: https://jclee95.blog.csdn.netEmail: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550263/article/details/136300307 my-websit…

SQL-Labs靶場“26-28”關通關教程

君衍. 一、二十六關 基于GET過濾空格以及注釋報錯注入1、源碼分析2、繞過思路3、updatexml報錯注入 二、二十六a關 基于GET過濾空格注釋字符型注入1、源碼分析2、繞過思路3、時間盲注 三、二十七關 基于union及select的過濾單引號注入1、源碼分析2、繞過思路3、聯合查詢注入4、…

laravel cache

一、基本操作 Cache::put() 創建緩存(鍵,值,有效期(單位是秒)) Cache::get() 獲取緩存 Cache::add() 只會在緩存項不存在的情況下添加數據到緩存,如果數據被成功返回 true,否則&…

Android在后臺讀取UVC攝像頭的幀數據流并推送

Android在后臺讀取UVC攝像頭的幀數據流并推送 添加UvcCamera依賴庫 使用原版的 saki4510t/UVCCamera 在預覽過程中斷開可能會閃退,這里使用的是 jiangdongguo/AndroidUSBCamera 中修改的版本,下載到本地即可。 https://github.com/jiangdongguo/AndroidU…

Rust學習筆記:基礎工具和基本名詞

不要用共享內存來通信,要用通信來共享內存 rustup: 一個用于管理 Rust 版本和相關工具的命令行工具 rustup update cargo: Rust 的構建系統和包管理工具 構建代碼下載依賴庫并構建下載庫 crate: 代碼包/庫 trait: 特性、功能 ///: 生成 html 格式的 doc&#…

CELL文獻速遞 | 了解微生物如何在社會中傳播并塑造我們的健康

谷禾健康 當人還是嬰兒時,會從父母那里得到微生物;和寵物玩耍或接觸時,也會從寵物那得到微生物;有時候人沒有直接和動物玩耍,只是接觸動物的糞便,甚至其他環境的微生物,都會交換微生物... 這些其…

智慧治水丨計訊物聯水利RTU助推小型水庫出險加固工程建設與管理

日前,水利部印發《關于健全小型水庫除險加固和運行管護機制的意見》(以下簡稱《意見》),健全小型水庫除險加固和運行管護常態化機制,提高小型水庫安全管理水平。《意見》提出了“十四五”的兩大管理機制,通…

adb下載安裝及使用教程

adb下載安裝及使用教程 一、ADB的介紹1.ADB是什么?2.內容簡介3.ADB常用命令1. ADB查看設備2. ADB安裝軟件3. ADB卸載軟件4. ADB登錄設備shell5. ADB從電腦上發送文件到設備6. ADB從設備上下載文件到電腦7. ADB顯示幫助信息 4.為什么要用ADB 二、ADB的下載1.Windows版…

Flutter GetX 之 暗黑模式

我們緊接上篇文章,今天繼續講解一下強大的 GetX 的另一個功能,就是 暗黑模式 ,在iOS 13開始蘋果的應用慢慢的都開始適配 暗黑模式,andr。oid 也慢慢的 開始跟進,截止到目前,商店的大部分應用都已經完成了 暗黑模式 的適配。 原生開發為我們提供對應的 API,那么Flutter呢…

機器學習相關概念及術語總結

目錄 1.機器學習2.監督學習3.無監督學習4.線性回歸5.邏輯回歸 1.機器學習 機器學習的定義:一個計算機程序可從經驗E(Experience)中學習如何完成任務T(Task),并且隨著經驗E的增加,性能指標P&…

Python中reduce函數和lambda表達式的學習

reduce函數將一個數據集合(鏈表,元組等)中的所有數據進行下列操作:用傳給 reduce 中的函數 function(有兩個參數)先對集合中的第 1、2 個元素進行操作,得到的結果再與第三個數據用 function 函數…

【論文精讀】DINOv2

摘要 學習與特定任務無關的預訓練表示已經成為自然語言處理的標準,這些表示不進行微調,即可在下游任務上明顯優于特定任務模型的性能。其主要得益于使用無監督語言建模目標對大量原始文本進行預訓練。 遵循NLP中的這種范式轉變,以探索計算機視…

iSlide插件2024免費版(包含52 個PPT設計輔助功能,9 大在線資源庫,以及超 50 萬 專業)

一、功能介紹 iSlide是一款專為PowerPoint設計的插件,它集合了眾多設計與效率提升的功能,幫助用戶更快速、更美觀地制作演示文稿。 主題設計:提供多種設計主題,用戶只需一鍵應用,即可為幻燈片賦予統一的視覺風格。智…