人工智能爬蟲導致維基共享資源帶寬需求激增 50%

2025 年 4 月 1 日,維基媒體基金會在博文中表示,自 2024 年 1 月以來,維基共享資源下載多媒體的帶寬消耗激增 50%,這一變化趨勢主要由用于 AI 訓練數據集的網絡爬蟲導致。以下是具體分析1:

  • 爬蟲流量特征與數據存儲模式的沖突:維基媒體基金會的數據存儲模式是低使用頻率內容僅存放在核心數據中心,而高頻請求的數據則在更鄰近的數據中心提供備份。人類讀者傾向于關注特定主題,而爬蟲機器人傾向于 “批量閱讀” 大量頁面并訪問不太受歡迎的頁面,這意味著它們有更多的流量發送到核心數據中心,帶來了更高的流量成本。根據統計,機器人以 35% 的總體瀏覽量消耗了 65% 的核心數據中心流量資源。
  • 爬蟲行為的無節制性:這些人工智能爬蟲為了滿足訓練 AI 模型的數據需求,對數據的獲取既貪婪又不加選擇,會訪問大量的頁面資源,甚至還去訪問了維基媒體基金會開發環境關鍵系統(如代碼審查平臺、錯誤跟蹤器)的 URL,在一定時間內產生的請求量巨大,遠遠超過了正常人類用戶的訪問量,導致帶寬需求急劇上升。

維基媒體基金會面臨著較大的運營開支壓力,其網站可靠性團隊不得不花費大量時間和資源來阻止爬蟲程序,以避免對普通用戶造成干擾。

維基媒體基金會采取了以下針對爬蟲行為的措施:

  • 技術限制手段
    • IP 限制:基金會可能會監控 IP 地址,對頻繁發送請求的 IP 進行限制,阻止或限制來自這些 IP 的訪問,從而減少爬蟲的大規模訪問。
    • User - Agent 檢測:通過檢測請求中的 User - Agent 字段來判斷請求是否來自常見的爬蟲程序。如果發現是爬蟲的 User - Agent,就會對其進行攔截或限制,拒絕為其提供服務。
    • 驗證碼驗證:在部分頁面或操作中加入驗證碼,要求訪問者進行人機驗證,如拖動滑塊、選中特定圖片等,以防止自動化爬蟲程序的訪問。
    • 動態頁面生成:使用 JavaScript 等技術在服務器端動態生成頁面內容,使爬蟲無法直接獲取完整的頁面數據,增加爬蟲解析和獲取信息的難度。
  • 規范與溝通措施
    • 明確使用規范:強調基金會的內容是免費提供的,但基礎設施需要成本,呼吁建立負責任、可持續的基礎設施使用規范,讓開發者和數據復用者明確如何正確合法地獲取和使用其內容。
    • 與科技公司合作:與相關科技公司合作來共同應對爬蟲問題。例如,Cloudflare 推出了 AI Labyrinth,它使用人工智能生成的內容來減慢爬蟲的速度,維基媒體基金會可能會借助類似的技術和工具來保護自身資源。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/74533.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/74533.shtml
英文地址,請注明出處:http://en.pswp.cn/web/74533.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2007-2019年各省地方財政交通運輸支出數據

2007-2019年各省地方財政交通運輸支出數據 1、時間:2007-2019年 2、來源:國家統計局、統計年鑒 3、指標:行政區劃代碼、地區、年份、地方財政交通運輸支出 4、范圍:31省 5、指標說明:地方財政交通運輸支出是指地方…

【爬蟲開發】爬蟲開發從0到1全知識教程第14篇:scrapy爬蟲框架,介紹【附代碼文檔】

本教程的知識點為:爬蟲概要 爬蟲基礎 爬蟲概述 知識點: 1. 爬蟲的概念 requests模塊 requests模塊 知識點: 1. requests模塊介紹 1.1 requests模塊的作用: 數據提取概要 數據提取概述 知識點 1. 響應內容的分類 知識點&#xff1a…

【CMake】《CMake構建實戰:項目開發卷》筆記-Chapter8-生成器表達式

第8章 生成器表達式 生成器表達式(generator expression)是由CMake生成器進行解析的表達式,因此,這些表達式只有在CMake的生成階段才被解析為具體的值。 CMake在生成階段,能夠根據具體選用的構建系統生成器生成特定…

Docker安裝、配置Mysql5.7

1.創建必要的目錄 # 創建目錄 mkdir -p ~/docker/software/mysql/{conf,log,data} 2.如果沒有docker-compose.yml文件的話,先創建docker-compose.yml 配置文件一般長這個樣子 version: 3services:mysql:image: mysql:5.7.36container_name: mysqlports:- "…

【C++學習筆記】十三、速通筆記

完整的C編程教程 目錄 開發環境配置C知識體系現代C特性設計模式數據結構CMake項目構建調試技巧進階主題學習資源 1. 開發環境配置 1.1 安裝編譯器 sudo apt-get install g build-essential1.2 安裝構建工具 sudo apt-get install cmake1.3 VS Code配置 安裝C擴展配置調試…

網絡運維學習筆記(DeepSeek優化版)027 OSPF外部路由計算

文章目錄 OSPF外部路由計算1. 實驗拓撲與基礎配置2. 關鍵配置命令2.1 引入靜態路由2.2 查看路由表 3. LSA生成與傳播分析3.1 ASBR角色通告(1類LSA)3.2 外部路由通告(5類LSA)3.3 外部路由引入過程 4. 5類LSA關鍵字段解析5. 外部路由…

【Python使用】嘿馬推薦系統全知識和項目開發教程第2篇:1.4 案例--基于協同過濾的電影推薦,1.5 推薦系統評估【附代碼

教程總體簡介:1.1 推薦系統簡介 學習目標 1 推薦系統概念及產生背景 2 推薦系統的工作原理及作用 3 推薦系統和Web項目的區別 1.3 推薦算法 1 推薦模型構建流程 2 最經典的推薦算法:協同過濾推薦算法(Collaborative Filtering) 3 …

運算放大器(五)電壓比較器

比較器在最常用的簡單集成電路中排名第二,僅次于排名第一的運算放大器。 電壓比較器是一種用來比較輸入信號電壓與參考電壓大小,并將比較結果以高電平或低電平形式輸出的一種信號處理電路,廣泛應用于各種非正弦波的產生和變換電路中&#xf…

Java面試黃金寶典34

1. 主鍵索引底層的實現原理 定義 主鍵索引是數據庫中用于唯一標識表中每一行記錄的索引,常見的底層實現是 B 樹結構。B 樹是一種平衡的多路搜索樹,由內部節點和葉子節點組成。內部節點只存儲索引鍵和指向下一層節點的指針,不存儲實際數據&am…

Educational Codeforces Round 177 (Rated for Div. 2)

Educational Codeforces Round 177 (Rated for Div. 2) A. Cloudberry Jam 思路&#xff1a; 1千克果子能生產2/3千克果醬&#xff0c;生產3千克果醬則需要2千克果醬&#xff0c;所以*2即可 code: void solve() { int x; cin >> x;cout << 2 * x << e…

ARM-外部中斷,ADC模數轉換器

根據您提供的圖片&#xff0c;我們可以看到一個S3C2440微控制器的中斷處理流程圖。這個流程圖展示了從中斷請求源到CPU的整個中斷處理過程。以下是流程圖中各個部分與您提供的寄存器之間的關系&#xff1a; 請求源&#xff08;帶sub寄存器&#xff09;&#xff1a; 這些是具體的…

23種設計模式-行為型模式-迭代器

文章目錄 簡介問題解決代碼設計關鍵點&#xff1a; 總結 簡介 迭代器是一種行為設計模式&#xff0c;讓你能在不暴露集合底層表現形式(列表、棧和樹等)的情況下遍歷集合中所有的元素。 問題 集合是編程中最常使用的數據類型之一。 大部分集合使用簡單列表存儲元素。但有些集…

Python 布爾類型

Python 布爾類型(Boolean) 布爾類型是Python中的基本數據類型之一&#xff0c;用于表示邏輯值。它只有兩個值&#xff1a; True - 表示真False - 表示假 1. 布爾值的基本使用 # 定義布爾變量 is_active True is_admin Falseprint(is_active) # 輸出: True print(is_admi…

人工智能在前端開發中的應用探索

一、人工智能在前端開發中的應用場景 人工智能&#xff08;AI&#xff09;技術的快速發展為前端開發帶來了新的機遇和挑戰。AI在前端開發中的應用主要集中在以下幾個方面&#xff1a;智能代碼生成、自動化測試、個性化推薦、智能交互設計以及性能優化。這些應用場景不僅提高了…

三維掃描助力文化遺產數字化保護

當下&#xff0c;三維掃描技術以其獨特的優勢&#xff0c;正逐漸成為文化遺產數字化保護的重要工具&#xff0c;讓珍貴的文物得以“永生”。 三維掃描在文物數字化方面的應用&#xff1a; 高精度文物存檔&#xff1a;三維掃描技術能夠實現對文物的快速、無損掃描&#xff0c;…

如何將生活場景轉換為數據模型模型仿真?

從家到公司有31公里&#xff0c;其中有一個2車道右轉立交橋匯入另外一條路&#xff0c;每次都是那個堵車&#xff0c;導致路上的行程在45分鐘到70分鐘左右&#xff1f;前面或后面路段都是3-4車道&#xff0c;足夠通行。如何解決這個難題&#xff0c;是否可搭建數學模型實現可視…

Java學習總結-io流-練習案例

將文檔的內容排序&#xff1a; public static void main(String[] args) throws IOException {File dir new File("J:\\360downloads\\wpcache\\srvsetwp\\xxx\\test.txt");BufferedReader br new BufferedReader(new FileReader(dir));//把按行讀取到的內容&#…

【C++】STL庫_stack_queue 的模擬實現

棧&#xff08;Stack&#xff09;、隊列&#xff08;Queue&#xff09;是C STL中的經典容器適配器 容器適配器特性 不是獨立容器&#xff0c;依賴底層容器&#xff08;deque/vector/list&#xff09;通過限制基礎容器接口實現特定訪問模式不支持迭代器操作&#xff08;無法遍歷…

LangChain核心解析:掌握AI開發的“鏈“式思維

0. 思維導圖 1. 引言 ?? 在人工智能快速發展的今天,如何有效地利用大語言模型(LLM)構建強大的應用成為眾多開發者關注的焦點。前面的課程中,我們學習了正則表達式以及向量數據庫的相關知識,了解了如何處理文檔并將其附加給大模型。本章我們將深入探討LangChain中的核心概…

Error:java: 程序包lombok不存在

使用Maven package打包項目發現報錯 一、Maven配置文件修改 1.找到本地 maven的配置文件settings.xml 2.修改配置文件中&#xff0c;指向本地倉庫的地址使用 ‘’ \ \ ‘’ 隔開&#xff0c; 要么使用 正斜線 / 隔開 不要使用 反斜線 \ windows OS 電腦&#xff0c;使用 \ …