2025 年 4 月 1 日,維基媒體基金會在博文中表示,自 2024 年 1 月以來,維基共享資源下載多媒體的帶寬消耗激增 50%,這一變化趨勢主要由用于 AI 訓練數據集的網絡爬蟲導致。以下是具體分析1:
- 爬蟲流量特征與數據存儲模式的沖突:維基媒體基金會的數據存儲模式是低使用頻率內容僅存放在核心數據中心,而高頻請求的數據則在更鄰近的數據中心提供備份。人類讀者傾向于關注特定主題,而爬蟲機器人傾向于 “批量閱讀” 大量頁面并訪問不太受歡迎的頁面,這意味著它們有更多的流量發送到核心數據中心,帶來了更高的流量成本。根據統計,機器人以 35% 的總體瀏覽量消耗了 65% 的核心數據中心流量資源。
- 爬蟲行為的無節制性:這些人工智能爬蟲為了滿足訓練 AI 模型的數據需求,對數據的獲取既貪婪又不加選擇,會訪問大量的頁面資源,甚至還去訪問了維基媒體基金會開發環境關鍵系統(如代碼審查平臺、錯誤跟蹤器)的 URL,在一定時間內產生的請求量巨大,遠遠超過了正常人類用戶的訪問量,導致帶寬需求急劇上升。
維基媒體基金會面臨著較大的運營開支壓力,其網站可靠性團隊不得不花費大量時間和資源來阻止爬蟲程序,以避免對普通用戶造成干擾。
維基媒體基金會采取了以下針對爬蟲行為的措施:
- 技術限制手段
- IP 限制:基金會可能會監控 IP 地址,對頻繁發送請求的 IP 進行限制,阻止或限制來自這些 IP 的訪問,從而減少爬蟲的大規模訪問。
- User - Agent 檢測:通過檢測請求中的 User - Agent 字段來判斷請求是否來自常見的爬蟲程序。如果發現是爬蟲的 User - Agent,就會對其進行攔截或限制,拒絕為其提供服務。
- 驗證碼驗證:在部分頁面或操作中加入驗證碼,要求訪問者進行人機驗證,如拖動滑塊、選中特定圖片等,以防止自動化爬蟲程序的訪問。
- 動態頁面生成:使用 JavaScript 等技術在服務器端動態生成頁面內容,使爬蟲無法直接獲取完整的頁面數據,增加爬蟲解析和獲取信息的難度。
- 規范與溝通措施
- 明確使用規范:強調基金會的內容是免費提供的,但基礎設施需要成本,呼吁建立負責任、可持續的基礎設施使用規范,讓開發者和數據復用者明確如何正確合法地獲取和使用其內容。
- 與科技公司合作:與相關科技公司合作來共同應對爬蟲問題。例如,Cloudflare 推出了 AI Labyrinth,它使用人工智能生成的內容來減慢爬蟲的速度,維基媒體基金會可能會借助類似的技術和工具來保護自身資源。