引言
隨著計算機視覺技術的飛速發展,機器學習模型現已能夠100%可靠地解決Google的視覺reCAPTCHAv2驗證碼。這標志著一個時代的結束——自2000年代初以來,CAPTCHA("全自動區分計算機與人類的圖靈測試"的縮寫)一直是區分網站訪問者與機器人的最流行工具。對于企業來說,這意味著是時候永久性地放棄reCAPTCHA技術了。對用戶而言,這也是個好消息,因為他們往往發現解決驗證碼是一件令人煩惱的事情。然而,數百萬網站仍在使用驗證碼,因此了解為何reCAPTCHA不再有效至關重要。
1. 圖像識別機器人已趕上人類
1.1 機器學習模型的突破
獨立研究人員經常測試包括驗證碼在內的在線安全工具,以評估它們對潛在攻擊者的抵抗能力。直到最近,圖像識別AI模型對視覺reCAPTCHA(要求用戶查看3x3圖像網格并識別諸如路燈或公交車等常見物體的驗證碼)的成功率約為70%。2024年9月,瑞士蘇黎世聯邦理工學院(ETH Zurich)的研究人員宣布,他們已經構建了一個高效的AI模型,能夠100%擊敗視覺reCAPTCHA。
這些研究人員在14,000張交通圖像上訓練了一個名為YOLO("You Only Look Once")的實時對象識別機器學習模型,然后用它來解決單個reCAPTCHA挑戰。這個開源模型能夠以69%到100%的準確率正確識別不同類型的圖像,對于無法解決的挑戰,它會要求展示另一個驗證碼。最終,該模型能夠在平均約19次嘗試中擊敗每個reCAPTCHA。
值得注意的是,模型或人類擊敗reCAPTCHA挑戰所需的嘗試次數之間沒有統計學上的顯著差異。此外,YOLO模型可以在有限的處理能力下本地運行。這意味著它可以被欺詐者大規模部署用于進行機器人攻擊。
1.2 為什么不制作更難的驗證碼?
自2014年以來,神經網絡已被用于可靠地繞過基于文本的驗證碼(自2011年起用于音頻驗證碼)。現在模型也能持續擊敗視覺挑戰,開發者需要尋找新的方法來檢測機器人。但是,有充分理由不繼續發展CAPTCHA范式:
- 對人類來說太難:reCAPTCHA已經以對人類難以解決而聞名。讓它們變得更難可能會趕走更多合法的網站訪問者。根據挑戰類型的不同,它們還會給視障或聽障人士帶來無障礙問題。
- 消耗太多時間:人類用戶解決基于圖像的reCAPTCHA大約需要10秒鐘,這會降低用戶體驗。自驗證碼發明以來,人類已花費8.19億小時解決reCAPTCHA(這幾乎相當于1,200個人的壽命!)
- 損害銷售:實施更難的挑戰可能會對轉化率產生比當前reCAPTCHA更糟糕的影響。研究估計,驗證碼會使轉化率降低3%至40%。
- 這是一場無法獲勝的軍備競賽:由于機器人學習擊敗它們的速度,沒有單一的驗證碼能長期有效。
總結起來,這些缺點明顯多于優點。企業需要探索reCAPTCHA的替代方案來保護其網站。
2. 有效的機器人檢測策略
2.1 多層次機器人檢測方法
檢測機器人的有效方法是將設備智能作為多層次欺詐檢測方法的一部分,該方法結合技術數據和行為特征來形成對用戶行為和意圖的完整圖像,同時不影響客戶體驗。一些公司可以共同使用的最有效技術包括:
- 蜜罐技術:在表單提交中設置對使用圖形界面瀏覽的人類用戶不可見但對機器人可見的隱藏字段,從而誘捕機器人。如果人類填寫表單,則該字段為空白,但當機器人掃描網站的HTML代碼時,它們會填寫該字段。這會標記它們的提交以進行阻止。
- 行為分析:滾動時間、鼠標移動和導航模式等指標有時可以區分人類用戶和機器人。機器人傾向于以閃電般的速度在操作之間移動,且沒有猶豫。
- 機器學習:在已知的人類和機器人交互的大型數據集上訓練模型,以發現模式。這些發現的模式隨后可以幫助實時識別機器人的行為。
- 設備智能:全面的設備智能平臺分析數百種瀏覽器和設備特性,可用于標記可能表明機器人冒充真實用戶的可疑活動和設備。
- IP黑名單:檢查訪問者IP地址是否與定期更新的已知機器人IP、數據中心范圍和惡意代理數據庫匹配。
所有這些機器人檢測策略都在后臺無形中工作,收集數據并發現模式,而不會打擾合法的人類用戶。它們共同提供了一種深度防御方法,能夠隨著欺詐者不斷發展的技術而調整。
3. 結語
reCAPTCHA不再提供它承諾的機器人保護。設備智能是阻止惡意機器人嘗試入侵客戶賬戶、降低網站速度或抓取網站內容的更好替代方案。
隨著計算機視覺和機器學習技術的不斷發展,傳統驗證碼技術已經無法有效區分人類與機器。企業需要采用更先進、更智能的解決方案,如多層次欺詐檢測系統、行為分析和設備智能等技術,以保護網站安全并提升用戶體驗。最終,無需打擾用戶的"無形"安全措施將成為未來網絡安全的主要發展方向。