什么是robots.txt?
robots.txt 是一個位于網站根目錄下的文本文件(如:https://example.com/robots.txt
),它用于指導網絡爬蟲(如搜索引擎的蜘蛛程序)如何抓取該網站的內容。這個文件遵循 Robots 排除協議(REP),告訴爬蟲哪些頁面或目錄可以訪問,哪些應該避免。
如何查看網站的robots.txt?
查看任何網站的 robots.txt 非常簡單:
-
直接在瀏覽器地址欄輸入:
網站域名/robots.txt
- 例如:
https://www.baidu.com/robots.txt
- 或
https://google.com/robots.txt
- 例如:
-
使用在線工具檢查:
- Google Search Console 中的 robots.txt 測試工具
- 各種SEO工具如 Screaming Frog, SEMrush 等
robots.txt 的基本語法
一個典型的 robots.txt 文件包含以下元素:
User-agent: [爬蟲名稱]
Disallow: [禁止訪問的路徑]
Allow: [允許訪問的路徑]
Sitemap: [網站地圖位置]
如何設置 robots.txt?
1. 創建文件
創建一個純文本文件,命名為 robots.txt
2. 編寫規則
常見配置示例:
允許所有爬蟲訪問所有內容:
User-agent: *
Disallow:
禁止所有爬蟲訪問任何內容:
User-agent: *
Disallow: /
禁止特定爬蟲訪問特定目錄:
User-agent: Googlebot
Disallow: /private/
Disallow: /temp/User-agent: *
Allow: /
指定網站地圖:
Sitemap: https://example.com/sitemap.xml
3. 上傳文件
將 robots.txt 文件上傳到您網站的根目錄(通常是 public_html 或 www 目錄)
4. 驗證文件
上傳后,通過訪問 您的網站/robots.txt
來驗證是否可訪問
注意事項
- robots.txt 不是強制性的,合規的爬蟲會遵守,但惡意爬蟲可能忽略
- 不要使用 robots.txt 來隱藏敏感信息 - 它實際上是公開的
- 禁止抓取不等于禁止索引(要防止索引需要使用 meta noindex 標簽或密碼保護)
- 區分大小寫,路徑必須精確匹配
- 每個指令通常應該獨占一行
高級用法
- 使用
$
表示URL結束:Disallow: /*.pdf$
禁止抓取PDF文件 - 使用
*
作為通配符:Disallow: /images/*.jpg
禁止抓取images目錄下的JPG文件 - 針對不同的搜索引擎設置不同的規則(通過 User-agent)
正確配置 robots.txt 可以幫助優化搜索引擎爬取效率,保護隱私內容,并節省服務器資源。