1.什么是robots.txt ?
robots.txt是一個位于網站根目錄的文本文件,用于指導搜索引擎爬蟲如何訪問和抓取網站內容。它遵循特定的語法規則,是網站與爬蟲通信的重要工具。當搜索引擎訪問一個網站時,它首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件。Robots.t xt文件用于限定搜索引擎對其網站的訪問范圍,即告訴搜索引擎網站中哪些文件是允許它進行檢索(下載)的。這就是大家在網絡上常看到的“拒絕Robots訪問標準”(Robots Exclusion Standard)。
為什么用使用robots.txt
一個系統能夠被百度等主流搜索引擎抓取,能夠給網站帶來流量,但是被抓取做分析的引擎抓到,不會帶來任何好處,還影響帶寬,因此需要做出限制。
2.robots.txt語法概述
①基本語法規則
每行一條指令:指令由 字段名: 值 組成,區分大小寫(建議統一用小寫)。
注釋:以 # 開頭的行是注釋,爬蟲會忽略。
必須放置在根目錄:例如 https://example.com/robots.txt。
字符編碼:建議使用 UTF-8 編碼。
robots.t