網頁搜索幫助-禁止搜索引擎收錄的方法

什么是robots.txt文件?
搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件。您可以在您的網站中創建一個純文本文件robots.txt,在文件中聲明該網站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。

請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件或者創建一個內容為空的robots.txt文件。
robots.txt文件放在哪里?
robots.txt文件應該放在網站根目錄下。舉例來說,當spider訪問一個網站(比如http://www.abc.com)時,首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件,如果機器人找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。

網站 URL 相應的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

我放置或者剛剛修改了robots.txt的內容,大約多長時間能生效?
baiduspider通常每天訪問一次網站的robots.txt文件,您對robots所做的修改,會在48小時內生效。需要注意的是,robots.txt禁止收錄以前百度已收錄的內容,從搜索結果中去除可能需要數月的時間。

我在robots.txt中設置了禁止百度收錄我網站的內容,為何還出現在百度搜索結果中?
如果其他網站鏈接了您robots.txt文件中設置的禁止收錄的網頁,那么這些網頁仍然可能會出現在百度的搜索結果中,但您的網頁上的內容不會被抓取、建入索引和顯示,百度搜索結果中展示的僅是其他網站對您相關網頁的描述。

禁止搜索引擎在搜索結果中顯示網頁快照,而只對網頁建索引
百度支持通過設置網頁的meta,防止搜索引擎顯示網站的快照。方法如下:
要防止所有搜索引擎顯示您網站的快照,請將此元標記置入網頁的 部分:

要允許其他搜索引擎顯示快照,但僅防止百度顯示,請使用以下標記:

注:此標記只是禁止百度顯示該網頁的快照,百度會繼續為網頁建索引,并在搜索結果中顯示網頁摘要.

robots.txt文件的格式
“robots.txt”文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
“: “。

在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下:

User-agent:
   該項的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多條User-agent記錄說明有多個robot會受到”robots.txt”的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在”robots.txt”文件中,”User-agent:*”這樣的記錄只能有一條。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名為”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。

Disallow:
   該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。例如”Disallow:/help”禁止robot訪問/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/”則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。”Disallow:”說明允許robot訪問該網站的所有url,在”/robots.txt”文件中,至少要有一條Disallow記錄。如果”/robots.txt”不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。

Allow:
   該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。例如”Allow:/hibaidu”允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。

需要特別注意的是Disallow與Allow行的順序是有意義的,robot會根據第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。

使用”*”和”$”:
baiduspider支持使用通配符”*”和”$”來模糊匹配url。

   “$” 匹配行結束符。
   “*” 匹配0或多個任意字符。

URL匹配舉例
Allow或Disallow的值 URL 匹配結果
/tmp /tmp yes
/tmp /tmp.html yes
/tmp /tmp/a.html yes
/tmp/ /tmp no
/tmp/ /tmphoho no
/tmp/ /tmp/a.html yes

/Hello* /Hello.html yes
/He*lo /Hello,lolo yes
/Heap*lo /Hello,lolo no
html$ /tmpa.html yes
/a.html$ /a.html yes

htm$ /a.html no

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535779.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535779.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535779.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JDK源碼解析之 Java.lang.Float

Float類是原始類型float的包裝類&#xff0c;它包含若干有效處理浮點值的方法&#xff0c;如將其轉換為字符串表示形式&#xff0c;反之亦然。Float類的一個對象可以包含一個浮點值 一、類定義 public final class Float extends Number implements Comparable<Float> {…

FTP兩種工作模式:主動模式(Active FTP)和被動模式(Passive FTP)

在主動模式下&#xff0c;FTP客戶端隨機開啟一個大于1024的端口N向服務器的21號端口發起連接&#xff0c;然后開放N1號端口進行監聽&#xff0c;并向服務器發出PORT N 1命令。服務器接收到命令后&#xff0c;會用其本地的FTP數據端口&#xff08;通常是20&#xff09;來連接客戶…

JDK源碼解析之 java.lang.Integer

teger 基本數據類型int 的包裝類 Integer 類型的對象包含一個 int 類型的字段 一、類定義 public final class Integer extends Number implements Comparable<Integer>{}類被聲明為final的,表示不能被繼承;繼承了Number抽象類,可以用于數字類型的一系列轉換;實現了Comp…

Loadrunner的基本概念

1)vuser_init(only one &#xff0c;重復執行腳本的時候&#xff0c;此部分只會執行一次 ) %G< rJc*P 2)action( 一個或者多個 , 重復執行腳本的時候&#xff0c;只有該部分會按重復的次數重復執行 ) z*Xfjy(Mj 3)vuser_end(only one, 重復執行腳本的時候&#xff0c;此…

JDK源碼解析之 java.lang.Long

Long 與Integer 是數值類型中使用頻率最高的兩個,也是提供支持方法最多的兩個 他們提供出來的方法功能也是高度的相似 一、類定義 public final class Long extends Number implements Comparable<Long> {}類被聲明為final的,表示不能被繼承;繼承了Number抽象類,可以用于…

sed教程入門與實例練習(一)

UNIX 世界中有很多文本編輯器可供我們選擇。思考一下 — vi、emacs 和 jed 以及很多其它工具都會浮現在腦海中。我們都有自己已逐漸了解并且喜愛的編輯器&#xff08;以及我們喜愛的組合鍵&#xff09;。有了可信賴的編輯器&#xff0c;我們可以輕松處理任何數量與 UNIX 有關的…

JDK源碼解析之 Java.lang.Short

Short類是基本類型short 的包裝類&#xff0c;它包含幾種有效處理短值的方法&#xff0c;如將其轉換為字符串表示形式&#xff0c;反之亦然。Short類的對象可以包含單個短值。 一、類定義 public final class Short extends Number implements Comparable<Short> {}類被…

sed教程入門與實例練習(二)

讓我們看一下 sed 最有用的命令之一&#xff0c;替換命令。使用該命令&#xff0c;可以將特定字符串或匹配的規則表達式用另一個字符串替換。下面是該命令最基本用法的示例&#xff1a; $ sed -e ’s/foo/bar/’ myfile.txt上面的命令將 myfile.txt 中每行第一次出現的 ‘foo’…

Oracle GoldenGate簡介

一、什么是Oracle GoldenGate&#xff1f; Oracle GoldenGate是用于實時數據集成和復制的綜合軟件包。它支持高可用性解決方案&#xff0c;實時數據集成&#xff0c;事務性更改數據捕獲&#xff0c;數據復制&#xff0c;轉換以及運營和分析企業系統之間的驗證。 使用Oracle G…

sed教程入門與實例練習(三)

在第二篇 sed 文章中&#xff0c;我提供了一些示例來演示 sed 的工作原理&#xff0c;但是它們當中很少有示例能實際做特別有用的事。在這篇 sed 系列的最后文章中&#xff0c;我要改變那種方式&#xff0c;并使用 sed 來做實際的事。我將為您顯示幾個示例&#xff0c;它們不僅…

Oracle GoldenGate微服務架構

Oracle GoldenGate支持兩種架構&#xff0c;經典架構和微服務架構&#xff08;MA&#xff09;。 可以出于以下目的配置Oracle GoldenGate&#xff1a; 從一個數據庫中靜態提取數據記錄&#xff0c;并將這些記錄加載到另一個數據庫中。連續提取和復制事務性數據處理語言&#…

Oracle GoldenGate經典架構

可以使用Oracle GoldenGate Classic Architecture從命令行配置和管理數據復制。 圖示的說明logicalarch2.png 注意&#xff1a; 這是基本配置。根據業務需求和用例&#xff0c;可以配置此模型的不同變體。 1、Manager Manager是Oracle GoldenGate的控制過程。必須先在Oracl…

WordPress 首頁顯示摘要

這里的方法不需要你另外裝插件。 1、使用more標簽 (缺點&#xff1a;每次都要加一下這個東西&#xff0c;不靈活只能一刀切。優點&#xff1a;方法比較正規不需要改動模版) 在你需要截斷的地方(就是你的編輯框)加 <!–more–> 代碼. 2、使用the_excerpt標簽 (缺點&#x…

Oracle GoldenGate復制過程

這兩種Oracle GoldenGate體系結構共有許多數據復制過程。 1、什么是Extract&#xff1f; Extract是一個過程&#xff0c;該過程被配置為針對源數據庫運行或被配置為在下游挖掘數據庫&#xff08;僅Oracle&#xff09;上運行&#xff0c;以捕獲在其他位置的真實源數據庫中生成…

awk教程入門與實例練習(一)

Awk 是一種非常好的語言&#xff0c;同時有一個非常奇怪的名稱。在本系列&#xff08;共三篇文章&#xff09;的第一篇文章中&#xff0c;Daniel Robbins 將使您迅速掌握 awk 編程技巧。隨著本系列的進展&#xff0c;將討論更高級的主題&#xff0c;最后將演示一個真正的高級 a…

HDFS-簡介

HDFS 是 Hadoop Distribute File System 的簡稱&#xff0c;意為&#xff1a;Hadoop 分布式文件系統&#xff0c;是一種旨在在商品硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多相似之處。但是&#xff0c;與其他分布式文件系統的區別很明顯。HDFS具有高度的容錯…

awk教程入門與實例練習(二)

在這篇 awk 簡介的續集中&#xff0c;Daniel Robbins 繼續探索 awk&#xff08;一種很棒但有怪異名稱的語言&#xff09;。Daniel 將演示如何處理多行記錄、使用循環結構&#xff0c;以及創建并使用 awk 數組。閱讀完本文后&#xff0c;您將精通許多 awk 的功能&#xff0c;而且…

HDFS-配置項

一、core-site.xml與core-default.xml core-default.xml與core-site.xml的功能是一樣的&#xff0c;如果在core-site.xml里沒有配置的屬性&#xff0c;則會自動會獲取core-default.xml里的相同屬性的值 <configuration><property><!-- 這個屬性用來指定namenod…

awk教程入門與實例練習(三)

在 awk 系列的這篇總結中&#xff0c;Daniel 向您介紹 awk 重要的字符串函數&#xff0c;以及演示了如何從頭開始編寫完整的支票簿結算程序。在這個過程中&#xff0c;您將學習如何編寫自己的函數&#xff0c;并使用 awk 的多維數組。學完本文之后&#xff0c;您將掌握更多 awk…

HDFS-常用命令

1. -help&#xff1a;顯示幫助信息 hadoop fs -help rmshel2. -ls&#xff1a;顯示目錄信息 hadoop fs -ls /3. -mkdir&#xff1a;在HDFS上創建目錄 hadoop fs -mkdir -p /user/ha4. -moveFromLocal&#xff1a;從本地剪切粘貼到HDFS hadoop fs -moveFromLocal ~/test.txt…