當(dāng)前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

robots的規(guī)則協(xié)議和基本寫法

 2015-05-13 21:51  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

一、robots基本概念

robots.txt文件是網(wǎng)站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個文件,根據(jù)里面的內(nèi)容來決定對網(wǎng)站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng) 站剛剛創(chuàng)建,有些內(nèi)容還不完善,暫時還不想被搜索引擎收錄時。

幾點注意:

網(wǎng)站必須要有一個robot.txt文件。

robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下

文件名是小寫字母。

當(dāng)需要完全屏蔽文件時,需要配合meta的robots屬性。

二、robots.txt的基本語法

內(nèi)容項的基本格式:鍵: 值對。

1) User-Agent鍵

后面的內(nèi)容對應(yīng)的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。

一般我們這樣寫:

User-Agent: *

表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復(fù)寫。

注意:User-Agent:后面要有一個空格。

在robots.txt中,鍵后面加:號,后面必有一個空格,和值相區(qū)分開。

2)Disallow鍵

該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。

例如:Disallow: /index.php 禁止網(wǎng)站index.php文件

Allow鍵

該鍵說明允許搜索引擎蜘蛛爬行的URL路徑

例如:Allow: /index.php 允許網(wǎng)站的index.php

通配符*

代表任意多個字符

例如:Disallow: /*.jpg 網(wǎng)站所有的jpg文件被禁止了。

結(jié)束符$

表示以前面字符結(jié)束的url。

例如:Disallow: /?$ 網(wǎng)站所有以?結(jié)尾的文件被禁止。

三、robots.txt實例分析

例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的搜索引擎訪問網(wǎng)站的任何部分

User-agent: *

Disallow:

例3. 僅禁止Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow:

例5. 禁止spider訪問特定目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事項:1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。

例6. 允許訪問特定目錄中的部分url

我希望a目錄下只有b.htm允許訪問,怎么寫?

User-agent: *

Allow: /a/b.htm

Disallow: /a/

注:允許收錄優(yōu)先級要高于禁止收錄。

從例7開始說明通配符的使用。通配符包括("$" 結(jié)束符;

"*"任意符)

例7. 禁止訪問網(wǎng)站中所有的動態(tài)頁面

User-agent: *

Disallow: /*?*

例8. 禁止搜索引擎抓取網(wǎng)站上所有圖片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用,相信很多情況是可以解決的。

四、meta robots標(biāo)簽

meta是網(wǎng)頁html文件的head標(biāo)簽里面的標(biāo)簽內(nèi)容。它規(guī)定了此html文件對與搜索引擎的抓取規(guī)則。與robot.txt 不同,它只針對寫在此html的文件。

寫法:

。

…里面的內(nèi)容列出如下

noindex - 阻止頁面被列入索引。

nofollow - 阻止對于頁面中任何超級鏈接進行索引。

noarchive - 不保存該頁面的網(wǎng)頁快照。

nosnippet - 不在搜索結(jié)果中顯示該頁面的摘要信息,同時不保存該頁面的網(wǎng)頁快照。

noodp - 在搜索結(jié)果中不使用Open Directory Project中的描述信息作為其摘要信息

SEO專題推薦:

關(guān)鍵詞優(yōu)化專題:網(wǎng)站關(guān)鍵詞優(yōu)化沒效果?來這里學(xué)習(xí)最實用的關(guān)鍵詞優(yōu)化技巧!

內(nèi)鏈優(yōu)化專題:最能提升網(wǎng)站權(quán)重的內(nèi)鏈部署優(yōu)化技巧與方法

外鏈建設(shè)專題:高質(zhì)量自然外鏈怎么做?讀完這些你將質(zhì)的飛躍

網(wǎng)站降權(quán)專題:2015年最有用的網(wǎng)站降權(quán)、被K、被黑、被攻擊的解決方法

用戶體驗專題:學(xué)習(xí)完這些,作為站長的你可以秒懂如何做網(wǎng)站用戶體驗

行業(yè)網(wǎng)站專題:優(yōu)化行業(yè)網(wǎng)站的“葵花寶典”看完后無優(yōu)化壓力

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
robots標(biāo)簽

相關(guān)文章

熱門排行

信息推薦