當(dāng)前位置:首頁 >  站長(zhǎng) >  搜索優(yōu)化 >  正文

蘇笛康:實(shí)測(cè)搜狐微博是否屏蔽百度蜘蛛

 2011-06-10 06:05  來源:   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

事件:

只要了解SEO的朋友都知道最近利用搜狐微博搶奪百度長(zhǎng)尾詞流量的事情。由于各種原因,蘇笛康并未攙和進(jìn)這件事。2011年6月9日,蘇笛康所在的團(tuán)隊(duì)QQ群突然轉(zhuǎn)發(fā)一個(gè)消息,稱搜狐微博屏蔽百度蜘蛛了,并提供了一個(gè)Admin5論壇的帖子的URL。經(jīng)過分析,蘇笛康認(rèn)為,搜狐微博并未屏蔽百度蜘蛛,上述言論是對(duì)搜狐微博的Robots.txt文件誤讀引起的。

材料:

搜狐微博Robots.txt文件內(nèi)容(2011年6月9日晚):

User-agent: Baiduspider

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

分析:

首先,我們看搜狐微博Robots.txt第一部分,針對(duì)的是百度蜘蛛。

在百度搜索幫助中心的指南()可以找到這么一句——“Disallow:”說明允許robot訪問該網(wǎng)站的所有URL。

因此,第一部分的語句,允許百度蜘蛛抓取所有的URL。

第二部分就不用看了,界定的是搜狗搜索引擎的蜘蛛抓取權(quán)限。

最后我們看第三部分,這部分使用通配符,限定所有的搜索引擎,不允許抓取根目錄(相當(dāng)于不允許抓取任何URL)。這里我們?nèi)匀恍枰P(guān)注百度搜索幫助中心的解釋。百度官方的文件是這樣說的——需要特別注意的是Disallow與Allow行的順序是有意義的,robot會(huì)根據(jù)第一個(gè)匹配成功的Allow或Disallow行確定是否訪問某個(gè)URL。所以,第三部分的禁止指令,對(duì)百度蜘蛛而言,是無效的。百度蜘蛛根據(jù)第一部分的要求,可以抓取所有URL。

實(shí)測(cè):

空口無憑,我們可以實(shí)際測(cè)試一下。已知百度和Google對(duì)待Robots.txt文件的處理方式是一樣的,故而我們可以使用谷歌網(wǎng)站管理員工具中的“抓取工具的權(quán)限”功能來測(cè)試一下。

由于谷歌網(wǎng)站管理員工具只能測(cè)試已經(jīng)驗(yàn)證所有權(quán)的網(wǎng)站,我這里用自己的博客來測(cè)試。

首先在測(cè)試用的Robots.txt中填寫如下信息:

User-agent: Googlebot

Disallow:

User-agent: Sogou

Allow: /

User-agent: *

Disallow: /

(注意,受測(cè)試環(huán)境影響,使用Googlebot代替百度蜘蛛,不過這不影響測(cè)試結(jié)果)

然后用谷歌網(wǎng)站管理員工具測(cè)試Googlebot抓取首頁()的結(jié)果,反饋如下:

第 2 行 Disallow: 允許訪問此網(wǎng)址

檢測(cè)為目錄;具體文件可能有不同限制

實(shí)測(cè)證明,搜狐微博的Robots.txt沒有屏蔽百度蜘蛛。

經(jīng)驗(yàn):

從事SEO工作,要重視兩個(gè)東西:第一,搜索引擎官方的公開文檔,尤其是百度和Google的正式資料,這些資料會(huì)透露很多搜索引擎對(duì)網(wǎng)頁的處理方法;第二,要重視谷歌提供的各種工具,尤其是網(wǎng)站管理員工具,可以通過這些工具進(jìn)行各種測(cè)試。

本文作者:網(wǎng)絡(luò)營(yíng)銷分析師蘇笛康,國(guó)內(nèi)第一批通過中國(guó)電子商務(wù)協(xié)會(huì)認(rèn)證SEO工程師。個(gè)人博客: (郵件訂閱該博客贈(zèng)送微博營(yíng)銷電子書)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 騰訊回應(yīng)屏蔽百度系A(chǔ)PP:觸發(fā)當(dāng)日分享上限就自動(dòng)不可見

    近日有網(wǎng)友反映稱,百度系部分App遭朋友圈“屏蔽”,騰訊方面回應(yīng)稱,分享次數(shù)達(dá)到當(dāng)日上限,觸發(fā)“防刷屏機(jī)制”。騰訊方面表示,朋友圈一直有防刷屏機(jī)制,觸發(fā)當(dāng)日分享上限就自動(dòng)不可見

    標(biāo)簽:
    騰訊
    百度
    屏蔽百度
  • 騰訊微博正式全面屏蔽百度蜘蛛

    現(xiàn)在,電視上和網(wǎng)絡(luò)上都在熱議一個(gè)人:鄔敬民。前幾天還在百度搜索他的名字,出現(xiàn)第一名的是鄔敬民的騰訊微博。但是今天早上想再找點(diǎn)關(guān)于他的資料的時(shí)候,在百度搜索鄔敬民、鄔敬民騰訊微博等關(guān)鍵詞都沒有找到他的微博,于是我看了一下騰訊微博的robots,大家也可以去

    標(biāo)簽:
    屏蔽百度
  • 引發(fā)“新浪博客屏蔽百度蜘蛛”傳言的真相

    “新浪博客屏蔽百度蜘蛛”事件的真相

    標(biāo)簽:
    屏蔽百度
  • Google chrome屏蔽百度競(jìng)價(jià)排名baidu-adblock

    瀏覽器是大家上網(wǎng)的必需工具,本人的瀏覽器之路是:IE6——傲游——Firefox——googlechrome,目前基本上是用googlechrome同時(shí)Firefox也并著用。今天發(fā)現(xiàn)了一個(gè)有趣的東西,那就是googlechrome出了一個(gè)插件,而這個(gè)插件是干嘛用的

    標(biāo)簽:
    屏蔽百度
  • 新浪博客屏蔽百度對(duì)站長(zhǎng)是福是禍?

    今日逛站長(zhǎng)網(wǎng),了解到新浪博客對(duì)百度搜索引擎進(jìn)行了屏蔽,從其新浪博客robots.txt文檔可以看出,新浪博客已經(jīng)對(duì)百度蜘蛛進(jìn)行了屏蔽,也就意味著百度引擎蜘蛛再也無法爬去新浪博客的內(nèi)容。新浪博客因其權(quán)重高、收錄快的特點(diǎn),一直被站長(zhǎng)當(dāng)做外鏈養(yǎng)殖場(chǎng)。然而此

    標(biāo)簽:
    屏蔽百度

熱門排行

信息推薦