當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  建站經(jīng)驗(yàn) >  正文

逆冬:Robots文件寫法+3個(gè)實(shí)戰(zhàn)經(jīng)驗(yàn)分享 小白看過(guò)來(lái)

 2021-09-10 14:49  來(lái)源: 逆冬黑帽SEO   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

最近看到高端SEO社群里有同學(xué)討論Robots相關(guān)問(wèn)題,我們從實(shí)戰(zhàn)的角度,給大家講講怎么寫Robots寫法,以及在實(shí)戰(zhàn)中可能遇到的問(wèn)題,都給大家講一下!希望可以幫助更多不懂的同學(xué)!

Robots定義

什么是Robots,簡(jiǎn)單來(lái)講,其實(shí)Robots就是放在網(wǎng)站根目錄下的一個(gè)TXT文件,但是這個(gè)TXT文件對(duì)搜索引擎規(guī)定,哪些頁(yè)面可以訪問(wèn),哪些頁(yè)面不行。

Robots一般放在網(wǎng)站根目錄下,文件名固定為robots.txt的(全部小寫)、當(dāng)搜索引擎要爬取我們網(wǎng)站的時(shí)候,會(huì)先讀一下robots.txt里面的內(nèi)容,判斷哪些URL可以訪問(wèn),哪些不行,然后進(jìn)行爬取、收錄。

Robots規(guī)則

常用的幾類語(yǔ)法:

User-agent: 定義搜索引擎的類型

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

Disallow: 定義禁止搜索引擎收錄的地址

舉個(gè)例子來(lái)講:User-agent: * Disallow: /

禁止所有搜索引擎訪問(wèn)網(wǎng)站,(*)為通配符

Allow: 定義允許搜索引擎收錄的地址

User-agent: * Disallow: /a/ Allow: /a/b

如上面例子,限制搜索引擎抓取a目錄,但允許搜索引擎抓取a目錄下的b目錄

$通配符

User-agent: * Allow: .htm$

匹配URL結(jié)尾的字符。如下面代碼將允許蜘蛛訪問(wèn)以.htm為后綴的URL:

*通配符

User-agent: * Disallow: /*.htm

告訴蜘蛛匹配任意一段字符。如下面一段代碼將禁止所有蜘蛛抓取所有htm文件:

Sitemaps位置

Sitemap: http://www.xxx.com/sitemap.xml

Robots心得

1、許多朋友都喜歡讓搜索引擎不抓取自己的后臺(tái),于是將自己的后臺(tái)地址寫到robots.txt里面,其實(shí)個(gè)人不建議這樣做,因?yàn)榭紤]到網(wǎng)絡(luò)安全,許多Hack都喜歡通過(guò)robots.txt看大家的后臺(tái),方便攻擊!

2、網(wǎng)站必須要有robots.txt,如果網(wǎng)站沒(méi)有robots.txt,搜索引擎隨意抓取的話,可能會(huì)抓取到一些低質(zhì)量頁(yè)面,從而導(dǎo)致網(wǎng)站收錄、流量受到影響,如上圖是沒(méi)有robots.txt。

3、當(dāng)我們做完robots.txt后,一定要去【百度站長(zhǎng)工具平臺(tái)】抓取、測(cè)試robots.txt,以及測(cè)試URL是否可以抓取。

文章來(lái)源:逆冬黑帽SEO(ID:gh_c3dd79adc24e),原文鏈接:https://mp.weixin.qq.com/s/jjUveBOtsRGaFzgMiq2UrQ

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
seo優(yōu)化技術(shù)

相關(guān)文章

熱門排行

信息推薦