當(dāng)前位置:首頁 >  站長 >  網(wǎng)站運營 >  正文

百度蜘蛛抓取不存在目錄 對應(yīng)的解決方法

 2020-11-17 11:17  來源: 代代SEO博客   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

相信大家在分析百度蜘蛛日志的時候經(jīng)常會發(fā)現(xiàn)一個問題,就是百度蜘蛛經(jīng)常會抓取一些不存在的目錄,比如:我網(wǎng)站沒有這些目錄,但是百度蜘蛛一直在抓取,或者你會發(fā)現(xiàn)百度蜘蛛在抓取自己的隱私目錄,或者說php文件,這個是為什么哪?今天就為大家進(jìn)行詳細(xì)解析,講解對應(yīng)的解決辦法,本篇文章干貨較多,建議仔細(xì)閱讀。

1,如果蜘蛛只抓取首頁,打死不抓取內(nèi)頁,是什么情況!

很簡單,域名有問題,一般來講,如果遇到這種情況,域名目前可能在審核期,也就是說,做過違規(guī)行業(yè),或者你的程序有作弊的嫌疑,但是域名的占比較大,如果程序有問題,開始百度蜘蛛也會抓取一些的。

2,如果百度蜘蛛抓取一些隱私文件,例如php、zip、rar什么情況!

對于這種情況,你要去判斷當(dāng)前這個IP是不是假蜘蛛文件,因為現(xiàn)在很多IP會自動更改自己的UA,跟百度蜘蛛一樣,你無法從蜘蛛日志中分辨,你可以去識別下IP,通過ip138看看是不是蜘蛛IP,如果不是,果斷屏蔽掉,如果太多,按照IP段進(jìn)行屏蔽。

3,如果百度蜘蛛抓取一些隱私目錄,真蜘蛛的情況下,怎么處理。

如果你確認(rèn)是真的百度蜘蛛,百度可能是在抓取你的頁面內(nèi)部程序,考察你用的程序的版本,等,這些百度都會有分辨策略的,一般來講,自己編寫的程序,百度都會優(yōu)先給予高評分,是這樣的。我們?yōu)榱朔乐怪┲胱ト∥覀兊碾[私目錄,我們一般都會用robots.txt進(jìn)行屏蔽,記住:生效時間24小時左右。

4,如果蜘蛛抓取一些不存在的目錄,一些不存在的文件,怎么辦?

首先依然是判斷是否是真蜘蛛,如果是真蜘蛛,百度抓取一些不存在的目錄,是因為,你這個域名之前做過一些站點,現(xiàn)在又開始做,百度會根據(jù)之前的評分、URL進(jìn)行抓取,看看是不是之前的站點又恢復(fù)了,一般來講,這種抓取會在30天內(nèi)自動消失的,如果30天后一直存在,你就要屏蔽這類鏈接了,總之:這種抓取對于你的站點,沒有太大的傷害,只是排查而已。

另外還有一種情況,如果你把其他的站點301到你當(dāng)前的域名上,蜘蛛就會按照其他站點的URL來抓取你的網(wǎng)站,這個時候你也會發(fā)現(xiàn)百度在抓取一些不存在的目錄,不過不用怕,這種對于你的站點沒有傷害的。

5,蜘蛛抓取,301、304,、200、403、404、444狀態(tài)碼怎么辦?

首先我們要明白,301狀態(tài)碼,就是重定向,如果你的頂級域名,例如daidaiseo.com-》www.daidaiseo.com當(dāng)百度抓取daidaiseo.com上面的資源時,就會出現(xiàn)301重定向的代碼,如果抓取www.daidaiseo.com上面的資源,就會是200狀態(tài)碼,意思是抓取成功。

而抓取304狀態(tài)碼是為什么那?如果你在日志上看到了304狀態(tài)碼,則表示,你的資源一直都沒有變化,屬于靜態(tài)頁面資源,304狀態(tài)碼,對于網(wǎng)站的影響比較小,一般來講是做了百度cdn,有緩存,就容易出現(xiàn)304狀態(tài)碼,但只要你每天給百度提交資源,時時保持更新,就沒事。

403是權(quán)限問題,禁止訪問,是你服務(wù)器進(jìn)行了設(shè)置,而444則是未找到服務(wù)器,404則是空頁面,這個頁面丟失,這三個狀態(tài)碼,則表示網(wǎng)站出現(xiàn)問題,記?。翰灰尵W(wǎng)站出現(xiàn)大量404,你可以讓狀態(tài)碼變成403只是限制訪問,如果都是404,則表明網(wǎng)站大量頁面不可用,百度評分就會降低,好了,今天就講解到這么多,后面會陸續(xù)分享這方面的知識點。

文章來源:代代SEO博客

來源地址:https://www.daidaiseo.com/seoti/10949.html

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
百度蜘蛛
蜘蛛抓取

相關(guān)文章

熱門排行

信息推薦