99久久国产精品免费,网站正能量入口

Robots協(xié)議是放在根目錄下的一個(gè)協(xié)議，也是蜘蛛爬行網(wǎng)站的時(shí)候需要訪問(wèn)的第一個(gè)文件，通過(guò)解讀Robots文件的策略，蜘蛛可以知道哪些頁(yè)面可以爬行，哪些不可以爬行。一般來(lái)說(shuō)，網(wǎng)站都是可以開(kāi)發(fā)給蜘蛛來(lái)抓取的，某些不允許抓取的頁(yè)面或者頻道，只需要在Robots里面設(shè)定Disallow (禁止抓取的命令)就可以。但是在實(shí)際運(yùn)營(yíng)中，可能面臨更復(fù)雜的情況，比如整站已經(jīng)在HTTPS下，但是部分頁(yè)面需要蜘蛛爬行，怎么辦?有以下幾個(gè)解決辦法。

(1)復(fù)制一份到HTTP下。

(2)使用user-agent判斷來(lái)訪者，將蜘蛛引導(dǎo)到HTTP頁(yè)面。

關(guān)于Robots文件，詳細(xì)說(shuō)明如下。

(1)特定頁(yè)面已經(jīng)不需要蜘蛛抓取，可以進(jìn)行Disallow。

(2)某類集中的頁(yè)面具有共同的URL參數(shù)，可以實(shí)現(xiàn)批量禁止抓取功能。在操作批量禁止的時(shí)候，需要避免誤傷，即具有同樣URL特征的功能可能并不在禁止的目的之內(nèi)，無(wú)意中被禁止了。

關(guān)于同類特征的URL的一個(gè)特殊應(yīng)用就是批量禁止動(dòng)態(tài)URL的抓取。比如一個(gè)動(dòng)態(tài)發(fā)布內(nèi)容的網(wǎng)站，初始頁(yè)面都是動(dòng)態(tài)頁(yè)面，從SEO角度考慮，這些動(dòng)態(tài)頁(yè)面全部批量生成了對(duì)應(yīng)的靜態(tài)頁(yè)面，如下。

  http://www.abc.com/?id=1

  http://www.abc.com/?id=2

  ......

  (已經(jīng)批量生成了如下)

  http://www.abc.com/ 1.html

http://www.abc.com/2.html

......

如果同時(shí)被蜘蛛抓取了動(dòng)態(tài)頁(yè)面和對(duì)應(yīng)的靜態(tài)頁(yè)面，那么網(wǎng)站就存在大量的重復(fù)頁(yè)面，對(duì)SEO是不好的。可以通過(guò)Robots功能，統(tǒng)一禁止動(dòng)態(tài)URL的抓取，比如在Robots文件里寫(xiě)如下內(nèi)容。

Disallow : /*?*

在抓取方面，蜘蛛會(huì)依據(jù)實(shí)際情況調(diào)整對(duì)網(wǎng)站的抓取頻次，即分配抓取定額，每天定量抓取網(wǎng)站內(nèi)容，“定量”這個(gè)詞意味著是有限的，-一個(gè)大門]戶網(wǎng)站如果一次性提交10萬(wàn)條URL，并不意味著蜘蛛會(huì)很快把10萬(wàn)條數(shù)據(jù)抓取回去，因此，必須有耐心跟蹤搜索蜘蛛在網(wǎng)站每天的爬行和收錄情況。網(wǎng)站式行業(yè)動(dòng)態(tài)

本文地址：http://heisem.cn/article/7777.html

分享到：QQ空間新浪微博騰訊微博人人網(wǎng)微信開(kāi)心網(wǎng)百度貼吧豆瓣網(wǎng)

深圳SEO

用Robots協(xié)議引導(dǎo)蜘蛛對(duì)頁(yè)面進(jìn)行抓取