1.經(jīng)常使用到Robots.txt 文件的情況
● 網(wǎng)站升級,老版本網(wǎng)站的很多頁面在新版本網(wǎng)站中去掉了,在這種情況下,可以通過Robots文件 告訴蜘蛛不再抓取這些已經(jīng)被去掉的頁面。
● 網(wǎng)站存在很多重復(fù)的內(nèi)容,比如一個網(wǎng)站同時存在動態(tài)頁面和已經(jīng)經(jīng)過靜態(tài)化處理的頁面,這些頁面在內(nèi)容上都是完全重復(fù)的內(nèi)容,為了解決重復(fù)的問題,可以在Robots文件中禁止蜘蛛抓取動態(tài)頁面。
● 網(wǎng)站內(nèi)部有些內(nèi)容不便于公開發(fā)布,但是需要允許內(nèi)部查閱。遇到這種情況,可以在Robots中告訴蜘蛛不要抓取。
2. Robots文件的基本寫法
User-agent : *
Allow : /cgi-bin/see
Allow : /tmp/hi
Allow : /~joe/look
Disallow : /cgi-bin/
Disallow : /tmp/
Disallow : /~joe/
Allow是允許蜘蛛爬行的頁面,而Disallow后面則是不允許蜘蛛訪問的路徑和文件。
3. Robots的使用示例
(1)僅允許訪問某目錄下某個后級的文件。這里僅允許訪問帶“'s" 符號的網(wǎng)址,如下。
User-agent: *
Allow : .asp$
Disallow : /
(2)禁止索引網(wǎng)站中所有的動態(tài)頁面。
這里是限制訪問帶“? ”的網(wǎng)址,例如,index.asp?id=1。
User- agent : *
Disallow : /*?*
(3)使用“*”限制訪問帶某 個后綴的域名。
這里是禁止訪問admin目錄下所有htm文件,如下。
User- agent :*
Disallow :/admin/* .htm網(wǎng)站式新聞動態(tài)
本文地址:http://heisem.cn/article/8156.html