黄页网站大全免费,97无码免费人妻超级碰碰碰中,91对白麻豆国产在线观看

搜索引擎在抓取網(wǎng)頁的時(shí)候，可能會(huì)遇到各種情況，有的頁面抓取成功，有的抓取失敗。怎么顯示一個(gè)頁面的實(shí)際抓取結(jié)果呢？主要是通過返回碼進(jìn)行示意，代表抓取成功與否和遇到的問題。比如我們常見的，有時(shí)候打開一個(gè)頁面，頁面一片空白，上面只顯示404。這里的404就是一種返回碼，代表當(dāng)前抓取的頁面已經(jīng)失效，遇到顯示404的頁面，如果短期內(nèi)搜索，蜘蛛再發(fā)現(xiàn)這個(gè)URL，也不會(huì)對(duì)其進(jìn)行抓取。

有時(shí)候，會(huì)返回503，503 返回碼代表網(wǎng)站臨時(shí)無法訪問，可能是網(wǎng)站服務(wù)器關(guān)閉或者其他臨時(shí)措施造成的網(wǎng)頁無法訪問，一般來說，蜘蛛還會(huì)繼續(xù)抓取幾次。如果網(wǎng)站恢復(fù)正常，URL仍然被當(dāng)作正常URL處理，如果服務(wù)器一直處于不可訪問狀態(tài)，那么搜索引擎就會(huì)將這些URL徹底從庫中刪除，這就要求我們必須維護(hù)網(wǎng)站的穩(wěn)定性，盡量避免臨時(shí)關(guān)閉的情況發(fā)生。返回碼403是禁止訪問狀態(tài)，一般來說，如同503一樣，如被多次訪問仍處于禁止訪問狀態(tài)，就會(huì)被搜索引擎從庫里面刪除。

在返回碼中，有一類需要格外注意，就是301。301代表永久性移除，當(dāng)前URL被永久性重定向到另外的URL。一般來說，因?yàn)楦陌娴仍?，部分URL需要永久被替換為新的URL，就必須使用返回碼301進(jìn)行處理，這樣能把權(quán)重等一并帶過去，避免網(wǎng)站的流量損失。

  返回碼301的優(yōu)化寫法如下。

  (1)創(chuàng)建一個(gè)htaccess.txt文件。

  (2)在htaccess.txt里寫好返回碼301的跳轉(zhuǎn)信息。

  假設(shè)舊的URL為abc.com，需要重定向到www.abc.com，需在文件里寫如下信息。

  RewriteEngine on

  RewriteCond %{http_ host} ^abc.com [NC]

  RewriteRule ^(.*)$ http://www.abc.com/$1 [L, R=301]

  (3)將htaccess.txt上傳到FTP，然后將htaccess.txt修改為.htaccess。

  需要提醒的是目前htaccess只適用于Linux系統(tǒng)，并需要虛擬主機(jī)支持，因此，在考慮.htaccess文件處理返回碼301的時(shí)候，需要查看虛擬主機(jī)是否完全支持。

  實(shí)際上，在重定向的處理上存在多種方式，簡(jiǎn)單來說，重定向可以分為http30x重定向、meta refresh重定向和js重定向。另外，大的搜索引擎公司，比如谷歌和百度都確認(rèn)支持Canonical標(biāo)簽，可以通過制定一個(gè)權(quán)威頁面的方式，引導(dǎo)蜘蛛只索引一個(gè)權(quán)威頁面，從實(shí)際效果上來說，也是一種間接的重定向。在實(shí)際抓取過程中，蜘蛛會(huì)對(duì)各種重定向效果進(jìn)行識(shí)別。

重定向的方法有多種，但是從SEO角度來說，如果是永久跳轉(zhuǎn)的頁面，盡量采用返回碼301的跳轉(zhuǎn)方式。另外，從時(shí)間結(jié)果來看，百度對(duì)Canonical的支持并不如谷歌好，采用Canonical 未必能得到如期效果。有些網(wǎng)站通過不同的路徑進(jìn)入同一頁面，可能會(huì)出現(xiàn)多個(gè)URL的情況，當(dāng)面對(duì)這種情況時(shí)，可能需要一些處理技巧。

外鏈等因素對(duì)搜索的排名是有影響的，那么在抓取環(huán)節(jié)是否也有影響呢？百度在它的抓取政策上有優(yōu)先級(jí)的說明，即執(zhí)行包括“深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、PR 優(yōu)先策略、反鏈策略、社會(huì)化分享指導(dǎo)策略等”。同時(shí)，這也說明每個(gè)策略各有優(yōu)劣，在實(shí)際情況中往往是多種策略結(jié)合使用才能達(dá)到最優(yōu)的抓取效果。從這段官方說明里面可以看到PR優(yōu)先策略、反鏈策略、社會(huì)化分享等字眼，我們可以認(rèn)為，百度在實(shí)際抓取的時(shí)候，其實(shí)都考慮了這些因素，只是權(quán)重可能有所不同，因此，盡量提高網(wǎng)頁P(yáng)R,增加更高質(zhì)量的外鏈，進(jìn)行高質(zhì)量的社會(huì)化分享，對(duì)網(wǎng)站的SEO工作是有積極意義的。

另外，針對(duì)互聯(lián)網(wǎng)存在的大量“奮版”“采集”的網(wǎng)頁情況，在抓取的過程中，蜘蛛會(huì)通過技術(shù)判斷頁面是否已經(jīng)被抓取過，并對(duì)URL不同但是實(shí)際內(nèi)容相同的頁面的URL進(jìn)行歸一化處理，即視作-一個(gè)URL。也就是告訴SEO人員，不要通過大量創(chuàng)建頁面的方式來獲得更多的搜索資源，如果頁面很多，但是每個(gè)頁面的內(nèi)容重復(fù)性很高，或者僅是URL中包含無效參數(shù)來實(shí)現(xiàn)多個(gè)頁面，搜索引擎仍然把這些URL當(dāng)作-一個(gè)URL處理，即網(wǎng)站頁面不是越多越好，通過功利的方式拼湊網(wǎng)頁，大量部署長(zhǎng)尾，但是頁面質(zhì)量堪憂，效果會(huì)適得其反。如果大量此類頁面被搜索引擎判斷為低質(zhì)量頁面，可能會(huì)影響到整站的SEO效果。

蜘蛛在抓取的過程實(shí)際是依據(jù)鏈接不斷往下探索的過程，如果鏈接之間出現(xiàn)短路，蜘蛛就無法往前爬了。在真實(shí)的網(wǎng)站運(yùn)營(yíng)中，我們可以看到很多網(wǎng)頁實(shí)際潛藏在網(wǎng)站后端，蜘蛛是無法抓取到的，比如沒有預(yù)留入口鏈接，或者入口鏈接已經(jīng)失效等，這些無法抓取到的內(nèi)容和信息，對(duì)于蜘蛛來說就是一個(gè)個(gè)的孤島，對(duì)SEO人員來說就是沒有完全發(fā)揮內(nèi)容的引流作用。同時(shí)，因?yàn)榫W(wǎng)絡(luò)環(huán)境或者網(wǎng)站規(guī)范等原因也可能導(dǎo)致蜘蛛無法爬行。

如何解決信息無法被抓取到的問題?幾個(gè)可行的辦法如下。

●采用搜索引擎平臺(tái)提供的開發(fā)平臺(tái)等數(shù)據(jù)上傳通道，可以針對(duì)數(shù)據(jù)進(jìn)行獨(dú)立的提交。

●采用Sitemap提交方式。大型網(wǎng)站或者結(jié)構(gòu)比較特殊的網(wǎng)站，沉淀了大量的歷史頁面，這些歷史頁面很多具有SEO的價(jià)值，但是蜘蛛無法通過正常的爬行抓取到，針對(duì)這些頁面，建立Sitemap文件并提交給百度等搜索引擎是非常必要的。

蜘蛛在爬行網(wǎng)站的時(shí)候，會(huì)遵循網(wǎng)站的協(xié)議進(jìn)行抓取，比如哪些網(wǎng)頁可以給搜索引擎抓取，哪些不允許搜索引擎抓取。常見的協(xié)議有HTTP協(xié)議、HTTPS協(xié)議、Robots 協(xié)議等。

HTTP協(xié)議規(guī)范了客戶端和服務(wù)器端請(qǐng)求和應(yīng)答的標(biāo)準(zhǔn)?？蛻舳税闶侵附K端用戶，服務(wù)器端指網(wǎng)站。終端用戶通過瀏覽器、蜘蛛等向服務(wù)器指定端口發(fā)送HT請(qǐng)求。發(fā)送HTTP請(qǐng)求會(huì)返回對(duì)應(yīng)的HTTP Heder信息，我們可以看到包括是否成功、服務(wù)器類型、網(wǎng)頁最近更新時(shí)間等內(nèi)容。

HTTPS協(xié)議是-種加密協(xié)議，一般用戶安全數(shù)據(jù)的傳輸。 HTTPS是在HTTP下增加了SSL層，這類頁面應(yīng)用比較多的是和支付相關(guān)或者內(nèi)部保密信息相關(guān)的網(wǎng)頁。蜘蛛不會(huì)自動(dòng)爬行該類網(wǎng)頁。因此，從SEO角度考慮，在建站的時(shí)候，盡量對(duì)頁面的性質(zhì)進(jìn)行區(qū)分，對(duì)非保密頁面進(jìn)行HTTP處理，才能實(shí)現(xiàn)網(wǎng)頁的抓取和收錄。網(wǎng)站式新聞動(dòng)態(tài)

本文地址：http://heisem.cn/article/7776.html

分享到：QQ空間新浪微博騰訊微博人人網(wǎng)微信開心網(wǎng)百度貼吧豆瓣網(wǎng)

深圳SEO

應(yīng)對(duì)蜘蛛頁面抓取異常