通過分析網(wǎng)站口志Log文件可以看到用戶和搜索引擎的蛛訪問網(wǎng)站的行為數(shù)據(jù),這4讓我們分析出用戶和咖蛛對(duì)網(wǎng)站的偏好以及網(wǎng)站的健康情況,在網(wǎng)站日志分析中,我們析的是蜘蛛行為在如蛛爬取及收錄的過程中,搜索引擎會(huì)給特定權(quán)重網(wǎng)站分配相應(yīng)的資源量
友好型的網(wǎng)站應(yīng)該充分利用這些資源,讓如蛛可以迅速、準(zhǔn)確、全面地爬取有價(jià)值、用戶喜歡d容,而不浪費(fèi)資源在無(wú)用的、訪問異常的內(nèi)容上。
在分析日志時(shí),對(duì)于單日日志文件,需要外析的內(nèi)容有訪問次數(shù)、停留時(shí)間、抓取量進(jìn)行抓取統(tǒng)計(jì)、頁(yè)面抓取統(tǒng)計(jì)、蜘蛛訪問IP, HTTP狀態(tài)碼、蜘蛛活躍時(shí)段、蜘蛛爬取路徑等,對(duì)日日志文件,需要分析的內(nèi)容有蜘蛛訪問次數(shù)趨勢(shì)、停留時(shí)間趨勢(shì)、整體抓取趨勢(shì)、各1承抓勢(shì)、抓取時(shí)間段、蜘蛛活躍周期等。
1,訪問次數(shù)、停留時(shí)間、抓取量從這三項(xiàng)數(shù)據(jù)中可以得知平均每次抓取頁(yè)面數(shù)、單頁(yè)抓取停留時(shí)間和平均每次停留時(shí)間平均每次抓取頁(yè)面數(shù)-總抓取量/訪問次數(shù)單頁(yè)抓取停留時(shí)間一每次停留時(shí)間/每次抓取時(shí)間
平均每次停留時(shí)間-總停留時(shí)間/訪問次數(shù)
從這些數(shù)據(jù)可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數(shù)、停留時(shí)間取量、平均抓取頁(yè)面、平均停留時(shí)間數(shù)值越大,表明網(wǎng)站越受搜索引擎喜歡,而單頁(yè)抓取停留時(shí)d表明網(wǎng)站頁(yè)面的訪問速度,時(shí)間越長(zhǎng),表明網(wǎng)站訪問速度越慢,對(duì)搜索引擎抓取收錄越不利,應(yīng)盡量提高網(wǎng)頁(yè)加載速度,減少單頁(yè)抓取停留時(shí)間,讓爬蟲資源更多地抓取收錄。
另外,根據(jù)這些數(shù)據(jù)可以統(tǒng)計(jì)出一段時(shí)間內(nèi)網(wǎng)站的整體趨勢(shì)表現(xiàn),如蜘蛛訪問次數(shù)趨勢(shì)留時(shí)間趨勢(shì)、抓取趨勢(shì)
2,目錄抓取統(tǒng)計(jì)通過日志分析可以看到網(wǎng)站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁(yè)面目錄抓取狀況
無(wú)效頁(yè)面目錄抓取狀況等,通過對(duì)比目錄下頁(yè)面的抓取及收錄情況可以發(fā)現(xiàn)更多問題,對(duì)于重要錄,需要通過內(nèi)外調(diào)整增加權(quán)重及爬取,對(duì)于無(wú)效頁(yè)面,在robots.txt中進(jìn)行屏蔽。
另外,通過多日日志統(tǒng)計(jì)可以看到站內(nèi)外行為給目錄帶來(lái)的效果、優(yōu)化是否合理,是否達(dá)了預(yù)期效果,對(duì)于同一目錄,長(zhǎng)期來(lái)看,可以看到該目錄下頁(yè)面的表現(xiàn),根據(jù)行為推測(cè)表現(xiàn)的刷3,頁(yè)面抓取
在網(wǎng)站日志分析中,我們可以看到具體被蜘蛛爬取的頁(yè)面,在這些頁(yè)面中,我們可以分t旅爬取了哪些需要被禁止爬取的頁(yè)面、爬取了哪些無(wú)收錄價(jià)值的頁(yè)面、爬取了哪些重復(fù)頁(yè)面
本文地址:http://heisem.cn/wangzhanjianshe//9295.html