網(wǎng)站日志又稱服務器日志,該日志是記錄網(wǎng)站服務器的請求信息,通過這個日志是可以看到哪些蜘蛛程序抓取過網(wǎng)站,什么時間抓取的網(wǎng)站,以及抓取了網(wǎng)站的什么頁面,是否抓取成功。
我們的網(wǎng)站日志放在服務器的空間里,一般都是以.log文件結(jié)尾,不同的服務器記錄的時間不一樣,有一周、三天、一個月等等的時限。
上圖是保存日志的文件夾
網(wǎng)站日志文件(.log結(jié)尾)
上圖是用記事本打開后,該服務器只記錄三天的日志。
上文已經(jīng)對網(wǎng)站日志的一些常識和存儲的位置做了了解,下面我們用分析軟件(光年日志分析工具點擊下載)來分析網(wǎng)站日志。
概要分析可以看出哪些蜘蛛來抓取過網(wǎng)站抓取過幾次
目錄抓取
頁面抓取
分析到這里的時候,要注意觀察哪個目錄抓取的最多,多在經(jīng)常被抓取的目錄里發(fā)布內(nèi)容,有利于收錄。
如果每天抓取的內(nèi)容比較少,那么就需要加大網(wǎng)站內(nèi)容的更新來吸引蜘蛛。
關鍵字分析指的是用戶通過搜索什么詞進入到你網(wǎng)站的,這個工具分析的不夠精準,如果想要了解,建議去百度統(tǒng)計中的來源分析-搜索詞中查看,這里不多做介紹。
這里的狀態(tài)碼我們決定不了,但我們要了解相應的狀態(tài)碼做好相應的對策。
1、404,如果出現(xiàn)404那說明是進入了錯誤頁面,需要制作一個404頁面,檢查一下站內(nèi)的死鏈接有的話需刪除或修改為正確的鏈接。
2、304,出現(xiàn)304表明的是網(wǎng)站長期不更新,需要更新內(nèi)容。
3、200,表明網(wǎng)站沒問題,成功返回頁面。
4、301,302,前者是網(wǎng)址做了永久重定向,后者是做了臨時重定向。
5、403,服務器的文件拒絕請求訪問。
6、502,如果出現(xiàn)502那么表明服務器內(nèi)部錯誤,經(jīng)常出現(xiàn)建議更換服務器(服務器不穩(wěn)定)。