Apache日誌:日誌分析
儘管日誌文件中包含著大量有用的資訊,但這些資訊只有在經過深入挖掘之後才能夠最大限度地發揮作用。本文首先討論了能夠從日誌文件獲得的資訊以及不能從日誌文件獲得的資訊,然後介紹了幾種優秀的日誌分析工具以及如何自己編程分析日誌文件。
一、可以得到哪些資訊(4月4日)
在這個《Apache日誌》系列文章的前面幾篇中,我們討論了Apache的標準日誌文件——訪問日誌和錯誤日誌,以及如何設定日誌文件。本文接下來討論如何分析日誌文件獲得寶貴的統計資訊。
我們面臨的問題是,雖然日誌文件中包含了大量的資訊,但這些資訊對於我們管理、規劃網站卻沒有多少直接的說明 。為了管理和規劃網站,我們需要知道:有多少人瀏覽了網站,他們在看些什麼,停留了多長時間,他們從哪裡得知這個網站,等等。所有這些資訊就隱藏於 (或者可能隱藏於)日誌文件之中。
就網站的經營者而言,他們還希望知道瀏覽者的姓名、位址、鞋子大小,甚至還有瀏覽者的信用卡號碼,但這些資訊都不可能從日誌文件中得到。為此,作為技術人員的我們就必須知道如何向這些經營者解釋清楚:這部分資訊不僅不可能從日誌文件獲得,而且要獲得這些信 息的唯一方法是直接向瀏覽者本人詢問,並作好被拒絕的準備。
有許多資訊可以用日誌文件來記錄,其中包括:
遠端機器的位址:「遠端機器的位址」和「誰在瀏覽網站」差不多,但並不等同。具體地說,遠端機器的位址告訴我們瀏覽者來自何方,比如它可能是buglet.rcbowen.com或者proxy01.aol.com。
瀏覽時間:瀏覽者何時開始訪問網站?從這個問題的答案中我們能夠瞭解不少情況。如果網站的大多數瀏覽者都在早上9:00和下午4:00之間訪問網站,那麼可以相信網站的瀏覽者大多數總在工作時間進行訪問;如果訪問記錄大多出現在下午7:00到午夜之間 ,我們可以肯定瀏覽者一般在家裡上網。 當然,從單個訪問記錄能夠得到的資訊非常有限,但如果從數千個訪問記錄出發,我們就可以得到非常有用和重要的統計資訊。
用戶所訪問的資源:網站的哪些部分最受用戶歡迎?這些最受歡迎的部分就是我們應該繼續加以發展的部分。網站的哪些部分總是受到冷落?網站中這些受到冷落的部分或許隱藏得太深,或許它們確實沒有什麼意思,此時我們就得想辦法加以改進。當然,網站還有的內 容,比如法律上的宣告,雖然很少有人訪問,但卻不應該隨便地改動它們。
無效連接:當然,日誌文件還能夠告訴我們哪些東西不能按照我們所想像地執行。網站中是否存在錯誤的連接?其他網站連接過來時有沒有搞錯URL?是否存在不能正常執行的CGI程序?是否有搜尋引擎檢索程序每秒發出數千個請求,從而影響了本網站的正常服務 ?這些問題的答案都可以從日誌文件找到線索。
|