- 相關(guān)推薦
關(guān)于Web日志的研究分析
描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一種改進(jìn)技術(shù)——Frame過(guò)濾技術(shù),對(duì)其關(guān)鍵部分與運(yùn)作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁(yè)面過(guò)濾預(yù)處理技術(shù)在Web頁(yè)面挖掘中的效率問(wèn)題,分析了決策樹(shù)算法中最著名的算法——ID3算法,并用ID3算法對(duì)Frame過(guò)濾算法進(jìn)行了改進(jìn),比較新舊算法的執(zhí)行效率及算法結(jié)果質(zhì)量,得出了新算法執(zhí)行效率更高及質(zhì)量更好的結(jié)論,從而搞高了對(duì)存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)挖掘結(jié)果的興趣度。
1 引言
Internet的迅速發(fā)展使得Web為人們提供了內(nèi)容豐富且數(shù)量龐大的信息,隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)以及發(fā)展,數(shù)據(jù)挖掘逐漸被應(yīng)用于Web數(shù)據(jù)。
Web日志挖掘是三大類(lèi)Web挖掘之一,它主要包括數(shù)據(jù)預(yù)處理和挖掘算法實(shí)施兩個(gè)主要階段.實(shí)施挖掘算法之前要對(duì)Web日志文件進(jìn)行預(yù)處理,將其轉(zhuǎn)化為用戶(hù)會(huì)話(huà)集.本文著重討論Web日志挖掘預(yù)處理技術(shù)中的Frame頁(yè)面過(guò)濾預(yù)處理技術(shù),即在傳統(tǒng)的Web日志預(yù)處理過(guò)程中加入Frame頁(yè)面過(guò)濾這一步驟,并提出了用決策樹(shù)算法著名的ID3算法進(jìn)行Frame頁(yè)面過(guò)濾,進(jìn)一步提高了日志數(shù)據(jù)預(yù)處理的質(zhì)量和效率,從而為挖掘算法的實(shí)施提供更為準(zhǔn)確的數(shù)據(jù),提高了對(duì)存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)整個(gè)Web日志挖掘的效率及挖掘結(jié)果的興趣性。
2 Web日志預(yù)處理中的Frame頁(yè)面過(guò)濾技術(shù)[2]2.1 Web日志預(yù)處理技術(shù)現(xiàn)狀
Web日志挖掘[1] [3-4]是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶(hù)訪問(wèn)模式。Web日志預(yù)處理是在Web日志挖掘前,對(duì)Web日志進(jìn)行清理、過(guò)濾以及重新組合的過(guò)程,其目的是剔除日志中對(duì)挖掘過(guò)程無(wú)用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的保存形式。到目前為止提出的Web日志的預(yù)處理技術(shù),它包含三種方法識(shí)別用戶(hù)的活動(dòng)集合:
(1) Web服務(wù)器提供Cookie,則具有相同Cookie值的頁(yè)面請(qǐng)求是來(lái)自同一個(gè)用戶(hù),則用戶(hù)會(huì)話(huà)識(shí)別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對(duì)應(yīng)的頁(yè)面請(qǐng)求集合。
(2) Web服務(wù)器沒(méi)有提供Cookie,但每個(gè)網(wǎng)站用戶(hù)都要一個(gè)登錄標(biāo)識(shí)符方可訪問(wèn)站點(diǎn),則分析工具即可利用登錄標(biāo)識(shí)符識(shí)別會(huì)話(huà)。
⑴如果Web服務(wù)器既沒(méi)有Cookie也沒(méi)有登錄標(biāo)識(shí)符,可以利用主機(jī)地址,同時(shí)分析日志中每條記錄的請(qǐng)求頁(yè)和引用頁(yè)的URL,然后根據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)(超鏈接)和其它啟發(fā)式規(guī)則識(shí)別用戶(hù)會(huì)話(huà),但是這種方法的精確度較低,不能100%正確地識(shí)別出每個(gè)請(qǐng)求對(duì)應(yīng)的用戶(hù)。這里主要討論第3種預(yù)處理方法。一般Web日志預(yù)處理主要包括:數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話(huà)識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別數(shù)據(jù)凈化指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。由于在Web日志中通常只有HTML文件與用戶(hù)會(huì)話(huà)相關(guān),所以通過(guò)檢查URL的后綴刪除不相關(guān)的數(shù)據(jù)。
用戶(hù)識(shí)別是指要識(shí)別出每個(gè)訪問(wèn)網(wǎng)站的用戶(hù)。一般Web日志挖掘工具中常使用基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識(shí)別用戶(hù)。
會(huì)話(huà)識(shí)別是將用戶(hù)的訪問(wèn)記錄分為單個(gè)的會(huì)話(huà)。通常采用超時(shí)方法識(shí)別用戶(hù)會(huì)話(huà),如果兩頁(yè)間請(qǐng)求時(shí)間的差值超過(guò)一定的界限(超時(shí)閾值)就認(rèn)為用戶(hù)開(kāi)始了一個(gè)新的會(huì)話(huà)。路徑補(bǔ)充是由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。路徑補(bǔ)充就是將這些遺漏的請(qǐng)求補(bǔ)充到用戶(hù)會(huì)話(huà)中,解決的方法類(lèi)似于用戶(hù)識(shí)別中的方法。
事務(wù)識(shí)別,用戶(hù)會(huì)話(huà)是Web日志挖掘中唯一具備自然事務(wù)特征的元素,但是,對(duì)于某些挖掘算法來(lái)說(shuō)可能用戶(hù)會(huì)話(huà)的粒度太大,需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù)。一般通常采用圖1所示的數(shù)據(jù)預(yù)處理過(guò)程。如果按照前面所介紹的日志預(yù)處理技術(shù)對(duì)Web日志進(jìn)行預(yù)處理,則Frame頁(yè)面和其SubFrame頁(yè)面也將一起出現(xiàn)在用戶(hù)會(huì)話(huà)文件中。在這樣的用戶(hù)會(huì)話(huà)文件上進(jìn)行數(shù)據(jù)挖掘,F(xiàn)rame頁(yè)面和SubFrame頁(yè)面作為頻繁遍歷路徑或者頻繁訪問(wèn)頁(yè)組出現(xiàn)的概率很高,并且他們同時(shí)出現(xiàn)在挖掘結(jié)果中,這就降低了挖掘結(jié)果的興趣性。
HTML規(guī)范通過(guò)“Frame”標(biāo)記支持多窗口頁(yè)面,每個(gè)窗口里裝載的頁(yè)面對(duì)應(yīng)一個(gè)URL。 當(dāng)用戶(hù)請(qǐng)求Frame頁(yè)面的URL時(shí),F(xiàn)rame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)多窗口頁(yè)面展現(xiàn)在用戶(hù)面前,我們可以將用戶(hù)對(duì)Frame頁(yè)面的請(qǐng)求看成就是對(duì)多窗口頁(yè)面的請(qǐng)求。這樣,在數(shù)據(jù)預(yù)處理階段將Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)整體考慮,并且把Frame頁(yè)面對(duì)應(yīng)的URL當(dāng)作這個(gè)整體的代表。從全局而言,這樣處理可以有效地消除Frame頁(yè)面對(duì)日志挖掘的影響,最終提高挖掘結(jié)果的興趣性。
改進(jìn)的Web日志數(shù)據(jù)預(yù)處理過(guò)程中,在會(huì)話(huà)識(shí)別與路徑補(bǔ)充這兩個(gè)步驟之間增加了Frame頁(yè)面過(guò)濾。Frame頁(yè)面過(guò)濾要完成的任務(wù)是,根據(jù)從站點(diǎn)的拓?fù)浣Y(jié)構(gòu)中提取出的Frame-SubFrame關(guān)系表,從會(huì)話(huà)識(shí)別過(guò)程中生成的會(huì)話(huà)文件中,尋找Frame頁(yè)面及其SubFrame頁(yè)面,將會(huì)話(huà)文件中對(duì)Frame和其SubFrame頁(yè)面的請(qǐng)求用Frame頁(yè)面代替,從而刪除會(huì)話(huà)文件中多余的SubFrame頁(yè)面。由于刪除了會(huì)話(huà)文件中的SubFrame頁(yè)面,因此會(huì)丟失SubFrame頁(yè)面中包含的超鏈接信息,所以接下來(lái)的路徑補(bǔ)充步驟中必須使用提升的站點(diǎn)結(jié)構(gòu)。
3 基于ID3算法的Frame頁(yè)面過(guò)濾預(yù)處理技術(shù)
如上文所述,我們應(yīng)用Frame頁(yè)面過(guò)濾技術(shù)有效地消除了Frame頁(yè)面對(duì)日志挖掘的影響,然而我們知道Web日志挖掘的記錄是成千上萬(wàn)的,上述Frame頁(yè)面過(guò)濾算法中是對(duì)每個(gè)用戶(hù)對(duì)話(huà)的每個(gè)頁(yè)面進(jìn)行是否Frame和SubFrame的判斷,并且對(duì)判斷出的子框架逐個(gè)地進(jìn)行刪除,而且因?yàn)镾ubFrame頁(yè)面的刪除導(dǎo)致后面必須用提升的站點(diǎn)結(jié)構(gòu),雖然較一般預(yù)處理技術(shù)增加了興趣度,但是效率還是比較低的,而且也增加了開(kāi)銷(xiāo)。并且SubFrame過(guò)濾中被刪去,在后面的路徑補(bǔ)全中能否完全恢復(fù)也值得高榷。而且有快速分類(lèi)性質(zhì)允許多粒度層的決策樹(shù)分類(lèi)算法可以解決此問(wèn)題。
ID3算法的基本思想是貪心算法,采用自上而下的分而治之的方法構(gòu)造決策樹(shù)。首先檢測(cè)訓(xùn)練數(shù)據(jù)集的所有特征,選擇信息增益最大的特征A建立決策樹(shù)根節(jié)點(diǎn),由該特征的不同取值建立分枝,對(duì)各分枝的實(shí)例子集遞歸,用該方法建立樹(shù)的節(jié)點(diǎn)和分枝,直到某一子集中的數(shù)據(jù)都屬于同一類(lèi)別,或者沒(méi)有特征可以在用于對(duì)數(shù)據(jù)進(jìn)行分割。
【W(wǎng)eb日志的研究分析】相關(guān)文章:
web項(xiàng)目總結(jié)11-22
web網(wǎng)站實(shí)訓(xùn)報(bào)告01-19
web前端工作總結(jié)12-16
web前端實(shí)習(xí)報(bào)告范文09-19