|
|
web挖掘
web挖掘什麽
web挖掘是數據挖掘在web上的應用,它利用數據挖掘技術從與www相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。
•web內容挖掘。web內容挖掘是指對web頁面內容及後臺交易數據庫進行挖掘,從web文檔內容及其描述中的內容信息中獲取有用知識的過程。
同時還可以對web的組織結構和鏈接關係進行挖掘,從人為的鏈接結構中獲取有用的知識。由於文檔之間的互連,www能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。
•web使用記錄挖掘。web使用記錄挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。
如何實現web挖掘
web挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,采用的技術有决策樹、分類、聚類、關聯規則等;另一類是建立一種以機器學習為主的人工智能模型,采用的方法有神經網絡、自然法則計算方法等。
1.web內容挖掘實現技術
web上的內容挖掘多為基於文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用web文檔中部分標記,如title、head等包含的額外信息,可以提高web文本挖掘的性能。
•文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以瞭解文檔或文檔集合的總體內容。
•文本分類。分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即通常所說的分類器。
•文本聚類。文本聚類把一組文檔按照相似性歸成若幹類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。
•關聯規則。發現關聯規則的算法通常要經過以下三個步驟:連接數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。
2.web使用記錄挖掘實現技術
在挖掘web用戶使用記錄時描述用戶訪問的數據包括:ip地址、參考頁面、訪問日期和時間、用戶web站點及配置信息。
發現用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析,包含兩種方式:一是先進行預處理,即將日志數據映射為關係表並采用相應的數據挖掘技術來訪問日志數據;二是直接訪問日志數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。
能挖到什麽
• 獲取競爭對手和客戶信息。web不僅由頁面組成,而且還包含了從一個頁面指嚮另一個頁面的超鏈接。一個web頁面的作者建立指嚮另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的註解收集起來,就可以用來反映該頁面的重要性,並可以很自然地用於權威頁面的發現。另外一種重要的web頁面是一個或多個web頁面,它提供了指嚮權威頁面的鏈接集合,稱為hub。hub頁面本身可能並不突出,或者說可能沒有幾個鏈接指嚮它們,但是 hub頁面卻提供了指嚮就某個話題而言最為突出的站點的鏈接。通過分析這類信息,企業可以獲得零售商、中間商、合作商以及競爭對手的信息。
• 發現用戶訪問模式。通過分析和探究web日志記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進web服務器係統的性能。 web日志記錄數據庫提供了有關web動態的,基於url、時間、ip地址和web頁面內容的豐富信息,對它們進行分析,有助於發現潛在客戶、用戶和市場,有助於聚類用戶並將用戶分門別類,以實現個性化的市場服務。
•反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。忽視競爭對手的競爭情報活動、低估競爭對手搜集競爭情報的能力勢必導致企業失去已有的競爭優勢。web站點是企業與外界進行交流的窗口,同時也是競爭對手獲取競爭情報的一個重要信息源。在競爭情報計算機係統中,可以充分利用web挖掘技術,通過運用分析訪問者的ip地址、客戶端所屬域、信息訪問路徑,統計敏感信息訪問率等方法識別競爭對手,保護企業敏感性信息。 |
|
web挖掘是數據挖掘在Web上的應用,它利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。
•Web內容挖掘。Web內容挖掘是指對Web頁面內容及後臺交易數據庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。
同時還可以對Web的組織結構和鏈接關係進行挖掘,從人為的鏈接結構中獲取有用的知識。由於文檔之間的互連,WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。
•Web使用記錄挖掘。Web使用記錄挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。 |
|
web挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,采用的技術有决策樹、分類、聚類、關聯規則等;另一類是建立一種以機器學習為主的人工智能模型,采用的方法有神經網絡、自然法則計算方法等。
1.Web內容挖掘實現技術
Web上的內容挖掘多為基於文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分標記,如Title、Head等包含的額外信息,可以提高Web文本挖掘的性能。
•文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以瞭解文檔或文檔集合的總體內容。
•文本分類。分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即通常所說的分類器。
•文本聚類。文本聚類把一組文檔按照相似性歸成若幹類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。
•關聯規則。發現關聯規則的算法通常要經過以下三個步驟:連接數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。
2.Web使用記錄挖掘實現技術
在挖掘Web用戶使用記錄時描述用戶訪問的數據包括:IP地址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。
發現用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析,包含兩種方式:一是先進行預處理,即將日志數據映射為關係表並采用相應的數據挖掘技術來訪問日志數據;二是直接訪問日志數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。 |
|
• 獲取競爭對手和客戶信息。Web不僅由頁面組成,而且還包含了從一個頁面指嚮另一個頁面的超鏈接。一個Web頁面的作者建立指嚮另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的註解收集起來,就可以用來反映該頁面的重要性,並可以很自然地用於權威頁面的發現。另外一種重要的Web頁面是一個或多個Web頁面,它提供了指嚮權威頁面的鏈接集合,稱為Hub。Hub頁面本身可能並不突出,或者說可能沒有幾個鏈接指嚮它們,但是 Hub頁面卻提供了指嚮就某個話題而言最為突出的站點的鏈接。通過分析這類信息,企業可以獲得零售商、中間商、合作商以及競爭對手的信息。
• 發現用戶訪問模式。通過分析和探究Web日志記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web服務器係統的性能。 Web日志記錄數據庫提供了有關Web動態的,基於URL、時間、IP地址和Web頁面內容的豐富信息,對它們進行分析,有助於發現潛在客戶、用戶和市場,有助於聚類用戶並將用戶分門別類,以實現個性化的市場服務。
•反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。忽視競爭對手的競爭情報活動、低估競爭對手搜集競爭情報的能力勢必導致企業失去已有的競爭優勢。Web站點是企業與外界進行交流的窗口,同時也是競爭對手獲取競爭情報的一個重要信息源。在競爭情報計算機係統中,可以充分利用web挖掘技術,通過運用分析訪問者的IP地址、客戶端所屬域、信息訪問路徑,統計敏感信息訪問率等方法識別競爭對手,保護企業敏感性信息。 |