|
|
數據挖掘(data mining),又稱為數據庫中的知識發現(knowledge discovery in database, kdd),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。
並非所有的信息發現任務都被視為數據挖掘。例如,使用數據庫管理係統查找個別的記錄,或通過因特網的搜索引擎查找特定的web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。儘管如此,數據挖掘技術也已用來增強信息檢索係統的能力。 |
|
為迎接前一節中的這些挑戰,來自不同學科的研究者匯集到一起,開始着手開發可以處理不同數據類型的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和算法之上,在數據挖掘領域達到高潮。特別地,數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2) 人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、信息論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地,需要數據庫係統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分佈式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。 |
|
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (classification)
· 估值(estimation)
· 預言(prediction)
· 相關性分組或關聯規則(affinity grouping or association rules)
· 聚集(clustering)
· 描述和可視化(des cription and visualization)
· 復雜數據類型挖掘(text, web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關係 。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
註意: 類的個數是確定的,預先定義好的
· 估值(estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變量的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,纔知道預言準確性是多少。
· 相關性分組或關聯規則(affinity grouping or association rules)
决定哪些事情將一起發生。
例子:
a. 超市中客戶在購買a的同時,經常會購買b,即a => b(關聯規則)
b. 客戶在購買a後,隔一段時間,會購買b (序列分析)
· 聚集(clustering)
聚集是對記錄分組,把相似的記錄在一個聚集裏。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定癥狀的聚集可能預示了一個特定的疾病
b. 租vcd類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集裏,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(des cription and visualization)
是對數據挖掘結果的表示方式。 |
|
·定義問題:清晰地定義出業務問題,確定數據挖掘的目的。·數據準備:數據準備包括:選擇數據--在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理--進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。
·數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。
·結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。
·知識的運用:將分析所得到的知識集成到業務信息係統的組織結構中去。 |
|
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有 價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。 |
|
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
·數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理係統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復製、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在係統功能集成化方面,以適應數據倉庫本身或數據源的變化,使係統更便於管理和維護。
·數據的存儲和管理
數據倉庫的組織管理方式决定了它有別於傳統數據庫的特性,也决定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速纍積。在數據倉庫的數據存儲和管理中需要解决的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多數據庫廠傢提供的技術解决方案是擴展關係型數據庫的功能,將普通關係數據庫改造成適合擔當數據倉庫的服務器。
·數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、olap查詢與决策支持智能查詢;報表:産生關係數據表格、復雜表格、olap表格、報告以及各種綜合報表;可視化:用易於理解的點綫圖、直方圖、餅圖、網狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關係;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關係和模式的知識。 |
|
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專傢、數據倉庫技術人員和行業專傢共同努力的成果,更是廣大渴望從數據庫“奴隸”到數據庫“主人”轉變的企業最終用戶的通途。 |
|
數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在數據庫,數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為數據庫中知識發現過程的一個基本步驟。知識發現過程以下步驟組成:(1)數據清理,(2)數據集成,(3)數據選擇,(4)數據變換,(5)數據挖掘,(6)模式評估,(7)知識表示。數據挖掘可以與用戶或知識庫交互。
並非所有的信息發現任務都被視為數據挖掘。例如,使用數據庫管理係統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。儘管如此,數據挖掘技術也已用來增強信息檢索係統的能力。 |
|
1.什麽是關聯規則
在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一傢超市裏,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直為商傢所津津樂道。沃爾瑪擁有世界上最大的數據倉庫係統,為了能夠準確瞭解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫裏集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。産生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維,尿布與啤酒風馬牛不相及,若不是藉助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯繫。Agrawal等於1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優化,如引入隨機采樣、並行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中産生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含{A,B}項目組的支持度,若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法並從Large k的項目組中再産生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要産生關聯規則(Association Rules)。從高頻項目組産生關聯規則,是利用前一步驟的高頻k-項目組來産生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所産生的規則AB,其信賴度可經由公式(2)求得,若信賴度大於等於最小信賴度,則稱AB為關聯規則。
就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今後若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數據庫中的指標值是取連續的數據,則在關聯規則挖掘之前應該進行適當的數據離散化(實際上就是將某個區間的值對應於某個值),數據的離散化是數據挖掘前的重要環節,離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變量的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變量之間的關係;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型字段進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然數值型關聯規則中也可以包含種類變量。例如:性別=“女”=>職業=“秘書” ,是布爾型關聯規則;性別=“女”=>avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變量都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行了充分的考慮。例如:IBM臺式機=>Sony打印機,是一個細節數據上的單層關聯規則;臺式機=>Sony打印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。
在單維的關聯規則中,我們衹涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關係;多維關聯規則是處理各個屬性之間的某些關係。例如:啤酒=>尿布,這條規則衹涉及到用戶的購買的物品;性別=“女”=>職業=“秘書”,這條規則就涉及到兩個字段的信息,是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關算法
1.Apriori算法:使用候選項集找頻繁項集
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基於兩階段頻集思想的遞推算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這裏,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集産生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集産生期望的規則,産生衹包含集合的項的所有規則,其中每一條規則的右部衹有一項,這裏采用的是中規則的定義。一旦這些規則被生成,那麽衹有那些大於用戶給定的最小可信度的規則纔被留下來。為了生成所有頻集,使用了遞推的方法。
可能産生大量的候選集,以及可能需要重複掃描數據庫,是Apriori算法的兩大缺點。
2.基於劃分的算法
Savasere等設計了一個基於劃分的算法。這個算法先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並對它生成所有的頻集,然後把産生的頻集合併,用來生成所有可能的頻集,最後計算這些項集的支持度。這裏分塊的大小選擇要使得每個分塊可以被放入主存,每個階段衹需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度並行的,可以把每一分塊分別分配給某一個處理器生成頻集。産生頻集的每一個循環結束後,處理器之間進行通信來産生全局的候選k-項集。通常這裏的通信過程是算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集算法
針對Apriori算法的固有缺陷,J. Han等提出了不産生候選挖掘頻繁項集的方法:FP-樹頻集算法。采用分而治之的策略,在經過第一遍掃描之後,把數據庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨後再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的適應性,同時在效率上較之Apriori算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行産品信息,供使用本行ATM機的用戶瞭解。如果數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些産品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數據庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麽産品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘,然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,“數據海量,信息缺乏”是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數數據庫衹能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用的信息,譬如對這些數據進行分析,發現其數據模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜,大量研究從不同的角度對關聯規則做了擴展,將更多的因素集成到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支持管理决策的範圍。如考慮屬性之間的類別層次關係,時態關係,多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面,即擴展經典關聯規則能夠解决問題的範圍,改善經典關聯規則挖掘算法效率和規則興趣性。 |
|
統計學和數據挖掘有着共同的目標:發現數據中的結構。事實上,由於它們的目標相似,一些人(尤其是統計學家)認為數據挖掘是統計學的分支。這是一個不切合實際的看法。因為數據挖掘還應用了其它領域的思想、工具和方法,尤其是計算機學科,例如數據庫技術和機器學習,而且它所關註的某些領域和統計學家所關註的有很大不同。
1.統計學的性質
試圖為統計學下一個太寬泛的定義是沒有意義的。儘管可能做到,但會引來很多異議。相反,我要關註統計學不同於數據挖掘的特性。
差異之一同上節中最後一段提到的相關,即統計學是一門比較保守的學科,目前有一種趨勢是越來越精確。當然,這本身並不是壞事,衹有越精確才能避免錯誤,發現真理。但是如果過度的話則是有害的。這個保守的觀點源於統計學是數學的分支這樣一個看法,我是不同意這個觀點的,儘管統計學確實以數學為基礎(正如物理和工程也以數學為基礎,但沒有被認為是數學的分支),但它同其它學科還有緊密的聯繫。
數學背景和追求精確加強了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計算機科學和機器學習那樣註重經驗。這就意味着有時候和統計學家關註同一問題的其它領域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統計雜志傾嚮於發表經過數學證明的方法而不是一些特殊方法。數據挖掘作為幾門學科的綜合,已經從機器學習那裏繼承了實驗的態度。這並不意味着數據挖掘工作者不註重精確,而衹是說明如果方法不能産生結果的話就會被放棄。
正是統計文獻顯示了(或誇大了)統計的數學精確性。同時還顯示了其對推理的側重。儘管統計學的一些分支也側重於描述,但是瀏覽一下統計論文的話就會發現這些文獻的核心問題就是在觀察了樣本的情況下如何去推斷總體。當然這也常常是數據挖掘所關註的。下面我們會提到數據挖掘的一個特定屬性就是要處理的是一個大數據集。這就意味着,由於可行性的原因,我們常常得到的衹是一個樣本,但是需要描述樣本取自的那個大數據集。然而,數據挖掘問題常常可以得到數據總體,例如關於一個公司的所有職工數據,數據庫中的所有客戶資料,去年的所有業務。在這種情形下,推斷就沒有價值了(例如,年度業務的平均值),因為觀測到的值也就是估計參數。這就意味着,建立的統計模型可能會利用一係列概率表述(例如,一些參數接近於0,則會從模型中剔除掉),但當總體數據可以獲得的話,在數據挖掘中則變得毫無意義。在這裏,我們可以很方便的應用評估函數:針對數據的足夠的表述。事實是,常常所關註的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發現很容易。例如,在尋找規則時常常會利用吻合度的單純特性(例如,應用分支定理)。但當我們應用概率陳述時則不會得到這些特性。
統計學和數據挖掘部分交迭的第三個特性是在現代統計學中起核心作用的“模型”。或許“模型”這個術語更多的含義是變化。一方面,統計學模型是基於分析變量間的聯繫,但另一方面這些模型關於數據的總體描述確實沒有道理的。關於信用卡業務的回歸模型可能會把收入作為一個獨立的變量,因為一般認為高收入會導致大的業務。這可能是一個理論模型(儘管基於一個不牢靠的理論)。與此相反,衹需在一些可能具有解釋意義的變量基礎上進行逐步的搜索,從而獲得一個有很大預測價值的模型,儘管不能作出合理的解釋。(通過數據挖掘去發現一個模型的時候,常常關註的就是後者)。
還有其它方法可以區分統計模型,但在這裏我將不作探討。這裏我想關註的是,現代統計學是以模型為主的。而計算,模型選擇條件是次要的,衹是如何建立一個好的模型。但在數據挖掘中,卻不完全是如此。在數據挖掘中,準則起了核心的作用。(當然在統計學中有一些以準則為中心的獨立的特例。Gifi的關於學校的非綫性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點,給定一些最常用的MVA(多變量分析)問題,既可以從模型出發也可以技術出發。正如我們已經在1.1節所看到的基於模型的經典的多變量統計分析,……然而,在很多情形下,模型的選擇並不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發,應用設計的一係列技術來回答MVA問題,暫不考慮模型和最優判別的選擇。
相對於統計學而言,準則在數據挖掘中起着更為核心的作用並不奇怪,數據挖掘所繼承的學科如計算機科學及相關學科也是如此。數據集的規模常常意味着傳統的統計學準則不適合數據挖掘問題,不得不重新設計。部分地,當數據點被逐一應用以更新估計量,適應性和連續性的準則常常是必須的。儘管一些統計學的準則已經得到發展,但更多的應用是機器學習。(正如“學習”所示的那樣)
2.數據挖掘的性質
由於統計學基礎的建立在計算機的發明和發展之前,所以常用的統計學工具包含很多可以手工實現的方法。因此,對於很多統計學家來說,1000個數據就已經是很大的了。但這個“大”對於英國大的信用卡公司每年350,000,000筆業務或AT&T每天200,000,000個長途呼叫來說相差太遠了。很明顯,面對這麽多的數據,則需要設計不同於那些“原則上可以用手工實現”的方法。這意味這計算機(正是計算機使得大數據可能實現)對於數據的分析和處理是關鍵的。分析者直接處理數據將變得不可行。相反,計算機在分析者和數據之間起到了必要的過濾的作用。這也是數據挖掘特別註重準則的另一原因。儘管有必要,把分析者和數據分離開很明顯導致了一些關聯任務。這裏就有一個真正的危險:非預期的模式可能會誤導分析者,這一點我下面會討論。
我不認為在現代統計中計算機不是一個重要的工具。它們確實是,並不是因為數據的規模。對數據的精確分析方法如bootstrap方法、隨機測試,迭代估計方法以及比較適合的復雜的模型正是有了計算機纔是可能的。計算機已經使得傳統統計模型的視野大大的擴展了,還促進了新工具的飛速發展。
下面來關註一下歪麯數據的非預期的模式出現的可能性。這和數據質量相關。所有數據分析的結論依賴於數據質量。GIGO的意思是垃圾進,垃圾出,它的引用到處可見。一個數據分析者,無論他多聰明,也不可能從垃圾中發現寶石。對於大的數據集,尤其是要發現精細的小型或偏離常規的模型的時候,這個問題尤其突出。當一個人在尋找百萬分之一的模型的時候,第二個小數位的偏離就會起作用。一個經驗豐富的人對於此類最常見的問題會比較警覺,但出錯的可能性太多了。
此類問題可能在兩個層次上産生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由於挖掘者不知道,丟失的數據被記錄為99而作為真實的數據處理。第二個是宏觀層次,整個數據集被一些選擇機製所歪麯。交通事故為此提供了一個好的示例。越嚴重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那麽精確。事實上,很高比例的數據根本沒有記錄。這就造成了一個歪麯的映象-可能會導致錯誤的結論。
統計學很少會關註實時分析,然而數據挖掘問題常常需要這些。例如,銀行事務每天都會發生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務的申請隨時間、競爭環境、經濟波動而變化。
3.討論
數據挖掘有時候是一次性的實驗。這是一個誤解。它更應該被看作是一個不斷的過程(
管數據集時確定的)。從一個角度檢查數據可以解釋結果,以相關的觀點檢查可能會更接近等等。關鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數據挖掘的本質是發現非預期的模式-同樣非預期的模式要以非預期的方法來發現。
與把數據挖掘作為一個過程的觀點相關聯的是認識到結果的新穎性。許多數據挖掘的結果是我們所期望的-可以回顧。然而,可以解釋這個事實並不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,衹有那些可以依據過去經驗形成的合理的解釋的結構纔會是有價值的。
顯然在數據挖掘存在着一個潛在的機會。在大數據集中發現模式的可能性當然存在,大數據集的數量與日俱增。然而,也不應就此掩蓋危險。所有真正的數據集(即使那些是以完全自動方式搜集的數據)都有産生錯誤的可能。關於人的數據集(例如事務和行為數據)尤其有這種可能。這很好的解釋了絶大部分在數據中發現的“非預期的結構”本質上是無意義的,而是因為偏離了理想的過程。(當然,這樣的結構可能會是有意義的:如果數據有問題,可能會幹擾搜集數據的目的,最好還是瞭解它們)。與此相關聯的是如何確保(和至少為事實提供支持)任何所觀察到的模式是“真實的”,它們反應了一些潛在的結構和關聯而不僅僅是一個特殊的數據集,由於一個隨機的樣本碰巧發生。在這裏,記分方法可能是相關的,但需要更多的統計學家和數據挖掘工作者的研究。 |
|
NO.1 Data Mining 和統計分析有什麽不同?
硬要去區分Data Mining和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法,也都是由統計學者根據統計理論所發展衍生,換另一個角度看,Data Mining有相當大的比重是由高等統計學中的多變量分析所支撐。但是為什麽Data Mining的出現會引發各領域的廣泛註意呢?主要原因在相較於傳統統計分析而言,Data Mining有下列幾項特性:
1.處理大量實際數據更強勢,且無須太專業的統計背景去使用Data Mining的工具;
2.數據分析趨勢為從大型數據庫抓取所需數據並使用專屬計算機分析軟件,Data Mining的工具更符合企業需求;
3. 純就理論的基礎點來看,Data Mining和統計分析有應用上的差別,畢竟Data Mining目的是方便企業終端用戶使用而非給統計學家檢測用的。
NO.2 數據倉庫和數據挖掘的關係為何?
若將Data Warehousing(數據倉庫)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的數據,是很難期待Data Mining能挖掘出什麽有意義的信息的。
要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨着科技的進步,功能完善的數據庫係統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它係統的有用數據,存放在一整合的儲存區內。所以其實就是一個經過處理整合,且容量特別大的關係型數據庫,用以儲存决策支持係統(Design Support System)所需的數據,供决策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。
許多人對於Data Warehousing和Data Mining時常混淆,不知如何分辨。其實,數據倉庫是數據庫技術的一個新主題,利用計算機係統幫助我們操作、計算和思考,讓作業方式改變,决策方式也跟着改變。
數據倉庫本身是一個非常大的數據庫,它儲存着由組織作業數據庫中整合而來的數據,特別是指事務處理係統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放於數據昂哭中,而公司的决策者則利用這些數據作决策;但是,這個轉換及整合數據的過程,是建立一個數據倉庫最大的挑戰。因為將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對决策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,數據倉庫應先行建立完成,Data mining才能有效率的進行,因為數據倉庫本身所含數據是幹淨(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關係或許可解讀為Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。
NO.3 OLAP 能不能代替 Data Mining?
所謂OLAP(Online Analytical Process)意指由數據庫所連結出來的在綫分析處理程序。有些人會說:「我已經有OLAP的工具了,所以我不需要Data Mining。」事實上兩者間是截然不同的,主要差異在於Data Mining用在産生假設,OLAP則用於查證假設。簡單來說,OLAP是由使用者所主導,使用者先有一些假設,然後利用OLAP來查證假設是否成立;而Data Mining則是用來幫助使用者産生假設。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。
舉個例子來看,一市場分析師在為超市規劃貨品架櫃擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的産品,接着便可利用OLAP的工具去驗證此假設是否為真,又成立的證據有多明顯;但Data Mining則不然,執行Data Mining的人將龐大的結帳數據整理後,並不需要假設或期待可能的結果,透過Mining技術可找出存在於數據中的潛在規則,於是我們可能得到例如尿布和啤酒常被同時購買的意料外之發現,這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納範圍的關係,但OLAP僅能利用人工查詢及可視化的報表來確認某些關係,是以Data Mining此種自動找出甚至不會被懷疑過的數據模型與關係的特性,事實上已超越了我們經驗、教育、想象力的限製,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。
NO.4 完整的Data Mining 包含哪些步驟?
以下提供一個Data Mining的進行步驟以為參考:
1. 理解業務與理解數據;
2. 獲取相關技術與知識;
3. 整合與查詢數據;
4. 去除錯誤或不一致及不完整的數據;
5. 由數據選取樣本先行試驗;
6. 建立數據模型
7. 實際Data Mining的分析工作;
8. 測試與檢驗;
9. 找出假設並提出解釋;
10. 持續應用於企業流程中。
由上述步驟可看出,Data Mining牽涉了大量的準備工作與規劃過程,事實上許多專傢皆認為整套Data Mining的進行有80﹪的時間精力是花費在數據前置作業階段,其中包含數據的淨化與格式轉換甚或表格的連結。由此可知Data Mining衹是信息挖掘過程中的一個步驟而已,在進行此步驟前還有許多的工作要先完成。
NO.5 Data Mining 運用了哪些理論與技術?
Data Mining是近年來數據庫應用技術中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什麽新東西,因其所用之諸如預測模型、數據分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰前就已應用運用在人口普查及軍事等方面。
隨着信息科技超乎想象的進展,許多新的計算機分析工具問世,例如關係型數據庫、模糊計算理論、基因算法則以及類神經網絡等,使得從數據中發掘寶藏成為一種係統性且可實行的程序。
一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩支。傳統技術以統計分析為代表,統計學內所含序列統計、概率論、回歸分析、類別數據分析等都屬於傳統數據挖掘技術,尤其 Data Mining 對象多為變量繁多且樣本數龐大的數據,是以高等統計學裏所含括之多變量分析中用來精簡變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。
在改良技術方面,應用較普遍的有决策樹理論(Decision Trees)、類神經網絡(Neural Network)以及規則歸納法(Rules Induction)等。决策樹是一種用樹枝狀展現數據受各變量的影響情形之預測模型,根據對目標變量産生之效應的不同而建構分類的規則,一般多運用在對客戶數據的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。
類神經網絡是一種仿真人腦思考結構的數據分析模式,由輸入之變量與數值中自我學習並根據學習經驗所得之知識不斷調整參數以期建構數據的型樣(patterns)。類神經網絡為非綫性的設計,與傳統回歸分析相比,好處是在進行分析時無須限定模式,特別當數據變量間存有交互效應時可自動偵測出;缺點則在於其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,是故類神經網絡多利用於數據屬於高度非綫性且帶有相當程度的變量交感效應時。
規則歸納法是知識發掘的領域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規則對數據進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先將數據中發生數太少的項目先剔除,以避免産生無意義的邏輯規則。
NO.6 Data Mining包含哪些主要功能?
Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬於分類區隔類;Regression和Time-series屬於推算預測類;Association和Sequence則屬於序列規則類。
Classification是根據一些變量的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組數據分為 "可能會響應" 或是 "可能不會響應" 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據歷史經驗已經分類好的數據來研究它們的特徵,然後再根據這些特徵對其他未經分類或是新的數據做預測。這些我們用來尋找特徵的已分類數據可能是來自我們的現有的客戶數據,或是將一個完整數據庫做部份取樣,再經由實際的運作來測試;譬如利用一個大型郵寄對象數據庫的部份取樣來建立一個Classification Model,再利用這個Model來對數據庫的其它數據或是新的數據作分類預測。
Clustering用在將數據分群,其目的在於將群間的差異找出來,同時也將群內成員的相似性找出來。Clustering與Classification不同的是,在分析前並不知道會以何種方式或根據來分類。所以必須要配合專業領域知識來解讀這些分群的意義。
Regression是使用一係列的現有數值來預測一個連續數值的可能值。若將範圍擴大亦可利用Logistic Regression來預測類別變量,特別在廣泛運用現代分析技術如類神經網絡或决策樹理論等分析工具,推估預測的模式已不在止於傳統綫性的局限,在預測的功能上大大增加了選擇工具的彈性與應用範圍的廣度。
Time-Series Forecasting與Regression功能類似,衹是它是用現有的數值來預測未來的數值。兩者最大差異在於Time-Series所分析的數值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性,譬如時間的周期性、階層性、季節性以及其它的一些特別因素(如過去與未來的關連性)。
Association是要找出在某一事件或是數據中會同時出現的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那麽這個顧客同時也會買牛奶的機率是85%。)
Sequence Discovery與Association關係很密切,所不同的是Sequence Discovery中事件的相關是以時間因素來作區隔(例如:如果A股票在某一天上漲12%,而且當天股市加權指數下降,則B股票在兩天之內上漲的機率是 68%)。
NO.7 Data Mining在各領域的應用情形為何?
Data Mining在各領域的應用非常廣泛,衹要該産業擁有具分析價值與需求的數據倉儲或數據庫,皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發生在零售業、直效行銷界、製造業、財務金融保險、通訊業以及醫療服務等。
於銷售數據中發掘顧客的消費習性,並可藉由交易紀錄找出顧客偏好的産品組合,其它包括找出流失顧客的特徵與推出新産品的時機點等等都是零售業常見的實例;直效行銷強調的分衆概念與數據庫行銷方式在導入Data Mining的技術後,使直效行銷的發展性更為強大,例如利用Data Mining分析顧客群之消費行為與交易紀錄,結合基本數據,並依其對品牌價值等級的高低來區隔顧客,進而達到差異化行銷的目的;製造業對Data Mining的需求多運用在品質控管方面,由製造過程中找出影響産品品質最重要的因素,以期提高作業流程的效率。
近來電話公司、信用卡公司、保險公司以及股票交易商對於詐欺行為的偵測(Fraud Detection)都很有興趣,這些行業每年因為詐欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數據中找出相似特徵並預測可能的詐欺交易,達到減少損失的目的。財務金融業可以利用 Data Mining來分析市場動嚮,並預測個別公司的營運以及股價走嚮。Data Mining的另一個獨特的用法是在醫療業,用來預測手術、用藥、診斷、或是流程控製的效率。
NO.8 Web Mining 和數據挖掘有什麽不同?
如果將Web視為CRM的一個新的Channel,則Web Mining便可單純看做Data Mining應用在網絡數據的泛稱。
該如何測量一個網站是否成功?哪些內容、優惠、廣告是人氣最旺的?主要訪客是哪些人?什麽原因吸引他們前來?如何從堆積如山之大量由網絡所得數據中找出讓網站運作更有效率的操作因素?以上種種皆屬Web Mining 分析之範疇。Web Mining 不僅衹限於一般較為人所知的log file分析,除了計算網頁瀏覽率以及訪客人次外,舉凡網絡上的零售、財務服務、通訊服務、政府機關、醫療咨詢、遠距教學等等,衹要由網絡連結出的數據庫夠大夠完整,所有Off-Line可進行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的數據庫,實施更大規模的模型預測與推估,畢竟憑藉網際網絡的便利性與滲透力再配合網絡行為的可追蹤性與高互動特質,一對一行銷的理念是最有機會在網絡世界裏完全落實的。
整體而言,Web Mining具有以下特性:1. 數據收集容易且不引人註意,所謂凡走過必留下痕跡,當訪客進入網站後的一切瀏覽行為與歷程都是可以立即被紀錄的;2. 以交互式個人化服務為終極目標,除了因應不同訪客呈現專屬設計的網頁之外,不同的訪客也會有不同的服務;3. 可整合外部來源數據讓分析功能發揮地更深更廣,除了log file、cookies、會員填表數據、綫上調查數據、綫上交易數據等由網絡直接取得的資源外,結合實體世界纍積時間更久、範圍更廣的資源,將使分析的結果更準確也更深入。
利用Data Mining技術建立更深入的訪客數據剖析,並賴以架構精準的預測模式,以期呈現真正智能型個人化的網絡服務,是Web Mining努力的方向。
NO.9 數據挖掘在 CRM 中扮演的角色為何?
CRM(Customer Relationship Management)是近來引起熱烈討論與高度關切的議題,尤其在直效行銷的崛起與網絡的快速發展帶動下,跟不上CRM的腳步如同跟不上時代。事實上CRM並不算新發明,奧美直效行銷推動十數年的CO(Customer Ownership)就是現在大傢談的CRM—客戶關係管理。
Data Mining應用在CRM的主要方式可對應在Gap Analysis之三個部分:
針對Acquisition Gap,可利用Customer Profiling找出客戶的一些共同的特徵,希望能藉此深入瞭解客戶,藉由Cluster Analysis對客戶進行分群後再透過Pattern Analysis預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象,進而降低成本,也提高行銷的成功率。
針對Sales Gap,可利用Basket Analysis幫助瞭解客戶的産品消費模式,找出哪些産品客戶最容易一起購買,或是利用Sequence Discovery預測客戶在買了某一樣産品之後,在多久之內會買另一樣産品等等。利用 Data Mining可以更有效的决定産品組合、産品推薦、進貨量或庫存量,甚或是在店裏要如何擺設貨品等,同時也可以用來評估促銷活動的成效。
針對Retention Gap,可以由原客戶後來卻轉成競爭對手的客戶群中,分析其特徵,再根據分析結果到現有客戶數據中找出可能轉嚮的客戶,然後設計一些方法預防客戶流失;更有係統的做法是藉由Neural Network根據客戶的消費行為與交易紀錄對客戶忠誠度進行Scoring的排序,如此則可區隔流失率的等級進而配合不同的策略。
CRM不是設一個(080)客服專綫就算了,更不僅衹是把一堆客戶基本數據輸入計算機就夠,完整的CRM運作機製在相關的硬軟件係統能健全的支持之前,有太多的數據準備工作與分析需要推動。企業透過Data Mining可以分別針對策略、目標定位、操作效能與測量評估等四個切面之相關問題,有效率地從市場與顧客所搜集纍積之大量數據中挖掘出對消費者而言最關鍵、最重要的答案,並賴以建立真正由客戶需求點出發的客戶關係管理。
NO.10 目前業界常用的數據挖掘分析工具?
Data Mining工具市場大致可分為三類:
1. 一般分析目的用的軟件包
SAS Enterprise Miner
KXEN(凱森)
IBM Intelligent Miner
Unica PRW
SPSS Clementine
SGI MineSet
Oracle Darwin
Angoss KnowledgeSeeker
2. 針對特定功能或産業而研發的軟件
KD1(針對零售業)
Options & Choices(針對保險業)
HNC(針對信用卡詐欺或呆帳偵測)
Unica Model 1(針對行銷業)
3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析係統
Cognos Scenario and Business Objects |
|
當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。看似廣泛,實際應用還遠沒有普及。而據Gartner的報告也指出,數據挖掘會成為未來10年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。
具體發展趨勢和應用方向主要有:對知識發現方法的研究進一步發展,如對Bayes和Boosting方法的研究和提高;商業工具軟件不斷産生和完善,註重建立解决問題的整體係統,例如國外的SPSS,JMP;國內的NoSA,SPLM(郭祖超教授),bget,qstat等專業軟件。
數據挖掘的發展應是挖掘工具在先進理論指導下的改進,而就給內情況而言,還有至少20年的發展空間。 |
|
計算機 | 商業智能 | 縮寫 | 數據倉庫 | 網站設計 | 技術 | 互聯網 | 數據庫 | 人工智能 | 聯機分析處理 | OLAP | BI | DataMining | 主持人 | 教授 | 專傢 | 北方工業大學 | 專傢决策係統 | 多策略數據挖掘係統 | DBMiner | 電子商務 | 百科辭典 | 機器學習 | 神經網絡 | 更多結果... |
|
|
金融數據挖掘 | 數據挖掘導論 | 高維數據挖掘 | 空間數據挖掘 | 文本數據挖掘 | 海量數據挖掘 | 數據挖掘技術 | 數據挖掘教程 | 數據挖掘與應用 | 數據挖掘研究院 | 數據挖掘與分析 | 數據挖掘的起源 | 什麽是數據挖掘 | 商業數據挖掘導論 | 生物醫學數據挖掘 | 數據挖掘研究中心 | 數據挖掘完全手册 | 數據挖掘實例分析 | 數據挖掘應用實務 | 數據挖掘技術實現 | 數據挖掘能做什麽 | 數據挖掘技術應用實例 | 數據倉庫與數據挖掘 | 醫學數據倉庫與數據挖掘 | 可拓集與可拓數據挖掘 | 數據挖掘實用機器學習技術 | 高維數據挖掘技術研究 | Web數據挖掘 | 數據挖掘與粗糙集方法 | 數據挖掘概念與技術 | 數據挖掘方法與應用 | 數據倉庫與數據挖掘技術 | SAS數據挖掘與分析 | Excel2007數據挖掘完全手册 | 數據挖掘與教學建模 | 數據挖掘Clementine應用實務 | 數據倉庫與數據挖掘教程 | 空間數據挖掘理論與應用 | 智能數據挖掘與知識發現 | 數據挖掘原理與應用數據庫 | 商務智能與數據挖掘應用 | 多策略數據挖掘係統 | 數據挖掘的商業背景 | 數據挖掘的一般流程 | 數據倉庫與數據挖掘原理、工具、及應用 | 數據挖掘原理與算法(第二版) | 數據倉庫與數據挖掘技術(第2版) | DPS數據處理係統-實驗設計、統計分析及數據挖掘 | Web數據挖掘:超文本數據的知識發現 | 基於模糊推理係統的工業過程數據挖掘 | SQLServer2005數據挖掘實例分析 | 社會保障信息分析與數據挖掘 | 數據挖掘原理與應用:SQLServer2005數據庫 | 數據倉庫與數據挖掘的原理及應用 | 商務智能與數據挖掘:MicrosoftSQLServer應用 | 持續時態數據挖掘及其實現機製 | 合肥工業大學人工智能與數據挖掘研究室 | 數據倉庫與數據挖掘原理工具及應用 | 數據處理係統-實驗設計統計分析及數據挖掘 | 數據挖掘超文本數據的知識發現 | |
|