通信工程 > 數據挖掘技術
目錄
數據挖掘技術概況
  數據挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨着信息技術的高速發展,人們積纍的數據量急劇增長,動輒以tb計,如何從海量的數據中提取有用的知識成為當務之急。數據挖掘就是為順應這種需要應運而生發展起來的數據處理技術。是知識發現(knowledge discovery in database)的關鍵步驟。
數據挖掘技術的由來
  1、網絡之後的下一個技術熱點
  我們現在已經生活在一個網絡化的時代,通信、計算機和網絡技術正改變着整個人類和社會。如果用芯片集成度來衡量微電子技術,用CPU處理速度來衡量計算機技術,用信道傳輸速率來衡量通信技術,那麽摩爾定律告訴我們,它們都是以每18個月翻一番的速度在增長,這一勢頭已經維持了十多年。在美國,廣播達到5000萬戶用了38年;電視用了13年;Internet撥號上網達到5000萬戶僅用了4年。全球IP網發展速度達到每6個月翻一番,國內情況亦然。1999年初,中國上網用戶為210萬,現在已經達到600萬。網絡的發展導致經濟全球化,在1998年全球産值排序前100名中,跨國企業占了51個,國傢衹占49個。有人提出,對待一個跨國企業也許比對待一個國傢還要重要。在新世紀鐘聲剛剛敲響的時候,回顧往昔,人們不僅要問:就推動人類社會進步而言,歷史上能與網絡技術相比擬的是什麽技術呢?有人甚至提出要把網絡技術與火的發明相比擬。火的發明區別了動物和人,種種科學技術的重大發現擴展了自然人的體能、技能和智能,而網絡技術則大大提高了人的生存質量和人的素質,使人成為社會人、全球人。
  現在的問題是:網絡之後的下一個技術熱點是什麽?讓我們來看一些身邊俯拾即是的現象:《紐約時報》由60年代的10~20版擴張至現在的100~200版,最高曾達1572版;《北京青年報》也已是16~40版;市場營銷報已達100版。然而在現實社會中,人均日閱讀時間通常為30~45分鐘,衹能瀏覽一份24版的報紙。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。人們開始提出一個新的口號:“要學會拋棄信息”。人們開始考慮:“如何才能不被信息淹沒,而是從中及時發現有用的知識、提高信息利用率?”
  面對這一挑戰,數據開採和知識發現(DMKD)技術應運而生,並顯示出強大的生命力。
  2、數據爆炸但知識貧乏
  另一方面,隨着數據庫技術的迅速發展以及數據庫管理係統的廣泛應用,人們積纍的數據越來越多。激增的數據背後隱藏着許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。目前的數據庫係統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關係和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背後隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。
  3 、支持數據挖掘技術的基礎
  數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的數據庫中的,然後發展到可對數據庫進行查詢和訪問,進而發展到對數據庫的即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對過去的數據進行查詢和遍歷,並且能夠找出過去數據之間的潛在聯繫,從而促進信息的傳遞。現在數據挖掘技術在商業應用中已經可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已經發展成熟,他們是:
  - - 海量數據搜集
  - - 強大的多處理器計算機
  - - 數據挖掘算法
  Friedman[1997]列舉了四個主要的技術理由激發了數據挖掘的開發、應用和研究的興趣:
  - - 超大規模數據庫的出現,例如商業數據倉庫和計算機自動收集的數據記錄;
  - - 先進的計算機技術,例如更快和更大的計算能力和並行體係結構;
  - - 對巨大量數據的快速訪問;
  - - 對這些數據應用精深的統計方法計算的能力。
  商業數據庫現在正在以一個空前的速度增長,並且數據倉庫正在廣泛地應用於各種行業;對計算機硬件性能越來越高的要求,也可以用現在已經成熟的並行多處理機的技術來滿足;另外數據挖掘算法經過了這10多年的發展也已經成為一種成熟,穩定,且易於理解和操作的技術。
  4 、從商業數據到商業信息的進化
  從商業數據到商業信息的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數據庫技術已經可以快速地回答商業上的很多問題了。
  數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關係數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。
  5 、數據挖掘逐漸演變的過程
  數據挖掘其實是一個逐漸演變的過程,電子數據處理的初期,人們就試圖通過某些方法來實現自動决策支持,當時機器學習成為人們關心的焦點.機器學習的過程就是將一些已知的並已被成功解决的問題作為範例輸入計算機,機器通過學習這些範例總結並生成相應的規則,這些規則具有通用性,使用它們可以解决某一類的問題.隨後,隨着神經網絡技術的形成和發展,人們的註意力轉嚮知識工程,知識工程不同於機器學習那樣給計算機輸入範例,讓它生成出規則,而是直接給計算機輸入已被代碼化的規則,而計算機是通過使用這些規則來解决某些問題。專傢係統就是這種方法所得到的成果,但它有投資大、效果不甚理想等不足。80年代人們又在新的神經網絡理論的指導下,重新回到機器學習的方法上,並將其成果應用於處理大型商業數據庫。隨着在80年代末一個新的術語,它就是數據庫中的知識發現,簡稱KDD(Knowledge discovery in database).它泛指所有從源數據中發掘模式或聯繫的方法,人們接受了這個術語,並用KDD來描述整個數據發掘的過程,包括最開始的製定業務目標到最終的結果分析,而用數據挖掘(data mining)來描述使用挖掘算法進行數據挖掘的子過程。但最近人們卻逐漸開始使用數據挖掘中有許多工作可以由統計方法來完成,並認為最好的策略是將統計方法與數據挖掘有機的結合起來。
  數據倉庫技術的發展與數據挖掘有着密切的關係。數據倉庫的發展是促進數據挖掘越來越熱的原因之一。但是,數據倉庫並不是數據挖掘的先决條件,因為有很多數據挖掘可直接從操作數據源中挖掘信息。
數據挖掘的定義
  1、技術上的定義及含義
  數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
  與 數據挖掘相近的同義詞有數據融合、數據分析和决策支持等。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;並不要求發現放之四海皆準的知識,僅支持特定的發現問題。
  ----何為知識?從廣義上理解,數據、信息也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關係數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分佈在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用於信息管理,查詢優化,决策支持和過程控製等,還可以用於數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供决策支持。在這種需求牽引下,彙聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、並行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
  這裏所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什麽機器定理證明。實際上,所有發現的知識都是相對的,是有特定前提和約束條件,面嚮特定領域的,同時還要能夠易於被用戶理解。最好能用自然語言表達所發現的結果。
  2、 商業角度的定義
  數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業决策的關鍵性數據。
  簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷史,衹不過在過去數據收集和分析的目的是用於科學研究,另外,由於當時計算能力的限製,對大數據量進行分析的復雜數據分析方法受到很大限製。現在,由於各行業業務自動化的實現,商業領域産生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由於純機會的(Opportunistic)商業運作而産生。分析這些數據也不再是單純為了研究的需要,更主要是為商業决策提供真正有價值的信息,進而獲得利潤。但所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利於商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。
  因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。
  3、數據挖掘與傳統分析方法的區別
  數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先未知,有效和可實用三個特徵.
  先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值.在商業應用中最典型的例子就是一傢連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有着驚人的聯繫.
  4、數據挖掘和數據倉庫
  大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中(見圖1)。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。就如我們後面會講到的,數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要在清理一次了,而且所有的數據不一致的問題都已經被你解决了。
  數據挖掘庫可能是你的數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。但如果你的數據倉庫的計算資源已經很緊張,那你最好還是建立一個單獨的數據挖掘庫。
  當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解决所有的數據衝突問題,然後把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。衹是為了數據挖掘,你可以把一個或幾個事務數據庫導到一個衹讀的數據庫中,就把它當作數據集市,然後在他上面進行數據挖掘。
  5、數據挖掘和在綫分析處理(OLAP)
  一個經常問的問題是,數據挖掘和OLAP到底有何不同。下面將會解釋,他們是完全不同的工具,基於的技術也大相徑庭。
  OLAP是决策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什麽(what happened),OLAP則更進一步告訴你下一步會怎麽樣(What next)、和如果我采取這樣的措施又會怎麽樣(What if)。用戶首先建立一個假設,然後用OLAP檢索數據庫來驗證這個假設是否正確。比如,一個分析師想找到什麽原因導致了貸款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然後用OLAP來驗證他這個假設。如果這個假設沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結果或放棄。
  也就是說,OLAP分析師是建立一係列的假設,然後通過OLAP來證實或推翻這些假設來最終得到自己的結論。OLAP分析過程在本質上是一個演繹推理的過程。但是如果分析的變量達到幾十或上百個,那麽再用OLAP手動分析驗證這些假設將是一件非常睏難和痛苦的事情。
  數據挖掘與OLAP不同的地方是,數據挖掘不是用於驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。他在本質上是一個歸納的過程。比如,一個用數據挖掘工具的分析師想找到引起貸款拖欠的風險因素。數據挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發現一些分析師從來沒有想過或試過的其他因素,比如年齡。
  數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論采取行動之前,你也許要驗證一下如果采取這樣的行動會給公司帶來什麽樣的影響,那麽OLAP工具能回答你的這些問題。
  而且在知識發現的早期階段,OLAP工具還有其他一些用途。可以幫你探索數據,找到哪些是對一個問題比較重要的變量,發現異常數據和互相影響的變量。這都能幫你更好的理解你的數據,加快知識發現的過程。
  6、數據挖掘,機器學習和統計
  數據挖掘利用了人工智能(AI)和統計分析的進步所帶來的好處。這兩門學科都致力於模式發現和預測。
  數據挖掘不是為了替代傳統的統計分析技術。相反,他是統計分析方法學的延伸和擴展。大多數的統計分析技術都基於完善的數學理論和高超的技巧,預測的準確度還是令人滿意的,但對使用者的要求很高。而隨着計算機計算能力的不斷增強,我們有可能利用計算機強大的計算能力衹通過相對簡單和固定的方法完成同樣的功能。
  一些新興的技術同樣在知識發現領域取得了很好的效果,如神經元網絡和决策樹,在足夠多的數據和計算能力下,他們幾乎不用人的關照自動就能完成許多有價值的功能。
  數據挖掘就是利用了統計和人工智能技術的應用程序,他把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,並且更專註於自己所要解决的問題。
  7、軟硬件發展對數據挖掘的影響
  使數據挖掘這件事情成為可能的關鍵一點是計算機性能價格比的巨大進步。在過去的幾年裏磁盤存儲器的價格幾乎降低了99%,這在很大程度上改變了企業界對數據收集和存儲的態度。如果每兆的價格是¥10,那存放1TB的價格是¥10,000,000,但當每兆的價格降為1毛錢時,存儲同樣的數據衹有¥100,000!
  計算機計算能力價格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內存RAM也同樣降價迅速,幾年之內每兆內存的價格由幾百塊錢降到現在衹要幾塊錢。通常PC都有64M內存,工作站達到了256M,擁有上G內存的服務器已經不是什麽新鮮事了。
  在單個CPU計算能力大幅提升的同時,基於多個CPU的並行係統也取得了很大的進步。目前幾乎所有的服務器都支持多個CPU,這些SMP服務器簇甚至能讓成百上千個CPU同時工作。
  基於並行係統的數據庫管理係統也給數據挖掘技術的應用帶來了便利。如果你有一個龐大而復雜的數據挖掘問題要求通過訪問數據庫取得數據,那麽效率最高的辦法就是利用一個本地的並行數據庫。
  所有這些都為數據挖掘的實施掃清了道路,隨着時間的延續,我們相信這條道路會越來越平坦。
數據挖掘的任務
  數據挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。
  ⑴關聯分析(association analysis)
  關聯規則挖掘是由rakesh apwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規律性,就稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。一般用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。
  ⑵聚類分析(clustering)
  聚類是把數據按照相似性歸納成若幹類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立宏觀的概念,發現數據的分佈模式,以及可能的數據屬性之間的相互關係。
  ⑶分類(classification)
  分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,並用這種描述來構造模型,一般用規則或决策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則。分類可被用於規則描述和預測。
  ⑷預測(predication)
  預測是利用歷史數據找出變化規律,建立模型,並由此模型對未來數據的種類及特徵進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。
  ⑸時序模式(time-series pattern)
  時序模式是指通過時間序列搜索出的重複發生概率較高的模式。與回歸一樣,它也是用己知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。
  ⑹偏差分析(deviation)
  在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
數據挖掘對象
  根據信息存儲格式,用於挖掘的對象有關係數據庫、面嚮對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及internet等。
數據挖掘流程
  ⑴定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
  ⑵數據準備:數據準備包括:選擇數據--在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理--進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。
  ⑶數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。
  ⑷結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。
  ⑸知識的運用:將分析所得到的知識集成到業務信息係統的組織結構中去。
數據挖掘的方法
  ⑴神經網絡方法
  神經網絡由於本身良好的魯棒性、自組織自適應性、並行處理、分佈存儲和高度容錯等特性非常適合解决數據挖掘的問題,因此近年來越來越受到人們的關註。典型的神經網絡模型主要分3大類:以感知機、bp反嚮傳播模型、函數型網絡為代表的,用於分類、預測和模式識別的前饋式神經網絡模型;以hopfield的離散模型和連續模型為代表的,分別用於聯想記憶和優化計算的反饋式神經網絡模型;以art模型、koholon模型為代表的,用於聚類的自組織映射方法。神經網絡方法的缺點是"黑箱"性,人們難以理解網絡的學習和决策過程。
  ⑵遺傳算法
  遺傳算法是一種基於生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以應用。
  sunil已成功地開發了一個基於遺傳算法的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多餘的連接和隱層單元;用遺傳算法和bp算法結合訓練神經網絡,然後從網絡提取規則等。但遺傳算法的算法較復雜,收斂於局部極小的較早收斂問題尚未解决。
  ⑶决策樹方法
  决策樹是一種常用於預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的决策樹方法是由quinlan提出的著名的基於信息熵的id3算法。它的主要問題是:id3是非遞增學習算法;id3决策樹是單變量决策樹,復雜概念的表達睏難;同性間的相互關係強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如 schlimmer和fisher設計了id4遞增式學習算法;鐘鳴,陳文偉等提出了ible算法等。
  ⑷粗集方法
  粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易於操作。粗集處理的對象是類似二維關係表的信息表。目前成熟的關係數據庫管理係統和新發展起來的數據倉庫管理係統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實信息表中連續屬性是普遍存在的。因此連續屬性的離散化是製約粗集理論實用化的難點。現在國際上已經研製出來了一些基於粗集的工具應用軟件,如加拿大regina大學開發的kdd-r;美國kansas大學開發的lers等。
  ⑸覆蓋正例排斥反例方法
  它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則捨去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的算法有michalski的aq11方法、洪傢榮改進的aq15方法以及他的ae5方法。
  ⑹統計分析方法
  在數據庫字段項之間存在兩種關係:函數關係(能用函數公式表示的確定性關係)和相關關係(不能用函數公式表示,但仍是相關確定性關係),對它們的分析可采用統計學方法,即利用統計學原理對數據庫中的信息進行分析。可進行常用統計(求大量數據中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變量間的數量關係)、相關分析(用相關係數來度量變量間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體參數之間是否存在差異)等。
  ⑺模糊集方法
  即利用模糊集合理論對實際問題進行模糊評判、模糊决策、模糊模式識別和模糊聚類分析。係統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型--雲模型,並形成了雲理論。
數據挖掘軟件的評價
  越來越多的軟件供應商加入了數據挖掘這一領域的競爭。用戶如何正確評價一個商業軟件,選擇合適的軟件成為數據挖掘成功應用的關鍵。
  評價一個數據挖掘軟件主要應從以下四個主要方面:
  ⑴計算性能:如該軟件能否在不同的商業平臺運行;軟件的架構;能否連接不同的數據源;操作大數據集時,性能變化是綫性的還是指數的;算的效率;是否基於組件結構易於擴展;運行的穩定性等;
  ⑵功能性:如軟件是否提供足夠多樣的算法;能否避免挖掘過程黑箱化;軟件提供的算法能否應用於多種類型的數據;用戶能否調整算法和算法的參數;軟件能否從數據集隨機抽取數據建立預挖掘模型;能否以不同的形式表現挖掘結果等;
  ⑶可用性:如用戶界面是否友好;軟件是否易學易用;軟件面對的用戶:初學者,高級用戶還是專傢?錯誤報告對用戶調試是否有很大幫助;軟件應用的領域:是專攻某一專業領域還是適用多個領域等;
  ⑷輔助功能:如是否允許用戶更改數據集中的錯誤值或進行數據清洗;是否允許值的全局替代;能否將連續數據離散化;能否根據用戶製定的規則從數據集中提取子集;能否將數據中的空值用某一適當均值或用戶指定的值代替;能否將一次分析的結果反饋到另一次分析中,等等。
圖書信息
  書 名: 數據挖掘技術
  作 者:譚建豪
  出版社: 中國水利水電出版社
  出版時間: 2009年01月
  ISBN: 9787508462073
  開本: 16開
  定價: 35元
內容簡介
  《數據挖掘技術》較為係統地介紹了數據挖掘的基本概念、基本方法和基本技術以及數據挖掘的最新進展,並以較大篇幅敘述了數據挖掘在復雜工業係統中的應用情況。
  《數據挖掘技術》深入而係統地闡述了數據挖掘的研究歷史和現狀、數據挖掘與數理統計的關係、數據挖掘技術(包括語義網絡、智能體、分類、預測、復雜類型數據等基礎概念和技術)、數據庫係統及專傢係統中的數據挖掘方式、數據挖掘的應用及一些具有挑戰性的研究課題,對每類問題均提供了代表性算法和具體應用法則。全書共分7章,主要內容包括數據挖掘綜述、從數理統計到數據挖掘、語義網絡挖掘及其應用、智能體挖掘及其應用、分類挖掘及其應用、預測挖掘及其應用和復雜類型數據挖掘及其應用。
  《數據挖掘技術》可作為高等院校自動化、電子信息、測控技術與儀表、電氣工程、係統工程、機電工程等專業的本科生和研究生教材,也可作為相關專業工程技術人員的自學參考書。
圖書目錄
  前言
  第1章 數據挖掘綜述
  第2章 從數理統計到數據挖掘
  第3章 語義網絡挖掘及其應用
  第4章 智能體挖掘及其應用
  第5章 分類挖掘及其應用
  第6章 預測挖掘及其應用
  第7章 復雜類型數據挖掘及其應用
  參考文獻
  ……
包含詞
數據挖掘技術實現數據倉庫與數據挖掘技術數據挖掘技術應用實例
高維數據挖掘技術研究數據倉庫與數據挖掘技術(第2版)