邻居的色诱中文字幕激情文学分享区,日韩精品一区二区三区四区,国产成人青青久久大片

主頁 > 知識庫 > 數(shù)據(jù)挖掘（DM）的全視圖

數(shù)據(jù)挖掘（DM）的全視圖

引言

無論是商業(yè)企業(yè)、科研機構(gòu)或者政府部門，在過去若干年的時間里都積累了海量的、以不同形式存儲的數(shù)據(jù)資料。但當(dāng)面對越來越多迅速膨脹的超級數(shù)據(jù)庫時，人們卻無從著手去理解數(shù)據(jù)中包含的信息，更難以獲得有價值的知識！原有的決策支持系統(tǒng)（DSS）和領(lǐng)導(dǎo)執(zhí)行系統(tǒng)（EIS）已不能滿足需要。數(shù)據(jù)挖掘概念的提出，使人們有能力克服這些困難，去發(fā)掘出蘊藏在數(shù)據(jù)中的信息和知識。數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一，引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。一些國際上高級別的工業(yè)研究實驗室，如IBM Almaden和GTE，和眾多的學(xué)術(shù)單位，如UC Berkeley，都在這個領(lǐng)域開展了各種各樣的研究計劃。

但人們對數(shù)據(jù)挖掘還存在認(rèn)識上的偏差。比如對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫等的關(guān)系存在一定觀點上的分歧。本文總結(jié)了目前學(xué)術(shù)界和工業(yè)界的認(rèn)識和觀點，并進行了比較和總結(jié)。本文還就與數(shù)據(jù)挖掘有關(guān)的挖掘過程、數(shù)據(jù)挖掘在商業(yè)中的實現(xiàn)等方面闡述了自己的觀點。

1. 數(shù)據(jù)挖掘的概念

本文從探尋知識發(fā)現(xiàn)（Knowledge Discovery in Database）和數(shù)據(jù)挖掘的關(guān)系入手理解數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是存在交叉的兩個概念。對這兩個概念之間的關(guān)系，流行有兩種觀點：一種觀點認(rèn)為：數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是等同的概念，只不過在不同的領(lǐng)域叫法不同而已。在科研領(lǐng)域，知識發(fā)現(xiàn)使用較多，在工程應(yīng)用領(lǐng)域多稱之為數(shù)據(jù)挖掘。另一種觀點認(rèn)為數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個階段，而且是核心階段。該觀點給出的定義是：知識發(fā)現(xiàn)，就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息。本文更傾向于第二種觀點。本文從知識產(chǎn)生的過程這一角度看待知識發(fā)現(xiàn)和數(shù)據(jù)挖掘，得出以下結(jié)論：

（1）知識發(fā)現(xiàn)是把低級別的數(shù)據(jù)轉(zhuǎn)化為高級別數(shù)據(jù)的整個過程。所謂高級別數(shù)據(jù)，是具有特殊含義的數(shù)據(jù)。在工程應(yīng)用中，根據(jù)不同的使用階段和價值，又細(xì)分為信息和知識。信息可被理解為有特殊意義的數(shù)據(jù)；知識則表達為在特定應(yīng)用領(lǐng)域，通過使用有價值的信息而在人腦中形成的、具有概括和總結(jié)特性的認(rèn)識。知識可表示為概念（concepts），規(guī)則（rules），規(guī)律（regulations），模式（patterns）等形式。從知識發(fā)現(xiàn)的整個過程來看（圖1），數(shù)據(jù)挖掘是知識發(fā)現(xiàn)實現(xiàn)從數(shù)據(jù)到信息和知識轉(zhuǎn)變的關(guān)鍵一步。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取可信的、新穎的、有效的模式的高級處理過程。

模式：是一個用語言L來表示的一個表達式E，它可用來描述數(shù)據(jù)集F中數(shù)據(jù)的特性，E所描述的數(shù)據(jù)是集合的一個子集。E作為一個模式，要求比列舉數(shù)據(jù)子集中所有元素的描述方法簡單。

模式是知識發(fā)現(xiàn)中的知識的一部分，它給出了數(shù)據(jù)的特性或數(shù)據(jù)之間的關(guān)系，是對數(shù)據(jù)所包含信息的更抽象描述。模式的表示方式很多，有時或者經(jīng)常無法用顯式的方法進行描述，比如用神經(jīng)網(wǎng)絡(luò)挖掘出來的模式是通過連接權(quán)值體現(xiàn)出來的。知識發(fā)現(xiàn)的最后一步—結(jié)果表達和解釋負(fù)責(zé)將挖掘的模式用更容易理解的方式，如圖形、自然語言和可視化技術(shù)等展現(xiàn)在用戶面前。

（2）如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng)，數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個可自動執(zhí)行的工具。挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的商業(yè)問題，一種或多種算法需要被選擇、編譯，在適于挖掘的數(shù)據(jù)環(huán)境下實施挖掘任務(wù)。從圖1看出，知識發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)的過程。

除以上談到的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的區(qū)別外，澄清存在于OLAP和數(shù)據(jù)挖掘之間認(rèn)識上的混淆會有助于對數(shù)據(jù)挖掘的理解：

Gartner Group等組織把OLAP視為數(shù)據(jù)挖掘的一部分。數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模。OLAP系統(tǒng)可以提供數(shù)據(jù)倉庫中數(shù)據(jù)的一般描述。但更多的認(rèn)識把OLAP和數(shù)據(jù)挖掘當(dāng)作互不相交的兩部分。OLAP是數(shù)據(jù)匯總/聚集工具，它幫助簡化數(shù)據(jù)分析。OLAP的功能基本上是用戶參與的匯總和比較（上鉆、下鉆、旋轉(zhuǎn)、切片、和其他操作）；數(shù)據(jù)挖掘自動發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的模式等有價值的知識。圖2從數(shù)據(jù)、信息和知識的角度形象地描述出OLAP和數(shù)據(jù)挖掘的邏輯關(guān)系。

另一點，OLAP大多是限于數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)挖掘既可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù)，也可以分析事務(wù)的、文本的、空間的和多媒體數(shù)據(jù)。

2. 數(shù)據(jù)挖掘分類和知識發(fā)現(xiàn)過程

2.1. 數(shù)據(jù)挖掘分類

數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多，有人工智能、數(shù)據(jù)統(tǒng)計、可視化、并行計算等。數(shù)據(jù)挖掘有多種分類方法。

2.1.1. 根據(jù)挖掘任務(wù)

可分為分類模型發(fā)現(xiàn)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列分析、偏差分析、數(shù)據(jù)可視化等。

（1）分類（Classification）
其旨在生成一個分類函數(shù)或分類模型，該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。既可以用此模型分析已有的數(shù)據(jù)，也可以用它來預(yù)測未來的數(shù)據(jù)。

（2）聚集（Clustering）
聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類，不需要訓(xùn)練集。

（3）數(shù)據(jù)可視化（Description and Visualization）
數(shù)據(jù)可視化嚴(yán)格地講不是一個單獨的數(shù)據(jù)挖掘任務(wù)，它被用來支持其他挖掘任務(wù)?？梢暬遣捎脠D形、圖表等易于理解的方式表達數(shù)據(jù)挖掘結(jié)果。

（4）關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）
關(guān)聯(lián)規(guī)則是尋找數(shù)據(jù)庫中值的相關(guān)性，主要是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性，比如在一次購買活動中所買不同商品的相關(guān)性。

（5）序列分析（Sequence Analysis）
序列模式分析同樣也是試圖找出數(shù)據(jù)之間的聯(lián)系。但它的側(cè)重點在于分析數(shù)據(jù)之間前后（因果）關(guān)系，因此對數(shù)據(jù)往往要求引入時間屬性。序列模式分析非常適于尋找事物的發(fā)生趨勢或重復(fù)性模式。

（6）偏差分析（Deviation Analysis）
是用來發(fā)現(xiàn)與正常情況不同的異常和變化，并進一步分析這種變化是否是有意的詐騙行為，還是正常的變化。如果是異常行為，則提示預(yù)防措施；如果是正常的變化，那么就需要更新數(shù)據(jù)庫記錄。

2.1.2. 根據(jù)挖掘?qū)ο?/P>

可分為關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web。

2.1.3. 根據(jù)挖掘方法

可粗略地分為：機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹、可視化、最近鄰技術(shù)等。在機器學(xué)習(xí)中，可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等；在統(tǒng)計方法中，可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析（主元分析法、相關(guān)分析法等）等。

2.2. 知識發(fā)現(xiàn)過程

數(shù)據(jù)挖掘包括商業(yè)需求、大量的數(shù)據(jù)和挖掘算法三部分。商業(yè)需求是真正的數(shù)據(jù)挖掘前期要明確的工作。挖掘算法是目前研究的熱點之一，主要圍繞采用新的挖掘算法解決特定商業(yè)問題和對挖掘算法的改進上。由挖掘算法可形成挖掘工具。

知識發(fā)現(xiàn)過程可由三個主要階段組成：數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達和解釋，知識發(fā)現(xiàn)是這三個階段的反復(fù)。如圖1所示。

2.2.1. 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理，解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇確定需要分析的數(shù)據(jù)集合，提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。

2.2.2. 數(shù)據(jù)挖掘

（1）先決定如何產(chǎn)生假設(shè)。是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè)，還是用戶自己參照數(shù)據(jù)庫可能包含的知識提出假設(shè)。前一種稱為發(fā)現(xiàn)型（discovery-driven）的數(shù)據(jù)挖掘，后一種稱為驗證型(verification-driven)的數(shù)據(jù)挖掘。

（2）選擇合適的工具

（3）數(shù)據(jù)挖掘操作

（4）證實發(fā)現(xiàn)的知識

2.2.3. 結(jié)果表述和解釋

把提取的信息進行分析，通過決策支持工具提交給決策者。這一階段不僅把結(jié)果表達出來，而且知識發(fā)現(xiàn)系統(tǒng)會采用解釋和推理機制，將這些知識直接提供給決策者，也可以提供給領(lǐng)域?qū)＜?，修正已有知識庫供系統(tǒng)共享。如果不滿意，需要重復(fù)以上知識發(fā)現(xiàn)的過程。

3. 數(shù)據(jù)挖掘的研究熱點

目前，數(shù)據(jù)挖掘的研究熱點圍繞挖掘算法展開。數(shù)據(jù)挖掘是綜合了機器學(xué)習(xí)、人工智能、數(shù)據(jù)統(tǒng)計等學(xué)科的研究領(lǐng)域。隨著數(shù)據(jù)挖掘工具在實際應(yīng)用中的迅速增長，相關(guān)學(xué)科成熟的算法實現(xiàn)不斷地加入到數(shù)據(jù)挖掘中來；挖掘算法的研究還包括對現(xiàn)有挖掘算法的優(yōu)化和改進，比如使用全局搜索算法優(yōu)化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程。除此以外，數(shù)據(jù)挖掘還有以下研究熱點：

3.1.數(shù)據(jù)挖掘原語

我們把數(shù)據(jù)挖掘原語可以理解為有效輔助數(shù)據(jù)挖掘?qū)嵤┲R發(fā)現(xiàn)功能的思想和做法，是知識發(fā)現(xiàn)的輔助工具。數(shù)據(jù)挖掘原語的研究是為了支持有效的知識發(fā)現(xiàn)，為了讓用戶更加易于理解挖掘出來的知識。用戶能夠通過數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信，從不同的角度和深度審查發(fā)現(xiàn)結(jié)果，并指導(dǎo)挖掘過程。這組原語包括數(shù)據(jù)庫說明的部分或用戶感興趣的數(shù)據(jù)集、要挖掘的知識類型、用于指導(dǎo)挖掘過程的背景知識、模式評估以及度量和如何顯示所發(fā)現(xiàn)的知識等等。

3.2.數(shù)據(jù)挖掘語言及標(biāo)準(zhǔn)

數(shù)據(jù)挖掘行業(yè)是高度分散的，公司和研究機構(gòu)獨立開發(fā)各自的數(shù)據(jù)挖掘系統(tǒng)和平臺，沒有形成開放性的標(biāo)準(zhǔn)；同時數(shù)據(jù)挖掘本身是一門多學(xué)科綜合跨度非常大的技術(shù)，這些造成了數(shù)據(jù)挖掘在通用性方面存在一系列問題：①各種數(shù)據(jù)挖掘問題及挖掘方法基于不同的模型和技術(shù)，彼此互相孤立，聯(lián)系很少；②缺少簡明精確的問題描述方法，挖掘的語義通常是由實現(xiàn)方法決定的；③數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識發(fā)現(xiàn)功能，難于嵌入大型應(yīng)用；④數(shù)據(jù)挖掘引擎與數(shù)據(jù)庫系統(tǒng)是松散耦合的。數(shù)據(jù)挖掘語言和標(biāo)準(zhǔn)的開發(fā)有望解決上述問題。

目前，已實現(xiàn)的數(shù)據(jù)挖掘語言有DMQL、MSQL和MINE RULE等；數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)有PMML（DMG：數(shù)據(jù)挖掘組織協(xié)會）和OLE DB for Data Mining（微軟）。

3.3.數(shù)據(jù)挖掘系統(tǒng)

知識發(fā)現(xiàn)是一個有機的整體，各個部分之間有著密切的關(guān)系。我們稱圍繞某一數(shù)據(jù)挖掘任務(wù)的知識發(fā)現(xiàn)過程為數(shù)據(jù)挖掘系統(tǒng)。應(yīng)該說所有的算法是為某一個挖掘系統(tǒng)服務(wù)的。數(shù)據(jù)挖掘系統(tǒng)的研究是為了建立科學(xué)的系統(tǒng)結(jié)構(gòu)，利于挖掘算法的重用、嵌入，利于算法與系統(tǒng)其他模塊有機結(jié)合。圖3是一個挖掘系統(tǒng)的原型結(jié)構(gòu)。

3.4.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘

把數(shù)據(jù)挖掘建立在數(shù)據(jù)倉庫之上，一方面能夠提高數(shù)據(jù)倉庫系統(tǒng)的決策支持能力，另一方面，由于數(shù)據(jù)倉庫完成了數(shù)據(jù)的清洗、ETL（抽取，轉(zhuǎn)換，裝載），數(shù)據(jù)挖掘面對的是經(jīng)過初步處理的數(shù)據(jù)，更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。這方面的研究集中在基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的探討上。

3.5.OLAM

OLAM將OLAP和數(shù)據(jù)挖掘功能集成在一起，可以實現(xiàn)數(shù)據(jù)挖掘功能的聯(lián)機選擇，為用戶選擇所期望的數(shù)據(jù)挖掘功能、動態(tài)地改變數(shù)據(jù)挖掘任務(wù)提供了靈活性。OLAM和OLAP通過圖形用戶界面GUI接受用戶指令，對數(shù)據(jù)立方體Cube進行數(shù)據(jù)分析、挖掘。由于OLAM服務(wù)器可以執(zhí)行如關(guān)聯(lián)、分類、預(yù)測、聚類、時序分析等多種數(shù)據(jù)挖掘任務(wù)，它通常由多個集成的數(shù)據(jù)挖掘模塊組成。

3.6.數(shù)據(jù)挖掘與具體應(yīng)用的結(jié)合

數(shù)據(jù)挖掘目前在醫(yī)學(xué)、電信、零售業(yè)等多個應(yīng)用領(lǐng)域均有成功的應(yīng)用案例。隨著越來越多的業(yè)務(wù)需求被不斷明確，數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域和解決的問題會越來越廣泛；一些應(yīng)用系統(tǒng)，如ERP、SCM、HR等系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來，用以提高系統(tǒng)的決策支持能力。這方面的研究熱點包括數(shù)據(jù)挖掘與商業(yè)智能（BI）、CRM、WEB應(yīng)用的結(jié)合。

4.總結(jié)

數(shù)據(jù)挖掘是當(dāng)前計算機工業(yè)最熱門的研究領(lǐng)域之一。數(shù)據(jù)挖掘是一個不斷發(fā)展的、綜合交叉的學(xué)科。本文從知識的形態(tài)和知識產(chǎn)生的視角闡述了數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系，本文還總結(jié)了數(shù)據(jù)挖掘的分類以及數(shù)據(jù)挖掘在知識發(fā)現(xiàn)過程中的地位與作用。最后，對當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究熱點進行了詳細(xì)的概括與總結(jié)。

來源：中國商業(yè)智能網(wǎng)

標(biāo)簽：濮陽十堰鎮(zhèn)江湘潭巴中嘉峪關(guān) 蘭州福州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《數(shù)據(jù)挖掘（DM）的全視圖》，本文關(guān)鍵詞數(shù)據(jù)挖掘,的,全,視圖,數(shù)據(jù)挖掘,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。