引言
無論是商業(yè)企業(yè)、科研機構(gòu)或者政府部門,在過去若干年的時間里都積累了海量的、以不同形式存儲的數(shù)據(jù)資料。但當(dāng)面對越來越多迅速膨脹的超級數(shù)據(jù)庫時,人們卻無從著手去理解數(shù)據(jù)中包含的信息,更難以獲得有價值的知識!原有的決策支持系統(tǒng)(DSS)和領(lǐng)導(dǎo)執(zhí)行系統(tǒng)(EIS)已不能滿足需要。數(shù)據(jù)挖掘概念的提出,使人們有能力克服這些困難,去發(fā)掘出蘊藏在數(shù)據(jù)中的信息和知識。數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。一些國際上高級別的工業(yè)研究實驗室,如IBM Almaden和GTE,和眾多的學(xué)術(shù)單位,如UC Berkeley,都在這個領(lǐng)域開展了各種各樣的研究計劃。
但人們對數(shù)據(jù)挖掘還存在認(rèn)識上的偏差。比如對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫等的關(guān)系存在一定觀點上的分歧。本文總結(jié)了目前學(xué)術(shù)界和工業(yè)界的認(rèn)識和觀點,并進行了比較和總結(jié)。本文還就與數(shù)據(jù)挖掘有關(guān)的挖掘過程、數(shù)據(jù)挖掘在商業(yè)中的實現(xiàn)等方面闡述了自己的觀點。
1. 數(shù)據(jù)挖掘的概念
本文從探尋知識發(fā)現(xiàn)(Knowledge Discovery in Database)和數(shù)據(jù)挖掘的關(guān)系入手理解數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是存在交叉的兩個概念。對這兩個概念之間的關(guān)系,流行有兩種觀點:一種觀點認(rèn)為:數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是等同的概念,只不過在不同的領(lǐng)域叫法不同而已。在科研領(lǐng)域,知識發(fā)現(xiàn)使用較多,在工程應(yīng)用領(lǐng)域多稱之為數(shù)據(jù)挖掘。另一種觀點認(rèn)為數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個階段,而且是核心階段。該觀點給出的定義是:知識發(fā)現(xiàn),就是從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息。本文更傾向于第二種觀點。本文從知識產(chǎn)生的過程這一角度看待知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,得出以下結(jié)論:
(1)知識發(fā)現(xiàn)是把低級別的數(shù)據(jù)轉(zhuǎn)化為高級別數(shù)據(jù)的整個過程。所謂高級別數(shù)據(jù),是具有特殊含義的數(shù)據(jù)。在工程應(yīng)用中,根據(jù)不同的使用階段和價值,又細(xì)分為信息和知識。信息可被理解為有特殊意義的數(shù)據(jù);知識則表達為在特定應(yīng)用領(lǐng)域,通過使用有價值的信息而在人腦中形成的、具有概括和總結(jié)特性的認(rèn)識。知識可表示為概念(concepts),規(guī)則(rules),規(guī)律(regulations),模式(patterns)等形式。從知識發(fā)現(xiàn)的整個過程來看(圖1),數(shù)據(jù)挖掘是知識發(fā)現(xiàn)實現(xiàn)從數(shù)據(jù)到信息和知識轉(zhuǎn)變的關(guān)鍵一步。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取可信的、新穎的、有效的模式的高級處理過程。
模式:是一個用語言L來表示的一個表達式E,它可用來描述數(shù)據(jù)集F中數(shù)據(jù)的特性,E所描述的數(shù)據(jù)是集合的一個子集 。E作為一個模式,要求比列舉數(shù)據(jù)子集中所有元素的描述方法簡單。
模式是知識發(fā)現(xiàn)中的知識的一部分,它給出了數(shù)據(jù)的特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含信息的更抽象描述。模式的表示方式很多,有時或者經(jīng)常無法用顯式的方法進行描述,比如用神經(jīng)網(wǎng)絡(luò)挖掘出來的模式是通過連接權(quán)值體現(xiàn)出來的。知識發(fā)現(xiàn)的最后一步—結(jié)果表達和解釋負(fù)責(zé)將挖掘的模式用更容易理解的方式,如圖形、自然語言和可視化技術(shù)等展現(xiàn)在用戶面前。
(2)如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個可自動執(zhí)行的工具。挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的商業(yè)問題,一種或多種算法需要被選擇、編譯,在適于挖掘的數(shù)據(jù)環(huán)境下實施挖掘任務(wù)。從圖1看出,知識發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)的過程。
除以上談到的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的區(qū)別外,澄清存在于OLAP和數(shù)據(jù)挖掘之間認(rèn)識上的混淆會有助于對數(shù)據(jù)挖掘的理解:
Gartner Group等組織把OLAP視為數(shù)據(jù)挖掘的一部分。數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模。OLAP系統(tǒng)可以提供數(shù)據(jù)倉庫中數(shù)據(jù)的一般描述。但更多的認(rèn)識把OLAP和數(shù)據(jù)挖掘當(dāng)作互不相交的兩部分。OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡化數(shù)據(jù)分析。OLAP的功能基本上是用戶參與的匯總和比較(上鉆、下鉆、旋轉(zhuǎn)、切片、和其他操作);數(shù)據(jù)挖掘自動發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的模式等有價值的知識。圖2從數(shù)據(jù)、信息和知識的角度形象地描述出OLAP和數(shù)據(jù)挖掘的邏輯關(guān)系。
另一點,OLAP大多是限于數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)挖掘既可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細(xì)的數(shù)據(jù),也可以分析事務(wù)的、文本的、空間的和多媒體數(shù)據(jù)。
2. 數(shù)據(jù)挖掘分類和知識發(fā)現(xiàn)過程
2.1. 數(shù)據(jù)挖掘分類
數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有人工智能、數(shù)據(jù)統(tǒng)計、可視化、并行計算等。數(shù)據(jù)挖掘有多種分類方法。
2.1.1. 根據(jù)挖掘任務(wù)
可分為分類模型發(fā)現(xiàn)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列分析、偏差分析、數(shù)據(jù)可視化等。
(1) 分類(Classification)
其旨在生成一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。既可以用此模型分析已有的數(shù)據(jù),也可以用它來預(yù)測未來的數(shù)據(jù)。
(2) 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
(3) 數(shù)據(jù)可視化(Description and Visualization)
數(shù)據(jù)可視化嚴(yán)格地講不是一個單獨的數(shù)據(jù)挖掘任務(wù),它被用來支持其他挖掘任務(wù)??梢暬遣捎脠D形、圖表等易于理解的方式表達數(shù)據(jù)挖掘結(jié)果。
(4) 關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
關(guān)聯(lián)規(guī)則是尋找數(shù)據(jù)庫中值的相關(guān)性,主要是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,比如在一次購買活動中所買不同商品的相關(guān)性。
(5) 序列分析(Sequence Analysis)
序列模式分析同樣也是試圖找出數(shù)據(jù)之間的聯(lián)系。但它的側(cè)重點在于分析數(shù)據(jù)之間前后(因果)關(guān)系,因此對數(shù)據(jù)往往要求引入時間屬性。序列模式分析非常適于尋找事物的發(fā)生趨勢或重復(fù)性模式。
(6) 偏差分析(Deviation Analysis)
是用來發(fā)現(xiàn)與正常情況不同的異常和變化,并進一步分析這種變化是否是有意的詐騙行為,還是正常的變化。如果是異常行為,則提示預(yù)防措施;如果是正常的變化,那么就需要更新數(shù)據(jù)庫記錄。
2.1.2. 根據(jù)挖掘?qū)ο?/P>
可分為關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web。
2.1.3. 根據(jù)挖掘方法
可粗略地分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹、可視化、最近鄰技術(shù)等。在機器學(xué)習(xí)中,可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等;在統(tǒng)計方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。
2.2. 知識發(fā)現(xiàn)過程
數(shù)據(jù)挖掘包括商業(yè)需求、大量的數(shù)據(jù)和挖掘算法三部分。商業(yè)需求是真正的數(shù)據(jù)挖掘前期要明確的工作。挖掘算法是目前研究的熱點之一,主要圍繞采用新的挖掘算法解決特定商業(yè)問題和對挖掘算法的改進上。由挖掘算法可形成挖掘工具。
知識發(fā)現(xiàn)過程可由三個主要階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達和解釋,知識發(fā)現(xiàn)是這三個階段的反復(fù)。如圖1所示。
2.2.1. 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇確定需要分析的數(shù)據(jù)集合,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2.2.2. 數(shù)據(jù)挖掘
(1)先決定如何產(chǎn)生假設(shè)。是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè),還是用戶自己參照數(shù)據(jù)庫可能包含的知識提出假設(shè)。前一種稱為發(fā)現(xiàn)型(discovery-driven)的數(shù)據(jù)挖掘,后一種稱為驗證型(verification-driven)的數(shù)據(jù)挖掘。
(2)選擇合適的工具
(3)數(shù)據(jù)挖掘操作
(4)證實發(fā)現(xiàn)的知識
2.2.3. 結(jié)果表述和解釋
把提取的信息進行分析,通過決策支持工具提交給決策者。這一階段不僅把結(jié)果表達出來,而且知識發(fā)現(xiàn)系統(tǒng)會采用解釋和推理機制,將這些知識直接提供給決策者,也可以提供給領(lǐng)域?qū)<?,修正已有知識庫供系統(tǒng)共享。如果不滿意,需要重復(fù)以上知識發(fā)現(xiàn)的過程。
3. 數(shù)據(jù)挖掘的研究熱點
目前,數(shù)據(jù)挖掘的研究熱點圍繞挖掘算法展開。數(shù)據(jù)挖掘是綜合了機器學(xué)習(xí)、人工智能、數(shù)據(jù)統(tǒng)計等學(xué)科的研究領(lǐng)域。隨著數(shù)據(jù)挖掘工具在實際應(yīng)用中的迅速增長,相關(guān)學(xué)科成熟的算法實現(xiàn)不斷地加入到數(shù)據(jù)挖掘中來;挖掘算法的研究還包括對現(xiàn)有挖掘算法的優(yōu)化和改進,比如使用全局搜索算法優(yōu)化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程。除此以外,數(shù)據(jù)挖掘還有以下研究熱點:
3.1.數(shù)據(jù)挖掘原語
我們把數(shù)據(jù)挖掘原語可以理解為有效輔助數(shù)據(jù)挖掘?qū)嵤┲R發(fā)現(xiàn)功能的思想和做法,是知識發(fā)現(xiàn)的輔助工具。數(shù)據(jù)挖掘原語的研究是為了支持有效的知識發(fā)現(xiàn),為了讓用戶更加易于理解挖掘出來的知識。用戶能夠通過數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,從不同的角度和深度審查發(fā)現(xiàn)結(jié)果,并指導(dǎo)挖掘過程。這組原語包括數(shù)據(jù)庫說明的部分或用戶感興趣的數(shù)據(jù)集、要挖掘的知識類型、用于指導(dǎo)挖掘過程的背景知識、模式評估以及度量和如何顯示所發(fā)現(xiàn)的知識等等。
3.2.數(shù)據(jù)挖掘語言及標(biāo)準(zhǔn)
數(shù)據(jù)挖掘行業(yè)是高度分散的,公司和研究機構(gòu)獨立開發(fā)各自的數(shù)據(jù)挖掘系統(tǒng)和平臺,沒有形成開放性的標(biāo)準(zhǔn);同時數(shù)據(jù)挖掘本身是一門多學(xué)科綜合跨度非常大的技術(shù),這些造成了數(shù)據(jù)挖掘在通用性方面存在一系列問題 :①各種數(shù)據(jù)挖掘問題及挖掘方法基于不同的模型和技術(shù),彼此互相孤立,聯(lián)系很少;②缺少簡明精確的問題描述方法,挖掘的語義通常是由實現(xiàn)方法決定的;③數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用;④數(shù)據(jù)挖掘引擎與數(shù)據(jù)庫系統(tǒng)是松散耦合的。數(shù)據(jù)挖掘語言和標(biāo)準(zhǔn)的開發(fā)有望解決上述問題。
目前,已實現(xiàn)的數(shù)據(jù)挖掘語言有DMQL、MSQL和MINE RULE等;數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)有PMML(DMG:數(shù)據(jù)挖掘組織協(xié)會)和OLE DB for Data Mining(微軟)。
3.3.數(shù)據(jù)挖掘系統(tǒng)
知識發(fā)現(xiàn)是一個有機的整體,各個部分之間有著密切的關(guān)系。我們稱圍繞某一數(shù)據(jù)挖掘任務(wù)的知識發(fā)現(xiàn)過程為數(shù)據(jù)挖掘系統(tǒng)。應(yīng)該說所有的算法是為某一個挖掘系統(tǒng)服務(wù)的。數(shù)據(jù)挖掘系統(tǒng)的研究是為了建立科學(xué)的系統(tǒng)結(jié)構(gòu),利于挖掘算法的重用、嵌入,利于算法與系統(tǒng)其他模塊有機結(jié)合。圖3是一個挖掘系統(tǒng)的原型結(jié)構(gòu)。
3.4.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘
把數(shù)據(jù)挖掘建立在數(shù)據(jù)倉庫之上,一方面能夠提高數(shù)據(jù)倉庫系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉庫完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對的是經(jīng)過初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。這方面的研究集中在基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的探討上。
3.5.OLAM
OLAM將OLAP和數(shù)據(jù)挖掘功能集成在一起,可以實現(xiàn)數(shù)據(jù)挖掘功能的聯(lián)機選擇,為用戶選擇所期望的數(shù)據(jù)挖掘功能、動態(tài)地改變數(shù)據(jù)挖掘任務(wù)提供了靈活性。OLAM和OLAP通過圖形用戶界面GUI接受用戶指令,對數(shù)據(jù)立方體Cube進行數(shù)據(jù)分析、挖掘。由于OLAM服務(wù)器可以執(zhí)行如關(guān)聯(lián)、分類、預(yù)測、聚類、時序分析等多種數(shù)據(jù)挖掘任務(wù),它通常由多個集成的數(shù)據(jù)挖掘模塊組成。
3.6.數(shù)據(jù)挖掘與具體應(yīng)用的結(jié)合
數(shù)據(jù)挖掘目前在醫(yī)學(xué)、電信、零售業(yè)等多個應(yīng)用領(lǐng)域均有成功的應(yīng)用案例。隨著越來越多的業(yè)務(wù)需求被不斷明確,數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域和解決的問題會越來越廣泛;一些應(yīng)用系統(tǒng),如ERP、SCM、HR等系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來,用以提高系統(tǒng)的決策支持能力。這方面的研究熱點包括數(shù)據(jù)挖掘與商業(yè)智能(BI)、CRM、WEB應(yīng)用的結(jié)合。
4.總結(jié)
數(shù)據(jù)挖掘是當(dāng)前計算機工業(yè)最熱門的研究領(lǐng)域之一。數(shù)據(jù)挖掘是一個不斷發(fā)展的、綜合交叉的學(xué)科。本文從知識的形態(tài)和知識產(chǎn)生的視角闡述了數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系,本文還總結(jié)了數(shù)據(jù)挖掘的分類以及數(shù)據(jù)挖掘在知識發(fā)現(xiàn)過程中的地位與作用。最后,對當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究熱點進行了詳細(xì)的概括與總結(jié)。
來源:中國商業(yè)智能網(wǎng)