數(shù)據(jù)挖掘(DataMining)是從大量不完整的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱藏的、未知的、但潛在有用的信息和知識的過程。根據(jù)信息存儲格式,北京大學青鳥云南計算機學院認為,用于挖掘的對象包括關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異構數(shù)據(jù)庫和互聯(lián)網(wǎng)。
數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)_從大型數(shù)據(jù)庫和數(shù)據(jù)倉庫的目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預處理_數(shù)據(jù)再處理,包括檢查數(shù)據(jù)的完整性和一致性、去噪、填充丟失字段、刪除無效數(shù)據(jù)等。數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)函數(shù)的類型和數(shù)據(jù)的特點,選擇相應的算法,對凈化轉換后的數(shù)據(jù)集進行數(shù)據(jù)挖掘。結果分析:對數(shù)據(jù)挖掘的結果進行解釋和評價,并轉化為最終能被用戶理解的知識。
5、數(shù)據(jù)分析與數(shù)據(jù)挖掘到底有什么用數(shù)據(jù)分析與數(shù)據(jù)挖掘密切相關,但數(shù)據(jù)挖掘傾向于關注更大的數(shù)據(jù)集,較少關注推理,并且經(jīng)常使用最初為不同目的收集的數(shù)據(jù)。數(shù)據(jù)分析的目的是將隱藏在大量看似雜亂無章的數(shù)據(jù)中的信息進行濃縮、提取、提煉,從而找出所研究對象的內在規(guī)律。在實踐中,數(shù)據(jù)分析可以幫助人們做出判斷,以便采取適當?shù)男袆?。?shù)據(jù)分析是一個組織有目的地收集和分析數(shù)據(jù),使之成為信息的過程。
在產(chǎn)品的整個生命周期中,包括市場調研、售后服務和最終處置,都需要恰當?shù)厥褂脭?shù)據(jù)分析過程來提高有效性。數(shù)據(jù)挖掘有許多合法用途,例如在患者數(shù)據(jù)庫中找出藥物及其副作用之間的關系。這種關系可能不會在1000個人中出現(xiàn),但這種方法可以用于制藥相關的項目中,以減少對藥物產(chǎn)生不良反應的患者數(shù)量,并可能挽救生命。有關數(shù)據(jù)分析和數(shù)據(jù)挖掘的更多信息,請咨詢CDA data analyst。
6、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘是指通過算法從大量數(shù)據(jù)中尋找隱藏信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,通過統(tǒng)計學、聯(lián)機分析處理、信息檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗規(guī)則)、模式識別等多種方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)數(shù)據(jù)庫(KDD)不可或缺的一部分,KDD是將原始數(shù)據(jù)轉化為有用信息的全過程,它包括一系列的轉化步驟,從數(shù)據(jù)預處理到數(shù)據(jù)挖掘結果的后處理。
所有這些工作都是基于研究者以前使用的方法和算法,并在數(shù)據(jù)挖掘領域達到一個高潮。特別地,數(shù)據(jù)挖掘使用來自以下領域的思想:(1)來自統(tǒng)計的抽樣、估計和假設檢驗;(2)人工智能、模式識別和機器學習的搜索算法建模技術和學習理論。數(shù)據(jù)挖掘也很快接受了其他領域的想法,包括優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。
7、數(shù)據(jù)挖掘的六大主要功能數(shù)據(jù)挖掘的六大功能雖然數(shù)據(jù)挖掘的歷史很短,但是從20世紀90年代開始發(fā)展很快。另外,它是多學科綜合的產(chǎn)物,目前沒有完整的定義。人們對數(shù)據(jù)挖掘提出了各種各樣的定義,如:SAS Institute (1997):“在大量相關數(shù)據(jù)的基礎上探索數(shù)據(jù)并建立相關模型的高級方法”。Handetal(2000):“數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中發(fā)現(xiàn)有意義和有價值的信息的過程?!本唧w來說,數(shù)據(jù)挖掘(data mining),也稱為KDD(knowledge discovery in database database),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的和潛在適用的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領域的理論和技術,是數(shù)據(jù)庫研究中極具應用價值的新領域。
8、什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘也被翻譯為數(shù)據(jù)挖掘和數(shù)據(jù)挖掘。它是通過數(shù)學模型分析企業(yè)存儲的大量數(shù)據(jù),找出不同的客戶或細分市場,分析消費者的偏好和行為的方法。這是數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟。數(shù)據(jù)挖掘一般是指從大量數(shù)據(jù)中自動尋找隱藏著特殊關系的信息的過程。主要有三個步驟:數(shù)據(jù)準備、規(guī)則發(fā)現(xiàn)和規(guī)則表示。數(shù)據(jù)挖掘的任務包括相關性分析、聚類分析、分類分析、異常分析、特殊群體分析和演化分析。
它是一門利用數(shù)據(jù)來發(fā)現(xiàn)和解決問題的學科。通常是通過對數(shù)據(jù)的探索、處理、分析或建模來實現(xiàn)的。我們可以看到數(shù)據(jù)挖掘有以下特點:基于大量數(shù)據(jù):并不是說不能對少量數(shù)據(jù)進行挖掘。事實上,大多數(shù)數(shù)據(jù)挖掘算法都可以在少量數(shù)據(jù)上運行并得到結果。但是,一方面,少量的數(shù)據(jù)可以通過人工分析完全概括,另一方面,少量的數(shù)據(jù)往往不能反映現(xiàn)實世界中的普遍特征。
9、數(shù)據(jù)挖掘中分類的目的是什么求解答分類就是在一組類別標簽已知的樣本中訓練一個分類器,使其能夠對一個未知樣本進行分類。分類算法的分類過程是建立一個分類模型來描述一個預定的數(shù)據(jù)集或概念集,通過分析用屬性描述的數(shù)據(jù)庫元組來構建模型。分類的目的是分析輸入數(shù)據(jù),通過訓練集中數(shù)據(jù)的特征,為每一類找到準確的描述或模型。這種描述通常用謂詞來表達。
10、數(shù)據(jù)挖掘的主要工作數(shù)據(jù)挖掘是從大量不完整的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱藏的、但潛在有用的信息和知識的過程。數(shù)據(jù)挖掘流程:定義問題:明確定義業(yè)務問題,確定數(shù)據(jù)挖掘的目的,數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)——從大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預處理——數(shù)據(jù)再處理,包括檢查數(shù)據(jù)的完整性和一致性、去噪、填充缺失字段、刪除無效數(shù)據(jù)等。