一、數(shù)據(jù)理解拿到數(shù)據(jù)后要做的第一步就是理解數(shù)據(jù)??紤]到數(shù)據(jù)本身,數(shù)據(jù)挖掘通常需要八個步驟:信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估和知識表示,數(shù)據(jù)挖掘十大算法——整理一夜中的數(shù)據(jù)挖掘算法,主要引用自wiki和一些論壇。
一個數(shù)據(jù)分析過程應(yīng)該包括以下幾個方面:業(yè)務(wù)建模。實證分析。數(shù)據(jù)準備。數(shù)據(jù)處理。數(shù)據(jù)分析和展示。專業(yè)報告。持續(xù)驗證和跟蹤。數(shù)據(jù)處理和分析分為五個步驟:第一步:確定客戶的數(shù)據(jù)需求。一個典型的場景是我們需要分析企業(yè)的數(shù)據(jù)。比如公司通常有銷售數(shù)據(jù),用戶數(shù)據(jù),運營數(shù)據(jù),產(chǎn)品生產(chǎn)數(shù)據(jù)。他們需要從這些數(shù)據(jù)中獲取哪些有用的信息來指導(dǎo)策略的制定?
第二步:根據(jù)客戶需求,從網(wǎng)絡(luò)爬蟲、結(jié)構(gòu)化數(shù)據(jù)、本地數(shù)據(jù)、物聯(lián)網(wǎng)設(shè)備、人工輸入五個數(shù)據(jù)源采集數(shù)據(jù),為客戶提供定制化的數(shù)據(jù)采集。目的是定制數(shù)據(jù)收集,并根據(jù)客戶的需求構(gòu)建單一數(shù)據(jù)源。第三步:數(shù)據(jù)預(yù)處理?,F(xiàn)實世界中的數(shù)據(jù)多為不完整、不一致的臟數(shù)據(jù),無法直接對數(shù)據(jù)進行分析,或者分析結(jié)果不盡如人意。數(shù)據(jù)預(yù)處理的方法有很多:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約等等。
business understanding初級階段側(cè)重于從業(yè)務(wù)的角度理解項目目標和需求,同時將這些知識轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和完成目標的初步方案。數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)理解階段從最初的數(shù)據(jù)收集開始,通過一些活動,目的是熟悉數(shù)據(jù),識別數(shù)據(jù)的質(zhì)量問題,第一次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在屬性,或者檢測出感興趣的子集,形成隱含信息的假設(shè)。
這些數(shù)據(jù)將成為模型工具的輸入值。這個階段的一個任務(wù)可以多次執(zhí)行,沒有任何特定的順序。任務(wù)包括選擇表、記錄和屬性,以及為模型工具轉(zhuǎn)換和清理數(shù)據(jù)。建模在這個階段,可以選擇和應(yīng)用不同的建模技術(shù),并將模型參數(shù)調(diào)整到最優(yōu)值。一般來說,一些技術(shù)可以解決同類的數(shù)據(jù)挖掘問題。有些技術(shù)對數(shù)據(jù)形成有特殊要求,需要經(jīng)常跳回數(shù)據(jù)準備階段。
3、大學(xué)的哪個專業(yè)是研究數(shù)據(jù)挖掘的?數(shù)據(jù)挖掘?qū)儆谟嬎銠C科學(xué)與技術(shù)中的數(shù)據(jù)分析方向,數(shù)學(xué)專業(yè)也有開設(shè)。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)處理技術(shù)的一種,是從大量不完整的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱藏的、潛在有用的信息和知識的過程。數(shù)據(jù)挖掘需要根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息選擇合適的分析工具,應(yīng)用統(tǒng)計方法、基于案例的推理、決策樹、基于規(guī)則的推理、模糊集,甚至神經(jīng)網(wǎng)絡(luò)和遺傳算法來處理信息,得到有用的分析信息。
考慮到數(shù)據(jù)本身,數(shù)據(jù)挖掘通常需要八個步驟:信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估和知識表示。(1)信息收集:根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析所需的特征信息,然后選擇合適的信息收集方法,將收集到的信息存儲到數(shù)據(jù)庫中。對于海量數(shù)據(jù),選擇合適的數(shù)據(jù)倉庫進行數(shù)據(jù)存儲和管理是非常重要的。