一、數(shù)據(jù)理解拿到數(shù)據(jù)后要做的第一步就是理解數(shù)據(jù)??紤]到數(shù)據(jù)本身,數(shù)據(jù)挖掘通常需要八個(gè)步驟:信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程、模式評(píng)估和知識(shí)表示,數(shù)據(jù)挖掘十大算法——整理一夜中的數(shù)據(jù)挖掘算法,主要引用自wiki和一些論壇。
一個(gè)數(shù)據(jù)分析過(guò)程應(yīng)該包括以下幾個(gè)方面:業(yè)務(wù)建模。實(shí)證分析。數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)處理。數(shù)據(jù)分析和展示。專業(yè)報(bào)告。持續(xù)驗(yàn)證和跟蹤。數(shù)據(jù)處理和分析分為五個(gè)步驟:第一步:確定客戶的數(shù)據(jù)需求。一個(gè)典型的場(chǎng)景是我們需要分析企業(yè)的數(shù)據(jù)。比如公司通常有銷售數(shù)據(jù),用戶數(shù)據(jù),運(yùn)營(yíng)數(shù)據(jù),產(chǎn)品生產(chǎn)數(shù)據(jù)。他們需要從這些數(shù)據(jù)中獲取哪些有用的信息來(lái)指導(dǎo)策略的制定?
第二步:根據(jù)客戶需求,從網(wǎng)絡(luò)爬蟲(chóng)、結(jié)構(gòu)化數(shù)據(jù)、本地?cái)?shù)據(jù)、物聯(lián)網(wǎng)設(shè)備、人工輸入五個(gè)數(shù)據(jù)源采集數(shù)據(jù),為客戶提供定制化的數(shù)據(jù)采集。目的是定制數(shù)據(jù)收集,并根據(jù)客戶的需求構(gòu)建單一數(shù)據(jù)源。第三步:數(shù)據(jù)預(yù)處理。現(xiàn)實(shí)世界中的數(shù)據(jù)多為不完整、不一致的臟數(shù)據(jù),無(wú)法直接對(duì)數(shù)據(jù)進(jìn)行分析,或者分析結(jié)果不盡如人意。數(shù)據(jù)預(yù)處理的方法有很多:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約等等。
business understanding初級(jí)階段側(cè)重于從業(yè)務(wù)的角度理解項(xiàng)目目標(biāo)和需求,同時(shí)將這些知識(shí)轉(zhuǎn)化為數(shù)據(jù)挖掘問(wèn)題的定義和完成目標(biāo)的初步方案。數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)理解階段從最初的數(shù)據(jù)收集開(kāi)始,通過(guò)一些活動(dòng),目的是熟悉數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,第一次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在屬性,或者檢測(cè)出感興趣的子集,形成隱含信息的假設(shè)。
這些數(shù)據(jù)將成為模型工具的輸入值。這個(gè)階段的一個(gè)任務(wù)可以多次執(zhí)行,沒(méi)有任何特定的順序。任務(wù)包括選擇表、記錄和屬性,以及為模型工具轉(zhuǎn)換和清理數(shù)據(jù)。建模在這個(gè)階段,可以選擇和應(yīng)用不同的建模技術(shù),并將模型參數(shù)調(diào)整到最優(yōu)值。一般來(lái)說(shuō),一些技術(shù)可以解決同類的數(shù)據(jù)挖掘問(wèn)題。有些技術(shù)對(duì)數(shù)據(jù)形成有特殊要求,需要經(jīng)常跳回?cái)?shù)據(jù)準(zhǔn)備階段。
3、大學(xué)的哪個(gè)專業(yè)是研究數(shù)據(jù)挖掘的?數(shù)據(jù)挖掘?qū)儆谟?jì)算機(jī)科學(xué)與技術(shù)中的數(shù)據(jù)分析方向,數(shù)學(xué)專業(yè)也有開(kāi)設(shè)。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)處理技術(shù)的一種,是從大量不完整的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱藏的、潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘需要根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)方法、基于案例的推理、決策樹(shù)、基于規(guī)則的推理、模糊集,甚至神經(jīng)網(wǎng)絡(luò)和遺傳算法來(lái)處理信息,得到有用的分析信息。
考慮到數(shù)據(jù)本身,數(shù)據(jù)挖掘通常需要八個(gè)步驟:信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程、模式評(píng)估和知識(shí)表示。(1)信息收集:根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析所需的特征信息,然后選擇合適的信息收集方法,將收集到的信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。對(duì)于海量數(shù)據(jù),選擇合適的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)和管理是非常重要的。