數(shù)據(jù)挖掘也被翻譯為數(shù)據(jù)挖掘和數(shù)據(jù)挖掘。它是通過數(shù)學(xué)模型分析企業(yè)存儲的大量數(shù)據(jù),找出不同的客戶或細(xì)分市場,分析消費者的偏好和行為的方法。這是數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟。數(shù)據(jù)挖掘一般是指從大量數(shù)據(jù)中自動尋找隱藏著特殊關(guān)系的信息的過程。主要有三個步驟:數(shù)據(jù)準(zhǔn)備、規(guī)則發(fā)現(xiàn)和規(guī)則表示。數(shù)據(jù)挖掘的任務(wù)包括相關(guān)性分析、聚類分析、分類分析、異常分析、特殊群體分析和演化分析。
從數(shù)據(jù)挖掘項目實踐來看,對于挖掘興趣來說,溝通能力是最重要的。只有有了愛好,你才會愿意學(xué)習(xí)。只有具備良好的溝通能力,才能正確理解商業(yè)問題,正確將商業(yè)問題轉(zhuǎn)化為挖掘問題,并在相關(guān)專業(yè)人士中清晰地表達(dá)自己的意圖和想法,獲得他們的理解和支持。所以我覺得溝通能力和興趣愛好是個人數(shù)據(jù)挖掘的核心競爭力,比較難學(xué);其他相關(guān)專業(yè)知識誰都可以學(xué),這不是個人發(fā)展的核心競爭力。
5、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘怎么做啊?關(guān)于什么是數(shù)據(jù)挖掘,許多學(xué)者和專家給出了不同的定義。下面是一些常用語:“簡而言之,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或‘挖掘’知識。這個術(shù)語實際上有點用詞不當(dāng)。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識”,不幸的是它有點長。許多人將數(shù)據(jù)挖掘視為另一個常用術(shù)語“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”或KDD的同義詞。其他人只是把數(shù)據(jù)挖掘作為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。
“使用基于計算機(jī)的方法,包括新技術(shù),從數(shù)據(jù)中獲取有用知識的整個過程稱為數(shù)據(jù)挖掘?!薄稊?shù)據(jù)挖掘——概念、模型、方法和算法》(MehmedKantardzic)“數(shù)據(jù)挖掘,簡而言之,就是從一個數(shù)據(jù)庫中自動發(fā)現(xiàn)相關(guān)的模式。
6、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘怎么做啊關(guān)于什么是數(shù)據(jù)挖掘,許多學(xué)者和專家給出了不同的定義。下面是一些常用語:“簡而言之,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或‘挖掘’知識。這個術(shù)語實際上有點用詞不當(dāng)。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識”,不幸的是它有點長。許多人將數(shù)據(jù)挖掘視為另一個常用術(shù)語“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”或KDD的同義詞。其他人只是把數(shù)據(jù)挖掘作為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。
“使用基于計算機(jī)的方法,包括新技術(shù),從數(shù)據(jù)中獲取有用知識的整個過程稱為數(shù)據(jù)挖掘?!薄稊?shù)據(jù)挖掘——概念、模型、方法和算法》(MehmedKantardzic)“數(shù)據(jù)挖掘,簡而言之,就是從一個數(shù)據(jù)庫中自動發(fā)現(xiàn)相關(guān)的模式。
7、什么是數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?DataWarehouse,英文名為DataWarehouse,可縮寫為DW。數(shù)據(jù)倉庫是決策支持系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)環(huán)境和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特點是面向主題的、集成的、穩(wěn)定的和時變的。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中獲取有效、新穎、潛在有用且最終可理解的模式的非凡過程。
8、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)—數(shù)據(jù)光滑Noise是被測變量的隨機(jī)誤差或方差。數(shù)據(jù)平滑技術(shù):1 .分箱:通過檢查數(shù)據(jù)的最近鄰(即周圍的值)來平滑有序數(shù)據(jù)的值。有序值分布在一些“桶”或盒子中,并且執(zhí)行局部平滑,因為盒子分裂方法檢查最近鄰居的值。一般來說,寬度越大,平滑效果越大。2.回歸:可以使用函數(shù)(如回歸函數(shù))來擬合數(shù)據(jù),以平滑數(shù)據(jù)。線性回歸包括找到適合兩個屬性的“最佳”線,以便一個屬性可以用來預(yù)測另一個屬性。
3.聚類:通過聚類可以檢測出異常值,相似的值可以組織成組或簇。直覺上,落在分類集之外的值被視為異常值。4.手動檢測數(shù)據(jù)集成結(jié)合了來自多個數(shù)據(jù)源的數(shù)據(jù),并將它們存儲在一致的數(shù)據(jù)存儲中。在數(shù)據(jù)集成中,首先要考慮的是模式集成和對象匹配。冗余存在于數(shù)據(jù)集成中,這是另一個需要考慮的重要問題。一些冗余可以通過相關(guān)性分析來檢測。相關(guān)并不意味著因果關(guān)系,即如果A和B相關(guān),并不意味著A導(dǎo)致B或B導(dǎo)致A..
9、淺談數(shù)據(jù)挖掘與數(shù)據(jù)倉庫談數(shù)據(jù)挖掘與數(shù)據(jù)倉庫1數(shù)據(jù)挖掘1.1數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別數(shù)據(jù)挖掘與查詢、報表、在線應(yīng)用分析等傳統(tǒng)數(shù)據(jù)分析的本質(zhì)區(qū)別在于,數(shù)據(jù)挖掘是在沒有明確假設(shè)的情況下挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘得到的信息應(yīng)該具有三個特征:以前未知的、有效的、實用的。也就是說,數(shù)據(jù)挖掘就是尋找直覺找不到的信息或知識,甚至是違背直覺的信息或知識。挖掘出的信息越出人意料,可能就越有價值。
因此,數(shù)據(jù)挖掘與傳統(tǒng)的分析方法有很大的不同。1.2數(shù)據(jù)挖掘的應(yīng)用價值(1)分類:首先從數(shù)據(jù)中選擇已經(jīng)分類的訓(xùn)練集,在這個訓(xùn)練集上使用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對未分類的數(shù)據(jù)進(jìn)行分類,(2)估計:類似于分類,區(qū)別在于分類描述的是離散變量的輸出,而估計處理的是連續(xù)值的輸出;分類是確定的數(shù)字,估計是不確定的。(3)聚類:將記錄分組。