最簡單的回答是,對歷史數(shù)據(jù)的分析整理就是一個(gè)數(shù)據(jù)倉庫。由于各種應(yīng)用系統(tǒng)無法高效處理大量歷史數(shù)據(jù),數(shù)據(jù)倉庫應(yīng)運(yùn)而生。以銀行為例。我國幅員遼闊,自然資源豐富。一般全國銀行網(wǎng)點(diǎn)至少有4000家。在財(cái)務(wù)系統(tǒng)的一個(gè)總賬里,每個(gè)分行每個(gè)月至少有1000個(gè)科目和項(xiàng)目要報(bào),還不算各種外幣和海外機(jī)構(gòu)。經(jīng)過10年的積累,集中庫中的總賬數(shù)據(jù)量是如此之大:4000 * 1000 * 12 * 10。
我們能做的就是縮短數(shù)據(jù)在應(yīng)用系統(tǒng)中保存的時(shí)間,只能查到最近2年以內(nèi)的記錄。把歷史數(shù)據(jù)的統(tǒng)計(jì)分析留給其他系統(tǒng),一個(gè)叫做數(shù)據(jù)倉庫的系統(tǒng)就出現(xiàn)了。這個(gè)倉庫最重要的問題是歷史數(shù)據(jù)的統(tǒng)計(jì),如何高效存儲(chǔ)歷史數(shù)據(jù),如何處理緯度梯度,如何設(shè)計(jì)一個(gè)更貼近業(yè)務(wù)的主題等等。
5、什么是數(shù)據(jù)倉庫,數(shù)據(jù)倉庫如何分層數(shù)據(jù)倉庫分層的原因1。通過數(shù)據(jù)預(yù)處理提高效率,所以會(huì)因?yàn)轭A(yù)處理而產(chǎn)生冗余數(shù)據(jù)。2.如果業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則在沒有分層的情況下改變,整個(gè)數(shù)據(jù)清洗過程都會(huì)受到影響,工作量巨大。3.工作通過分級管理一步步完成,使每一層的處理邏輯簡單。標(biāo)準(zhǔn)數(shù)據(jù)倉庫分層:ods(臨時(shí)存儲(chǔ)層)、pdw(數(shù)據(jù)倉庫層)、Mid(數(shù)據(jù)集市層)、app(應(yīng)用層)ods:歷史存儲(chǔ)層,與源系統(tǒng)數(shù)據(jù)同構(gòu),該層的數(shù)據(jù)粒度最細(xì)。該層有兩種表,一種是存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù),另一種是存儲(chǔ)處理后的數(shù)據(jù)。
6、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)—特點(diǎn)及元數(shù)據(jù)數(shù)據(jù)倉庫具有以下特點(diǎn):數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的,可以在更高的層次上對分析對象的數(shù)據(jù)進(jìn)行完整一致的描述,可以有效地刻畫分析對象所涉及的數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系。主題通常是在更高層次上對數(shù)據(jù)進(jìn)行分類的標(biāo)準(zhǔn),每個(gè)主題對應(yīng)一個(gè)宏觀分析字段。數(shù)據(jù)應(yīng)該在數(shù)據(jù)倉庫中重新組織,以完成從業(yè)務(wù)數(shù)據(jù)到主題數(shù)據(jù)的轉(zhuǎn)換。題目的抽取要根據(jù)分析的要求來確定。根據(jù)所需要的信息,將數(shù)據(jù)分門別類,從不同的角度進(jìn)行分類存儲(chǔ)。數(shù)據(jù)倉庫中的數(shù)據(jù)是一個(gè)集成的事務(wù)處理系統(tǒng)。在進(jìn)入數(shù)據(jù)倉庫之前,必須對其進(jìn)行統(tǒng)一和集成,從而演化為分析數(shù)據(jù)。
7、淺談數(shù)據(jù)挖掘與數(shù)據(jù)倉庫談數(shù)據(jù)挖掘與數(shù)據(jù)倉庫1數(shù)據(jù)挖掘1.1數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的區(qū)別數(shù)據(jù)挖掘與查詢、報(bào)表、在線應(yīng)用分析等傳統(tǒng)數(shù)據(jù)分析的本質(zhì)區(qū)別在于,數(shù)據(jù)挖掘是在沒有明確假設(shè)的情況下挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘得到的信息應(yīng)該具有三個(gè)特征:以前未知的、有效的、實(shí)用的。也就是說,數(shù)據(jù)挖掘就是尋找直覺找不到的信息或知識,甚至是違背直覺的信息或知識。挖掘出的信息越出人意料,可能就越有價(jià)值。
因此,數(shù)據(jù)挖掘與傳統(tǒng)的分析方法有很大的不同。1.2數(shù)據(jù)挖掘的應(yīng)用價(jià)值(1)分類:首先從數(shù)據(jù)中選擇已經(jīng)分類的訓(xùn)練集,在這個(gè)訓(xùn)練集上使用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對未分類的數(shù)據(jù)進(jìn)行分類。(2)估計(jì):類似于分類,區(qū)別在于分類描述的是離散變量的輸出,而估計(jì)處理的是連續(xù)值的輸出;分類是確定的數(shù)字,估計(jì)是不確定的。(3)聚類:將記錄分組。
8、數(shù)據(jù)集市的介紹DataMart也叫數(shù)據(jù)市場,是一個(gè)從運(yùn)營數(shù)據(jù)和其他數(shù)據(jù)源收集數(shù)據(jù)的倉庫,服務(wù)于一個(gè)特殊的專業(yè)群體。就范圍而言,數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫或更專業(yè)的數(shù)據(jù)倉庫中提取的。數(shù)據(jù)中心的關(guān)鍵點(diǎn)在于,它迎合了專業(yè)用戶的特殊需求,在分析、內(nèi)容、性能和易用性方面。數(shù)據(jù)中心的用戶希望用他們熟悉的術(shù)語來表示數(shù)據(jù)。
9、數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)之間的區(qū)別數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取潛在的、有價(jià)值的知識(模型或規(guī)則)的過程。1.數(shù)據(jù)挖掘能做什么?1)數(shù)據(jù)挖掘可以做以下六種不同的事情(分析方法):分類()估計(jì)、預(yù)測、相關(guān)分組或關(guān)聯(lián)規(guī)則、聚類、描述和)2可視化,2)數(shù)據(jù)挖掘的分類以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘的目標(biāo)是利用可用的數(shù)據(jù)建立模型,模型描述了剩余的數(shù)據(jù)和一個(gè)特定的變量(可以理解為數(shù)據(jù)庫中表的屬性,即列)。