個(gè)人認(rèn)為最簡(jiǎn)單的答案是,對(duì)歷史數(shù)據(jù)的分析整理是data 倉庫。數(shù)據(jù)倉庫出現(xiàn)的根本原因是各種應(yīng)用系統(tǒng)無法高效處理大量的歷史數(shù)據(jù)。以銀行為例。我國(guó)幅員遼闊,自然資源豐富。一般全國(guó)銀行網(wǎng)點(diǎn)至少有4000家。在財(cái)務(wù)系統(tǒng)的一個(gè)總賬里,每個(gè)分行每個(gè)月至少有1000個(gè)科目和項(xiàng)目要報(bào),還不算各種外幣和海外機(jī)構(gòu)。經(jīng)過10年的積累,集中庫中的總賬數(shù)據(jù)量是如此之大:4000 * 1000 * 12 * 10。
我們能做的就是縮短數(shù)據(jù)在應(yīng)用系統(tǒng)中保存的時(shí)間,只能查到最近2年以內(nèi)的記錄。把歷史數(shù)據(jù)的統(tǒng)計(jì)分析留給其他系統(tǒng),一個(gè)叫Data 倉庫的系統(tǒng)就出現(xiàn)了。在這種情況下倉庫,最重要的問題是歷史數(shù)據(jù)的統(tǒng)計(jì),如何高效存儲(chǔ)歷史數(shù)據(jù),如何處理緯度梯度,如何設(shè)計(jì)更貼近業(yè)務(wù)的主題等等。
5、數(shù)據(jù) 倉庫較之傳統(tǒng)的操作型 數(shù)據(jù)庫的優(yōu)勢(shì)簡(jiǎn)單來說,根據(jù)我的理解,data 倉庫的優(yōu)勢(shì)是在商業(yè)智能或者深度數(shù)據(jù)挖掘方面有優(yōu)勢(shì)。Data 倉庫類似于一個(gè)數(shù)據(jù)中心,有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),統(tǒng)一的數(shù)據(jù)模型,統(tǒng)一的訪問規(guī)則,避免了傳統(tǒng)的可操作性-0。與傳統(tǒng)的倉庫(this數(shù)據(jù)庫is relational數(shù)據(jù)庫)相比,數(shù)據(jù)具有很大的優(yōu)勢(shì)。Data 倉庫目前SAS data 倉庫系統(tǒng)比較成熟,可以構(gòu)建在常見的數(shù)據(jù)庫管理系統(tǒng)上,如ORACLE和DB2,也可以單獨(dú)使用SAS的數(shù)據(jù)庫管理功能,但它的優(yōu)勢(shì)不是數(shù)據(jù)。
6、 數(shù)據(jù)庫與數(shù)據(jù) 倉庫的本質(zhì)區(qū)別是什么數(shù)據(jù)庫和data 倉庫的本質(zhì)區(qū)別如下:1。邏輯層面/概念層面:數(shù)據(jù)庫和數(shù)據(jù)倉庫其實(shí)是相同或相似的,都是通過一定的。但是數(shù)據(jù)庫通常更注重業(yè)務(wù)事務(wù)處理(OLTP),而data 倉庫更注重?cái)?shù)據(jù)分析(OLAP),由此產(chǎn)生的數(shù)據(jù)庫模型也會(huì)有很大的不同。2.數(shù)據(jù)庫通常追求交易的速度、交易的完整性、數(shù)據(jù)的一致性等。在數(shù)據(jù)庫型號(hào)上,主要沿用正常型號(hào)(1NF、2NF、3NF等。),以盡可能減少數(shù)據(jù)冗余,保證引文完整性;
7、 數(shù)據(jù)庫和數(shù)據(jù) 倉庫的區(qū)別是什么?data 倉庫本身是一個(gè)非常大的數(shù)據(jù)庫,但是data 倉庫存儲(chǔ)了從組織job 數(shù)據(jù)庫整合而來的數(shù)據(jù);數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題的設(shè)計(jì);數(shù)據(jù)庫一般存儲(chǔ)業(yè)務(wù)數(shù)據(jù),data 倉庫一般存儲(chǔ)歷史數(shù)據(jù);數(shù)據(jù)庫設(shè)計(jì)是為了盡量避免冗余。一般是針對(duì)某個(gè)業(yè)務(wù)應(yīng)用設(shè)計(jì)的,比如簡(jiǎn)單的用戶表,只需要記錄用戶名、密碼等簡(jiǎn)單數(shù)據(jù),符合業(yè)務(wù)應(yīng)用,但不符合分析。數(shù)據(jù)倉庫是有意引入冗余,根據(jù)分析需求設(shè)計(jì)分析維度和指標(biāo)。數(shù)據(jù)庫用于捕獲數(shù)據(jù),data 倉庫用于分析數(shù)據(jù)。
很多人以為數(shù)據(jù)庫和data 倉庫是一回事,其實(shí)不僅僅是這樣。你知道數(shù)據(jù)庫和data 倉庫的區(qū)別嗎?下面介紹一下數(shù)據(jù)庫和data 倉庫的相關(guān)知識(shí)。一般來說,傳統(tǒng)數(shù)據(jù)庫是為存儲(chǔ)而生,而數(shù)據(jù)倉庫顯然是為分析而生。達(dá)成目標(biāo)的不同,從一開始就注定了他們的不同。傳統(tǒng)數(shù)據(jù)庫包括添加、刪除和檢查,但數(shù)據(jù)倉庫側(cè)重于檢查。
8、 數(shù)據(jù)庫和數(shù)據(jù) 倉庫有什么區(qū)別?data 倉庫是一個(gè)概念,是借助數(shù)據(jù)庫實(shí)現(xiàn)的。目前我們所說的數(shù)據(jù)庫一般是指關(guān)系型數(shù)據(jù)庫,實(shí)際上還有多維型數(shù)據(jù)庫,內(nèi)存型數(shù)據(jù)庫等等。這些都可以作為data 倉庫,主要是針對(duì)數(shù)據(jù)分析和挖掘而設(shè)計(jì)的建模方法。數(shù)據(jù)庫是單個(gè)運(yùn)行的數(shù)據(jù)實(shí)體集合data 倉庫是多個(gè)數(shù)據(jù)庫服務(wù)器的整體集群。簡(jiǎn)而言之,數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題的設(shè)計(jì)。
數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則。數(shù)據(jù)倉庫是故意引入冗余,采用反范式設(shè)計(jì)的,數(shù)據(jù)庫用于捕獲數(shù)據(jù),data 倉庫用于分析數(shù)據(jù)。它的兩個(gè)基本元素是維度表和事實(shí)表,維度是看問題的視角,比如時(shí)間、部門、維度表,里面包含了這些東西的定義,事實(shí)表包含了要查詢的數(shù)據(jù)和維度的ID。從概念上來說,有點(diǎn)晦澀。