元數(shù)據(jù)在數(shù)據(jù)倉庫中的應(yīng)用分析:大數(shù)據(jù)倉庫摘要:作為存儲數(shù)據(jù)的數(shù)據(jù),元數(shù)據(jù)是數(shù)據(jù)倉庫的主要特征:數(shù)據(jù)倉庫是面向主題的;操作數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù)的,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題字段組織的。數(shù)據(jù)倉庫映射的元數(shù)據(jù)和數(shù)據(jù)倉庫使用的四種類型的元數(shù)據(jù)。
隨著各行各業(yè)向數(shù)字化運營/精細化運營轉(zhuǎn)型,數(shù)據(jù)產(chǎn)品越來越受到關(guān)注。數(shù)據(jù)作為B端產(chǎn)品的重要組成部分,逐漸成為產(chǎn)品設(shè)計和商業(yè)決策不可或缺的一部分。尤其是智慧城市、智能建筑等專業(yè)服務(wù)的B端數(shù)據(jù)產(chǎn)品,也為客戶提供數(shù)據(jù)運營和決策支持。這種數(shù)據(jù)產(chǎn)品進行的計算和決策越多,客戶就越不需要思考。因此,作為這類數(shù)據(jù)產(chǎn)品的產(chǎn)品經(jīng)理,我們應(yīng)該清楚地知道自己產(chǎn)品的數(shù)據(jù)特性,以便選擇正確的設(shè)計策略。
數(shù)據(jù)倉庫是管理數(shù)據(jù),主要是思想。具體的實現(xiàn)工具就是解決問題,比如異構(gòu)/不同源數(shù)據(jù)的數(shù)據(jù)抽取。要使用etl,根據(jù)具體情況,您可以使用工具或編寫自己的程序。數(shù)據(jù)倉庫的模型構(gòu)建需要erwin等建模工具;數(shù)據(jù)的存儲一般是借助關(guān)系數(shù)據(jù)庫來實現(xiàn)的,所以會用到oracle之類的。但是現(xiàn)在我們已經(jīng)開始逐漸拋棄傳統(tǒng)的關(guān)系數(shù)據(jù)庫,借助一些Nosql平臺,比如hadoop上的hive。
DataWarehouse,英文名為DataWarehouse,可縮寫為DW或DWH。數(shù)據(jù)倉庫是為企業(yè)各級決策過程提供各種數(shù)據(jù)支持的戰(zhàn)略集合。它是一個單獨的數(shù)據(jù)存儲,用于分析報告和決策支持。為需要商業(yè)智能的企業(yè)提供業(yè)務(wù)流程改進、監(jiān)控時間、成本、質(zhì)量和控制方面的指導(dǎo)。我打個簡單的比方。數(shù)據(jù)倉庫可以理解為倉庫,數(shù)據(jù)就是這個倉庫里的貨物,數(shù)據(jù)倉庫的開發(fā)者就是這個倉庫的管理員。所以一個數(shù)據(jù)倉庫就是如何管理好數(shù)據(jù),讓數(shù)據(jù)以一種規(guī)范的方式放入倉庫,方便BI、AI等數(shù)據(jù)用戶更好的利用倉庫中的數(shù)據(jù),讓數(shù)據(jù)更好的發(fā)揮作用。很明顯,在一堆規(guī)整整齊的商品里找東西。
4、數(shù)據(jù)倉庫的主要特征數(shù)據(jù)倉庫的特點:數(shù)據(jù)倉庫是面向主題的;操作數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務(wù)處理任務(wù)的,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題字段組織的。主題是指用戶在使用數(shù)據(jù)倉庫進行決策時所關(guān)心的關(guān)鍵方面。一個主題通常與多個操作信息系統(tǒng)相關(guān)。數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫中的數(shù)據(jù)來自分散的運營數(shù)據(jù)。從原始數(shù)據(jù)中提取所需數(shù)據(jù),進行加工整合,然后統(tǒng)一整合,再進入數(shù)據(jù)倉庫;數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原始分散的數(shù)據(jù)庫數(shù)據(jù)進行提取和清理的基礎(chǔ)上,經(jīng)過系統(tǒng)的加工、匯總和整理而得到的。必須消除源數(shù)據(jù)中的不一致性,以確保數(shù)據(jù)倉庫中的信息是一致的,并且是關(guān)于整個企業(yè)的全局信息。
5、數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路數(shù)據(jù)倉庫數(shù)據(jù)倉庫建模的兩個典型理論是基于主題域的維度建模和實體關(guān)系建模,分別以Kimball和Immon為代表。維度建模由數(shù)據(jù)分析需求驅(qū)動,提倡總線架構(gòu):一致的事實和一致的維度。這種數(shù)據(jù)模型便于用戶在數(shù)據(jù)分析中理解和操作?;谥黝}領(lǐng)域的實體關(guān)系建模以源系統(tǒng)數(shù)據(jù)為驅(qū)動,整合企業(yè)的所有數(shù)據(jù),在企業(yè)層面對數(shù)據(jù)進行抽象和整合,使用3NF實體關(guān)系理論進行建模。這種數(shù)據(jù)建模方法試圖以更抽象的方式建立相對穩(wěn)定的數(shù)據(jù)模型,能夠描述企業(yè)級的數(shù)據(jù)關(guān)系。