“基本上,它們不能擴展到大量、快速或不同種類的數(shù)據(jù)?!币患覕?shù)據(jù)分析和數(shù)據(jù)科學(xué)咨詢機構(gòu)的總裁格雷戈里認為。這是哈特漢克斯最近發(fā)現(xiàn)的。直到2013年左右,營銷服務(wù)組織使用了不同的數(shù)據(jù)庫,包括MicrosoftSQLServer和Oracle Real Application Cluster(RAC)的組合?!拔覀冏⒁獾?,隨著數(shù)據(jù)的不斷增長,我們的系統(tǒng)處理信息的速度不夠快,”一家技術(shù)開發(fā)公司的負責(zé)人肖恩說。
5、幾大數(shù)據(jù)庫的區(qū)別(三大數(shù)據(jù)庫的區(qū)別與聯(lián)系最商業(yè)化的是ORACLE,最專業(yè),其次是微軟的SQLserver,也做的不錯。當然,DB2等也做得不錯。這些都是大型數(shù)據(jù)庫,如果完全掌握,可以保證數(shù)據(jù)的安全性。然后就是一些小型數(shù)據(jù)庫,比如AESS aess,mysql,適合100萬數(shù)據(jù)的中小企業(yè)。
6、如何優(yōu)化操作大數(shù)據(jù)量數(shù)據(jù)庫數(shù)據(jù)量大的數(shù)據(jù)庫如何優(yōu)化操作?以關(guān)系數(shù)據(jù)庫系統(tǒng)Informix為例,介紹了改進用戶查詢計劃的方法。1.合理使用索引索引是數(shù)據(jù)庫中重要的數(shù)據(jù)結(jié)構(gòu),其根本目的是提高查詢效率。目前,大多數(shù)數(shù)據(jù)庫產(chǎn)品采用由IBM首先提出的ISAM索引結(jié)構(gòu)。索引的使用要恰到好處,其使用原則如下:●在頻繁連接但未指定為外鍵的列上建立索引,而不頻繁連接的字段由優(yōu)化器自動生成。
●在條件表達式中經(jīng)常使用的具有更多不同值的列上建立搜索,而不在具有較少不同值的列上建立索引。例如,employee表的“性別”列中只有“男性”和“女性”兩個不同的值,所以不需要建立索引。如果建立了索引,不但不會提高查詢效率,反而會嚴重拖慢更新速度?!袢绻卸嗔幸判?,可以對這些列建立poundindex?!袷褂孟到y(tǒng)工具。例如,Informix數(shù)據(jù)庫有一個tbcheck工具,可以檢查可疑的索引。
7、大數(shù)據(jù)量的數(shù)據(jù)庫表設(shè)計技巧大數(shù)據(jù)量的數(shù)據(jù)庫表設(shè)計技巧即使是非常簡單的數(shù)據(jù)庫應(yīng)用系統(tǒng),其數(shù)據(jù)量增加到一定程度也會引發(fā)一系列問題。如果在設(shè)計數(shù)據(jù)庫的時候就提前考慮這些問題,就可以避免系統(tǒng)反應(yīng)慢而引起的用戶抱怨。技巧1:盡量不要使用代碼。比如性別領(lǐng)域的通行做法:1代表男性,0代表女性。這意味著每個查詢都需要一個關(guān)聯(lián)的代碼表。技巧2:歷史數(shù)據(jù)中的所有字段都不應(yīng)該依賴于業(yè)務(wù)表。
技巧3:使用中間表。例如,員工的工資可以保存在一個中間表中,當員工的某個薪資項目發(fā)生變化時,中間表中的數(shù)據(jù)可以相應(yīng)更新。技巧4:使用統(tǒng)計學(xué)。需要經(jīng)常使用的統(tǒng)計數(shù)據(jù)可以在生成后保存在專門的表格中。技巧五:批量保存歷史數(shù)據(jù)。歷史數(shù)據(jù)可以分段保存。例如,2003年的歷史數(shù)據(jù)保存在2003表名中,而2004年的歷史數(shù)據(jù)保存在2004表名中。
8、常見的基于列存儲的大數(shù)據(jù)數(shù)據(jù)庫有哪些(大數(shù)據(jù)的數(shù)據(jù)存取采用什么數(shù)據(jù)庫...目前大數(shù)據(jù)存儲有行存儲和列存儲兩種方案。對于這兩種存儲方案有許多爭論。焦點是:誰能更有效地處理海量數(shù)據(jù),并兼顧安全性、可靠性和完整性?從目前的發(fā)展情況來看,關(guān)系數(shù)據(jù)庫已經(jīng)不適應(yīng)這種巨大的存儲容量和計算需求,基本上被幾個已知的大數(shù)據(jù)處理軟件淘汰。Hadoop的HBase使用列存儲,MongoDB使用基于文檔的行存儲,Lexst在這里使用二進制行存儲。我不討論這些軟件的技術(shù)和優(yōu)缺點,只圍繞機械磁盤的物理特性分析行存儲和列存儲的存儲特點,以及由此產(chǎn)生的一些問題和解決方法。
9、大數(shù)據(jù)如何運用數(shù)據(jù)庫可視化分析可以直觀的呈現(xiàn)大數(shù)據(jù)的特點,同時也容易被讀者接受,就像看圖說話一樣簡單。大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法。各種數(shù)據(jù)挖掘算法可以基于不同的數(shù)據(jù)類型和格式更科學(xué)地呈現(xiàn)數(shù)據(jù)本身的特征,也正是因為這些被全世界統(tǒng)計學(xué)家認可的各種各樣的統(tǒng)計方法(可以稱之為真理),才能深入數(shù)據(jù),挖掘出公認的價值。另一方面也是因為這些數(shù)據(jù)挖掘算法可以更快的處理大數(shù)據(jù)。如果一個算法需要幾年時間才能得出結(jié)論,大數(shù)據(jù)的價值就無從談起。
10、數(shù)據(jù)庫大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫處理大數(shù)據(jù)非常困難,不建議使用傳統(tǒng)數(shù)據(jù)庫處理大數(shù)據(jù)。建議Hadoop,Hive等,能處理大數(shù)據(jù)。如果有預(yù)算的話,可以用一些商業(yè)化的大數(shù)據(jù)產(chǎn)品,比如國內(nèi)永紅科技的大數(shù)據(jù)BI產(chǎn)品,不僅可以高性能處理大數(shù)據(jù),還可以做數(shù)據(jù)分析,當然,如果是一個簡單的查詢,傳統(tǒng)數(shù)據(jù)庫如果索引良好,可能會提高性能。