3.NoSQL數(shù)據(jù)庫(kù):NoSQL數(shù)據(jù)庫(kù)是面向大數(shù)據(jù)的數(shù)據(jù)庫(kù),可以快速處理大量非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)安全等,數(shù)據(jù)很大,1.數(shù)據(jù)采集與預(yù)處理:FlumeNG 實(shí)時(shí)日志采集系統(tǒng),支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方進(jìn)行數(shù)據(jù)采集;Zookeeper是一個(gè)分布式開源的分布式應(yīng)用協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。
大數(shù)據(jù)是對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、計(jì)算、統(tǒng)計(jì)、分析和處理的一系列處理手段。處理的數(shù)據(jù)量通常是TB級(jí),甚至PB或EB級(jí)的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)手段無(wú)法完成的。涉及的技術(shù)有分布式計(jì)算、高并發(fā)處理、高可用處理、集群、實(shí)時(shí)性計(jì)算等。Java編程技術(shù)Java編程技術(shù)是大數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)。Java是一種跨平臺(tái)能力很強(qiáng)的語(yǔ)言類型,可以編寫桌面應(yīng)用、Web應(yīng)用、分布式系統(tǒng)和嵌入式系統(tǒng)應(yīng)用。是大數(shù)據(jù)工程師最喜歡的編程工具。所以想要學(xué)好大數(shù)據(jù),掌握J(rèn)ava的基礎(chǔ)知識(shí)是必不可少的。
目前存儲(chǔ)海量數(shù)據(jù)的技術(shù)主要有NoSQL、分布式文件系統(tǒng)和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。隨著互聯(lián)網(wǎng)行業(yè)的不斷發(fā)展,產(chǎn)生了越來(lái)越多的數(shù)據(jù),而這些數(shù)據(jù)的特點(diǎn)是半結(jié)構(gòu)化和非結(jié)構(gòu)化的,數(shù)據(jù)很可能是不準(zhǔn)確和多變的。這樣,傳統(tǒng)的關(guān)系模型數(shù)據(jù)庫(kù)就無(wú)法充分發(fā)揮其優(yōu)勢(shì)。因此,目前互聯(lián)網(wǎng)行業(yè)傾向于使用NoSQL和分布式文件系統(tǒng)來(lái)存儲(chǔ)海量數(shù)據(jù)。以下是一些常見(jiàn)的NoSQL和分布式文件系統(tǒng)。
HBase是ApacheHadoop的子項(xiàng)目,其理論基礎(chǔ)是Google論文Bigtable:結(jié)構(gòu)化數(shù)據(jù)的AdistributedStorageSystem。HBase適合存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。HBase的數(shù)據(jù)模型是稀疏、分布式、持久的多維映射。HBase也有行和列的概念,和RDBMS一樣,但是不同。
3、nosql 數(shù)據(jù)庫(kù)一般有哪幾種類型?分別用在什么場(chǎng)景特點(diǎn):可以處理海量數(shù)據(jù)。它們運(yùn)行在廉價(jià)的PC服務(wù)器集群上。PC集群擴(kuò)展非常方便,成本非常低,避免了“分片”操作的復(fù)雜性和成本。它們打破了性能瓶頸。NoSQL的支持者聲稱,NoSQL架構(gòu)可以節(jié)省將Web或Java應(yīng)用程序和數(shù)據(jù)轉(zhuǎn)換為SQL友好格式的時(shí)間,執(zhí)行速度變得更快。" SQL并不適合所有的程序代碼."對(duì)于那些重復(fù)操作繁重的數(shù)據(jù),SQL是值得花錢的。