大數(shù)據(jù)分析平臺(tái)必須能夠容納大量數(shù)據(jù)。但是Da數(shù)據(jù)Analysis平臺(tái)可能集成了可以提高非結(jié)構(gòu)化數(shù)據(jù) library和性能的可伸縮性的函數(shù),元數(shù)據(jù) 性能大賽:HDFSvsOSSvsJuiceFS存儲(chǔ)是Da 數(shù)據(jù)的基石,存儲(chǔ)系統(tǒng)的元數(shù)據(jù)是其核心大腦。
Spark是處理海量數(shù)據(jù)的快速通用引擎。Spark作為一種大型數(shù)據(jù)處理技術(shù),經(jīng)常被拿來(lái)和Hadoop做比較。Hadoop已經(jīng)成為大型數(shù)據(jù)技術(shù)事實(shí)上的標(biāo)準(zhǔn),HadoopMapReduce也非常適合大型數(shù)據(jù)集合的批量處理,但是它仍然存在一些缺陷。具體表現(xiàn)為:1。HadoopMapRedue的表達(dá)能力有限。所有的計(jì)算都需要轉(zhuǎn)化為Map和Reduce兩個(gè)操作,這兩個(gè)操作并不適用于所有場(chǎng)景,很難描述復(fù)雜的數(shù)據(jù)過(guò)程。
HadoopMapReduce每一步之間都需要數(shù)據(jù)序列化到磁盤(pán),所以I/O開(kāi)銷(xiāo)很大,導(dǎo)致交互分析和迭代算法開(kāi)銷(xiāo)很大,幾乎所有的優(yōu)化和機(jī)器學(xué)習(xí)都是迭代的。所以HadoopMapReduce不適合交互分析和機(jī)器學(xué)習(xí)。3.計(jì)算延遲很高。如果要完成更復(fù)雜的工作,必須串聯(lián)一系列MapReduce作業(yè),然后按順序執(zhí)行。
存儲(chǔ)是數(shù)據(jù)的基石,存儲(chǔ)系統(tǒng)的元素?cái)?shù)據(jù)是它的核心大腦,也就是數(shù)據(jù) 性能對(duì)于整個(gè)大學(xué)-。本文選取Da 數(shù)據(jù) 平臺(tái)中的三種典型存儲(chǔ)方案,對(duì)cell 數(shù)據(jù) 性能進(jìn)行測(cè)試,進(jìn)行一次大賽。其中,HDFS是一個(gè)被廣泛使用的大數(shù)據(jù)存儲(chǔ)方案,有十幾年的沉淀和積累,是最合適的參考基準(zhǔn)。以AmazonS3和AliyunOSS為代表的對(duì)象存儲(chǔ)也是數(shù)據(jù) 平臺(tái)在云上的候選方案,但只具備HDFS的部分功能和語(yǔ)義,與性能也差不了多少,所以在實(shí)踐中應(yīng)用并不廣泛。
JuiceFS是Big 數(shù)據(jù) circle的新秀,專(zhuān)為云Big 數(shù)據(jù)打造,是符合云原生特性的Big 數(shù)據(jù)的存儲(chǔ)方案。JuiceFS使用云上的對(duì)象存儲(chǔ)來(lái)存儲(chǔ)客戶(hù)數(shù)據(jù)的內(nèi)容,通過(guò)juice fs meta數(shù)據(jù)service和JavaSDK實(shí)現(xiàn)了HDFS的完全兼容,不需要對(duì)數(shù)據(jù) analysis組件做任何修改就可以獲得和HDFS一樣的體驗(yàn)。在Hadoop中,有一個(gè)組件叫做NNBench,專(zhuān)門(mén)用于壓力測(cè)試文件系統(tǒng)element數(shù)據(jù)性能。本文用它來(lái)做壓力測(cè)試。