大數(shù)據(jù)分析平臺必須能夠容納大量數(shù)據(jù)。但是Da數(shù)據(jù)Analysis平臺可能集成了可以提高非結構化數(shù)據(jù) library和性能的可伸縮性的函數(shù),元數(shù)據(jù) 性能大賽:HDFSvsOSSvsJuiceFS存儲是Da 數(shù)據(jù)的基石,存儲系統(tǒng)的元數(shù)據(jù)是其核心大腦。
Spark是處理海量數(shù)據(jù)的快速通用引擎。Spark作為一種大型數(shù)據(jù)處理技術,經(jīng)常被拿來和Hadoop做比較。Hadoop已經(jīng)成為大型數(shù)據(jù)技術事實上的標準,HadoopMapReduce也非常適合大型數(shù)據(jù)集合的批量處理,但是它仍然存在一些缺陷。具體表現(xiàn)為:1。HadoopMapRedue的表達能力有限。所有的計算都需要轉化為Map和Reduce兩個操作,這兩個操作并不適用于所有場景,很難描述復雜的數(shù)據(jù)過程。
HadoopMapReduce每一步之間都需要數(shù)據(jù)序列化到磁盤,所以I/O開銷很大,導致交互分析和迭代算法開銷很大,幾乎所有的優(yōu)化和機器學習都是迭代的。所以HadoopMapReduce不適合交互分析和機器學習。3.計算延遲很高。如果要完成更復雜的工作,必須串聯(lián)一系列MapReduce作業(yè),然后按順序執(zhí)行。
存儲是數(shù)據(jù)的基石,存儲系統(tǒng)的元素數(shù)據(jù)是它的核心大腦,也就是數(shù)據(jù) 性能對于整個大學-。本文選取Da 數(shù)據(jù) 平臺中的三種典型存儲方案,對cell 數(shù)據(jù) 性能進行測試,進行一次大賽。其中,HDFS是一個被廣泛使用的大數(shù)據(jù)存儲方案,有十幾年的沉淀和積累,是最合適的參考基準。以AmazonS3和AliyunOSS為代表的對象存儲也是數(shù)據(jù) 平臺在云上的候選方案,但只具備HDFS的部分功能和語義,與性能也差不了多少,所以在實踐中應用并不廣泛。
JuiceFS是Big 數(shù)據(jù) circle的新秀,專為云Big 數(shù)據(jù)打造,是符合云原生特性的Big 數(shù)據(jù)的存儲方案。JuiceFS使用云上的對象存儲來存儲客戶數(shù)據(jù)的內(nèi)容,通過juice fs meta數(shù)據(jù)service和JavaSDK實現(xiàn)了HDFS的完全兼容,不需要對數(shù)據(jù) analysis組件做任何修改就可以獲得和HDFS一樣的體驗。在Hadoop中,有一個組件叫做NNBench,專門用于壓力測試文件系統(tǒng)element數(shù)據(jù)性能。本文用它來做壓力測試。