hadoop和sparkHadoop與Spark的區(qū)別數(shù)據(jù)存儲(chǔ)位置Hadoop:硬盤Spark:內(nèi)存計(jì)算模型Hadoop: single Spark:豐富的處理方法Hadoop:非迭代Spark:迭代場景需要Hadoop:離線批處理。Hadoop和分布式數(shù)據(jù)processing SparkVSHadoop有什么異同?1.解決問題的水平不一樣,首先,Hadoop和ApacheSpark都是大數(shù)據(jù)框架,只是各自的用途不同。
1,HadoopHadoop MapReduce分布式計(jì)算框架,根據(jù)GFS開發(fā)HDFS分布式文件系統(tǒng),根據(jù)BigTable開發(fā)HBase 數(shù)據(jù)存儲(chǔ)系統(tǒng)。Hadoop的開源特性使其成為分布式計(jì)算系統(tǒng)事實(shí)上的國際標(biāo)準(zhǔn)。雅虎、臉書、亞馬遜、百度、阿里巴巴和中國其他許多互聯(lián)網(wǎng)公司都基于Hadoop構(gòu)建了自己的發(fā)行版。
Spark和Hadoop最大的區(qū)別是Hadoop用硬盤存儲(chǔ)數(shù)據(jù),而Spark用內(nèi)存存儲(chǔ)數(shù)據(jù),所以Spark能提供比Ha?Doop快了100倍。因?yàn)閿嚯姾髢?nèi)存會(huì)丟失數(shù)據(jù),所以Spark無法用來處理需要長時(shí)間存儲(chǔ)的數(shù)據(jù)。3.StormStorm是Twitter推廣的分布式計(jì)算系統(tǒng)?;贖adoop,提供實(shí)時(shí)操作的特點(diǎn),可以實(shí)時(shí)處理大型數(shù)據(jù) stream。
Hadoop是Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施。Hadoop也是apache開源Big 數(shù)據(jù)的一個(gè)生態(tài)系統(tǒng)的總稱,其中包含了一些與Big 數(shù)據(jù)開源框架相關(guān)的軟件,包括hdfs、hive、zookeeper、hbase等。Hadoop框架的核心設(shè)計(jì)是:HDFS和MapReduce。HDFS為massive 數(shù)據(jù)提供存儲(chǔ),MapReduce為massive 數(shù)據(jù)提供計(jì)算。
3、如何構(gòu)建企業(yè)級(jí)Hadoop/Spark分析平臺(tái)說到說大話數(shù)據(jù),人們往往會(huì)想到Hadoop。這當(dāng)然是好的,但是隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用,各種數(shù)據(jù)應(yīng)用需求不斷提出,一些Hadoop沒有重點(diǎn)關(guān)注的領(lǐng)域開始被人們注意到,相關(guān)技術(shù)在專業(yè)技術(shù)領(lǐng)域得到快速應(yīng)用。最近半年的星火熱就是這樣一個(gè)典型的例子。Spark是一個(gè)基于內(nèi)存計(jì)算的開源集群計(jì)算系統(tǒng),旨在更快地分析數(shù)據(jù)。Spark是由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室基于Matei的一個(gè)小團(tuán)隊(duì)使用Scala開發(fā)的。早期的核心代碼只有3萬行,非常輕量級(jí)。
4、 hadoop, spark在虛擬機(jī)集群里跑還有性能上的優(yōu)勢(shì)嗎Spark已經(jīng)取代Hadoop成為最活躍的開源項(xiàng)目數(shù)據(jù)。但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但它沒有分布式存儲(chǔ)系統(tǒng),而分布式存儲(chǔ)系統(tǒng)是許多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)。它可以在幾乎無限的普通計(jì)算機(jī)的硬盤上存儲(chǔ)PB級(jí)數(shù)據(jù) sets并提供良好的可擴(kuò)展性。你只需要隨著數(shù)據(jù)套的增加而增加硬盤即可。所以Spark需要一個(gè)第三方分布式存儲(chǔ)。正是因?yàn)檫@個(gè)原因,很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣,Spark的高級(jí)分析應(yīng)用就可以使用數(shù)據(jù)存儲(chǔ)在HDFS。與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度。Spark的大部分操作都在內(nèi)存中,Hadoop的MapReduce系統(tǒng)會(huì)下載。