主要翻譯自官網(wǎng)I,存儲Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因為大多數(shù)Spark工作可能需要從外部存儲 systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。Spark已經(jīng)取代Hadoop成為最活躍的開源大型數(shù)據(jù)項目,但是,在選擇大型數(shù)據(jù)框架時,企業(yè)不應(yīng)厚此薄彼,著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同,Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但是它沒有分布式的存儲系統(tǒng),而分布式的存儲是很多大型數(shù)據(jù)項目的基礎(chǔ),可以將PB級數(shù)據(jù) set 存儲放在普通電腦幾乎無限的硬盤上,并提供良好的可擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤,所以Spark需要第三方發(fā)行存儲,很多大型數(shù)據(jù)項目都在Hadoop上安裝Spark,這樣Spark的高級分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲了。與Hadoop相比,Spark真正的優(yōu)勢在于速度,Spark的大部分操作都在內(nèi)存中,而Hadoop的MapReduce。
2、Spark對硬件的要求
Spark的硬件要求估計全部spark開發(fā)者關(guān)心的spark硬件要求。合適的硬件配置需要具體分析,這里給出以下建議。主要翻譯自官網(wǎng)I,存儲Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因為大多數(shù)Spark工作可能需要從外部存儲 systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。因此,提出以下建議:1 .如果可能,在與HDFS相同的節(jié)點上運行Spark。
說到Da 數(shù)據(jù),相信大家對Hadoop和ApacheSpark這兩個名字都很熟悉。不過最近業(yè)內(nèi)有人在鼓吹Hadoop會死,Spark會立。他們是危言聳聽,嘩眾取寵,還是有獨特的眼光,可以打破未來?Spark技術(shù)與Hadoop相比如何?工業(yè)企業(yè)正在使用哪些技術(shù)數(shù)據(jù)?現(xiàn)在想開始學(xué)Da 數(shù)據(jù)應(yīng)該從哪個開始?
Hadoop和ApacheSpark都是大型數(shù)據(jù)框架,但用途不同。Hadoop本質(zhì)上是一個分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲的普通計算機組成的集群中的多個節(jié)點上,這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時,Hadoop會對這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
4、Hadoop與分布式 數(shù)據(jù)處理SparkVSHadoop有哪些異同點1,解題水平不同。首先,Hadoop和ApacheSpark都是大數(shù)據(jù)框架,只是各自的用途不同。Hadoop本質(zhì)上是一個分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲的普通計算機組成的集群中的多個節(jié)點上,這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時,Hadoop會對這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
2.兩者可以結(jié)合,也可以分離。Hadoop不僅提供了HDFS 數(shù)據(jù) 存儲的分布式功能,還提供了數(shù)據(jù)的處理功能,稱為MapReduce。所以這里我們可以完全拋棄Spark,使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反,Spark不必依附于Hadoop才能生存。但如上所述,它畢竟不提供文件管理系統(tǒng),所以必須與其他分布式文件系統(tǒng)集成才能運行。
5、Hadoop與Spark的關(guān)系,Spark集群必須依賴Hadoop嗎?Spark已經(jīng)取代Hadoop成為最活躍的開源項目數(shù)據(jù)。但是,在選擇大型數(shù)據(jù)框架時,企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但是它沒有分布式的存儲系統(tǒng),而分布式的存儲是很多大型數(shù)據(jù)項目的基礎(chǔ)??梢詫B級數(shù)據(jù) set 存儲放在普通電腦幾乎無限的硬盤上,并提供良好的可擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤。所以Spark需要第三方發(fā)行存儲。很多大型數(shù)據(jù)項目都在Hadoop上安裝Spark,這樣Spark的高級分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲了。與Hadoop相比,Spark真正的優(yōu)勢在于速度。Spark的大部分操作都在內(nèi)存中,而Hadoop的MapReduce。
6、2分鐘讀懂大 數(shù)據(jù)框架Hadoop和Spark的異同1,SparkVSHadoop有哪些異同?Hadoop:布批處理計算強調(diào)批處理對于數(shù)據(jù)挖掘和分析Spark:基于內(nèi)存計算的集群計算系統(tǒng)使得數(shù)據(jù)分析更快。Spark,一個類似Hadoop的源集群計算環(huán)境,兩者有一些相似之處,使得Spark的一些工作負(fù)載面表現(xiàn)更好。換句話說,Spark啟用內(nèi)存布數(shù)據(jù)Spark Scala語言除了提供交互查詢,還可以優(yōu)化迭代工作量。Scala作為它的應(yīng)用框架。Hadoop和SparkScala可以緊密集成它們的Scala映像。這個集合很容易操作。Layout 數(shù)據(jù) Set雖然Spark支持layout 數(shù)據(jù) Set迭代操作實際Hadoop補充Hadoop文件系統(tǒng)并行操作通用Mesos第三集群框架支持線Spark由加州伯克利AMP實驗室、
7、 spark和hadoop的區(qū)別很難直接比較Hadoop和Spark,因為它們以相同的方式處理許多任務(wù),但它們在某些方面并不重疊。例如,Spark沒有文件管理功能,因此它必須依賴Hadoop分布式文件系統(tǒng)(HDFS)或其他解決方案。Hadoop框架的主要模塊包括以下幾個:HadoopCommonHadoop分布式文件系統(tǒng)(HDFS)HadoopYARNHadoopMapReduce雖然以上四個模塊構(gòu)成了Hadoop的核心,但是還有其他幾個模塊。
Spark真的很快(比HadoopMapReduce快100倍)。Spark也可以執(zhí)行批處理,但它確實擅長處理流式工作負(fù)載、交互式查詢和機器學(xué)習(xí)。相對于MapReduce基于磁盤的批處理引擎,Spark以數(shù)據(jù)實時處理功能著稱。Spark與Hadoop及其模塊兼容。
8、hadoop和 spark怎么轉(zhuǎn)移 數(shù)據(jù)Hadoop存儲數(shù)據(jù)最重要的配置是在coresite.xml文件中設(shè)置的。只需將coresite.xml的hadoop.tmp.dir值改為新磁盤的路徑即可,考慮到數(shù)據(jù)從程序中分離出來,決定將繼續(xù)增長的文件全部遷移,包括日志文件、pid目錄和日志目錄。日志文件和pid目錄配置在hadoopenv.sh中,exportHADOOP_PID_DIR和HADOOP_LOG_DIR是對應(yīng)的磁盤路徑。