主要翻譯自官網(wǎng)I,存儲(chǔ)Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因?yàn)榇蠖鄶?shù)Spark工作可能需要從外部存儲(chǔ) systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。Spark已經(jīng)取代Hadoop成為最活躍的開源大型數(shù)據(jù)項(xiàng)目,但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼,著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同,Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但是它沒有分布式的存儲(chǔ)系統(tǒng),而分布式的存儲(chǔ)是很多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ),可以將PB級(jí)數(shù)據(jù) set 存儲(chǔ)放在普通電腦幾乎無限的硬盤上,并提供良好的可擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤,所以Spark需要第三方發(fā)行存儲(chǔ),很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣Spark的高級(jí)分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲(chǔ)了。與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度,Spark的大部分操作都在內(nèi)存中,而Hadoop的MapReduce。
2、Spark對(duì)硬件的要求
Spark的硬件要求估計(jì)全部spark開發(fā)者關(guān)心的spark硬件要求。合適的硬件配置需要具體分析,這里給出以下建議。主要翻譯自官網(wǎng)I,存儲(chǔ)Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因?yàn)榇蠖鄶?shù)Spark工作可能需要從外部存儲(chǔ) systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。因此,提出以下建議:1 .如果可能,在與HDFS相同的節(jié)點(diǎn)上運(yùn)行Spark。
說到Da 數(shù)據(jù),相信大家對(duì)Hadoop和ApacheSpark這兩個(gè)名字都很熟悉。不過最近業(yè)內(nèi)有人在鼓吹Hadoop會(huì)死,Spark會(huì)立。他們是危言聳聽,嘩眾取寵,還是有獨(dú)特的眼光,可以打破未來?Spark技術(shù)與Hadoop相比如何?工業(yè)企業(yè)正在使用哪些技術(shù)數(shù)據(jù)?現(xiàn)在想開始學(xué)Da 數(shù)據(jù)應(yīng)該從哪個(gè)開始?
Hadoop和ApacheSpark都是大型數(shù)據(jù)框架,但用途不同。Hadoop本質(zhì)上是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲(chǔ)的普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上,這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
4、Hadoop與分布式 數(shù)據(jù)處理SparkVSHadoop有哪些異同點(diǎn)1,解題水平不同。首先,Hadoop和ApacheSpark都是大數(shù)據(jù)框架,只是各自的用途不同。Hadoop本質(zhì)上是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲(chǔ)的普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上,這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
2.兩者可以結(jié)合,也可以分離。Hadoop不僅提供了HDFS 數(shù)據(jù) 存儲(chǔ)的分布式功能,還提供了數(shù)據(jù)的處理功能,稱為MapReduce。所以這里我們可以完全拋棄Spark,使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反,Spark不必依附于Hadoop才能生存。但如上所述,它畢竟不提供文件管理系統(tǒng),所以必須與其他分布式文件系統(tǒng)集成才能運(yùn)行。
5、Hadoop與Spark的關(guān)系,Spark集群必須依賴Hadoop嗎?Spark已經(jīng)取代Hadoop成為最活躍的開源項(xiàng)目數(shù)據(jù)。但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但是它沒有分布式的存儲(chǔ)系統(tǒng),而分布式的存儲(chǔ)是很多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)??梢詫B級(jí)數(shù)據(jù) set 存儲(chǔ)放在普通電腦幾乎無限的硬盤上,并提供良好的可擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤。所以Spark需要第三方發(fā)行存儲(chǔ)。很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣Spark的高級(jí)分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲(chǔ)了。與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度。Spark的大部分操作都在內(nèi)存中,而Hadoop的MapReduce。
6、2分鐘讀懂大 數(shù)據(jù)框架Hadoop和Spark的異同1,SparkVSHadoop有哪些異同?Hadoop:布批處理計(jì)算強(qiáng)調(diào)批處理對(duì)于數(shù)據(jù)挖掘和分析Spark:基于內(nèi)存計(jì)算的集群計(jì)算系統(tǒng)使得數(shù)據(jù)分析更快。Spark,一個(gè)類似Hadoop的源集群計(jì)算環(huán)境,兩者有一些相似之處,使得Spark的一些工作負(fù)載面表現(xiàn)更好。換句話說,Spark啟用內(nèi)存布數(shù)據(jù)Spark Scala語言除了提供交互查詢,還可以優(yōu)化迭代工作量。Scala作為它的應(yīng)用框架。Hadoop和SparkScala可以緊密集成它們的Scala映像。這個(gè)集合很容易操作。Layout 數(shù)據(jù) Set雖然Spark支持layout 數(shù)據(jù) Set迭代操作實(shí)際Hadoop補(bǔ)充Hadoop文件系統(tǒng)并行操作通用Mesos第三集群框架支持線Spark由加州伯克利AMP實(shí)驗(yàn)室、
7、 spark和hadoop的區(qū)別很難直接比較Hadoop和Spark,因?yàn)樗鼈円韵嗤姆绞教幚碓S多任務(wù),但它們?cè)谀承┓矫娌⒉恢丿B。例如,Spark沒有文件管理功能,因此它必須依賴Hadoop分布式文件系統(tǒng)(HDFS)或其他解決方案。Hadoop框架的主要模塊包括以下幾個(gè):HadoopCommonHadoop分布式文件系統(tǒng)(HDFS)HadoopYARNHadoopMapReduce雖然以上四個(gè)模塊構(gòu)成了Hadoop的核心,但是還有其他幾個(gè)模塊。
Spark真的很快(比HadoopMapReduce快100倍)。Spark也可以執(zhí)行批處理,但它確實(shí)擅長處理流式工作負(fù)載、交互式查詢和機(jī)器學(xué)習(xí)。相對(duì)于MapReduce基于磁盤的批處理引擎,Spark以數(shù)據(jù)實(shí)時(shí)處理功能著稱。Spark與Hadoop及其模塊兼容。
8、hadoop和 spark怎么轉(zhuǎn)移 數(shù)據(jù)Hadoop存儲(chǔ)數(shù)據(jù)最重要的配置是在coresite.xml文件中設(shè)置的。只需將coresite.xml的hadoop.tmp.dir值改為新磁盤的路徑即可,考慮到數(shù)據(jù)從程序中分離出來,決定將繼續(xù)增長的文件全部遷移,包括日志文件、pid目錄和日志目錄。日志文件和pid目錄配置在hadoopenv.sh中,exportHADOOP_PID_DIR和HADOOP_LOG_DIR是對(duì)應(yīng)的磁盤路徑。