Storm相比Spark和hadoop有優(yōu)勢。Storm的優(yōu)勢在于Storm是實(shí)時的連續(xù)分布式計(jì)算框架。它一旦運(yùn)行,就會一直處理計(jì)算中或者等待計(jì)算的狀態(tài),除非你殺了它。Spark和Hadoop做不到。當(dāng)然,它們各有各的應(yīng)用場景。各有各的優(yōu)勢。可以一起用。我來翻一翻別人的資料,說的很清楚。Storm、Spark、Hadoop各有千秋,每個框架都有自己的最佳應(yīng)用場景。
Storm是最好的流式計(jì)算框架。Storm是用Java和Clojure寫的。Storm的優(yōu)勢是全內(nèi)存計(jì)算,所以它的定位是分布式實(shí)時計(jì)算系統(tǒng)。按照Storm作者的說法,Storm對于實(shí)時計(jì)算的意義類似于Hadoop對于批處理的意義。Storm的適用場景:1)流數(shù)據(jù)處理Storm可以用來處理連續(xù)流動的消息,處理后再將結(jié)果寫入一個存儲器。
7、SparkSQL(十Hive是大數(shù)據(jù)領(lǐng)域事實(shí)上的SQL標(biāo)準(zhǔn)。它的底層默認(rèn)是基于MapReduce的,但是由于MapReduce的速度比較慢,近年來新的SQL查詢引擎層出不窮,包括SparkSQL、HiveOnTez、HiveOnSpark等等。SparkSQL不同于HiveOnSpark。SparkSQL是一個基于Spark計(jì)算引擎的查詢引擎,可以針對各種數(shù)據(jù)源執(zhí)行查詢,包括Hive、JSON、Parquet、JDBC和RDD。
8、 spark與hadoop相比,存在哪些缺陷Spark已經(jīng)取代Hadoop成為最活躍的開源大數(shù)據(jù)項(xiàng)目。然而,在選擇大數(shù)據(jù)框架時,企業(yè)不應(yīng)厚此薄彼。最近,著名大數(shù)據(jù)專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是大數(shù)據(jù)框架,并且都提供了一些工具來執(zhí)行常見的大數(shù)據(jù)任務(wù)。但確切地說,它們執(zhí)行的任務(wù)并不相同,彼此并不排斥。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但它本身并沒有分布式存儲系統(tǒng),分布式存儲是當(dāng)今許多大數(shù)據(jù)項(xiàng)目的基礎(chǔ)。它可以在幾乎無限的普通電腦硬盤上存儲PB級數(shù)據(jù)集,并提供良好的可擴(kuò)展性。你只需要隨著數(shù)據(jù)集的增加而增加硬盤。所以Spark需要一個第三方分布式存儲。正是因?yàn)檫@個原因,許多大數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣Spark的高級分析應(yīng)用程序就可以使用存儲在HDFS的數(shù)據(jù)。與Hadoop相比,Spark真正的優(yōu)勢在于速度。Spark的大部分操作都在內(nèi)存中,每次操作后都會安裝Hadoop的MapReduce系統(tǒng)。
9、除了 spark還有哪些大數(shù)據(jù)處理Hadoop包括MapReduce和HDFS。目前非常流行的Spark,只有被取代才會取代Hadoop中的MapReduce。Spark在任務(wù)調(diào)度和數(shù)據(jù)可靠性上確實(shí)比MapReduce快很多,而且支持內(nèi)存緩存數(shù)據(jù),下一次查詢直接基于內(nèi)存訪問。Spark:是基于內(nèi)存計(jì)算的開源集群計(jì)算系統(tǒng),旨在讓數(shù)據(jù)分析更快。
Spark是用Scala語言實(shí)現(xiàn)的,使用Scala作為應(yīng)用框架。與Hadoop不同,Spark和Scala可以緊密集成,Scala可以像操作本地集合對象一樣輕松操作分布式數(shù)據(jù)集。雖然Spark的創(chuàng)建是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但它實(shí)際上是Hadoop的補(bǔ)充,可以在Hadoop文件系統(tǒng)中并行運(yùn)行。
10、如何用 spark分析json數(shù)據(jù)存入mysqlf(isset($ _ POST[ submit ])