Spark已經(jīng)取代Hadoop成為最活躍的開源Da數(shù)據(jù)項(xiàng)目。但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然Spark據(jù)說在某些情況下比Hadoop快100倍,但是它沒有分布式存儲系統(tǒng),而分布式存儲是很多大數(shù)據(jù) 項(xiàng)目的基礎(chǔ),可以在幾乎無限的普通電腦的硬盤上存儲PB級數(shù)據(jù) sets。還提供了很好的擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤。所以Spark需要一個(gè)第三方分布式存儲。正是因?yàn)檫@個(gè)原因,很多大數(shù)據(jù) 項(xiàng)目都在Hadoop上安裝了Spark,這樣,Spark的高級分析應(yīng)用就可以使用數(shù)據(jù)存儲在HDFS。與Hadoop相比,Spark真正的優(yōu)勢在于速度。Spark的大部分操作都在內(nèi)存中,Hadoop的MapReduce系統(tǒng)會下載。
在8、如何搭建基于Hadoop的大 數(shù)據(jù)平臺
Hadoop中添加多個(gè)數(shù)據(jù)集合的方法有很多。MapReduce在Map和Reduce之間提供了數(shù)據(jù)連接。這些連接是非常特殊的連接,并且可能是非常昂貴的操作。豬和蜂巢也有同樣的能力申請連接多個(gè)數(shù)據(jù)套。Pig提供復(fù)制連接、合并連接和skewedjoin連接,Hive提供map連接和完整外部連接給analyze 數(shù)據(jù)。
至于分析Hadoop中大量的數(shù)據(jù),Anoop指出,通常情況下,在big 數(shù)據(jù) Hadoop世界中,有些問題可能并不復(fù)雜,解決方案也很直接,但挑戰(zhàn)是數(shù)據(jù)quantity。在這種情況下,需要不同的解決方案來解決問題。一些分析任務(wù)是從日志文件中統(tǒng)計(jì)確定的id的數(shù)量,重建特定日期范圍內(nèi)存儲的數(shù)據(jù)以及對網(wǎng)民進(jìn)行排名等。所有這些任務(wù)都可以通過Hadoop中的各種工具和技術(shù)來解決,比如MapReduce、Hive、Pig、Giraph和Mahout。
9、百億級實(shí)時(shí)大 數(shù)據(jù)分析 項(xiàng)目,為什么不用Hadoop1。Hadoop集群的可擴(kuò)展性是其主要特點(diǎn)之一。Hadoop可以擴(kuò)展到上千個(gè)節(jié)點(diǎn),對數(shù)據(jù)的需求非常大。2.Hadoop的成本是另一大優(yōu)勢,因?yàn)镠adoop是開源。目前流行去IOE的趨勢,低成本的Hadoop也是一大推手。3.Hadoop生態(tài)系統(tǒng)是活躍的,其外圍是開源 項(xiàng)目 rich,HBase,
10、在大 數(shù)據(jù)平臺 hadoop可以做哪些應(yīng)用Hadoop是一個(gè)適合大型數(shù)據(jù)的分布式存儲和處理平臺,它是開源的一個(gè)框架。1.搜索引擎(Hadoop的初衷是為大規(guī)模網(wǎng)頁快速建立索引),2、大型數(shù)據(jù)存儲,采用Hadoop的分布式存儲能力,如數(shù)據(jù)備份、數(shù)據(jù)倉庫等。3、大型數(shù)據(jù)處理,利用Hadoop的分布式處理能力,如數(shù)據(jù)挖掘、數(shù)據(jù)分析等,4.Hadoop是一個(gè)分布式開源框架,對于分布式計(jì)算有很大的參考價(jià)值。