Spark已經(jīng)取代Hadoop成為最活躍的開源項(xiàng)目數(shù)據(jù)。但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但它沒有分布式存儲(chǔ)系統(tǒng),而分布式存儲(chǔ)系統(tǒng)是許多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)。它可以在幾乎無限的普通計(jì)算機(jī)的硬盤上存儲(chǔ)PB級(jí)數(shù)據(jù) sets并提供良好的可擴(kuò)展性。你只需要隨著數(shù)據(jù)套的增加而增加硬盤即可。所以Spark需要一個(gè)第三方分布式存儲(chǔ)。正是因?yàn)檫@個(gè)原因,很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣,Spark的高級(jí)分析應(yīng)用就可以使用數(shù)據(jù)存儲(chǔ)在HDFS。與Hadoop相比,Spark真正的優(yōu)勢在于速度。Spark的大部分操作都在內(nèi)存中,Hadoop的MapReduce系統(tǒng)會(huì)下載。
5、 hadoop和spark的區(qū)別1,解題水平不同。首先,Hadoop和ApacheSpark都是大數(shù)據(jù)框架,只是各自的用途不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ),這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
2.兩者可以結(jié)合,也可以分離。Hadoop不僅提供了HDFS分布式數(shù)據(jù)的存儲(chǔ)功能,還提供了數(shù)據(jù)的處理功能,稱為MapReduce。所以這里我們可以完全拋棄Spark,使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反,Spark不必依附于Hadoop才能生存。但如上所述,它畢竟不提供文件管理系統(tǒng),所以必須與其他分布式文件系統(tǒng)集成才能運(yùn)行。
6、大 數(shù)據(jù)的Hadoop是做什么的?Hadoop是Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施,是用Java語言開發(fā)的開源分布式計(jì)算平臺(tái),適用于大型數(shù)據(jù)分布式存儲(chǔ)和計(jì)算平臺(tái)。Hadoop是一個(gè)廣泛使用的大數(shù)據(jù)平臺(tái),它本身就是大數(shù)據(jù)平臺(tái)的研究人員的工作。Hadoop是目前比較常見的大型數(shù)據(jù)支撐平臺(tái)。在Hadoop中添加多個(gè)數(shù)據(jù)集合的方法有很多。MapReduce在Map和Reduce之間提供了數(shù)據(jù)連接。
豬和蜂巢也有同樣的能力申請(qǐng)連接多個(gè)數(shù)據(jù)套。Pig提供復(fù)制連接、合并連接和skewedjoin連接,Hive提供map連接和完整外部連接給analyze 數(shù)據(jù)。一個(gè)重要的事實(shí)是,通過使用各種工具,如MapReduce、Pig和Hive,數(shù)據(jù)可以根據(jù)其內(nèi)置的功能和實(shí)際需要來使用它們。至于分析Hadoop中大量的數(shù)據(jù),Anoop指出,一般來說,在big 數(shù)據(jù) Hadoop世界中,有些問題可能并不復(fù)雜,解決方案也很直接,但挑戰(zhàn)是數(shù)據(jù)quantity。
7、 hadoop三大核心組件Hadoop的三個(gè)核心組件是HDFS、MapReduce和YARN。HDFS是Hadoop生態(tài)系統(tǒng)中的分布式文件系統(tǒng),用于存儲(chǔ)大規(guī)模數(shù)據(jù) sets。HDFS將數(shù)據(jù)分布在多個(gè)節(jié)點(diǎn)上,支持?jǐn)?shù)據(jù)的冗余備份,保證數(shù)據(jù)的可靠性和高可用性。它是支持Hadoop分布式計(jì)算的基礎(chǔ),可以使Hadoop系統(tǒng)高效處理大規(guī)模數(shù)據(jù)。MapReduce是Hadoop生態(tài)系統(tǒng)中的分布式計(jì)算框架,用于處理大規(guī)模數(shù)據(jù) sets。
MapReduce框架可以自動(dòng)管理任務(wù)的調(diào)度、容錯(cuò)、負(fù)載均衡等問題,使Hadoop能夠高效運(yùn)行大型數(shù)據(jù)處理任務(wù)。YARN是Hadoop2.0推出的新一代資源管理器,用于管理Hadoop集群中的計(jì)算資源。YARN支持多種應(yīng)用框架,包括MapReduce和Spark,使得Hadoop生態(tài)系統(tǒng)更加靈活多樣。
8、如何架構(gòu)大 數(shù)據(jù)系統(tǒng) hadoopHadoop在可擴(kuò)展性、健壯性、計(jì)算性能、成本等方面具有不可替代的優(yōu)勢。實(shí)際上已經(jīng)成為互聯(lián)網(wǎng)公司的主流大數(shù)據(jù)分析平臺(tái)。本文主要介紹一種基于Hadoop平臺(tái)的多維分析和數(shù)據(jù)挖掘平臺(tái)架構(gòu)。作為一家互聯(lián)網(wǎng)數(shù)據(jù)分析公司,我們?cè)诤A繑?shù)據(jù)分析領(lǐng)域真的是“被趕山”了。多年來,在苛刻的業(yè)務(wù)需求和數(shù)據(jù)的壓力下,我們嘗試了幾乎所有可能的大數(shù)據(jù)分析方法,最終在Hadoop平臺(tái)上落地。
根據(jù)數(shù)據(jù)分析的實(shí)時(shí)性,可分為實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析。實(shí)時(shí)數(shù)據(jù)分析一般用在金融、移動(dòng)、互聯(lián)網(wǎng)B2C等產(chǎn)品中,經(jīng)常要求在幾秒鐘內(nèi)返回上億行數(shù)據(jù)分析,以免影響用戶體驗(yàn)。為了滿足這種需求,我們可以使用設(shè)計(jì)良好的傳統(tǒng)關(guān)系型數(shù)據(jù) library來組成并行處理集群,或者使用一些內(nèi)存計(jì)算平臺(tái),或者采用HDD架構(gòu),這些無疑都需要很高的軟硬件成本。
9、大 數(shù)據(jù)為什么要用 hadooplarge數(shù)據(jù)(bigdata)是指在可承受的時(shí)間范圍內(nèi),常規(guī)軟件工具無法捕捉、管理和處理的數(shù)據(jù)的集合。有人把數(shù)據(jù)比作一個(gè)有能量的煤礦,煤炭按性質(zhì)分為焦煤、無煙煤、肥煤和瘦煤,而露天煤礦和深山煤礦的采掘成本是不同的。同樣,Da 數(shù)據(jù)不是“Da”而是“有用”,價(jià)值含量和挖掘成本比數(shù)量更重要。對(duì)于很多行業(yè)來說,如何利用這些大規(guī)模數(shù)據(jù)是贏得競爭的關(guān)鍵。