作者:張力兵,如需轉(zhuǎn)載,請(qǐng)聯(lián)系華章科技。在當(dāng)前數(shù)據(jù)量激增的傳統(tǒng)時(shí)代,不同的業(yè)務(wù)場(chǎng)景有大量的業(yè)務(wù)數(shù)據(jù)產(chǎn)生。如何有效應(yīng)對(duì)這些不斷產(chǎn)生的數(shù)據(jù)成為了目前大多數(shù)公司面臨的問題。隨著雅虎對(duì)Hadoop的開源,越來越多的大型數(shù)據(jù)處理技術(shù)進(jìn)入了人們的視線。比如現(xiàn)在流行的large 數(shù)據(jù)處理引擎ApacheSpark,已經(jīng)基本取代MapReduce成為large 數(shù)據(jù)處理的當(dāng)前標(biāo)準(zhǔn)。
/image-5 5、大 數(shù)據(jù)開發(fā)必用的分布式 框架有哪些
SparkSpark用較少的Scala代碼實(shí)現(xiàn),不同于Hadoop基于分布式文件的IO操作。Spark盡可能使用內(nèi)存進(jìn)行迭代計(jì)算,使用mesos管理機(jī)器資源分配。Hadoop是由Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施。用戶可以開發(fā)分布式程序,而無需了解發(fā)行版的底層細(xì)節(jié)。充分利用集群的力量進(jìn)行高速操作和存儲(chǔ)。
HDFS具有高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用于部署在低成本的硬件上。而且提供了訪問數(shù)據(jù) of應(yīng)用的高吞吐量,適用于那些數(shù)據(jù) dataset較大的應(yīng)用。HDFS放松)POSIX POSIX的要求,以便您可以在文件系統(tǒng)中流式訪問數(shù)據(jù)
6、Spark可以完全替代hadoop嗎說起Da 數(shù)據(jù),相信你對(duì)Hadoop和ApacheSpark這兩個(gè)名字都很熟悉。不過最近業(yè)內(nèi)有人在鼓吹Hadoop會(huì)死,Spark會(huì)立。他們是危言聳聽,嘩眾取寵,還是有獨(dú)特的眼光,可以打破未來?Spark技術(shù)與Hadoop相比如何?工業(yè)企業(yè)正在使用哪些技術(shù)數(shù)據(jù)?現(xiàn)在想開始學(xué)Da 數(shù)據(jù)應(yīng)該從哪個(gè)開始?
Hadoop和ApacheSpark都是big 數(shù)據(jù) 框架,但是用途不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ),這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
7、大 數(shù)據(jù)Spark技術(shù)真的能夠替代Hadoop嗎?我覺得很有可能。不能替代,只能說是作為他的補(bǔ)充。我覺得有一定的可能性。不會(huì),Spark雖然改進(jìn)了很多MapReduce算法,但其實(shí)是對(duì)Hadoop的補(bǔ)充。不會(huì),Hadoop的生態(tài)很強(qiáng)。Hadoop作為一種分布式系統(tǒng)架構(gòu),適用于低成本、大規(guī)模數(shù)據(jù)分析環(huán)境,可以接受數(shù)據(jù)的海量存儲(chǔ)和計(jì)算。雖然Spark改進(jìn)了很多MapReduce算法,但實(shí)際上是對(duì)Hadoop的補(bǔ)充。
在2015年Atscale調(diào)查報(bào)告中,“在接下來的三個(gè)月中,超過76%的人使用Hadoop來完成更多的工作。”大約一半的受訪者聲稱他們?cè)贖adoop工作中獲得了一些價(jià)值。作為一個(gè)十幾年的老品牌,Hadoop并沒有減緩產(chǎn)品采用率的下滑趨勢(shì),Spark也沒有真正取代Hadoop??照?,下面我們從以下幾個(gè)方面來分析一下Spark在未來幾年內(nèi)是否真的能取代Hadoop。
8、大 數(shù)據(jù)分析界的“神獸”ApacheKylin有多牛1。什么是阿帕奇麒麟?在當(dāng)前數(shù)據(jù)的時(shí)代,越來越多的企業(yè)開始使用Hadoop管理數(shù)據(jù)但是現(xiàn)有的經(jīng)營分析工具(如Tableau、Microstrategy等。)往往有很大的局限性,比如橫向擴(kuò)展困難,無法處理超大規(guī)模數(shù)據(jù),缺乏Hadoop的知識(shí)。但是用Hadoop來分析數(shù)據(jù)還是有很多障礙。比如大部分分析師只習(xí)慣使用SQL,Hadoop很難實(shí)現(xiàn)快速交互查詢。
ApacheKylin,中文名神獸,是Hadoop動(dòng)物園的重要成員。ApacheKylin是一個(gè)開源分布式分析引擎,最初由易貝開發(fā),并貢獻(xiàn)給了開源社區(qū)。提供基于Hadoop的SQL查詢接口和多維分析(OLAP)能力,支持大規(guī)模數(shù)據(jù),可以處理TB甚至PB級(jí)的分析任務(wù),可以查詢亞秒級(jí)的龐大蜂巢表,支持高并發(fā)。
9、大 數(shù)據(jù)時(shí)代,為什么使用Spark 框架首先,Hadoop和ApacheSpark都是big 數(shù)據(jù) 框架,但是用途不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ),這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。
兩者可以結(jié)合,也可以分離。Hadoop不僅提供了HDFS分布式數(shù)據(jù)的存儲(chǔ)功能,還提供了數(shù)據(jù)的處理功能,稱為MapReduce。所以這里我們可以完全拋棄Spark,使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反,Spark不必依附于Hadoop才能生存。但如上所述,它畢竟不提供文件管理系統(tǒng),所以必須與其他分布式文件系統(tǒng)集成才能運(yùn)行。
10、ApacheFlink現(xiàn)在在大 數(shù)據(jù)處理方面能夠和ApacheSpark分庭抗禮么...Flink以前叫平流層。其實(shí)它和Spark一樣有五年的歷史,但一直不溫不火,成熟度遠(yuǎn)不如Spark,參與Flink社區(qū)的人數(shù)不到Spark的五分之一。個(gè)人觀點(diǎn):Flink不溫不火的一個(gè)原因是使用了太多數(shù)據(jù) library的傳統(tǒng)設(shè)計(jì),卻忽略了這些設(shè)計(jì)對(duì)實(shí)際應(yīng)用的阻礙,這些設(shè)計(jì)中有許多在SQLquery上很有價(jià)值,但對(duì)于generalprogram來說可能不值得。