首頁 > 資訊 > 知識(shí) > apache 大數(shù)據(jù)框架

apache 大數(shù)據(jù)框架

來源：整理時(shí)間：2023-08-16 11:24:37 編輯：聰明地手機(jī)版

4、為什么Flink會(huì)成為下一代大數(shù)據(jù)處理框架的標(biāo)準(zhǔn)

作者:張力兵，如需轉(zhuǎn)載，請(qǐng)聯(lián)系華章科技。在當(dāng)前數(shù)據(jù)量激增的傳統(tǒng)時(shí)代，不同的業(yè)務(wù)場(chǎng)景有大量的業(yè)務(wù)數(shù)據(jù)產(chǎn)生。如何有效應(yīng)對(duì)這些不斷產(chǎn)生的數(shù)據(jù)成為了目前大多數(shù)公司面臨的問題。隨著雅虎對(duì)Hadoop的開源，越來越多的大型數(shù)據(jù)處理技術(shù)進(jìn)入了人們的視線。比如現(xiàn)在流行的large 數(shù)據(jù)處理引擎ApacheSpark，已經(jīng)基本取代MapReduce成為large 數(shù)據(jù)處理的當(dāng)前標(biāo)準(zhǔn)。

/image-5 5、大數(shù)據(jù)開發(fā)必用的分布式框架有哪些

SparkSpark用較少的Scala代碼實(shí)現(xiàn)，不同于Hadoop基于分布式文件的IO操作。Spark盡可能使用內(nèi)存進(jìn)行迭代計(jì)算，使用mesos管理機(jī)器資源分配。Hadoop是由Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施。用戶可以開發(fā)分布式程序，而無需了解發(fā)行版的底層細(xì)節(jié)。充分利用集群的力量進(jìn)行高速操作和存儲(chǔ)。

HDFS具有高容錯(cuò)性的特點(diǎn)，設(shè)計(jì)用于部署在低成本的硬件上。而且提供了訪問數(shù)據(jù) of應(yīng)用的高吞吐量，適用于那些數(shù)據(jù) dataset較大的應(yīng)用。HDFS放松)POSIX POSIX的要求，以便您可以在文件系統(tǒng)中流式訪問數(shù)據(jù)

6、Spark可以完全替代hadoop嗎

說起Da 數(shù)據(jù)，相信你對(duì)Hadoop和ApacheSpark這兩個(gè)名字都很熟悉。不過最近業(yè)內(nèi)有人在鼓吹Hadoop會(huì)死，Spark會(huì)立。他們是危言聳聽，嘩眾取寵，還是有獨(dú)特的眼光，可以打破未來？Spark技術(shù)與Hadoop相比如何？工業(yè)企業(yè)正在使用哪些技術(shù)數(shù)據(jù)？現(xiàn)在想開始學(xué)Da 數(shù)據(jù)應(yīng)該從哪個(gè)開始？

Hadoop和ApacheSpark都是big 數(shù)據(jù) 框架，但是用途不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ)，這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí)，Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤，使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。

7、大數(shù)據(jù)Spark技術(shù)真的能夠替代Hadoop嗎?

我覺得很有可能。不能替代，只能說是作為他的補(bǔ)充。我覺得有一定的可能性。不會(huì)，Spark雖然改進(jìn)了很多MapReduce算法，但其實(shí)是對(duì)Hadoop的補(bǔ)充。不會(huì)，Hadoop的生態(tài)很強(qiáng)。Hadoop作為一種分布式系統(tǒng)架構(gòu)，適用于低成本、大規(guī)模數(shù)據(jù)分析環(huán)境，可以接受數(shù)據(jù)的海量存儲(chǔ)和計(jì)算。雖然Spark改進(jìn)了很多MapReduce算法，但實(shí)際上是對(duì)Hadoop的補(bǔ)充。

在2015年Atscale調(diào)查報(bào)告中，“在接下來的三個(gè)月中，超過76%的人使用Hadoop來完成更多的工作。”大約一半的受訪者聲稱他們?cè)贖adoop工作中獲得了一些價(jià)值。作為一個(gè)十幾年的老品牌，Hadoop并沒有減緩產(chǎn)品采用率的下滑趨勢(shì)，Spark也沒有真正取代Hadoop?？照?，下面我們從以下幾個(gè)方面來分析一下Spark在未來幾年內(nèi)是否真的能取代Hadoop。

8、大數(shù)據(jù)分析界的“神獸”ApacheKylin有多牛

1。什么是阿帕奇麒麟？在當(dāng)前數(shù)據(jù)的時(shí)代，越來越多的企業(yè)開始使用Hadoop管理數(shù)據(jù)但是現(xiàn)有的經(jīng)營分析工具(如Tableau、Microstrategy等。)往往有很大的局限性，比如橫向擴(kuò)展困難，無法處理超大規(guī)模數(shù)據(jù)，缺乏Hadoop的知識(shí)。但是用Hadoop來分析數(shù)據(jù)還是有很多障礙。比如大部分分析師只習(xí)慣使用SQL，Hadoop很難實(shí)現(xiàn)快速交互查詢。

ApacheKylin，中文名神獸，是Hadoop動(dòng)物園的重要成員。ApacheKylin是一個(gè)開源分布式分析引擎，最初由易貝開發(fā)，并貢獻(xiàn)給了開源社區(qū)。提供基于Hadoop的SQL查詢接口和多維分析(OLAP)能力，支持大規(guī)模數(shù)據(jù)，可以處理TB甚至PB級(jí)的分析任務(wù)，可以查詢亞秒級(jí)的龐大蜂巢表，支持高并發(fā)。

9、大數(shù)據(jù)時(shí)代,為什么使用Spark 框架

首先，Hadoop和ApacheSpark都是big 數(shù)據(jù) 框架，但是用途不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ)，這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí)，Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤，使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。

兩者可以結(jié)合，也可以分離。Hadoop不僅提供了HDFS分布式數(shù)據(jù)的存儲(chǔ)功能，還提供了數(shù)據(jù)的處理功能，稱為MapReduce。所以這里我們可以完全拋棄Spark，使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反，Spark不必依附于Hadoop才能生存。但如上所述，它畢竟不提供文件管理系統(tǒng)，所以必須與其他分布式文件系統(tǒng)集成才能運(yùn)行。

10、ApacheFlink現(xiàn)在在大數(shù)據(jù)處理方面能夠和ApacheSpark分庭抗禮么...

Flink以前叫平流層。其實(shí)它和Spark一樣有五年的歷史，但一直不溫不火，成熟度遠(yuǎn)不如Spark，參與Flink社區(qū)的人數(shù)不到Spark的五分之一。個(gè)人觀點(diǎn):Flink不溫不火的一個(gè)原因是使用了太多數(shù)據(jù) library的傳統(tǒng)設(shè)計(jì)，卻忽略了這些設(shè)計(jì)對(duì)實(shí)際應(yīng)用的阻礙，這些設(shè)計(jì)中有許多在SQLquery上很有價(jià)值，但對(duì)于generalprogram來說可能不值得。