hadoop,請(qǐng)描述一下三個(gè)平臺(tái)數(shù)據(jù),Hadoop 數(shù)據(jù)和Hadoop是密不可分的。為什么不用Hadoop?1.Hadoop集群的可擴(kuò)展性是其主要特點(diǎn)之一,Hadoop可以擴(kuò)展到上千個(gè)節(jié)點(diǎn),對(duì)數(shù)據(jù)的需求非常大,2.Hadoop的成本是另一大優(yōu)勢(shì),因?yàn)镠adoop是開(kāi)源1234566。
1,large 數(shù)據(jù)生態(tài)技術(shù)系統(tǒng)Apache基金會(huì)開(kāi)發(fā)的Hadoop分布式系統(tǒng)基礎(chǔ)設(shè)施。Hadoop框架的核心設(shè)計(jì)是HDFS和MapReduce。HDFS提供數(shù)據(jù)的海量存儲(chǔ),MapReduce提供數(shù)據(jù)的海量計(jì)算。Hadoop是一個(gè)基礎(chǔ)框架,可以托管很多其他東西,比如Hive。不想用編程語(yǔ)言開(kāi)發(fā)MapReduce的人可以用Hive進(jìn)行離線(xiàn)數(shù)據(jù)處理分析。
2.Big 數(shù)據(jù)生態(tài)技術(shù)系統(tǒng)的火花也是加州大學(xué)伯克利分校的一個(gè)實(shí)驗(yàn)室,是Apache基金會(huì)開(kāi)發(fā)的另一個(gè)重要的分布式計(jì)算系統(tǒng)。Spark和Hadoop最大的區(qū)別是Hadoop用硬盤(pán)存儲(chǔ)數(shù)據(jù),而Spark用內(nèi)存存儲(chǔ)數(shù)據(jù),所以Spark可以提供100倍以上的計(jì)算速度。Spark可以通過(guò)YARN(另一個(gè)資源協(xié)調(diào)器)在Hadoop集群中運(yùn)行,但是Spark現(xiàn)在正在進(jìn)化成一個(gè)生態(tài)進(jìn)程,希望通過(guò)一個(gè)技術(shù)棧實(shí)現(xiàn)上下游的融合。
今天真是一個(gè)美好的時(shí)代。有無(wú)數(shù)的開(kāi)源系統(tǒng)可以為我們提供服務(wù)?,F(xiàn)在工業(yè)大學(xué)有很多開(kāi)發(fā)軟件可以用數(shù)據(jù)。當(dāng)然,很多系統(tǒng)還不成熟,應(yīng)用到行業(yè)中還需要謹(jǐn)慎,開(kāi)發(fā)者需要一定程度的優(yōu)化和調(diào)整。下面簡(jiǎn)單介紹一些開(kāi)源big 數(shù)據(jù)tool軟件,看看有哪些可以應(yīng)用到工業(yè)big數(shù)據(jù)領(lǐng)域。下面這張圖是我根據(jù)網(wǎng)上流傳的a 開(kāi)源 Da 數(shù)據(jù)軟件分類(lèi)圖整理出來(lái)的:我們可以把開(kāi)源 Da 數(shù)據(jù)軟件分成幾類(lèi),其中一部分可以逐步應(yīng)用到工業(yè)大學(xué)。
(2)File數(shù)據(jù)Library Hadoop是數(shù)據(jù)時(shí)代的明星產(chǎn)品,其最大的成就在于實(shí)現(xiàn)了Hadoop分布式文件系統(tǒng),簡(jiǎn)稱(chēng)HDFS。HDFS具有高容錯(cuò)的特點(diǎn),設(shè)計(jì)部署在低成本的硬件上,為訪(fǎng)問(wèn)數(shù)據(jù) of應(yīng)用提供高吞吐量,適用于那些數(shù)據(jù)set非常大的應(yīng)用。
3、Hadoop,Hive,Spark之間是什么關(guān)系Spark已經(jīng)取代Hadoop成為最活躍的開(kāi)源Da數(shù)據(jù)項(xiàng)目,但在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專(zhuān)家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來(lái)執(zhí)行常見(jiàn)的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然Spark據(jù)說(shuō)在某些情況下比Hadoop快100倍,但是它沒(méi)有分布式存儲(chǔ)系統(tǒng),而分布式存儲(chǔ)是很多大數(shù)據(jù) 項(xiàng)目的基礎(chǔ),可以在幾乎無(wú)限的普通電腦的硬盤(pán)上存儲(chǔ)PB級(jí)數(shù)據(jù) sets。還提供了很好的擴(kuò)展性,只需要隨著數(shù)據(jù) set的增加而增加硬盤(pán)。所以Spark需要一個(gè)第三方分布式存儲(chǔ)。正是因?yàn)檫@個(gè)原因,很多大數(shù)據(jù) 項(xiàng)目都在Hadoop上安裝了Spark,這樣,Spark的高級(jí)分析應(yīng)用就可以使用數(shù)據(jù)存儲(chǔ)在HDFS。與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度。Spark的大部分操作都在內(nèi)存中,Hadoop的MapReduce系統(tǒng)會(huì)下載。