hadoop大數(shù)據(jù)開源項(xiàng)目,Hadoop是Apache頂級的開源項(xiàng)目

來源：整理時(shí)間：2023-08-03 00:42:27 編輯：聰明地手機(jī)版

7、請描述下大數(shù)據(jù)三大平臺 hadoop,storm,spark的區(qū)別和應(yīng)用場景

Spark已經(jīng)取代Hadoop成為最活躍的開源Da數(shù)據(jù)項(xiàng)目。但是，在選擇大型數(shù)據(jù)框架時(shí)，企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架，都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù)，但恰恰，它們執(zhí)行的是不同的任務(wù)。雖然Spark據(jù)說在某些情況下比Hadoop快100倍，但是它沒有分布式存儲系統(tǒng)，而分布式存儲是很多大數(shù)據(jù) 項(xiàng)目的基礎(chǔ)，可以在幾乎無限的普通電腦的硬盤上存儲PB級數(shù)據(jù) sets。還提供了很好的擴(kuò)展性，只需要隨著數(shù)據(jù) set的增加而增加硬盤。所以Spark需要一個(gè)第三方分布式存儲。正是因?yàn)檫@個(gè)原因，很多大數(shù)據(jù) 項(xiàng)目都在Hadoop上安裝了Spark，這樣，Spark的高級分析應(yīng)用就可以使用數(shù)據(jù)存儲在HDFS。與Hadoop相比，Spark真正的優(yōu)勢在于速度。Spark的大部分操作都在內(nèi)存中，Hadoop的MapReduce系統(tǒng)會下載。

在8、如何搭建基于Hadoop的大數(shù)據(jù)平臺

Hadoop中添加多個(gè)數(shù)據(jù)集合的方法有很多。MapReduce在Map和Reduce之間提供了數(shù)據(jù)連接。這些連接是非常特殊的連接，并且可能是非常昂貴的操作。豬和蜂巢也有同樣的能力申請連接多個(gè)數(shù)據(jù)套。Pig提供復(fù)制連接、合并連接和skewedjoin連接，Hive提供map連接和完整外部連接給analyze 數(shù)據(jù)。

至于分析Hadoop中大量的數(shù)據(jù)，Anoop指出，通常情況下，在big 數(shù)據(jù) Hadoop世界中，有些問題可能并不復(fù)雜，解決方案也很直接，但挑戰(zhàn)是數(shù)據(jù)quantity。在這種情況下，需要不同的解決方案來解決問題。一些分析任務(wù)是從日志文件中統(tǒng)計(jì)確定的id的數(shù)量，重建特定日期范圍內(nèi)存儲的數(shù)據(jù)以及對網(wǎng)民進(jìn)行排名等。所有這些任務(wù)都可以通過Hadoop中的各種工具和技術(shù)來解決，比如MapReduce、Hive、Pig、Giraph和Mahout。

9、百億級實(shí)時(shí)大數(shù)據(jù)分析項(xiàng)目,為什么不用Hadoop

1。Hadoop集群的可擴(kuò)展性是其主要特點(diǎn)之一。Hadoop可以擴(kuò)展到上千個(gè)節(jié)點(diǎn)，對數(shù)據(jù)的需求非常大。2.Hadoop的成本是另一大優(yōu)勢，因?yàn)镠adoop是開源。目前流行去IOE的趨勢，低成本的Hadoop也是一大推手。3.Hadoop生態(tài)系統(tǒng)是活躍的，其外圍是開源項(xiàng)目 rich，HBase，

10、在大數(shù)據(jù)平臺 hadoop可以做哪些應(yīng)用

Hadoop是一個(gè)適合大型數(shù)據(jù)的分布式存儲和處理平臺，它是開源的一個(gè)框架。1.搜索引擎(Hadoop的初衷是為大規(guī)模網(wǎng)頁快速建立索引)，2、大型數(shù)據(jù)存儲，采用Hadoop的分布式存儲能力，如數(shù)據(jù)備份、數(shù)據(jù)倉庫等。3、大型數(shù)據(jù)處理，利用Hadoop的分布式處理能力，如數(shù)據(jù)挖掘、數(shù)據(jù)分析等，4.Hadoop是一個(gè)分布式開源框架，對于分布式計(jì)算有很大的參考價(jià)值。