首頁 > 廠商 > 知識(shí) > spark本地?cái)?shù)據(jù)存儲(chǔ),Android本地?cái)?shù)據(jù)存儲(chǔ)包括

spark本地?cái)?shù)據(jù)存儲(chǔ),Android本地?cái)?shù)據(jù)存儲(chǔ)包括

來源：整理時(shí)間：2024-12-15 12:22:29 編輯：聰明地手機(jī)版

主要翻譯自官網(wǎng)I，存儲(chǔ)Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因?yàn)榇蠖鄶?shù)Spark工作可能需要從外部存儲(chǔ) systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。Spark已經(jīng)取代Hadoop成為最活躍的開源大型數(shù)據(jù)項(xiàng)目，但是，在選擇大型數(shù)據(jù)框架時(shí)，企業(yè)不應(yīng)厚此薄彼，著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同，Hadoop和Spark都是big 數(shù)據(jù)框架，都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù)，但恰恰，它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍，但是它沒有分布式的存儲(chǔ)系統(tǒng)，而分布式的存儲(chǔ)是很多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)，可以將PB級(jí)數(shù)據(jù) set 存儲(chǔ)放在普通電腦幾乎無限的硬盤上，并提供良好的可擴(kuò)展性，只需要隨著數(shù)據(jù) set的增加而增加硬盤，所以Spark需要第三方發(fā)行存儲(chǔ)，很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark，這樣Spark的高級(jí)分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲(chǔ)了。與Hadoop相比，Spark真正的優(yōu)勢(shì)在于速度，Spark的大部分操作都在內(nèi)存中，而Hadoop的MapReduce。

spark之RDD詳解五大特性

1、 spark之RDD詳解---五大特性

2、Spark對(duì)硬件的要求

Spark的硬件要求估計(jì)全部spark開發(fā)者關(guān)心的spark硬件要求。合適的硬件配置需要具體分析，這里給出以下建議。主要翻譯自官網(wǎng)I，存儲(chǔ)Systemspark部署在盡可能靠近數(shù)據(jù)的地方是因?yàn)榇蠖鄶?shù)Spark工作可能需要從外部存儲(chǔ) systems(如Hadoop文件系統(tǒng)或HBase)讀取輸入。因此，提出以下建議:1 .如果可能，在與HDFS相同的節(jié)點(diǎn)上運(yùn)行Spark。

Spark對(duì)硬件的要求

3、Spark可以完全替代hadoop嗎

說到Da 數(shù)據(jù)，相信大家對(duì)Hadoop和ApacheSpark這兩個(gè)名字都很熟悉。不過最近業(yè)內(nèi)有人在鼓吹Hadoop會(huì)死，Spark會(huì)立。他們是危言聳聽，嘩眾取寵，還是有獨(dú)特的眼光，可以打破未來？Spark技術(shù)與Hadoop相比如何？工業(yè)企業(yè)正在使用哪些技術(shù)數(shù)據(jù)？現(xiàn)在想開始學(xué)Da 數(shù)據(jù)應(yīng)該從哪個(gè)開始？

Spark可以完全替代hadoop嗎

Hadoop和ApacheSpark都是大型數(shù)據(jù)框架，但用途不同。Hadoop本質(zhì)上是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲(chǔ)的普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上，這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí)，Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤，使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。

4、Hadoop與分布式數(shù)據(jù)處理SparkVSHadoop有哪些異同點(diǎn)

1，解題水平不同。首先，Hadoop和ApacheSpark都是大數(shù)據(jù)框架，只是各自的用途不同。Hadoop本質(zhì)上是一個(gè)分布式的數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù) set分布到存儲(chǔ)的普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)上，這意味著你不需要購買和維護(hù)昂貴的服務(wù)器硬件。同時(shí)，Hadoop會(huì)對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤，使得large 數(shù)據(jù)的處理和分析效率達(dá)到前所未有的高度。

2.兩者可以結(jié)合，也可以分離。Hadoop不僅提供了HDFS 數(shù)據(jù) 存儲(chǔ)的分布式功能，還提供了數(shù)據(jù)的處理功能，稱為MapReduce。所以這里我們可以完全拋棄Spark，使用Hadoop自帶的MapReduce來完成數(shù)據(jù)的處理。相反，Spark不必依附于Hadoop才能生存。但如上所述，它畢竟不提供文件管理系統(tǒng)，所以必須與其他分布式文件系統(tǒng)集成才能運(yùn)行。

5、Hadoop與Spark的關(guān)系,Spark集群必須依賴Hadoop嗎?

Spark已經(jīng)取代Hadoop成為最活躍的開源項(xiàng)目數(shù)據(jù)。但是，在選擇大型數(shù)據(jù)框架時(shí)，企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架，都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù)，但恰恰，它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍，但是它沒有分布式的存儲(chǔ)系統(tǒng)，而分布式的存儲(chǔ)是很多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)?？梢詫B級(jí)數(shù)據(jù) set 存儲(chǔ)放在普通電腦幾乎無限的硬盤上，并提供良好的可擴(kuò)展性，只需要隨著數(shù)據(jù) set的增加而增加硬盤。所以Spark需要第三方發(fā)行存儲(chǔ)。很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark，這樣Spark的高級(jí)分析應(yīng)用就可以在HDFS 數(shù)據(jù)中使用存儲(chǔ)了。與Hadoop相比，Spark真正的優(yōu)勢(shì)在于速度。Spark的大部分操作都在內(nèi)存中，而Hadoop的MapReduce。

6、2分鐘讀懂大數(shù)據(jù)框架Hadoop和Spark的異同

1，SparkVSHadoop有哪些異同？Hadoop:布批處理計(jì)算強(qiáng)調(diào)批處理對(duì)于數(shù)據(jù)挖掘和分析Spark:基于內(nèi)存計(jì)算的集群計(jì)算系統(tǒng)使得數(shù)據(jù)分析更快。Spark，一個(gè)類似Hadoop的源集群計(jì)算環(huán)境，兩者有一些相似之處，使得Spark的一些工作負(fù)載面表現(xiàn)更好。換句話說，Spark啟用內(nèi)存布數(shù)據(jù)Spark Scala語言除了提供交互查詢，還可以優(yōu)化迭代工作量。Scala作為它的應(yīng)用框架。Hadoop和SparkScala可以緊密集成它們的Scala映像。這個(gè)集合很容易操作。Layout 數(shù)據(jù) Set雖然Spark支持layout 數(shù)據(jù) Set迭代操作實(shí)際Hadoop補(bǔ)充Hadoop文件系統(tǒng)并行操作通用Mesos第三集群框架支持線Spark由加州伯克利AMP實(shí)驗(yàn)室、

7、 spark和hadoop的區(qū)別

很難直接比較Hadoop和Spark，因?yàn)樗鼈円韵嗤姆绞教幚碓S多任務(wù)，但它們?cè)谀承┓矫娌⒉恢丿B。例如，Spark沒有文件管理功能，因此它必須依賴Hadoop分布式文件系統(tǒng)(HDFS)或其他解決方案。Hadoop框架的主要模塊包括以下幾個(gè):HadoopCommonHadoop分布式文件系統(tǒng)(HDFS)HadoopYARNHadoopMapReduce雖然以上四個(gè)模塊構(gòu)成了Hadoop的核心，但是還有其他幾個(gè)模塊。

Spark真的很快(比HadoopMapReduce快100倍)。Spark也可以執(zhí)行批處理，但它確實(shí)擅長處理流式工作負(fù)載、交互式查詢和機(jī)器學(xué)習(xí)。相對(duì)于MapReduce基于磁盤的批處理引擎，Spark以數(shù)據(jù)實(shí)時(shí)處理功能著稱。Spark與Hadoop及其模塊兼容。

8、hadoop和 spark怎么轉(zhuǎn)移數(shù)據(jù)

Hadoop存儲(chǔ)數(shù)據(jù)最重要的配置是在coresite.xml文件中設(shè)置的。只需將coresite.xml的hadoop.tmp.dir值改為新磁盤的路徑即可，考慮到數(shù)據(jù)從程序中分離出來，決定將繼續(xù)增長的文件全部遷移，包括日志文件、pid目錄和日志目錄。日志文件和pid目錄配置在hadoopenv.sh中，exportHADOOP_PID_DIR和HADOOP_LOG_DIR是對(duì)應(yīng)的磁盤路徑。

文章TAG：存儲(chǔ)spark 數(shù)據(jù)Android 包括 spark本地?cái)?shù)據(jù)存儲(chǔ)