spark,spark這些是大數(shù)據(jù)分析工具嗎?在架構(gòu)上,Spark包括一個內(nèi)核部分和四個官方子模塊:SparkSQLSparkStreaming機(jī)器學(xué)習(xí)庫MLlib圖計(jì)算庫GraphX,從Spark在Berkeley的數(shù)據(jù)分析軟件棧BDAS (Berkeley Data Analytic Stack)中的位置可見。Spark側(cè)重于數(shù)據(jù)的計(jì)算,生產(chǎn)環(huán)境中數(shù)據(jù)的存儲往往由Hadoop分布式文件系統(tǒng)HDFS承擔(dān)。
你說的應(yīng)該是big 數(shù)據(jù)平臺中的主流框架。我來列舉一下:(1) Hadoop生態(tài)系統(tǒng)HDFS:分布式文件系統(tǒng),解決大數(shù)據(jù) Yarn(MapReduce)的存儲:分布式計(jì)算框架,解決大數(shù)據(jù): -2的計(jì)算Hive/分析引擎Hive:Hadoop,支持SQLHBase: NoSQL 數(shù)據(jù)基于HDFS的庫ZooKeeper:分布式協(xié)調(diào)服務(wù),可用于實(shí)現(xiàn)HA(高可用性/1但本質(zhì)還是離線計(jì)算MLlib:機(jī)器學(xué)習(xí)框架(3) Flink生態(tài)系統(tǒng)FlinkDataSet:Flink批處理(離線計(jì)算)APIFlinkDataStream:Flink流處理(實(shí)時(shí)計(jì)算)ApFlinkTable