spark,spark這些是大數(shù)據(jù)分析工具嗎?在架構上,Spark包括一個內核部分和四個官方子模塊:SparkSQLSparkStreaming機器學習庫MLlib圖計算庫GraphX,從Spark在Berkeley的數(shù)據(jù)分析軟件棧BDAS (Berkeley Data Analytic Stack)中的位置可見。Spark側重于數(shù)據(jù)的計算,生產環(huán)境中數(shù)據(jù)的存儲往往由Hadoop分布式文件系統(tǒng)HDFS承擔。
你說的應該是big 數(shù)據(jù)平臺中的主流框架。我來列舉一下:(1) Hadoop生態(tài)系統(tǒng)HDFS:分布式文件系統(tǒng),解決大數(shù)據(jù) Yarn(MapReduce)的存儲:分布式計算框架,解決大數(shù)據(jù): -2的計算Hive/分析引擎Hive:Hadoop,支持SQLHBase: NoSQL 數(shù)據(jù)基于HDFS的庫ZooKeeper:分布式協(xié)調服務,可用于實現(xiàn)HA(高可用性/1但本質還是離線計算MLlib:機器學習框架(3) Flink生態(tài)系統(tǒng)FlinkDataSet:Flink批處理(離線計算)APIFlinkDataStream:Flink流處理(實時計算)ApFlinkTable