有哪些開源的大數(shù)據(jù)框架?麥肯錫全球研究所給出的定義中指出,大數(shù)據(jù)是一種數(shù)據(jù)集合,其規(guī)模之大,大大超過了傳統(tǒng)數(shù)據(jù)庫軟件工具在獲取、存儲(chǔ)、管理和分析方面的能力。目前用于分析大數(shù)據(jù)的工具主要包括開源和商用兩大生態(tài)系統(tǒng),什么是大數(shù)據(jù)時(shí)代在很多人眼里,大數(shù)據(jù)可能是一個(gè)非常模糊的概念,但是在日常生活中,大數(shù)據(jù)已經(jīng)離我們非常近,我們不再時(shí)時(shí)刻刻享受著大數(shù)據(jù)帶來的便利、個(gè)性化和人性化。
目前用于分析大數(shù)據(jù)的工具主要包括開源和商用兩大生態(tài)系統(tǒng)。開源大數(shù)據(jù)生態(tài)系統(tǒng):1。HadoopHDFS、HadoopMapReduce、Hbase、Hive逐漸誕生,早期的Hadoop生態(tài)系統(tǒng)逐漸形成。2.Hypertable是一個(gè)替代方案。它存在于Hadoop生態(tài)系統(tǒng)之外,但曾經(jīng)有過一些用戶。3.NoSQL,membase,MongoDB商業(yè)大數(shù)據(jù)生態(tài)系統(tǒng):1。一體化數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza),
大數(shù)據(jù)需要學(xué)習(xí)的內(nèi)容有:Java編程技術(shù);Linux命令;Hadoop蜂巢;Avro和Protobuf;動(dòng)物園管理員;HBase鳳凰;Redis水槽;SSM;卡夫卡;Scala火花;阿茲卡班和Python以及數(shù)據(jù)分析。1.Java編程技術(shù)Java編程技術(shù)是大數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)。Java是一種強(qiáng)類型語言,具有很高的跨平臺(tái)能力,可以編寫桌面應(yīng)用、Web應(yīng)用、分布式系統(tǒng)和嵌入式系統(tǒng)應(yīng)用等。是大數(shù)據(jù)工程師最喜歡的編程工具。
在很多人眼里,大數(shù)據(jù)可能是一個(gè)非常模糊的概念,但是在日常生活中,大數(shù)據(jù)已經(jīng)離我們非常近,我們不再時(shí)時(shí)刻刻享受著大數(shù)據(jù)帶來的便利、個(gè)性化和人性化。要全面理解大數(shù)據(jù),應(yīng)該簡單地從四個(gè)方面來理解。定義,結(jié)構(gòu)特征,我們身邊有什么大數(shù)據(jù),大數(shù)據(jù)帶來了什么,這四個(gè)方面都懂了。那么到底什么是“大數(shù)據(jù)”呢?麥肯錫全球研究所給出的定義中指出,大數(shù)據(jù)是一種數(shù)據(jù)集合,其規(guī)模之大,大大超過了傳統(tǒng)數(shù)據(jù)庫軟件工具在獲取、存儲(chǔ)、管理和分析方面的能力。
大數(shù)據(jù)的單位一般以PB來衡量。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱得上大數(shù)據(jù)。如圖:計(jì)量單位列表其次,大數(shù)據(jù)的特點(diǎn)和結(jié)構(gòu)是什么?大數(shù)據(jù)整體分為四個(gè)特征。第一,數(shù)量大。計(jì)量單位是PB級(jí),存儲(chǔ)內(nèi)容很多。第二,高速。大數(shù)據(jù)在獲取速度和分析速度上需要及時(shí)快速。保證短時(shí)間內(nèi)有更多的人收到信息。
4、開源的大數(shù)據(jù)框架有哪些?文件存儲(chǔ):HadoopHDFS、Tachyon、KFS離線計(jì)算:HadoopMapReduce、SparkStreaming、實(shí)時(shí)計(jì)算:Storm、Spark Streaming、S4、HeronKV、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB資源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid分布式協(xié)調(diào)服。