1.開源大數(shù)據(jù)生態(tài)HadoopHDFS,HadoopMapReduce,大數(shù)據(jù)量和更多數(shù)據(jù)的時代。什么是生態(tài)圈?2.商業(yè)大數(shù)據(jù)分析工具一體化數(shù)據(jù)庫/數(shù)據(jù)倉庫(高成本)IBMPureData(Netezza),什么是大數(shù)據(jù)時代?大數(shù)據(jù)學什么框架?2019數(shù)據(jù)架構(gòu)精選必讀:1月數(shù)據(jù)庫產(chǎn)品技術(shù)分析:本期目錄DBEngines數(shù)據(jù)庫排名新聞簡報1、RDBMS家族2、NoSQL家族3、NewSQL家族4、時間序列5、大數(shù)據(jù)生態(tài)系統(tǒng)6、國內(nèi)數(shù)據(jù)庫概述7、云數(shù)據(jù)庫8、推出dbaplusNewsletter的思路(2019,感謝列表方便閱讀和重點呈現(xiàn),本期簡訊(2019年1月)將。
本期DBEngines數(shù)據(jù)庫排名新聞公告:RDBMS家族二、NoSQL家族三、NewSQL家族四、時間序列五、大數(shù)據(jù)生態(tài)系統(tǒng)六、國內(nèi)數(shù)據(jù)庫概述七、云數(shù)據(jù)庫八、推出dbaplusNewsletter的思路九。感謝名單。本期通訊(2019年1月)將簡化每一節(jié)的內(nèi)容。需要閱讀全文的同學可以點擊文末【閱讀原文】或者登錄下載。
DBEngines排名的數(shù)據(jù)基于五個不同的因素:新聞快訊1。2018年9月24日,微軟公布了SQLServer2019的預(yù)覽版,SQLServer2019將結(jié)合Spark打造統(tǒng)一的數(shù)據(jù)平臺。2.2018年10月5日,ElasticSearch在紐約證券交易所上市。3.亞馬遜放棄了甲骨文數(shù)據(jù)庫軟件,這導致了黃金時間最大的一次倉庫宕機。
1。開源的大數(shù)據(jù)生態(tài)系統(tǒng)HadoopHDFS、HadoopMapReduce、HBase、Hive逐漸誕生,早期的Hadoop生態(tài)系統(tǒng)逐漸形成。開源生態(tài)系統(tǒng)是活躍的,免費的,但是Hadoop技術(shù)要求高,實時性差。2.商業(yè)大數(shù)據(jù)分析工具一體化數(shù)據(jù)庫/數(shù)據(jù)倉庫(高成本)IBM PureData (Netezza)、Oracle Exadata、
數(shù)據(jù)倉庫(高成本)Teradata Asterdata,EMC Greenplum,HPVertica等等。數(shù)據(jù)集市(平均成本)QlikView,Tableau,中國的永紅數(shù)據(jù)集市等等。前端呈現(xiàn)用于呈現(xiàn)分析的前端開源工具有JasperSoft、Pentaho、Spagobi、Openi、Birt等。
3、大數(shù)據(jù)在企業(yè)中的應(yīng)用大數(shù)據(jù)在企業(yè)中的應(yīng)用2015年9月10日,首席數(shù)據(jù)官聯(lián)盟成立儀式暨首屆首席數(shù)據(jù)官大會在北京大學舉行。本次活動由中國新一代IT產(chǎn)業(yè)聯(lián)盟和易觀智庫聯(lián)合主辦。中國新一代IT產(chǎn)業(yè)促進聯(lián)盟技術(shù)分委會秘書長陸四海致辭并參與了對話和討論。對話會由智慧院副院長葛主持。參與對話的嘉賓有北京大學電子政務(wù)研究院副院長楊明剛、貝殼中國CIO徐斌、華為大數(shù)據(jù)總監(jiān)劉冬冬、北京漢思安信科技有限公司聯(lián)合創(chuàng)始人董欣等。
劉東東:今年上半年,我們開始代表華為搭建大數(shù)據(jù)生態(tài)系統(tǒng)。我們的生態(tài)系統(tǒng)是一個1 6模型。華為提供公有云和大計算等服務(wù),與數(shù)據(jù)挖掘、業(yè)務(wù)應(yīng)用、數(shù)據(jù)可視化展示等合作伙伴一起篩選了國內(nèi)200多家大數(shù)據(jù)公司和核心合作伙伴。第一批、第二批、第三批開始了。選了16家公司簽約,第二批有十幾家。
4、什么是大數(shù)據(jù)時代?大數(shù)據(jù)是指在一定時期內(nèi),其內(nèi)容無法被常規(guī)軟件工具抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)是指從各類數(shù)據(jù)中快速獲取有價值信息的能力?!按髷?shù)據(jù)”的研究機構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是一種海量的、高增長的、多樣化的信息資產(chǎn),需要新的處理模式來擁有更強的決策力、洞察和發(fā)現(xiàn)力以及流程優(yōu)化能力。
大數(shù)據(jù)量、多數(shù)據(jù)的時代。全球知名咨詢公司麥肯錫最早提出“大數(shù)據(jù)”時代的到來。麥肯錫表示:“數(shù)據(jù)已經(jīng)滲透到當今每個行業(yè)和商業(yè)功能領(lǐng)域,成為重要的生產(chǎn)要素。海量數(shù)據(jù)的挖掘和應(yīng)用,預(yù)示著新一波生產(chǎn)力增長和消費者剩余的到來?!薄按髷?shù)據(jù)”在物理、生物、環(huán)境生態(tài)、軍事、金融、通信等行業(yè)領(lǐng)域已經(jīng)存在了一段時間,但卻是因為近年來互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展而引起人們的關(guān)注。
5、什么是大數(shù)據(jù)時代在很多人眼里,大數(shù)據(jù)可能是一個非常模糊的概念,但是在日常生活中,大數(shù)據(jù)已經(jīng)離我們非常近,我們不再時時刻刻享受著大數(shù)據(jù)帶來的便利、個性化和人性化。要全面理解大數(shù)據(jù),應(yīng)該簡單地從四個方面來理解。定義,結(jié)構(gòu)特征,我們身邊有什么大數(shù)據(jù),大數(shù)據(jù)帶來了什么,這四個方面都懂了。那么到底什么是“大數(shù)據(jù)”呢?麥肯錫全球研究所給出的定義中指出,大數(shù)據(jù)是一種數(shù)據(jù)集合,其規(guī)模之大,大大超過了傳統(tǒng)數(shù)據(jù)庫軟件工具在獲取、存儲、管理和分析方面的能力。
大數(shù)據(jù)的單位一般以PB來衡量。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱得上大數(shù)據(jù)。如圖:計量單位列表其次,大數(shù)據(jù)的特點和結(jié)構(gòu)是什么?大數(shù)據(jù)整體分為四個特征。第一,數(shù)量大。計量單位是PB級,存儲內(nèi)容很多。第二,高速。大數(shù)據(jù)在獲取速度和分析速度上需要及時快速。保證短時間內(nèi)有更多的人收到信息。
6、大數(shù)據(jù)學什么框架?什么是生態(tài)圈?大數(shù)據(jù)平臺主要有三個框架:(1) Hadoop生態(tài)系統(tǒng)HDFS:分布式文件系統(tǒng)解決大數(shù)據(jù)紗線的存儲(MapReduce):分布式計算框架解決大數(shù)據(jù)的計算Hive:數(shù)據(jù)分析引擎Hive:Hadoop,支持SQLHBase:基于HDFS的NoSQL數(shù)據(jù)庫ZooKeeper:分布式協(xié)調(diào)服務(wù),可用于實現(xiàn)HA(高可用性架構(gòu))等(2) SparkCore:Spark生態(tài)系統(tǒng),用于計算Spark SQL的數(shù)據(jù)分析引擎:Spark offline。支持SQL語句的流計算引擎SparkStreaming:Spark,但本質(zhì)還是離線計算MLlib:機器學習框架(3) Flink生態(tài)系統(tǒng)FlinkDataSet:Flink批處理(離線計算)APIFlinkDataStream:Flink流處理(實時計算)APIFlinkTable。