數(shù)據(jù)科學與大數(shù)據(jù)技術:大數(shù)據(jù)時代如何理解?什么是大數(shù)據(jù)時代?大數(shù)據(jù)時代和傳統(tǒng)數(shù)據(jù)有什么區(qū)別?如何理解今天時代是“大數(shù)據(jù)時代”?Bigdata 時代簡介大數(shù)據(jù)通常用來描述一個公司創(chuàng)建的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),下載到關系型數(shù)據(jù)庫進行分析會耗費太多的時間和金錢。
大數(shù)據(jù)時代:大數(shù)據(jù)最早提出時代它來自于世界知名的咨詢公司麥肯錫。大數(shù)據(jù)在物理、生物、環(huán)境生態(tài)、軍事、金融、通信等行業(yè)領域已經(jīng)存在了一段時間,但卻是因為近年來互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展才引起人們的關注。大數(shù)據(jù)背景:2012年,大數(shù)據(jù)這個詞被越來越多的提及。人們用它來描述和定義信息爆炸產(chǎn)生的海量數(shù)據(jù)時代,并命名相關的技術發(fā)展和創(chuàng)新。
數(shù)據(jù)在迅速膨脹變大,決定了企業(yè)未來的發(fā)展。雖然很多企業(yè)可能沒有意識到數(shù)據(jù)爆炸式增長帶來的隱患,但是隨著時間的推移,人們會越來越意識到數(shù)據(jù)對企業(yè)的重要性。正如《紐約時報》在2012年2月的一篇專欄文章中所說,“大數(shù)據(jù)”時代已經(jīng)到來。在商業(yè)、經(jīng)濟和其他領域,決策將基于數(shù)據(jù)和分析,而不是基于經(jīng)驗和直覺。
hadoop本身就是一個分布式框架。如果是在Hadoop框架下,需要配合hbase、hive等工具進行大數(shù)據(jù)計算。再深入一點,還要了解HDFS、Map/Rece、任務機制等等。如果要分析,還要考慮其他的分析和呈現(xiàn)工具。大數(shù)據(jù)只有經(jīng)過分析才有價值。用于分析大數(shù)據(jù)的工具主要有開源和商業(yè)生態(tài)系統(tǒng)。開源大數(shù)據(jù)生態(tài)系統(tǒng):1。HadoopHDFS,
2.Hypertable是一個替代方案。它存在于Hadoop生態(tài)系統(tǒng)之外,但曾經(jīng)有過一些用戶。3.NoSQL,membase,MongoDb商業(yè)大數(shù)據(jù)生態(tài)系統(tǒng):1。一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza)、SAPHana等。2.數(shù)據(jù)倉庫:EMCGreenPlum、HPVertica等。3.數(shù)據(jù)集市:QlikView、Tableau和中國的永紅數(shù)據(jù)集市。
3、大數(shù)據(jù) 時代有哪些主要特點?隨著cloud 時代的出現(xiàn),大數(shù)據(jù)受到越來越多的關注。著云臺的分析師團隊認為,Bigdata通常用于描述一家公司創(chuàng)建的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),下載到relational 數(shù)據(jù)庫進行分析會花費太多的時間和金錢。大數(shù)據(jù)分析往往與云計算聯(lián)系在一起,因為大數(shù)據(jù)集的實時分析需要MapReduce這樣的框架將工作分配給幾十臺、幾百臺甚至幾千臺計算機。