數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù):大數(shù)據(jù)時代如何理解?什么是大數(shù)據(jù)時代?大數(shù)據(jù)時代和傳統(tǒng)數(shù)據(jù)有什么區(qū)別?如何理解今天時代是“大數(shù)據(jù)時代”?Bigdata 時代簡介大數(shù)據(jù)通常用來描述一個公司創(chuàng)建的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),下載到關(guān)系型數(shù)據(jù)庫進(jìn)行分析會耗費(fèi)太多的時間和金錢。
大數(shù)據(jù)時代:大數(shù)據(jù)最早提出時代它來自于世界知名的咨詢公司麥肯錫。大數(shù)據(jù)在物理、生物、環(huán)境生態(tài)、軍事、金融、通信等行業(yè)領(lǐng)域已經(jīng)存在了一段時間,但卻是因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展才引起人們的關(guān)注。大數(shù)據(jù)背景:2012年,大數(shù)據(jù)這個詞被越來越多的提及。人們用它來描述和定義信息爆炸產(chǎn)生的海量數(shù)據(jù)時代,并命名相關(guān)的技術(shù)發(fā)展和創(chuàng)新。
數(shù)據(jù)在迅速膨脹變大,決定了企業(yè)未來的發(fā)展。雖然很多企業(yè)可能沒有意識到數(shù)據(jù)爆炸式增長帶來的隱患,但是隨著時間的推移,人們會越來越意識到數(shù)據(jù)對企業(yè)的重要性。正如《紐約時報》在2012年2月的一篇專欄文章中所說,“大數(shù)據(jù)”時代已經(jīng)到來。在商業(yè)、經(jīng)濟(jì)和其他領(lǐng)域,決策將基于數(shù)據(jù)和分析,而不是基于經(jīng)驗(yàn)和直覺。
hadoop本身就是一個分布式框架。如果是在Hadoop框架下,需要配合hbase、hive等工具進(jìn)行大數(shù)據(jù)計(jì)算。再深入一點(diǎn),還要了解HDFS、Map/Rece、任務(wù)機(jī)制等等。如果要分析,還要考慮其他的分析和呈現(xiàn)工具。大數(shù)據(jù)只有經(jīng)過分析才有價值。用于分析大數(shù)據(jù)的工具主要有開源和商業(yè)生態(tài)系統(tǒng)。開源大數(shù)據(jù)生態(tài)系統(tǒng):1。HadoopHDFS,
2.Hypertable是一個替代方案。它存在于Hadoop生態(tài)系統(tǒng)之外,但曾經(jīng)有過一些用戶。3.NoSQL,membase,MongoDb商業(yè)大數(shù)據(jù)生態(tài)系統(tǒng):1。一體機(jī)數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza)、SAPHana等。2.數(shù)據(jù)倉庫:EMCGreenPlum、HPVertica等。3.數(shù)據(jù)集市:QlikView、Tableau和中國的永紅數(shù)據(jù)集市。
3、大數(shù)據(jù) 時代有哪些主要特點(diǎn)?隨著cloud 時代的出現(xiàn),大數(shù)據(jù)受到越來越多的關(guān)注。著云臺的分析師團(tuán)隊(duì)認(rèn)為,Bigdata通常用于描述一家公司創(chuàng)建的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),下載到relational 數(shù)據(jù)庫進(jìn)行分析會花費(fèi)太多的時間和金錢。大數(shù)據(jù)分析往往與云計(jì)算聯(lián)系在一起,因?yàn)榇髷?shù)據(jù)集的實(shí)時分析需要MapReduce這樣的框架將工作分配給幾十臺、幾百臺甚至幾千臺計(jì)算機(jī)。