理解大數(shù)據(jù)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù):如何理解大數(shù)據(jù)時(shí)代?大數(shù)據(jù)的來(lái)源有哪些?大數(shù)據(jù)分析的數(shù)據(jù)來(lái)源有很多,包括公司或機(jī)構(gòu)的內(nèi)部來(lái)源和外部來(lái)源。大數(shù)據(jù)的由來(lái)大數(shù)據(jù)這個(gè)名字來(lái)源于托夫勒寫的《第三次浪潮》,如何理解大數(shù)據(jù)的概念?大數(shù)據(jù)是指在一定時(shí)間內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)集合,它是一種海量、高增長(zhǎng)、多元化的信息資產(chǎn),需要新的處理模式來(lái)?yè)碛懈鼜?qiáng)的決策、洞察和流程優(yōu)化能力,簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)就是海量數(shù)據(jù),即數(shù)據(jù)量大、來(lái)源廣、類型多(日志、視頻、音頻),最高可達(dá)PB級(jí)別。這個(gè)階段的框架是解決PB級(jí)的數(shù)據(jù)。
大數(shù)據(jù)時(shí)代:全球知名咨詢公司麥肯錫率先提出大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)在物理、生物、環(huán)境生態(tài)以及軍事、金融、通信等行業(yè)領(lǐng)域已經(jīng)存在了一段時(shí)間,但卻是因?yàn)榻陙?lái)互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展才引起人們的關(guān)注。大數(shù)據(jù)背景:2012年,大數(shù)據(jù)這個(gè)詞被越來(lái)越多的提及。人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名相關(guān)的技術(shù)發(fā)展和創(chuàng)新。
數(shù)據(jù)在迅速膨脹變大,決定了企業(yè)未來(lái)的發(fā)展。雖然很多企業(yè)可能沒(méi)有意識(shí)到數(shù)據(jù)爆炸式增長(zhǎng)帶來(lái)的隱患,但是隨著時(shí)間的推移,人們會(huì)越來(lái)越意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性。正如《紐約時(shí)報(bào)》在2012年2月的一篇專欄文章中所說(shuō),“大數(shù)據(jù)”時(shí)代已經(jīng)到來(lái),在商業(yè)、經(jīng)濟(jì)和其他領(lǐng)域,將根據(jù)數(shù)據(jù)和分析做出決策,而不是根據(jù)經(jīng)驗(yàn)和直覺(jué)。
什么是大數(shù)據(jù)?在很多人眼里,大數(shù)據(jù)可能是一個(gè)很模糊的概念,但是在日常生活中,大數(shù)據(jù)離我們很近,我們不再時(shí)時(shí)刻刻享受著大數(shù)據(jù)帶來(lái)的便利、個(gè)性化和人性化。要全面理解大數(shù)據(jù),應(yīng)該簡(jiǎn)單地從四個(gè)方面來(lái)理解。定義,結(jié)構(gòu)特征,我們身邊有什么大數(shù)據(jù),大數(shù)據(jù)帶來(lái)了什么,這四個(gè)方面都懂了。那么到底什么是“大數(shù)據(jù)”呢?麥肯錫全球研究所給出的定義中指出,大數(shù)據(jù)是一種數(shù)據(jù)集合,其規(guī)模之大,大大超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具在獲取、存儲(chǔ)、管理和分析方面的能力。
大數(shù)據(jù)的單位一般以PB來(lái)衡量。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱得上大數(shù)據(jù)。如圖:計(jì)量單位列表其次,大數(shù)據(jù)的特點(diǎn)和結(jié)構(gòu)是什么?大數(shù)據(jù)整體分為四個(gè)特征。第一,數(shù)量大。計(jì)量單位是PB級(jí),存儲(chǔ)內(nèi)容很多。第二,高速。大數(shù)據(jù)在獲取速度和分析速度上需要及時(shí)快速。保證短時(shí)間內(nèi)有更多的人收到信息。
3、大數(shù)據(jù)的起源是金融還是公共管理,互聯(lián)網(wǎng)大數(shù)據(jù)的概念是近幾年才興起的,但早在1980年,著名未來(lái)學(xué)家托夫勒就在其著作《第三次浪潮》中熱情地將“大數(shù)據(jù)”譽(yù)為“第三次浪潮的華彩樂(lè)章”。大數(shù)據(jù)的概念最初起源于美國(guó),由思科、維爾軟件、甲骨文、IBM等公司發(fā)展而來(lái)。大約從2009年開始,“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的熱門詞匯。大數(shù)據(jù)是一個(gè)不斷發(fā)展的概念,目前的興起是因?yàn)閺腎T技術(shù)到數(shù)據(jù)積累的重大變化。