large 數(shù)據(jù)是指在一定時(shí)間范圍內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)的集合。它是一種海量、高增長(zhǎng)、多元化的信息資產(chǎn),需要一種新的處理模式來(lái)?yè)碛懈鼜?qiáng)的決策力、洞察力和發(fā)現(xiàn)力以及流程優(yōu)化能力。簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)是海量數(shù)據(jù),即數(shù)據(jù)數(shù)量大、來(lái)源廣、種類(lèi)多(日志、視頻、音頻),大到PB級(jí)別,目前的框架是解決PB級(jí)別。Da 數(shù)據(jù),七大特性:大眾性、多樣性、高速性、可變性、真實(shí)性、復(fù)雜性、價(jià)值性。隨著Da 數(shù)據(jù) industry的發(fā)展,逐漸從一個(gè)高端的、理論性的概念演變?yōu)榫唧w的、實(shí)踐性的概念。
5、人人都在說(shuō)大 數(shù)據(jù),那大 數(shù)據(jù)概念是怎么產(chǎn)生的Da 數(shù)據(jù)什么事?在很多人眼里,“大”數(shù)據(jù)可能是一個(gè)模糊的概念,但在日常生活中,“大”數(shù)據(jù)離我們很近,我們不再時(shí)時(shí)刻刻享受“大”數(shù)據(jù)帶來(lái)的便利、個(gè)性化和人性化。全面的了解數(shù)據(jù)我們應(yīng)該從四個(gè)方面進(jìn)行簡(jiǎn)單的了解。定義,結(jié)構(gòu)特點(diǎn),我們身邊的大數(shù)據(jù)有哪些,大數(shù)據(jù)帶來(lái)了什么,這四個(gè)方面都了解了。那么“Da 數(shù)據(jù)”到底是什么呢?在麥肯錫全球研究所給出的定義中指出:大型數(shù)據(jù)是一個(gè)龐大到大大超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具在采集、存儲(chǔ)、管理和分析方面的能力的集合。
數(shù)據(jù)的單位一般以PB為單位。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱(chēng)得上大數(shù)據(jù)。如圖:計(jì)量單位列表其次,Da 數(shù)據(jù),有什么特點(diǎn)和結(jié)構(gòu)?綜合來(lái)看,Da 數(shù)據(jù)分為四個(gè)特點(diǎn)。第一,豐富。計(jì)量單位是PB級(jí),存儲(chǔ)內(nèi)容很多。第二,高速。大數(shù)據(jù)在采集速度和分析速度上需要及時(shí)快速。保證短時(shí)間內(nèi)有更多的人收到信息。
6、什么是“大 數(shù)據(jù)”,如何理解“大 數(shù)據(jù)”Da 數(shù)據(jù)的定義。大數(shù)據(jù),也稱(chēng)巨量數(shù)據(jù),是指數(shù)據(jù)中涉及的信息大到無(wú)法被人腦甚至主流軟件工具在合理的時(shí)間內(nèi)捕捉、管理、處理和排列,以幫助企業(yè)做出更積極的商業(yè)決策。Da 數(shù)據(jù)的特點(diǎn)。數(shù)據(jù)大,數(shù)據(jù)種類(lèi)多,要求實(shí)時(shí)性強(qiáng),數(shù)據(jù)價(jià)值大。各行各業(yè)都有大數(shù)據(jù)但是大量的信息和咨詢(xún)比較復(fù)雜,需要我們?nèi)ニ阉?、加工、分析、歸納、總結(jié)其深層次的規(guī)律。
隨著科技和互聯(lián)網(wǎng)的發(fā)展,“大-2”的時(shí)代正在到來(lái),各行各業(yè)每天都在產(chǎn)生大量的數(shù)據(jù)碎片。數(shù)據(jù)的計(jì)量單位從字節(jié)、KB、MB、GB、TB發(fā)展到PB、EB、ZB。大數(shù)據(jù)Times數(shù)據(jù)的集合已經(jīng)不是技術(shù)問(wèn)題了,只是面對(duì)這么多數(shù)據(jù),怎么才能找到其內(nèi)在規(guī)律呢?Da 數(shù)據(jù)的開(kāi)挖和處理。大數(shù)據(jù)不是人腦能估計(jì)的,也不是單臺(tái)計(jì)算機(jī)能處理的。它必須采用分布式計(jì)算架構(gòu),依靠分布式處理、分布式/庫(kù)、云存儲(chǔ)和云計(jì)算的虛擬化技術(shù)。因此,大數(shù)據(jù)的挖掘和處理必須使用云技術(shù)。
7、 數(shù)據(jù)量大概達(dá)到多少時(shí)需要用大型 數(shù)據(jù)庫(kù)(如oracle樓上的朋友說(shuō)的沒(méi)錯(cuò),但是我覺(jué)得除了容量之外還要考慮業(yè)務(wù)的重要性(幾十GB差不多,如果是很重要的業(yè)務(wù)就用的很少)。比如這個(gè)業(yè)務(wù)需要很高的持續(xù)性,等等。一個(gè)表有超過(guò)一百萬(wàn)條記錄。無(wú)法滿(mǎn)足業(yè)務(wù)需求時(shí)(性能需求、安全需求、備份需求、容災(zāi)需求)。年份數(shù)據(jù)數(shù)量超過(guò)30G。
“大數(shù)據(jù)”的研究機(jī)構(gòu)8、大 數(shù)據(jù)的定義
Gartner給出了這樣的定義?!癉a 數(shù)據(jù)”是一種信息資產(chǎn),它需要新的處理模式,以具有更強(qiáng)的決策、洞察和流程優(yōu)化能力,以適應(yīng)大規(guī)模、高增長(zhǎng)率和多樣化。麥肯錫全球研究院給出的定義是:在采集、存儲(chǔ)、管理和分析方面遠(yuǎn)遠(yuǎn)超出傳統(tǒng)數(shù)據(jù)圖書(shū)館軟件工具能力的大型數(shù)據(jù)館藏,具有海量數(shù)據(jù)規(guī)模和快速-2。
換句話(huà)說(shuō),如果把Da 數(shù)據(jù)比作一個(gè)行業(yè),那么這個(gè)行業(yè)實(shí)現(xiàn)盈利的關(guān)鍵就在于提高數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。從技術(shù)上來(lái)說(shuō),Da 數(shù)據(jù)和云計(jì)算的關(guān)系就像一枚硬幣的兩面一樣密不可分。大型數(shù)據(jù)無(wú)法由單臺(tái)計(jì)算機(jī)處理,必須采用分布式架構(gòu)。其特點(diǎn)在于海量數(shù)據(jù)的分布式挖掘。但它必須依靠云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)。
9、大 數(shù)據(jù)時(shí)代,我國(guó) 數(shù)據(jù)量究竟有多大1 Big 數(shù)據(jù)的崛起預(yù)示著信息時(shí)代將進(jìn)入一個(gè)新的階段。1.看大數(shù)據(jù)有歷史眼光。與農(nóng)業(yè)和工業(yè)時(shí)代相比,信息時(shí)代是一個(gè)相當(dāng)長(zhǎng)的時(shí)期。不同時(shí)期的生產(chǎn)要素和社會(huì)發(fā)展動(dòng)力有明顯的差異。信息時(shí)代標(biāo)志性的技術(shù)發(fā)明是數(shù)字計(jì)算機(jī)、集成電路、光纖通信和互聯(lián)網(wǎng)(萬(wàn)維網(wǎng))。雖然媒體上對(duì)數(shù)據(jù) times的談?wù)摵芏?,但是?shù)據(jù)和云計(jì)算等新技術(shù)尚未取得可與上述劃時(shí)代的技術(shù)發(fā)明相媲美的技術(shù)突破,難以形成超越信息時(shí)代的新時(shí)代。
通過(guò)考察和分析100多年的漫長(zhǎng)歷史,可以發(fā)現(xiàn)信息時(shí)代和工業(yè)時(shí)代的發(fā)展規(guī)律有很多相似之處。電氣化時(shí)代提高生產(chǎn)力的過(guò)程與信息時(shí)代驚人的相似。擴(kuò)散儲(chǔ)備20~30年后才明顯增加,分界線(xiàn)分別為1915年和1995年。我猜想,21世紀(jì)的前30年,可能是信息技術(shù)在經(jīng)過(guò)幾十年的擴(kuò)散和存儲(chǔ)后,提高生產(chǎn)力的黃金時(shí)代。1.2從信息時(shí)代新階段的高度看,中國(guó)已經(jīng)進(jìn)入信息時(shí)代,但很多人的思想還停留在工業(yè)時(shí)代。
10、 數(shù)據(jù)庫(kù) 數(shù)據(jù)量有多大查詢(xún)一個(gè)表的總大小(單位MB,包括表的索引和數(shù)據(jù),假設(shè)表的模式為,表名為):select PG _ size _ pretty(PG _ total _ relationship _ size( . ));查詢(xún)表的數(shù)據(jù)size(MB,不含索引,假設(shè)表模式為,表名為):select pg _ size _ pretty(pg _ relation _ size( . ));查詢(xún)分區(qū)表中所有分區(qū)的總大小(MB,包括表的索引和數(shù)據(jù),假設(shè)表的模式為,表名為):selectschemaname。