什么是大數(shù)據(jù)?什么是大數(shù)據(jù)?什么是大數(shù)據(jù)時(shí)代?什么是大數(shù)據(jù),它的目的是什么?這個(gè)定義有兩個(gè)內(nèi)涵:第一,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集規(guī)模是變化的,會(huì)隨著時(shí)間的推移和技術(shù)的進(jìn)步而增長(zhǎng);什么是大數(shù)據(jù)?大數(shù)據(jù)是指在一定時(shí)間范圍內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)集合。根據(jù)麥肯錫公司2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》報(bào)告,大數(shù)據(jù)是指規(guī)模超過(guò)典型數(shù)據(jù)庫(kù)軟件收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。
“大數(shù)據(jù)”的研究機(jī)構(gòu)1、大數(shù)據(jù)的定義
Gartner給出了這樣的定義?!按髷?shù)據(jù)”是一種信息資產(chǎn),需要新的處理模式來(lái)?yè)碛懈鼜?qiáng)的決策、洞察和流程優(yōu)化能力,以適應(yīng)海量、高增長(zhǎng)率和多樣化。麥肯錫全球研究院給出的定義是:規(guī)模遠(yuǎn)遠(yuǎn)超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具在獲取、存儲(chǔ)、管理和分析方面能力的數(shù)據(jù)集,具有數(shù)據(jù)規(guī)模海量、數(shù)據(jù)流動(dòng)迅速、數(shù)據(jù)類型多樣、價(jià)值密度低四大特征。
換句話說(shuō),如果把大數(shù)據(jù)比作一個(gè)行業(yè),那么這個(gè)行業(yè)盈利的關(guān)鍵就在于提高數(shù)據(jù)的“處理能力”,通過(guò)“處理”實(shí)現(xiàn)數(shù)據(jù)的“增值”。從技術(shù)上講,大數(shù)據(jù)和云計(jì)算的關(guān)系就像硬幣的正反面一樣密不可分。大數(shù)據(jù)不能由單臺(tái)計(jì)算機(jī)處理,必須采用分布式架構(gòu)。其特點(diǎn)是對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依賴云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)。
1。大數(shù)據(jù),也稱巨量數(shù)據(jù),是有價(jià)值的信息資產(chǎn)的集合,具有高增長(zhǎng)率和多樣化的特點(diǎn)。不僅包括數(shù)字,還包括圖片、文字、視頻、交互記錄等等。傳統(tǒng)軟件工具無(wú)法在可承受的時(shí)間范圍內(nèi)捕獲、處理和管理大數(shù)據(jù)。它有四個(gè)特點(diǎn):明亮、高速、多樣、有價(jià)值。主要用于計(jì)算機(jī)中,其最小單位是位。2.大數(shù)據(jù)可以說(shuō)是云計(jì)算不斷發(fā)展的產(chǎn)物。同時(shí),它必須依靠云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)來(lái)分發(fā)海量數(shù)據(jù)。
經(jīng)過(guò)處理后,這些信息中的一部分將被轉(zhuǎn)換成規(guī)則的信息結(jié)構(gòu),以便進(jìn)行分析,從而有利于企業(yè)的營(yíng)銷甚至國(guó)家安全。大數(shù)據(jù)的四個(gè)“V”,或者說(shuō)特征,有四個(gè)層次:一是數(shù)據(jù)量巨大。從TB級(jí)跳到PB級(jí);第二,數(shù)據(jù)類型多。前面提到的博客、視頻、圖片、地理信息等等。第三,處理速度快,一秒定律可以快速?gòu)母黝悢?shù)據(jù)中獲取高價(jià)值信息,這也是與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的本質(zhì)區(qū)別。
3、什么是大數(shù)據(jù)及其用途是什么?大數(shù)據(jù)(Big data)也稱巨量數(shù)據(jù),是指涉及的數(shù)據(jù)量巨大到無(wú)法通過(guò)人腦甚至主流軟件工具捕捉、管理、處理和組織的信息,以幫助企業(yè)在合理的時(shí)間內(nèi)做出更加積極的決策。如今,數(shù)據(jù)的生產(chǎn)變得更加容易。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心曾指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年會(huì)增長(zhǎng)50%,每?jī)赡攴环?。目前世界?0%以上的數(shù)據(jù)都是近幾年才產(chǎn)生的。
4、什么是大數(shù)據(jù)時(shí)代?大數(shù)據(jù)是指在一定時(shí)期內(nèi),其內(nèi)容無(wú)法被常規(guī)軟件工具抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)是指從各類數(shù)據(jù)中快速獲取有價(jià)值信息的能力。“大數(shù)據(jù)”時(shí)代正在從全球知名咨詢公司麥肯錫走來(lái)。麥肯錫表示:“數(shù)據(jù)已經(jīng)滲透到當(dāng)今每個(gè)行業(yè)和商業(yè)功能領(lǐng)域,成為重要的生產(chǎn)要素。人們對(duì)海量數(shù)據(jù)的挖掘和應(yīng)用,預(yù)示著新一波生產(chǎn)力增長(zhǎng)和消費(fèi)者剩余的到來(lái)。
5、大數(shù)據(jù)是什么?bigdata是英文bigdata的直譯,也叫巨量數(shù)據(jù)或巨大數(shù)據(jù)。根據(jù)麥肯錫公司2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》報(bào)告,大數(shù)據(jù)是指規(guī)模超過(guò)典型數(shù)據(jù)庫(kù)軟件收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。這個(gè)定義有兩個(gè)內(nèi)涵:第一,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集規(guī)模是變化的,會(huì)隨著時(shí)間的推移和技術(shù)的進(jìn)步而增長(zhǎng);
6、什么是大數(shù)據(jù)大數(shù)據(jù)是指在一定時(shí)間范圍內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)(Bigdata),或稱巨量數(shù)據(jù),是指涉及的數(shù)據(jù)量大到無(wú)法被當(dāng)前主流軟件工具捕捉、管理、處理和整理,以幫助企業(yè)在合理的時(shí)間內(nèi)做出更加積極的商業(yè)決策的信息,(在維克多·邁耶、勛伯格和肯尼斯·庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代》中,大數(shù)據(jù)是指利用所有數(shù)據(jù)而不是隨機(jī)分析的捷徑(抽樣調(diào)查)的方法[2])大數(shù)據(jù)的4V特征是:體量(海量)、速度(高速)、多樣性(多樣性)和價(jià)值(價(jià)值)。