Da 數(shù)據(jù)又稱為Huge 數(shù)據(jù)和Huge 數(shù)據(jù),由數(shù)據(jù)組成,數(shù)量龐大,結(jié)構(gòu)復(fù)雜,類型多樣。基于云計(jì)算的數(shù)據(jù)處理和應(yīng)用模式,通過數(shù)據(jù)的整合和共享,形成智力資源和知識服務(wù)能力?!癉a 數(shù)據(jù)”是一項(xiàng)海量、高增長、多元化的信息資產(chǎn),需要新的處理模式來擁有更強(qiáng)的決策力、洞察力和發(fā)現(xiàn)力以及流程優(yōu)化能力。換句話說,Da 數(shù)據(jù)就是利用數(shù)據(jù)分析的技術(shù),對冗雜的數(shù)據(jù)進(jìn)行分析整理,快速篩選出有價(jià)值的信息。
百度數(shù)據(jù)顯示,其新首頁導(dǎo)航每天需要提供數(shù)據(jù)1.5 Pb(1pb 1024 TB)以上,這些數(shù)據(jù)如果打印將超過5000億張A4紙。經(jīng)證實(shí),到目前為止,人類生產(chǎn)的所有印刷品的數(shù)據(jù)的量只有200PB。第二,數(shù)據(jù)有各種類型。目前數(shù)據(jù)的類型不僅僅是文字形式,還有圖片、視頻、音頻、地理信息等類型數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對多數(shù)。第三,處理速度快。
4、什么是大 數(shù)據(jù)?Da 數(shù)據(jù)什么事?其實(shí)很簡單。Big 數(shù)據(jù)實(shí)際上是一個(gè)海量的數(shù)據(jù),它來自于數(shù)據(jù)在世界各地隨時(shí)生成。在大數(shù)據(jù)的時(shí)代,任何微小的數(shù)據(jù)都可能有不可思議的價(jià)值。大數(shù)據(jù)有四個(gè)特點(diǎn),分別是:成交量(量大)、品種(品種)、速度(高速)、價(jià)值(價(jià)值),我們一般稱之為4V。所謂4V具體指以下四點(diǎn):1。數(shù)量很大。
隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)開始爆發(fā)。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動(dòng)網(wǎng)絡(luò)、各種智能工具和服務(wù)工具都成為了數(shù)據(jù)的來源。淘寶近4億會(huì)員每天產(chǎn)生商品交易數(shù)據(jù)約20TB;大約有10億臉書用戶每天生成超過300TB的日志。智能的算法,強(qiáng)大的數(shù)據(jù)處理平臺(tái),新的數(shù)據(jù)處理技術(shù),迫切需要對如此大規(guī)模的數(shù)據(jù)進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)、分析、預(yù)測和處理。
5、什么是大 數(shù)據(jù)Da 數(shù)據(jù)技術(shù)是指從各類數(shù)據(jù)中快速獲取有價(jià)值信息的能力。適合大型數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP) 數(shù)據(jù)庫、數(shù)據(jù)礦用電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)等。大數(shù)據(jù)有以下四個(gè)特點(diǎn):第一,數(shù)據(jù)巨大。比如人類生產(chǎn)的所有印刷品的量數(shù)據(jù)只有200PB。典型的個(gè)人電腦硬盤容量在TB量級,而一些大型企業(yè)的數(shù)據(jù)容量接近EB量級。
目前數(shù)據(jù)的類型不僅僅是文字形式,還有圖片、視頻、音頻、地理信息等類型數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對多數(shù)。第三,處理速度快。數(shù)據(jù)處理遵循“1秒定律”,從各類數(shù)據(jù)中可以快速獲取高價(jià)值信息。第四,價(jià)值密度低。以視頻為例。一個(gè)小時(shí)的視頻在持續(xù)測試過程中可能只有一兩秒有用數(shù)據(jù)的。