“大數(shù)據(jù)”這個(gè)美國(guó)政府最早強(qiáng)調(diào)美國(guó)國(guó)家戰(zhàn)略和美國(guó)國(guó)家重要性的概念,確實(shí)是美國(guó)最先提出的,但是付諸行動(dòng)了。最早應(yīng)用于經(jīng)濟(jì)金融領(lǐng)域,分析股市,逐漸滲透到各行各業(yè),甚至應(yīng)用于體育運(yùn)動(dòng)中的俱樂(lè)部候選人,但是,從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò),原因很簡(jiǎn)單,應(yīng)用large 數(shù)據(jù)的前提是有足夠多的數(shù)據(jù)可以收集,但樣本有相似性。顯然,國(guó)防領(lǐng)域不具備應(yīng)用大數(shù)據(jù)技術(shù)的基礎(chǔ)。
是,Da 數(shù)據(jù)采集和預(yù)處理在Da 數(shù)據(jù)生命周期,數(shù)據(jù)采集處于第一個(gè)環(huán)節(jié)。根據(jù)MapReduce生成的應(yīng)用系統(tǒng)分類(lèi),獲取大數(shù)據(jù)主要有四個(gè)來(lái)源。管理信息系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)。不同的數(shù)據(jù)套企業(yè)可以有不同的結(jié)構(gòu)。例如文件、XML、關(guān)系表等。,在多個(gè)異構(gòu)的數(shù)據(jù)套中使用,需要進(jìn)一步整合,容易從不同的數(shù)據(jù)套中購(gòu)買(mǎi)。
針對(duì)管理信息系統(tǒng)中的異構(gòu)數(shù)據(jù)庫(kù)集成技術(shù),Web信息系統(tǒng)中的實(shí)體識(shí)別技術(shù)和DeepWeb集成技術(shù)。傳感器網(wǎng)絡(luò)信息數(shù)據(jù)融合開(kāi)發(fā)技術(shù)一直是許多問(wèn)題的主要工作,并取得了很大的進(jìn)展,推出了多種數(shù)據(jù)清洗和質(zhì)量管理控制工具。比如美國(guó)SAS公司的DataFlux,美國(guó)IBM公司的DataStag,美國(guó)Informatica公司的InformaticaPowerCenter。
在很多人眼里,Big 數(shù)據(jù)可能是一個(gè)模糊的概念,但在我們的日常生活中,Big 數(shù)據(jù)離我們很近,我們不再時(shí)時(shí)刻刻享受Big 數(shù)據(jù)帶來(lái)的便利、個(gè)性化和人性化。全面的了解數(shù)據(jù)我們應(yīng)該從四個(gè)方面進(jìn)行簡(jiǎn)單的了解。定義,結(jié)構(gòu)特點(diǎn),我們身邊的大數(shù)據(jù)有哪些,大數(shù)據(jù)帶來(lái)了什么,這四個(gè)方面都了解了。那么“Da 數(shù)據(jù)”到底是什么呢?在麥肯錫全球研究所給出的定義中指出:大型數(shù)據(jù)是一個(gè)龐大到在獲取、存儲(chǔ)、管理和分析方面大大超過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力的集合。
數(shù)據(jù)的單位一般以PB為單位。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱(chēng)得上大數(shù)據(jù)。如圖:計(jì)量單位列表其次,Da 數(shù)據(jù),有什么特點(diǎn)和結(jié)構(gòu)?綜合來(lái)看,Da 數(shù)據(jù)分為四個(gè)特點(diǎn)。第一,豐富。計(jì)量單位是PB級(jí),存儲(chǔ)內(nèi)容很多。第二,高速。大數(shù)據(jù)在采集速度和分析速度上需要及時(shí)快速。保證短時(shí)間內(nèi)有更多的人收到信息。