“大數(shù)據(jù)”這個美國政府最早強(qiáng)調(diào)美國國家戰(zhàn)略和美國國家重要性的概念,確實是美國最先提出的,但是付諸行動了。最早應(yīng)用于經(jīng)濟(jì)金融領(lǐng)域,分析股市,逐漸滲透到各行各業(yè),甚至應(yīng)用于體育運動中的俱樂部候選人,但是,從來沒有聽說過,原因很簡單,應(yīng)用large 數(shù)據(jù)的前提是有足夠多的數(shù)據(jù)可以收集,但樣本有相似性。顯然,國防領(lǐng)域不具備應(yīng)用大數(shù)據(jù)技術(shù)的基礎(chǔ)。
是,Da 數(shù)據(jù)采集和預(yù)處理在Da 數(shù)據(jù)生命周期,數(shù)據(jù)采集處于第一個環(huán)節(jié)。根據(jù)MapReduce生成的應(yīng)用系統(tǒng)分類,獲取大數(shù)據(jù)主要有四個來源。管理信息系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實驗系統(tǒng)。不同的數(shù)據(jù)套企業(yè)可以有不同的結(jié)構(gòu)。例如文件、XML、關(guān)系表等。,在多個異構(gòu)的數(shù)據(jù)套中使用,需要進(jìn)一步整合,容易從不同的數(shù)據(jù)套中購買。
針對管理信息系統(tǒng)中的異構(gòu)數(shù)據(jù)庫集成技術(shù),Web信息系統(tǒng)中的實體識別技術(shù)和DeepWeb集成技術(shù)。傳感器網(wǎng)絡(luò)信息數(shù)據(jù)融合開發(fā)技術(shù)一直是許多問題的主要工作,并取得了很大的進(jìn)展,推出了多種數(shù)據(jù)清洗和質(zhì)量管理控制工具。比如美國SAS公司的DataFlux,美國IBM公司的DataStag,美國Informatica公司的InformaticaPowerCenter。
在很多人眼里,Big 數(shù)據(jù)可能是一個模糊的概念,但在我們的日常生活中,Big 數(shù)據(jù)離我們很近,我們不再時時刻刻享受Big 數(shù)據(jù)帶來的便利、個性化和人性化。全面的了解數(shù)據(jù)我們應(yīng)該從四個方面進(jìn)行簡單的了解。定義,結(jié)構(gòu)特點,我們身邊的大數(shù)據(jù)有哪些,大數(shù)據(jù)帶來了什么,這四個方面都了解了。那么“Da 數(shù)據(jù)”到底是什么呢?在麥肯錫全球研究所給出的定義中指出:大型數(shù)據(jù)是一個龐大到在獲取、存儲、管理和分析方面大大超過傳統(tǒng)數(shù)據(jù)庫軟件工具能力的集合。
數(shù)據(jù)的單位一般以PB為單位。那么PB有多大呢?1GB1024MB,1PB1024GB足以稱得上大數(shù)據(jù)。如圖:計量單位列表其次,Da 數(shù)據(jù),有什么特點和結(jié)構(gòu)?綜合來看,Da 數(shù)據(jù)分為四個特點。第一,豐富。計量單位是PB級,存儲內(nèi)容很多。第二,高速。大數(shù)據(jù)在采集速度和分析速度上需要及時快速。保證短時間內(nèi)有更多的人收到信息。