1。數(shù)據(jù)采集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集是第一個環(huán)節(jié)。根據(jù)MapReduce應(yīng)用系統(tǒng)的分類,大數(shù)據(jù)采集主要來自四個來源:管理信息系統(tǒng)、web信息系統(tǒng)、物理信息系統(tǒng)和科學(xué)實驗系統(tǒng)。2.數(shù)據(jù)存取:大數(shù)據(jù)的存儲和刪除采用不同的技術(shù)路線,大致可以分為三類。第一類主要針對大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。第二類主要是針對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
基礎(chǔ)設(shè)施:云存儲、分布式文件存儲等。數(shù)據(jù)處理:對于收集到的不同數(shù)據(jù)集,可能會有不同的結(jié)構(gòu)和模式,比如文件、XML樹、關(guān)系表等。,表現(xiàn)出數(shù)據(jù)的異質(zhì)性。對于多個異構(gòu)數(shù)據(jù)集,需要進一步整合或集成處理。對不同數(shù)據(jù)集的數(shù)據(jù)進行收集、整理、清洗和轉(zhuǎn)換后,生成新的數(shù)據(jù)集,為后續(xù)的查詢和分析提供統(tǒng)一的數(shù)據(jù)視圖。
5、大數(shù)據(jù)存儲需要具備什么作為一個數(shù)據(jù)平臺,大數(shù)據(jù)存儲不僅僅是一個數(shù)據(jù)存儲的設(shè)備。它需要能夠提供經(jīng)濟高效的規(guī)模和功能,消除數(shù)據(jù)遷移,沒有存儲孤島,提供全局可訪問的數(shù)據(jù)保護,并保持?jǐn)?shù)據(jù)可用性。1.提供經(jīng)濟高效的規(guī)模和功能不僅需要購買行業(yè)標(biāo)準(zhǔn)的服務(wù)器和存儲產(chǎn)品,還需要確保產(chǎn)品的可擴展性和性能。而且隨著硬件的發(fā)展,可以按需擴展,存儲系統(tǒng)需要能夠不斷滿足企業(yè)的需求,通過增加存儲系統(tǒng)來維持?jǐn)?shù)據(jù)增長的性能要求。
3.拒絕存儲孤島。為了充分利用大數(shù)據(jù)的機會,企業(yè)必須能夠訪問所有數(shù)據(jù)。為了實現(xiàn)這一目標(biāo),新的存儲平臺必須能夠滿足這一要求,并消除這些傳統(tǒng)的存儲孤島,而不是簡單地添加另一種存儲解決方案。4.提供全球管理模式。在大數(shù)據(jù)快速增長的時代,集中式數(shù)據(jù)管理模式不再可行。單點故障的成本會很高。大數(shù)據(jù)存儲平臺必須能夠管理分布在全球企業(yè)中的數(shù)據(jù)。
6、大數(shù)據(jù)時代,數(shù)據(jù)的存儲與管理有哪些要求?隨著數(shù)據(jù)時代的到來,數(shù)據(jù)的存儲有以下幾個主要要求:一是海量數(shù)據(jù)的及時有效存儲。根據(jù)現(xiàn)行的技術(shù)和預(yù)防法規(guī)和標(biāo)準(zhǔn),系統(tǒng)采集的信息應(yīng)保存不少于30天。數(shù)據(jù)量隨時間線性增長。其次,數(shù)據(jù)存儲系統(tǒng)需要具有可擴展性,既要滿足海量數(shù)據(jù)的持續(xù)增長,又要滿足獲取更高分辨率或更多采集點的數(shù)據(jù)需求。第三,對存儲系統(tǒng)的性能要求非常高。在多路并發(fā)存儲的情況下,對帶寬、數(shù)據(jù)容量、緩存等要求較高,需要針對視頻性能進行優(yōu)化。
7、第三章大數(shù)據(jù)存儲1,HDFS 1的基本特征和建筑。基本特點(1)大規(guī)模數(shù)據(jù)分布式存儲能力:分布式存儲能力和良好的可擴展性。(基于分布式節(jié)點上的大量本地文件系統(tǒng),在邏輯上構(gòu)建一個容量巨大的分布式文件系統(tǒng),整個文件系統(tǒng)的容量可以隨著集群中節(jié)點的增加而線性擴展)(2)高并發(fā)訪問能力:提供高數(shù)據(jù)訪問寬帶(高數(shù)據(jù)吞吐量),帶寬可以等比例擴展到集群中的所有節(jié)點。(3)容錯性強:(設(shè)計理念上把硬件故障視為常態(tài))保證在節(jié)點硬件故障頻繁的情況下,能夠正確檢測到硬件故障,并能自動快速從故障中恢復(fù)。保證數(shù)據(jù)不丟失(以多副本數(shù)據(jù)塊的形式存儲)(4)順序文件訪問:(大數(shù)據(jù)批量處理是大量簡單數(shù)據(jù)記錄的順序處理)順序讀取經(jīng)過優(yōu)化,支持大量數(shù)據(jù)的快速順序讀取,代價是隨機訪問負(fù)載高(5)簡單一致性模型(一寫多次讀取):支持大量數(shù)據(jù)的一寫多次讀取;不支持寫入數(shù)據(jù)的更新操作,但可以在文件末尾添加新數(shù)據(jù)(6)塊存儲模式:默認(rèn)塊大小為64MB。
8、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲的區(qū)別無關(guān)聯(lián)性大數(shù)據(jù)是海量數(shù)據(jù),是現(xiàn)狀,是解決問題的手段。傳統(tǒng)的數(shù)據(jù)存儲是一個存儲問題,大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)有什么區(qū)別?主要區(qū)別在于,大數(shù)據(jù)現(xiàn)在包括了非結(jié)構(gòu)化數(shù)據(jù),可以從各種數(shù)據(jù)中提取有用的信息,比如電子郵件、日志文件、社交多媒體、商業(yè)交易等數(shù)據(jù)。例如,存儲在數(shù)據(jù)庫中的連鎖零售店中商品的銷售圖表數(shù)據(jù),這些數(shù)據(jù)的獲取在大數(shù)據(jù)的范疇里不是問題。