大數(shù)據(jù)基于云計算架構(gòu),以服務(wù)的形式提供數(shù)據(jù)存儲和運營。目前大數(shù)據(jù)的安全存儲采用虛擬海量存儲技術(shù)存儲數(shù)據(jù)資源,涉及數(shù)據(jù)傳輸、隔離和恢復(fù)。要解決大數(shù)據(jù)的安全存儲,首先是數(shù)據(jù)加密。在大數(shù)據(jù)安全服務(wù)的設(shè)計中,可以根據(jù)數(shù)據(jù)安全存儲的要求,將大數(shù)據(jù)存儲在數(shù)據(jù)集的任意存儲空間中,并通過SSL(SecureSocketsLayer)加密,實現(xiàn)大數(shù)據(jù)在數(shù)據(jù)集的節(jié)點和應(yīng)用之間的移動保護。
應(yīng)用隱私保護和外包數(shù)據(jù)計算來屏蔽網(wǎng)絡(luò)攻擊。目前PGP、TrueCrypt等程序都提供了強大的加密功能。第二是將密鑰從加密數(shù)據(jù)中分離出來。使用加密將數(shù)據(jù)使用與數(shù)據(jù)存儲分開,并將密鑰與要保護的數(shù)據(jù)分開。同時定義了密鑰管理的生成、存儲、備份和恢復(fù)等生命周期。三是使用濾鏡。通過過濾器的監(jiān)控,一旦發(fā)現(xiàn)數(shù)據(jù)離開了用戶的網(wǎng)絡(luò),就會自動阻止數(shù)據(jù)再次傳輸。
5、大數(shù)據(jù)解決方案主要用于存儲哪種類型的數(shù)據(jù)?大數(shù)據(jù)解決方案主要用于存儲二進制數(shù)據(jù)。數(shù)據(jù)還包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),電子郵件、Word、圖片、音頻信息、視頻信息等各種類型的數(shù)據(jù),這些都不是以前的關(guān)系數(shù)據(jù)庫所能解決的。非結(jié)構(gòu)化數(shù)據(jù)的超規(guī)模和增長占總數(shù)據(jù)的80~90%,比結(jié)構(gòu)化數(shù)據(jù)增長快10 ~ 50倍,比傳統(tǒng)數(shù)據(jù)倉庫快10 ~ 50倍。大數(shù)據(jù)的特點:海量數(shù)據(jù)有不同的格式。首先是結(jié)構(gòu)化數(shù)據(jù),也就是我們常見的,半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)和非結(jié)構(gòu)化的視音頻數(shù)據(jù)。
6、大數(shù)據(jù)時代,數(shù)據(jù)的存儲與管理有哪些要求?隨著數(shù)據(jù)時代的到來,數(shù)據(jù)的存儲有以下幾個主要要求:一是海量數(shù)據(jù)的及時有效存儲。根據(jù)現(xiàn)行的技術(shù)和預(yù)防法規(guī)和標(biāo)準(zhǔn),系統(tǒng)采集的信息應(yīng)保存不少于30天。數(shù)據(jù)量隨時間線性增長。其次,數(shù)據(jù)存儲系統(tǒng)需要具有可擴展性,既要滿足海量數(shù)據(jù)的持續(xù)增長,又要滿足獲取更高分辨率或更多采集點的數(shù)據(jù)需求。第三,對存儲系統(tǒng)的性能要求非常高。在多路并發(fā)存儲的情況下,對帶寬、數(shù)據(jù)容量、緩存等要求較高,需要針對視頻性能進行優(yōu)化。
7、 大數(shù)據(jù)存儲需要具備什么大數(shù)據(jù)存儲作為一個數(shù)據(jù)平臺,它不僅是一個用于數(shù)據(jù)存儲的設(shè)備,還需要能夠提供經(jīng)濟高效的規(guī)模和能力,消除數(shù)據(jù)遷移,沒有存儲孤島,提供全局可訪問的數(shù)據(jù)保護并保持?jǐn)?shù)據(jù)可用性。1.提供經(jīng)濟高效的規(guī)模和功能不僅需要購買行業(yè)標(biāo)準(zhǔn)的服務(wù)器和存儲產(chǎn)品,還需要確保產(chǎn)品的可擴展性和性能。而且隨著硬件的發(fā)展,可以按需擴展,存儲系統(tǒng)需要能夠不斷滿足企業(yè)的需求,通過增加存儲系統(tǒng)來維持?jǐn)?shù)據(jù)增長的性能要求。
3.拒絕存儲孤島。為了充分利用大數(shù)據(jù)的機會,企業(yè)必須能夠訪問所有數(shù)據(jù)。為了實現(xiàn)這一目標(biāo),新的存儲平臺必須能夠滿足這一要求,并消除這些傳統(tǒng)的存儲孤島,而不是簡單地添加另一種存儲解決方案。4.提供全球管理模式。在大數(shù)據(jù)快速增長的時代,集中式數(shù)據(jù)管理模式不再可行。單點故障的成本會很高。A 大數(shù)據(jù)存儲平臺必須能夠管理分布在全球企業(yè)中的數(shù)據(jù)。
8、常見的基于列存儲的大數(shù)據(jù)數(shù)據(jù)庫有哪些(大數(shù)據(jù)的數(shù)據(jù)存取采用什么數(shù)據(jù)庫...目前大數(shù)據(jù)存儲有兩種方案可供選擇:行存儲和列存儲業(yè)界對兩種存儲方案的爭論很多,焦點是:誰能更有效地處理海量數(shù)據(jù),并兼顧安全性、可靠性和完整性。從目前的發(fā)展情況來看,關(guān)系數(shù)據(jù)庫已經(jīng)不適應(yīng)這種巨大的存儲容量和計算需求,基本上被幾個已知的大數(shù)據(jù)處理軟件淘汰。Hadoop的HBase使用列存儲,MongoDB使用基于文檔的行存儲,Lexst在這里使用二進制行存儲。我不討論這些軟件的技術(shù)和優(yōu)缺點,只圍繞機械磁盤的物理特性分析行存儲和列存儲的存儲特點,以及由此產(chǎn)生的一些問題和解決方法。
9、第三章 大數(shù)據(jù)存儲1,HDFS 1的基本特征和建筑。基本特點(1)大規(guī)模數(shù)據(jù)分布式存儲能力:分布式存儲能力和良好的可擴展性,(基于分布式節(jié)點上的大量本地文件系統(tǒng),在邏輯上構(gòu)建一個容量巨大的分布式文件系統(tǒng),整個文件系統(tǒng)的容量可以隨著集群中節(jié)點的增加而線性擴展)(2)高并發(fā)訪問能力:提供高數(shù)據(jù)訪問寬帶(高數(shù)據(jù)吞吐量),帶寬可以等比例擴展到集群中的所有節(jié)點。(3)容錯性強:(設(shè)計理念上把硬件故障視為常態(tài))保證在節(jié)點硬件故障頻繁的情況下,能夠正確檢測到硬件故障,并能自動快速從故障中恢復(fù),保證數(shù)據(jù)不丟失(以多副本數(shù)據(jù)塊的形式存儲)(4)順序文件訪問:(大數(shù)據(jù)批量處理是大量簡單數(shù)據(jù)記錄的順序處理)順序讀取經(jīng)過優(yōu)化,支持大量數(shù)據(jù)的快速順序讀取,代價是隨機訪問負載高(5)簡單一致性模型(一寫多次讀取):支持大量數(shù)據(jù)的一寫多次讀??;不支持寫入數(shù)據(jù)的更新操作,但可以在文件末尾添加新數(shù)據(jù)(6)塊存儲模式:默認塊大小為64MB。