目前大數(shù)據(jù)的安全存儲采用虛擬海量存儲技術存儲數(shù)據(jù)資源,涉及數(shù)據(jù)傳輸、隔離和恢復。要解決大數(shù)據(jù)的安全存儲,首先是數(shù)據(jù)加密,大數(shù)據(jù)存儲您需要什么大數(shù)據(jù)存儲作為一個數(shù)據(jù)平臺,它不僅僅是一個用于數(shù)據(jù)存儲的設備,它需要能夠提供經(jīng)濟高效的規(guī)模和功能,消除數(shù)據(jù)遷移,沒有存儲孤島,提供全局可訪問的數(shù)據(jù)保護并保持數(shù)據(jù)可用性。
大數(shù)據(jù)技術的體系龐大而復雜,基礎技術包括數(shù)據(jù)采集、數(shù)據(jù)預處理、分布式存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算和可視化。1.數(shù)據(jù)采集和預處理:FlumeNG實時日志采集系統(tǒng)支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方進行數(shù)據(jù)采集;Zookeeper是一個分布式開源的分布式應用協(xié)調(diào)服務,提供數(shù)據(jù)同步服務。2.數(shù)據(jù)存儲:Hadoop作為開源框架,是專門為離線和大規(guī)模數(shù)據(jù)分析而設計的,HDFS作為其核心存儲引擎,已經(jīng)廣泛應用于數(shù)據(jù)存儲。
3.數(shù)據(jù)清洗:MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計算。4.數(shù)據(jù)查詢分析:Hive的核心工作是將SQL語句翻譯成MR程序,可以將結(jié)構(gòu)化數(shù)據(jù)映射到一個數(shù)據(jù)庫表中,并提供HQL(HiveSQL)查詢功能。Spark支持內(nèi)存分布式數(shù)據(jù)集,不僅可以提供交互式查詢,還可以優(yōu)化迭代工作負載。
大數(shù)據(jù)存儲應用特點及技術路線分析大數(shù)據(jù)時代,數(shù)據(jù)呈爆炸式增長。從存儲服務的發(fā)展趨勢來看,一方面,數(shù)據(jù)存儲的需求越來越大;另一方面,對數(shù)據(jù)的有效管理提出了更高的要求。大數(shù)據(jù)對存儲設備的容量、讀寫性能、可靠性、擴展性提出了更高的要求,需要充分考慮功能集成、數(shù)據(jù)安全、數(shù)據(jù)穩(wěn)定、系統(tǒng)可擴展性、性能和成本。
其共同特征可以概括為3V:量、速、變(大規(guī)模、高速度、多樣性)。大數(shù)據(jù)具有數(shù)據(jù)量大、增長快的特點。其數(shù)據(jù)規(guī)模已經(jīng)從PB級增長到EB級,并且還在根據(jù)實際應用和企業(yè)二次開發(fā)的需要不斷擴大,正在快速向ZB(ZETABYTE)的規(guī)模邁進。
3、大數(shù)據(jù)爆發(fā)性增長存儲技術面臨難題大數(shù)據(jù)存儲技術爆發(fā)式增長面臨困境。隨著大數(shù)據(jù)應用的爆炸式增長,大數(shù)據(jù)衍生出了自己獨特的架構(gòu),也直接推動了存儲、網(wǎng)絡和計算技術的發(fā)展。畢竟,處理大數(shù)據(jù)的特殊需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終是由軟件需求驅(qū)動的。大數(shù)據(jù)本身意味著需要使用標準存儲技術處理大量數(shù)據(jù)。大數(shù)據(jù)可能由TB級(甚至PB級)信息組成,既包括結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫、日志、SQL等。)和非結(jié)構(gòu)化數(shù)據(jù)(社交媒體帖子、傳感器、多媒體數(shù)據(jù))。
從目前技術的發(fā)展來看,大數(shù)據(jù)存儲技術的發(fā)展面臨以下問題:1 .容量。這里所說的“大容量”通??梢赃_到PB級的數(shù)據(jù)規(guī)模。因此,海量數(shù)據(jù)存儲系統(tǒng)也必須具備相應的擴展能力。同時,存儲系統(tǒng)的擴展必須簡單,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。“大數(shù)據(jù)”應用不僅數(shù)據(jù)規(guī)模巨大,也意味著文件數(shù)量巨大。