數(shù)據(jù)存儲:公司需要存儲將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。3.大數(shù)據(jù)存儲與管理技術(shù)大數(shù)據(jù)存儲與管理的主要目的是將采集到的數(shù)據(jù)用內(nèi)存存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進行管理和調(diào)用,常見的基于列存儲的大數(shù)據(jù)數(shù)據(jù)庫有哪些(大數(shù)據(jù)的數(shù)據(jù)訪問使用哪些數(shù)據(jù)庫...目前大數(shù)據(jù)存儲有行存儲和列存儲兩種選擇,焦點是:誰能更有效地處理海量數(shù)據(jù),并兼顧安全性、可靠性和完整性?從目前的發(fā)展情況來看,關(guān)系數(shù)據(jù)庫已經(jīng)不適應(yīng)這種巨大的存儲容量和計算需求,基本消除了。在幾個已知的大數(shù)據(jù)處理軟件中,Hadoop的HBase采用列存儲,MongoDB采用基于文檔的行存儲,Lexst采用二進制行存儲,我不討論這些軟件的技術(shù)和優(yōu)缺點,只圍繞機械磁盤的物理特性分析行存儲和列存儲的存儲特點,以及由此產(chǎn)生的一些問題和解決方法。
大數(shù)據(jù)的關(guān)鍵技術(shù)涵蓋了數(shù)據(jù)存儲、處理、應(yīng)用等多個方面。按照大數(shù)據(jù)的處理流程,可以分為大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展示等。1.大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集技術(shù)是指通過RFID數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等獲取各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)。
2.大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)主要是指對接收到的數(shù)據(jù)進行分析、提取、清洗、填充、平滑、合并、歸一化、檢查一致性等操作。由于獲得的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取的主要目的是將這些復雜的數(shù)據(jù)轉(zhuǎn)化為單一的或易于處理的結(jié)構(gòu),從而達到快速分析和處理的目的。3.大數(shù)據(jù)存儲與管理技術(shù)大數(shù)據(jù)存儲與管理的主要目的是將采集到的數(shù)據(jù)用內(nèi)存存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進行管理和調(diào)用。
數(shù)據(jù)源:所有的大數(shù)據(jù)架構(gòu)都是從源代碼開始的。這可以包括來自數(shù)據(jù)庫的數(shù)據(jù)、來自實時源(如物聯(lián)網(wǎng)設(shè)備)的數(shù)據(jù)以及從應(yīng)用程序生成的靜態(tài)文件(如Windows日志)。實時消息接收:如果有實時源,需要在架構(gòu)中構(gòu)建一種機制來接收數(shù)據(jù)。數(shù)據(jù)存儲:公司需要存儲將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。一般來說,數(shù)據(jù)會存儲在一個數(shù)據(jù)湖中,這是一個大型的非結(jié)構(gòu)化數(shù)據(jù)庫,可以很容易地擴展。
這是因為批處理可以用來有效處理大量數(shù)據(jù),而實時數(shù)據(jù)需要立即處理才能帶來價值。批處理涉及長時間運行的作業(yè),用于篩選、聚合和準備數(shù)據(jù)以供分析。分析數(shù)據(jù)存儲:待分析的數(shù)據(jù)準備好后,需要放在一個地方,方便整個數(shù)據(jù)集的分析。分析數(shù)據(jù)存儲的必要性是公司的所有數(shù)據(jù)都聚集在一個地方,所以它的分析會是全面的,優(yōu)化的是分析而不是交易。
3、大數(shù)據(jù)的核心技術(shù)有哪些大數(shù)據(jù)技術(shù)的體系龐大而復雜,基礎(chǔ)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算和可視化。1.數(shù)據(jù)采集和預(yù)處理:FlumeNG實時日志采集系統(tǒng)支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方進行數(shù)據(jù)采集;Zookeeper是一個分布式開源的分布式應(yīng)用協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。2.數(shù)據(jù)存儲:Hadoop作為開源框架,是專門為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計的,HDFS作為其核心存儲引擎,已經(jīng)廣泛應(yīng)用于數(shù)據(jù)存儲。