數(shù)據(jù)存儲(chǔ):公司需要存儲(chǔ)將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。3.大數(shù)據(jù)存儲(chǔ)與管理技術(shù)大數(shù)據(jù)存儲(chǔ)與管理的主要目的是將采集到的數(shù)據(jù)用內(nèi)存存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用,常見的基于列存儲(chǔ)的大數(shù)據(jù)數(shù)據(jù)庫有哪些(大數(shù)據(jù)的數(shù)據(jù)訪問使用哪些數(shù)據(jù)庫...目前大數(shù)據(jù)存儲(chǔ)有行存儲(chǔ)和列存儲(chǔ)兩種選擇,焦點(diǎn)是:誰能更有效地處理海量數(shù)據(jù),并兼顧安全性、可靠性和完整性?從目前的發(fā)展情況來看,關(guān)系數(shù)據(jù)庫已經(jīng)不適應(yīng)這種巨大的存儲(chǔ)容量和計(jì)算需求,基本消除了。在幾個(gè)已知的大數(shù)據(jù)處理軟件中,Hadoop的HBase采用列存儲(chǔ),MongoDB采用基于文檔的行存儲(chǔ),Lexst采用二進(jìn)制行存儲(chǔ),我不討論這些軟件的技術(shù)和優(yōu)缺點(diǎn),只圍繞機(jī)械磁盤的物理特性分析行存儲(chǔ)和列存儲(chǔ)的存儲(chǔ)特點(diǎn),以及由此產(chǎn)生的一些問題和解決方法。
大數(shù)據(jù)的關(guān)鍵技術(shù)涵蓋了數(shù)據(jù)存儲(chǔ)、處理、應(yīng)用等多個(gè)方面。按照大數(shù)據(jù)的處理流程,可以分為大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展示等。1.大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集技術(shù)是指通過RFID數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等獲取各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)。
2.大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)主要是指對接收到的數(shù)據(jù)進(jìn)行分析、提取、清洗、填充、平滑、合并、歸一化、檢查一致性等操作。由于獲得的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取的主要目的是將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或易于處理的結(jié)構(gòu),從而達(dá)到快速分析和處理的目的。3.大數(shù)據(jù)存儲(chǔ)與管理技術(shù)大數(shù)據(jù)存儲(chǔ)與管理的主要目的是將采集到的數(shù)據(jù)用內(nèi)存存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。
數(shù)據(jù)源:所有的大數(shù)據(jù)架構(gòu)都是從源代碼開始的。這可以包括來自數(shù)據(jù)庫的數(shù)據(jù)、來自實(shí)時(shí)源(如物聯(lián)網(wǎng)設(shè)備)的數(shù)據(jù)以及從應(yīng)用程序生成的靜態(tài)文件(如Windows日志)。實(shí)時(shí)消息接收:如果有實(shí)時(shí)源,需要在架構(gòu)中構(gòu)建一種機(jī)制來接收數(shù)據(jù)。數(shù)據(jù)存儲(chǔ):公司需要存儲(chǔ)將通過大數(shù)據(jù)架構(gòu)處理的數(shù)據(jù)。一般來說,數(shù)據(jù)會(huì)存儲(chǔ)在一個(gè)數(shù)據(jù)湖中,這是一個(gè)大型的非結(jié)構(gòu)化數(shù)據(jù)庫,可以很容易地?cái)U(kuò)展。
這是因?yàn)榕幚砜梢杂脕碛行幚泶罅繑?shù)據(jù),而實(shí)時(shí)數(shù)據(jù)需要立即處理才能帶來價(jià)值。批處理涉及長時(shí)間運(yùn)行的作業(yè),用于篩選、聚合和準(zhǔn)備數(shù)據(jù)以供分析。分析數(shù)據(jù)存儲(chǔ):待分析的數(shù)據(jù)準(zhǔn)備好后,需要放在一個(gè)地方,方便整個(gè)數(shù)據(jù)集的分析。分析數(shù)據(jù)存儲(chǔ)的必要性是公司的所有數(shù)據(jù)都聚集在一個(gè)地方,所以它的分析會(huì)是全面的,優(yōu)化的是分析而不是交易。
3、大數(shù)據(jù)的核心技術(shù)有哪些大數(shù)據(jù)技術(shù)的體系龐大而復(fù)雜,基礎(chǔ)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、并行計(jì)算和可視化。1.數(shù)據(jù)采集和預(yù)處理:FlumeNG實(shí)時(shí)日志采集系統(tǒng)支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送方進(jìn)行數(shù)據(jù)采集;Zookeeper是一個(gè)分布式開源的分布式應(yīng)用協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。2.數(shù)據(jù)存儲(chǔ):Hadoop作為開源框架,是專門為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,HDFS作為其核心存儲(chǔ)引擎,已經(jīng)廣泛應(yīng)用于數(shù)據(jù)存儲(chǔ)。