original 數(shù)據(jù)通過一系列數(shù)據(jù)代理的處理、分割、讀取、傳輸,有這么多環(huán)節(jié)(如果采用多級代理,中間環(huán)節(jié)會更多),最后放到hdfs個人認(rèn)為在數(shù)據(jù)的量比較少(幾百,幾十g)的時候,腳本自己提交給hdfs就已經(jīng)相當(dāng)不錯了,并沒有體現(xiàn)出所謂的分布式日志收集的優(yōu)勢。當(dāng)數(shù)據(jù)的量急劇上升T級或更高時,可能反映flumeng。
自6、 flume攔截器是什么設(shè)計模式
learning flume以來,實現(xiàn)了多源日志的自動提取和多目標(biāo)的自動傳輸,但數(shù)據(jù) 清洗的進(jìn)程一直是在hadoop中用MR程序清洗進(jìn)行的。有沒有辦法直接在flume中編程匹配相關(guān)的數(shù)據(jù)數(shù)據(jù),過濾掉不標(biāo)準(zhǔn)的臟數(shù)據(jù),所以決定打這個/。從攔截正文開始,定制攔截器編程,完成每個正文字符串解析字段的規(guī)則提取和拼接。我們定制的類叫做LogAnalysis如下:packagecom。besttone.interceptorimport com . Google . common . base . charsets;import com . Google . common . collect . lists;import org . Apache . commons . lang . string utils;importorg.apache. flume。語境;importorg.apache. flume。事件;。
7、Flume快速入門Flume是一個開源的日志系統(tǒng)。它是一個分布式、可靠、高可用的海量日志聚合系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù) senders,用于收集數(shù)據(jù);同時,F(xiàn)Lume提供了簡單處理數(shù)據(jù)和編寫各種數(shù)據(jù)接收器(可自定義)的能力。FLume是一個流日志收集工具。Flume提供了簡單處理數(shù)據(jù)并寫入各種數(shù)據(jù)接收者(可定制)的能力。Flume提供了從本地文件(spoolingdirectorysource)、實時日志(taildir、exec)、REST消息、Thift、Avro等下載的能力。
代理是水槽分布式系統(tǒng)中的核心角色,水槽采集系統(tǒng)由代理連接。每個代理相當(dāng)于一個數(shù)據(jù)deliver,里面有三個組成部分:把數(shù)據(jù)從信源到信道再到信宿的傳遞形式是一個事件;事件Event是一個數(shù)據(jù)流單元。Flume基礎(chǔ)設(shè)施:Flume可以直接從單個節(jié)點收集數(shù)據(jù),主要用于集群數(shù)據(jù)。
-2/的收款是大數(shù)據(jù)業(yè)務(wù)處理中非常重要的一步。很多公司的平臺每天都會產(chǎn)生大量的日志(一般是streaming 數(shù)據(jù),比如搜索引擎的pv和查詢),處理這些日志需要特定的日志系統(tǒng)。一般來說,這些系統(tǒng)需要具備以下特點:Flume是Cloudera公司開發(fā)的高可用、高可靠的分布式海量日志收集、聚合和傳輸系統(tǒng),于2009年捐贈給。
因為數(shù)據(jù)的來源是可定制的,所以Flume可以用來傳輸大量的事件數(shù)據(jù),包括但不限于網(wǎng)絡(luò)流量數(shù)據(jù)、社交媒體生成的數(shù)據(jù)、電子郵件消息以及幾乎任何可能的。類似Flume的開源框架有臉書的Scribe、Apache的Chukwa、阿里巴巴的TimeTunnel等,F(xiàn)lume中有一個或多個代理。對于每個代理,它都是一個獨立的守護(hù)進(jìn)程(JVM),它從客戶端或其他代理接收集合,然后將獲得的數(shù)據(jù)快速傳輸?shù)较乱粋€目的節(jié)點sink或代理。