什么是大數(shù)據(jù)平臺(tái)?如何搭建大數(shù)據(jù)平臺(tái)?1寫SQL(很多入職一兩年的大數(shù)據(jù)工程師的主要工作就是寫SQL)2搭建集群的大數(shù)據(jù)環(huán)境(一般公司招聘大數(shù)據(jù)工程師的環(huán)境已經(jīng)搭建好了,公司內(nèi)部也會(huì)有現(xiàn)成的大數(shù)據(jù)平臺(tái),這里我就私下搭建一個(gè)測試環(huán)境。畢竟公司內(nèi)部對大數(shù)據(jù)系統(tǒng)的權(quán)限有很多限制,嚴(yán)重影響開發(fā)效率)3維護(hù)大數(shù)據(jù)平臺(tái)(這應(yīng)該是每個(gè)大數(shù)據(jù)工程師都做過的工作,或多或少會(huì)承擔(dān)“運(yùn)維”的工作)4數(shù)據(jù)遷移(有些公司需要將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫遷移到大數(shù)據(jù)集群,這是一項(xiàng)繁瑣的工作, 而且是吃力不討好的)5應(yīng)用遷移(有些公司需要將應(yīng)用從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫遷移到大數(shù)據(jù)平臺(tái), 這個(gè)過程也是一個(gè)非常繁瑣的工作,枯燥、高度重復(fù)且麻煩、吃力不討好)6數(shù)據(jù)收集(收集日志數(shù)據(jù)、文件數(shù)據(jù)和接口數(shù)據(jù),這涉及到各種格式的轉(zhuǎn)換,常用的還有fluent和Logstash)7數(shù)據(jù)處理7.1離線數(shù)據(jù)處理(這通常是指寫SQL然后扔進(jìn)Hive,其實(shí)和第一點(diǎn)有點(diǎn)重復(fù))7.2實(shí)時(shí)數(shù)據(jù)處理(這涉及。
1寫SQL(很多入職一兩年的大數(shù)據(jù)工程師的主要工作就是寫SQL)2搭建集群的大數(shù)據(jù)環(huán)境(一般公司招聘大數(shù)據(jù)工程師的環(huán)境已經(jīng)搭建好了,公司內(nèi)部也會(huì)有現(xiàn)成的大數(shù)據(jù)平臺(tái),但我這里就私底下搭建一個(gè)測試環(huán)境。畢竟公司內(nèi)部對大數(shù)據(jù)系統(tǒng)的權(quán)限有很多限制。嚴(yán)重影響開發(fā)效率)3維護(hù)大數(shù)據(jù)平臺(tái)(這應(yīng)該是每個(gè)大數(shù)據(jù)工程師都做過的工作,或多或少會(huì)承擔(dān)“運(yùn)維”的工作)4數(shù)據(jù)遷移(有些公司需要將數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)庫,如Oracle、MySQL遷移到大數(shù)據(jù)集群,這是一項(xiàng)復(fù)雜的工作。吃力不討好)5應(yīng)用遷移(有些公司需要將應(yīng)用從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫的存儲(chǔ)過程或SQL腳本遷移到大數(shù)據(jù)平臺(tái)。這個(gè)過程也很繁瑣,枯燥,高度重復(fù)而且麻煩,吃力不討好)6數(shù)據(jù)收集(收集日志數(shù)據(jù),文件數(shù)據(jù)和接口數(shù)據(jù),這涉及到各種格式的轉(zhuǎn)換,F(xiàn)lume和Logstash)7常用)7數(shù)據(jù)處理7.1離線數(shù)據(jù)處理(這個(gè)一般是寫SQL然后扔進(jìn)Hive,其實(shí)和第一點(diǎn)有點(diǎn)重復(fù))7.2實(shí)時(shí)數(shù)據(jù)處理(這涉及到消息。
平均起薪30萬的數(shù)據(jù)分析師到底在做什么?北美工作經(jīng)驗(yàn)分享。數(shù)據(jù)收集的意義在于真正了解數(shù)據(jù)的原貌,包括數(shù)據(jù)的時(shí)間、條件、模式、內(nèi)容、長度和約束條件。這將有助于大數(shù)據(jù)分析師更有針對性地控制數(shù)據(jù)生產(chǎn)和收集過程,避免因違反數(shù)據(jù)收集規(guī)則而導(dǎo)致的數(shù)據(jù)問題;數(shù)據(jù)采集邏輯的知識(shí)加在一起,增加了對數(shù)據(jù)分析師的理解,尤其是對數(shù)據(jù)異常變化的理解。
數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)分析師需要了解數(shù)據(jù)存儲(chǔ)的內(nèi)部工作機(jī)制和流程。核心是知道需求在原始數(shù)據(jù)的基礎(chǔ)上經(jīng)過了哪些處理,最終得到什么樣的數(shù)據(jù)。數(shù)據(jù)提取大數(shù)據(jù)分析師首先需要具備數(shù)據(jù)提取技能。第一層是根據(jù)條件從單個(gè)數(shù)據(jù)庫中提取數(shù)據(jù)的能力;第二層是掌握跨數(shù)據(jù)庫表提取數(shù)據(jù)的能力;第三層是優(yōu)化SQL語句,通過優(yōu)化嵌套、選擇邏輯層次和遍歷次數(shù),減少個(gè)人時(shí)間浪費(fèi)和系統(tǒng)資源消耗。