離線數(shù)據(jù)倉庫:Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、數(shù)據(jù)倉庫。
4、大 數(shù)據(jù)開發(fā)工程師需掌握哪些技能?1。幾個倉庫的開發(fā)。Java是必須的,但是提問不夠深入,Javase部分理解透徹,對于Java部分的面試來說足夠了。2,Hadoop生態(tài),Yarn,Zookeeper,HDFS,這些底層原理要懂,面試也經(jīng)常被問到。3,Mapreduce的洗牌過程也是面試中經(jīng)常被問到的。4、Hbase和HIve,做大數(shù)據(jù)這些東西真的沒有意義。5.Mysql,Oracle和Postgres 數(shù)據(jù) Library操作要返回,sql要會寫。
7.必須至少有一個數(shù)據(jù)Kettle或Sqoop等處理工具。8、數(shù)據(jù) 倉庫建模、數(shù)據(jù)模型問題。二、技術(shù)方面1、SparkSql和SparkStreaming,底層原理、內(nèi)核、提交任務(wù)的流程等。,盡量深入內(nèi)幕,經(jīng)常和MapReduce比較。當(dāng)然,你也應(yīng)該了解風(fēng)暴和弗林克。Flink是一個你應(yīng)該學(xué)習(xí)的建議,以后會越來越有用。
5、什么是 數(shù)據(jù) 倉庫, 數(shù)據(jù) 倉庫在哪里保存 數(shù)據(jù)。BI項目需要用到哪些技術(shù)數(shù)據(jù)倉庫或數(shù)據(jù) Library,數(shù)據(jù)它還在數(shù)據(jù)Library中。但是架構(gòu)是按照-2倉庫/庫的概念設(shè)計開發(fā)的。BI項目主要使用數(shù)據(jù) 倉庫、OLAP和。如Oracle、DB2、SQL Server、Java、Cognos、Bo、Biee、SAS、SPSS、克萊曼婷、WEKA等等。
6、sparkSQL和hive到底什么關(guān)系歷史上,數(shù)據(jù) 倉庫是由hive構(gòu)建的,所以對hive管理的數(shù)據(jù)查詢有很大的需求。Hive,shark,sparlSQL都可以查詢hive的數(shù)據(jù)。Shark是一個sql解析器和優(yōu)化器,它使用hive,并修改executor使其運行在spark上。SparkSQL使用了自己的語法解析器、優(yōu)化器和執(zhí)行器,同時sparkSQL還擴展了接口,不僅支持hive 數(shù)據(jù)的查詢,還可以查詢各種數(shù)據(jù)sources數(shù)據(jù)。
7、2分鐘讀懂大 數(shù)據(jù)框架Hadoop和Spark的異同Hadoop和Spark都是集群并行計算框架,可以做分布式計算,都是基于MapReduce并行模型。Hadoop基于磁盤計算,只有兩個操作符,map和reduce。在計算過程中,會有大量的中間結(jié)果文件登陸到磁盤上,會顯著降低運行效率。Spark基于內(nèi)存計算(一個任務(wù)會以流水線的形式在一個片上執(zhí)行,中間不分配內(nèi)存,避免很快耗盡內(nèi)存),非常適合機器學(xué)習(xí)中的迭代計算(通過在內(nèi)存中緩存RDD);
8、spark可以取代hadoop中的哪個組件MapReduce .Spark是一個基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù) set的應(yīng)用。pageRank、KMeans等算法非常適合內(nèi)存迭代計算。Spark的整個生態(tài)系統(tǒng)也在逐漸完善,比如GraphX,SparkSQL,SparkStreaming,MLlib。當(dāng)Spark有了自己的-2倉庫,就完全可以媲美Hadoop的生態(tài)系統(tǒng)了。
9、科普Spark,Spark是什么,如何使用Spark科普Spark,什么是Spark,如何使用Spark 1。Spark基于什么算法進行分布式計算(很簡單)2。Spark和MapReduce 3有什么區(qū)別?為什么Spark比Hadoop 4更靈活。Spark 5有哪些局限性。Spark1是什么?火花?它是UCBerkeleyAMPlab的開源HadoopMapRed類。Uce的通用并行計算框架,Spark的基于mapreduce算法的分布式計算,具有HadoopMapReduce的優(yōu)點;但與mapreduce不同的是,Job的中間輸出和結(jié)果可以存儲在內(nèi)存中,不需要讀寫HDFS,所以Spark可以更好地應(yīng)用于需要迭代的MapReduce算法,比如數(shù)據(jù) mining和machine learning。
10、spark從hive 數(shù)據(jù) 倉庫中讀取的 數(shù)據(jù)可以使用 sparksql進行查詢嗎1。為了讓Spark連接到Hive的原數(shù)據(jù) 倉庫因為我的Spark是自動安裝部署在這里的,所以經(jīng)過摸索,我需要知道CDH把hivesite.xml .放在哪里,這個文件的默認路徑是:/etc/hive/conf。