hive主要針對(duì)OLAP應(yīng)用,其底層是hdfs分布式文件系統(tǒng),專(zhuān)注于一個(gè)統(tǒng)一的查詢(xún)分析層,支持OLAP應(yīng)用中各種相關(guān)、分組、聚合的SQL語(yǔ)句。hive一般只用于查詢(xún)、分析和統(tǒng)計(jì),不能是常用的CUD操作。要知道HIVE需要從現(xiàn)有的數(shù)據(jù)庫(kù)或日志中同步,最后導(dǎo)入到hdfs文件系統(tǒng)中。目前要實(shí)現(xiàn)增量實(shí)時(shí)同步還是相當(dāng)困難的。
5、為什么使用Hive?Hive提供了什么?Hive支持哪些用戶(hù)為什么要用Hive?為什么要用Hive?那么,在哪里使用Hive呢?將60億行(經(jīng)度,維度,時(shí)間,數(shù)據(jù)值,高度)數(shù)據(jù)集加載到MySQL后,系統(tǒng)崩潰,出現(xiàn)數(shù)據(jù)丟失。這可能部分是因?yàn)槲覀冏畛醯牟呗允菍⑺袛?shù)據(jù)存儲(chǔ)在一個(gè)表中。后來(lái),我們調(diào)整了策略,按照數(shù)據(jù)集和參數(shù)來(lái)劃分表,這有所幫助,但也引入了額外的消耗,這不是我們想要接受的。
我們安裝了Hive0.5 20,使用了CDHv3和ApacheHadoop(0202 320)。CDHv3還包含許多其他相關(guān)工具,包括Sqoop和Hue,它們都在我們的架構(gòu)中進(jìn)行了標(biāo)識(shí),如圖233底部所示。我們使用ApacheSqoop將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到Hive中,然后編寫(xiě)一個(gè)ApacheOODT包裝器,使Hive根據(jù)空間/時(shí)間約束查詢(xún)數(shù)據(jù),然后將結(jié)果提供給RCMET和其他用戶(hù)(如圖232中間部分所示)。
6、 hive怎么實(shí)現(xiàn)update操作數(shù)據(jù)更新是比較常見(jiàn)的操作,然后數(shù)據(jù)倉(cāng)庫(kù)的概念一般要求數(shù)據(jù)是完整穩(wěn)定的。HIVE作為分布式環(huán)境下HDFS支持的數(shù)據(jù)倉(cāng)庫(kù),也要求數(shù)據(jù)不可變。然而,在現(xiàn)實(shí)中的許多任務(wù)中,經(jīng)常需要更新數(shù)據(jù)。經(jīng)過(guò)調(diào)查,Hive從0.11版本開(kāi)始就提供了更新操作。于是我就想著試一試,看看蜂巢更新的操作和性能。
7、有幾點(diǎn)關(guān)于hadoop的 hive數(shù)據(jù)倉(cāng)庫(kù)和hbase幾點(diǎn)疑惑,希望有高手可以幫忙...首先我感覺(jué)你有點(diǎn)亂。你先了解數(shù)據(jù)倉(cāng)庫(kù)的功能——存儲(chǔ)歷史數(shù)據(jù)——然后分析數(shù)據(jù),只提供查詢(xún)——不提供修改1。Hive的目標(biāo)是做數(shù)據(jù)倉(cāng)庫(kù),所以它提供了SQL和文件表映射,而且因?yàn)镠ive是基于HDFS的,所以它不提供更新,因?yàn)镠DFS本身不支持。2.HBase是NoSQL數(shù)據(jù)庫(kù)-所以不要把它和傳統(tǒng)混為一談-NoSQL提供了另一種滿(mǎn)足高性能需求的思路,而這些都是傳統(tǒng)數(shù)據(jù)庫(kù)-的缺點(diǎn),與傳統(tǒng)數(shù)據(jù)庫(kù)-的概念不同。
8、 hive的設(shè)計(jì)特征Hive是一個(gè)底層封裝Hadoop的數(shù)據(jù)倉(cāng)庫(kù)處理工具。它使用類(lèi)似SQL的HiveQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢(xún),所有的Hive數(shù)據(jù)都存儲(chǔ)在Hadoop兼容的文件系統(tǒng)中(例如HDFS的AmazonS3)。Hive在加載數(shù)據(jù)的過(guò)程中不會(huì)修改數(shù)據(jù),只會(huì)將數(shù)據(jù)移動(dòng)到HDFS Hive設(shè)置的目錄中。因此,Hive不支持重寫(xiě)和添加數(shù)據(jù),所有數(shù)據(jù)都是在加載時(shí)確定的。
●支持索引,加快數(shù)據(jù)查詢(xún)?!癫煌拇鎯?chǔ)類(lèi)型,如純文本文件和HBase中的文件,●將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中,大大減少了查詢(xún)過(guò)程中語(yǔ)義檢查的時(shí)間。●可以直接使用Hadoop文件系統(tǒng)存儲(chǔ)的數(shù)據(jù),●內(nèi)置大量用戶(hù)函數(shù)UDF來(lái)操作時(shí)間、字符串等數(shù)據(jù)挖掘工具,支持用戶(hù)擴(kuò)展UDF函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。