hive創(chuàng)新數(shù)據(jù)庫(kù),HIVE數(shù)據(jù)庫(kù)

來(lái)源：整理時(shí)間：2023-08-09 11:23:10 編輯：聰明地手機(jī)版

hive主要針對(duì)OLAP應(yīng)用，其底層是hdfs分布式文件系統(tǒng)，專(zhuān)注于一個(gè)統(tǒng)一的查詢(xún)分析層，支持OLAP應(yīng)用中各種相關(guān)、分組、聚合的SQL語(yǔ)句。hive一般只用于查詢(xún)、分析和統(tǒng)計(jì)，不能是常用的CUD操作。要知道HIVE需要從現(xiàn)有的數(shù)據(jù)庫(kù)或日志中同步，最后導(dǎo)入到hdfs文件系統(tǒng)中。目前要實(shí)現(xiàn)增量實(shí)時(shí)同步還是相當(dāng)困難的。

5、為什么使用Hive?Hive提供了什么?Hive支持哪些用戶(hù)

為什么要用Hive？為什么要用Hive？那么，在哪里使用Hive呢？將60億行(經(jīng)度，維度，時(shí)間，數(shù)據(jù)值，高度)數(shù)據(jù)集加載到MySQL后，系統(tǒng)崩潰，出現(xiàn)數(shù)據(jù)丟失。這可能部分是因?yàn)槲覀冏畛醯牟呗允菍⑺袛?shù)據(jù)存儲(chǔ)在一個(gè)表中。后來(lái)，我們調(diào)整了策略，按照數(shù)據(jù)集和參數(shù)來(lái)劃分表，這有所幫助，但也引入了額外的消耗，這不是我們想要接受的。

我們安裝了Hive0.5 20，使用了CDHv3和ApacheHadoop(0202 320)。CDHv3還包含許多其他相關(guān)工具，包括Sqoop和Hue，它們都在我們的架構(gòu)中進(jìn)行了標(biāo)識(shí)，如圖233底部所示。我們使用ApacheSqoop將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到Hive中，然后編寫(xiě)一個(gè)ApacheOODT包裝器，使Hive根據(jù)空間/時(shí)間約束查詢(xún)數(shù)據(jù)，然后將結(jié)果提供給RCMET和其他用戶(hù)(如圖232中間部分所示)。

6、 hive怎么實(shí)現(xiàn)update操作

數(shù)據(jù)更新是比較常見(jiàn)的操作，然后數(shù)據(jù)倉(cāng)庫(kù)的概念一般要求數(shù)據(jù)是完整穩(wěn)定的。HIVE作為分布式環(huán)境下HDFS支持的數(shù)據(jù)倉(cāng)庫(kù)，也要求數(shù)據(jù)不可變。然而，在現(xiàn)實(shí)中的許多任務(wù)中，經(jīng)常需要更新數(shù)據(jù)。經(jīng)過(guò)調(diào)查，Hive從0.11版本開(kāi)始就提供了更新操作。于是我就想著試一試，看看蜂巢更新的操作和性能。

7、有幾點(diǎn)關(guān)于hadoop的 hive數(shù)據(jù)倉(cāng)庫(kù)和hbase幾點(diǎn)疑惑,希望有高手可以幫忙...

首先我感覺(jué)你有點(diǎn)亂。你先了解數(shù)據(jù)倉(cāng)庫(kù)的功能——存儲(chǔ)歷史數(shù)據(jù)——然后分析數(shù)據(jù)，只提供查詢(xún)——不提供修改1。Hive的目標(biāo)是做數(shù)據(jù)倉(cāng)庫(kù)，所以它提供了SQL和文件表映射，而且因?yàn)镠ive是基于HDFS的，所以它不提供更新，因?yàn)镠DFS本身不支持。2.HBase是NoSQL數(shù)據(jù)庫(kù)-所以不要把它和傳統(tǒng)混為一談-NoSQL提供了另一種滿(mǎn)足高性能需求的思路，而這些都是傳統(tǒng)數(shù)據(jù)庫(kù)-的缺點(diǎn)，與傳統(tǒng)數(shù)據(jù)庫(kù)-的概念不同。

8、 hive的設(shè)計(jì)特征

Hive是一個(gè)底層封裝Hadoop的數(shù)據(jù)倉(cāng)庫(kù)處理工具。它使用類(lèi)似SQL的HiveQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢(xún)，所有的Hive數(shù)據(jù)都存儲(chǔ)在Hadoop兼容的文件系統(tǒng)中(例如HDFS的AmazonS3)。Hive在加載數(shù)據(jù)的過(guò)程中不會(huì)修改數(shù)據(jù)，只會(huì)將數(shù)據(jù)移動(dòng)到HDFS Hive設(shè)置的目錄中。因此，Hive不支持重寫(xiě)和添加數(shù)據(jù)，所有數(shù)據(jù)都是在加載時(shí)確定的。

●支持索引，加快數(shù)據(jù)查詢(xún)?！癫煌拇鎯?chǔ)類(lèi)型，如純文本文件和HBase中的文件，●將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中，大大減少了查詢(xún)過(guò)程中語(yǔ)義檢查的時(shí)間。●可以直接使用Hadoop文件系統(tǒng)存儲(chǔ)的數(shù)據(jù)，●內(nèi)置大量用戶(hù)函數(shù)UDF來(lái)操作時(shí)間、字符串等數(shù)據(jù)挖掘工具，支持用戶(hù)擴(kuò)展UDF函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。