hbase,HVIE和關(guān)系型數(shù)據(jù) library有什么區(qū)別?hive是一個(gè)基于Hadoop的數(shù)據(jù) warehouse工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射到a 數(shù)據(jù)。Hadoop和傳統(tǒng)的關(guān)系型數(shù)據(jù) library(比如oraclehadoop的hdfs支持海量存儲(chǔ)數(shù)據(jù)和mapreduce支持海量存儲(chǔ)的分布式處理數(shù)據(jù) \x0d\ X0aoracle可以構(gòu)建一個(gè)集群,但是當(dāng)數(shù)據(jù)的量達(dá)到一定極限時(shí),查詢處理速度會(huì)變得很慢,機(jī)器的性能會(huì)很高,\x0d\x0a其實(shí)這兩個(gè)東西是不一樣的,hadoop是分布式云處理架構(gòu),傾向于數(shù)據(jù)計(jì)算,而oracle是關(guān)系型數(shù)據(jù)。
目前主流的數(shù)據(jù) library或者NoSQL要么選擇CAP中的AP,典型的例子就是Cassandra,要么選擇HBase等CP,這些都是目前廣泛使用的NoSQL的實(shí)現(xiàn)。我們的價(jià)值觀必須認(rèn)為未來(lái)是分配的,我們必須盡力擁有一切。大多數(shù)情況下選擇的是HA,主流頂級(jí)數(shù)據(jù) library會(huì)選擇C,分布式系統(tǒng)肯定逃不過(guò)P,所以A只能選擇HA。
目前NewSQL代表未來(lái)(GoogleSpanner,F(xiàn)1,),HBase在國(guó)內(nèi)有6個(gè)Committer,幾乎是主流開(kāi)源數(shù)據(jù) library中最強(qiáng)陣容。在選擇類型的時(shí)候會(huì)有一個(gè)猶豫,是應(yīng)該選擇HBase還是Cassandra。根據(jù)應(yīng)用場(chǎng)景,如果需要一致性,HBase一定是你的最佳選擇。我推薦HBase。它總是保持很強(qiáng)的一致性,我們非常喜歡一致性。當(dāng)我們失去一致性的時(shí)候,有些錯(cuò)誤會(huì)特別奇怪,很難發(fā)現(xiàn)。
1。數(shù)據(jù)查詢方式已經(jīng)確定,不容易更改,即hbase是在特定情況下使用,不能更改。2.告訴插入和大量閱讀。因?yàn)榉植际较到y(tǒng)在訪問(wèn)大量數(shù)據(jù)時(shí)更有優(yōu)勢(shì)。3.盡量少被數(shù)據(jù)修改。因?yàn)閔base中的數(shù)據(jù)修改知識(shí),后面加了新的一行數(shù)據(jù),意味著前面的被覆蓋了,大量的修改浪費(fèi)了很多空間。(hbase基于hdfs的存儲(chǔ)不支持修改)以淘寶為例:淘寶最近有一個(gè)瀏覽商品的功能,傳統(tǒng)的關(guān)系型數(shù)據(jù) library有以下困難:orderby 消耗大量性能;
你需要實(shí)時(shí)看到腳印,因?yàn)閿?shù)據(jù)太大,無(wú)法滿足要求。而且不能使用緩存技巧(即把一天或一個(gè)小時(shí)前對(duì)數(shù)據(jù)的處理得到的結(jié)果寫(xiě)入緩存表再交給客戶,這是沒(méi)有時(shí)效性的)。hbase,優(yōu)點(diǎn):有時(shí)間戳,適合看時(shí)間;基于行健康的查詢速度極快(行健康可以參考hbase)尤其是最新的數(shù)據(jù)可能還在memstore中,所以沒(méi)有io開(kāi)銷;分布式處理。