hbase,HVIE和關系型數(shù)據(jù) library有什么區(qū)別?hive是一個基于Hadoop的數(shù)據(jù) warehouse工具,可以將結構化的數(shù)據(jù)文件映射到a 數(shù)據(jù)。Hadoop和傳統(tǒng)的關系型數(shù)據(jù) library(比如oraclehadoop的hdfs支持海量存儲數(shù)據(jù)和mapreduce支持海量存儲的分布式處理數(shù)據(jù) \x0d\ X0aoracle可以構建一個集群,但是當數(shù)據(jù)的量達到一定極限時,查詢處理速度會變得很慢,機器的性能會很高,\x0d\x0a其實這兩個東西是不一樣的,hadoop是分布式云處理架構,傾向于數(shù)據(jù)計算,而oracle是關系型數(shù)據(jù)。
目前主流的數(shù)據(jù) library或者NoSQL要么選擇CAP中的AP,典型的例子就是Cassandra,要么選擇HBase等CP,這些都是目前廣泛使用的NoSQL的實現(xiàn)。我們的價值觀必須認為未來是分配的,我們必須盡力擁有一切。大多數(shù)情況下選擇的是HA,主流頂級數(shù)據(jù) library會選擇C,分布式系統(tǒng)肯定逃不過P,所以A只能選擇HA。
目前NewSQL代表未來(GoogleSpanner,F(xiàn)1,),HBase在國內有6個Committer,幾乎是主流開源數(shù)據(jù) library中最強陣容。在選擇類型的時候會有一個猶豫,是應該選擇HBase還是Cassandra。根據(jù)應用場景,如果需要一致性,HBase一定是你的最佳選擇。我推薦HBase。它總是保持很強的一致性,我們非常喜歡一致性。當我們失去一致性的時候,有些錯誤會特別奇怪,很難發(fā)現(xiàn)。
1。數(shù)據(jù)查詢方式已經(jīng)確定,不容易更改,即hbase是在特定情況下使用,不能更改。2.告訴插入和大量閱讀。因為分布式系統(tǒng)在訪問大量數(shù)據(jù)時更有優(yōu)勢。3.盡量少被數(shù)據(jù)修改。因為hbase中的數(shù)據(jù)修改知識,后面加了新的一行數(shù)據(jù),意味著前面的被覆蓋了,大量的修改浪費了很多空間。(hbase基于hdfs的存儲不支持修改)以淘寶為例:淘寶最近有一個瀏覽商品的功能,傳統(tǒng)的關系型數(shù)據(jù) library有以下困難:orderby 消耗大量性能;
你需要實時看到腳印,因為數(shù)據(jù)太大,無法滿足要求。而且不能使用緩存技巧(即把一天或一個小時前對數(shù)據(jù)的處理得到的結果寫入緩存表再交給客戶,這是沒有時效性的)。hbase,優(yōu)點:有時間戳,適合看時間;基于行健康的查詢速度極快(行健康可以參考hbase)尤其是最新的數(shù)據(jù)可能還在memstore中,所以沒有io開銷;分布式處理。