什么是分布式數(shù)據(jù)庫?分布式數(shù)據(jù)庫簡(jiǎn)介分布式數(shù)據(jù)庫是指由高速計(jì)算機(jī)網(wǎng)絡(luò)連接的多個(gè)物理上分散的數(shù)據(jù)存儲(chǔ)單元組成的邏輯上統(tǒng)一的數(shù)據(jù)庫。近年來,隨著數(shù)據(jù)的快速增長(zhǎng),分布式數(shù)據(jù)庫技術(shù)也得到了迅速發(fā)展,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)開始從集中式模式向分布式架構(gòu)發(fā)展,基于關(guān)系數(shù)據(jù)庫的分布式數(shù)據(jù)庫在保留傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)模型和基本特征的同時(shí),從集中式存儲(chǔ)轉(zhuǎn)變?yōu)榉植际酱鎯?chǔ),從集中式計(jì)算轉(zhuǎn)變?yōu)榉植际接?jì)算。
一個(gè)完整的大數(shù)據(jù)平臺(tái)應(yīng)該提供離線計(jì)算、即席查詢、實(shí)時(shí)計(jì)算和實(shí)時(shí)查詢。Hadoop、spark和storm無法單獨(dú)完成上述所有功能。Hadoop spark hive是個(gè)不錯(cuò)的選擇。hadoop的HDFS無疑是分布式文件系統(tǒng)的解決方案,解決了存儲(chǔ)問題。Hadoopmapreduce、hive、sparkapplication、sparkSQL解決了離線計(jì)算和即席查詢的問題。Sparkstreaming解決了實(shí)時(shí)計(jì)算的問題;此外,還需要HBase或Redis等NOSQL技術(shù)來解決實(shí)時(shí)查詢的問題。
hadoop一般用于冷數(shù)據(jù)處理。對(duì)于實(shí)時(shí)數(shù)據(jù),如果你必須使用它,你可以用不同的方式使用它。方法一:在hadoop上使用hbase數(shù)據(jù)庫,以為hbase不帶Map/Rece,所以操作在毫秒級(jí)別。方法二:業(yè)務(wù)數(shù)據(jù)按程序分為實(shí)時(shí)數(shù)據(jù)和冷數(shù)據(jù),實(shí)時(shí)數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,冷數(shù)據(jù)存儲(chǔ)在hadoop中。例如,將最近一個(gè)月的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,以便實(shí)時(shí)響應(yīng)業(yè)務(wù)處理。
【答案】:d分布式數(shù)據(jù)的目標(biāo)是:本地自治、分散管理、高可用、位置獨(dú)立、數(shù)據(jù)分片獨(dú)立、數(shù)據(jù)復(fù)制獨(dú)立、分布式查詢處理、分布式事務(wù)管理、硬件獨(dú)立、操作系統(tǒng)獨(dú)立、網(wǎng)絡(luò)獨(dú)立和數(shù)據(jù)庫管理系統(tǒng)獨(dú)立。并行數(shù)據(jù)庫的目標(biāo)是高性能和高可用性,通過多個(gè)處理節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫任務(wù),可以提高整個(gè)數(shù)據(jù)庫系統(tǒng)的性能和可用性。
4、通過Internet及瀏覽器處理的數(shù)據(jù)庫,應(yīng)該是分布式。分布式系統(tǒng)是指硬件或軟件組件分布在不同的網(wǎng)絡(luò)計(jì)算機(jī)上,僅通過消息傳遞來相互通信和協(xié)調(diào)的系統(tǒng)。正是因?yàn)檐浖奶匦?,分布式系統(tǒng)具有高度的內(nèi)聚性和透明性。所以網(wǎng)絡(luò)和分布式系統(tǒng)的區(qū)別更多的在于高級(jí)軟件(尤其是操作系統(tǒng))而不是硬件。擴(kuò)展數(shù)據(jù):分布式計(jì)算是近年來提出的一種新的計(jì)算方法。所謂分布式計(jì)算,就是兩個(gè)或兩個(gè)以上的軟件互相共享信息。這些軟件可以在同一臺(tái)計(jì)算機(jī)上運(yùn)行,也可以在通過網(wǎng)絡(luò)連接的多臺(tái)計(jì)算機(jī)上運(yùn)行。
5、NewSQL分布式數(shù)據(jù)庫發(fā)展策略討論作者石本文探討了新一代NewSQL分布式數(shù)據(jù)庫開發(fā)策略中的共性問題,包括CloudNative和OnPremise、的發(fā)展方向、分布式和單機(jī)需求等分布式數(shù)據(jù)庫業(yè)務(wù)和技術(shù)發(fā)展中難以決策的問題。1.分布式NewSQL數(shù)據(jù)庫近年來蓬勃發(fā)展的原因顯而易見:它切中了業(yè)務(wù)和數(shù)據(jù)日益增長(zhǎng)的用戶對(duì)關(guān)系數(shù)據(jù)庫RDBMS的需求,而在從傳統(tǒng)RDBMS到大數(shù)據(jù)的發(fā)展階段,關(guān)系數(shù)據(jù)庫RDBMS已經(jīng)空白了相當(dāng)一段時(shí)間。
6、什么是分布式數(shù)據(jù)庫?分布式數(shù)據(jù)庫的準(zhǔn)確定義:分布式數(shù)據(jù)庫由分布在計(jì)算機(jī)網(wǎng)絡(luò)中不同計(jì)算機(jī)上的一組數(shù)據(jù)組成。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都有獨(dú)立處理的能力(稱為站點(diǎn)自治),可以執(zhí)行本地應(yīng)用程序。同時(shí),每個(gè)節(jié)點(diǎn)還可以通過網(wǎng)絡(luò)通信子系統(tǒng)執(zhí)行全局應(yīng)用。與之前的定義相比,它更注重站點(diǎn)自治和自治站點(diǎn)之間的合作。分布式數(shù)據(jù)庫系統(tǒng):粗略的定義是“分布式數(shù)據(jù)庫由一組數(shù)據(jù)組成,這些數(shù)據(jù)物理上分布在計(jì)算機(jī)網(wǎng)絡(luò)的不同節(jié)點(diǎn)(也稱為站點(diǎn))上,邏輯上屬于同一個(gè)系統(tǒng)。
7、分布式數(shù)據(jù)庫的簡(jiǎn)介分布式數(shù)據(jù)庫是指利用高速計(jì)算機(jī)網(wǎng)絡(luò)將多個(gè)物理上分散的數(shù)據(jù)存儲(chǔ)單元連接起來,形成一個(gè)邏輯上統(tǒng)一的數(shù)據(jù)庫。分布式數(shù)據(jù)庫的基本思想是將原來集中式數(shù)據(jù)庫中的數(shù)據(jù)存儲(chǔ)在通過網(wǎng)絡(luò)連接的多個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中,以獲得更大的存儲(chǔ)容量和更高的并發(fā)訪問。近年來,隨著數(shù)據(jù)的快速增長(zhǎng),分布式數(shù)據(jù)庫技術(shù)也得到了迅速發(fā)展。傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)開始從集中式模式向分布式架構(gòu)發(fā)展?;陉P(guān)系數(shù)據(jù)庫的分布式數(shù)據(jù)庫在保留傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)模型和基本特征的同時(shí),從集中式存儲(chǔ)轉(zhuǎn)變?yōu)榉植际酱鎯?chǔ),從集中式計(jì)算轉(zhuǎn)變?yōu)榉植际接?jì)算。
8、什么是分布式數(shù)據(jù)庫處理中間件1。目前服務(wù)器的磁盤、內(nèi)存、cpu都比較好,一個(gè)數(shù)據(jù)庫服務(wù)器可以存儲(chǔ)上億條數(shù)據(jù)。在什么情況下應(yīng)該考慮分布式數(shù)據(jù)庫?幾千億?從容量或性能的角度考慮使用分布式數(shù)據(jù)庫?,F(xiàn)有的單機(jī)數(shù)據(jù)庫無法滿足業(yè)務(wù)需求。當(dāng)然,如果您遇到容量或性能問題,您不必使用分布式數(shù)據(jù)庫??梢酝ㄟ^scaleup的方式解決,即升級(jí)數(shù)據(jù)庫服務(wù)器的CPU、內(nèi)存和磁盤,用SSD磁盤替換SATA/SAS磁盤。
普通X86服務(wù)器,一個(gè)數(shù)據(jù)庫服務(wù)器存儲(chǔ)上億條數(shù)據(jù),問題不大,但前提是需要?jiǎng)澐殖蓴?shù)據(jù)庫或表,單個(gè)表上億條數(shù)據(jù),普通服務(wù)器幾乎無法支撐。畢竟數(shù)據(jù)量大,會(huì)導(dǎo)致表對(duì)應(yīng)的B樹層次高,寫的時(shí)候B樹節(jié)點(diǎn)的拆分和調(diào)整也會(huì)耗費(fèi)很多,同時(shí),在上億的規(guī)模下,單個(gè)數(shù)據(jù)庫服務(wù)器可能無法支持密集的讀取請(qǐng)求,性能可能會(huì)有問題。