什么是分布式數(shù)據(jù)庫(kù)?分布式數(shù)據(jù)庫(kù)簡(jiǎn)介分布式數(shù)據(jù)庫(kù)是指由高速計(jì)算機(jī)網(wǎng)絡(luò)連接的多個(gè)物理上分散的數(shù)據(jù)存儲(chǔ)單元組成的邏輯上統(tǒng)一的數(shù)據(jù)庫(kù)。近年來(lái),隨著數(shù)據(jù)的快速增長(zhǎng),分布式數(shù)據(jù)庫(kù)技術(shù)也得到了迅速發(fā)展,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已經(jīng)開(kāi)始從集中式模式向分布式架構(gòu)發(fā)展,基于關(guān)系數(shù)據(jù)庫(kù)的分布式數(shù)據(jù)庫(kù)在保留傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和基本特征的同時(shí),從集中式存儲(chǔ)轉(zhuǎn)變?yōu)榉植际酱鎯?chǔ),從集中式計(jì)算轉(zhuǎn)變?yōu)榉植际接?jì)算。
一個(gè)完整的大數(shù)據(jù)平臺(tái)應(yīng)該提供離線(xiàn)計(jì)算、即席查詢(xún)、實(shí)時(shí)計(jì)算和實(shí)時(shí)查詢(xún)。Hadoop、spark和storm無(wú)法單獨(dú)完成上述所有功能。Hadoop spark hive是個(gè)不錯(cuò)的選擇。hadoop的HDFS無(wú)疑是分布式文件系統(tǒng)的解決方案,解決了存儲(chǔ)問(wèn)題。Hadoopmapreduce、hive、sparkapplication、sparkSQL解決了離線(xiàn)計(jì)算和即席查詢(xún)的問(wèn)題。Sparkstreaming解決了實(shí)時(shí)計(jì)算的問(wèn)題;此外,還需要HBase或Redis等NOSQL技術(shù)來(lái)解決實(shí)時(shí)查詢(xún)的問(wèn)題。
hadoop一般用于冷數(shù)據(jù)處理。對(duì)于實(shí)時(shí)數(shù)據(jù),如果你必須使用它,你可以用不同的方式使用它。方法一:在hadoop上使用hbase數(shù)據(jù)庫(kù),以為hbase不帶Map/Rece,所以操作在毫秒級(jí)別。方法二:業(yè)務(wù)數(shù)據(jù)按程序分為實(shí)時(shí)數(shù)據(jù)和冷數(shù)據(jù),實(shí)時(shí)數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,冷數(shù)據(jù)存儲(chǔ)在hadoop中。例如,將最近一個(gè)月的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,以便實(shí)時(shí)響應(yīng)業(yè)務(wù)處理。
【答案】:d分布式數(shù)據(jù)的目標(biāo)是:本地自治、分散管理、高可用、位置獨(dú)立、數(shù)據(jù)分片獨(dú)立、數(shù)據(jù)復(fù)制獨(dú)立、分布式查詢(xún)處理、分布式事務(wù)管理、硬件獨(dú)立、操作系統(tǒng)獨(dú)立、網(wǎng)絡(luò)獨(dú)立和數(shù)據(jù)庫(kù)管理系統(tǒng)獨(dú)立。并行數(shù)據(jù)庫(kù)的目標(biāo)是高性能和高可用性,通過(guò)多個(gè)處理節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫(kù)任務(wù),可以提高整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的性能和可用性。
4、通過(guò)Internet及瀏覽器處理的數(shù)據(jù)庫(kù),應(yīng)該是分布式。分布式系統(tǒng)是指硬件或軟件組件分布在不同的網(wǎng)絡(luò)計(jì)算機(jī)上,僅通過(guò)消息傳遞來(lái)相互通信和協(xié)調(diào)的系統(tǒng)。正是因?yàn)檐浖奶匦?,分布式系統(tǒng)具有高度的內(nèi)聚性和透明性。所以網(wǎng)絡(luò)和分布式系統(tǒng)的區(qū)別更多的在于高級(jí)軟件(尤其是操作系統(tǒng))而不是硬件。擴(kuò)展數(shù)據(jù):分布式計(jì)算是近年來(lái)提出的一種新的計(jì)算方法。所謂分布式計(jì)算,就是兩個(gè)或兩個(gè)以上的軟件互相共享信息。這些軟件可以在同一臺(tái)計(jì)算機(jī)上運(yùn)行,也可以在通過(guò)網(wǎng)絡(luò)連接的多臺(tái)計(jì)算機(jī)上運(yùn)行。
5、NewSQL分布式數(shù)據(jù)庫(kù)發(fā)展策略討論作者石本文探討了新一代NewSQL分布式數(shù)據(jù)庫(kù)開(kāi)發(fā)策略中的共性問(wèn)題,包括CloudNative和OnPremise、的發(fā)展方向、分布式和單機(jī)需求等分布式數(shù)據(jù)庫(kù)業(yè)務(wù)和技術(shù)發(fā)展中難以決策的問(wèn)題。1.分布式NewSQL數(shù)據(jù)庫(kù)近年來(lái)蓬勃發(fā)展的原因顯而易見(jiàn):它切中了業(yè)務(wù)和數(shù)據(jù)日益增長(zhǎng)的用戶(hù)對(duì)關(guān)系數(shù)據(jù)庫(kù)RDBMS的需求,而在從傳統(tǒng)RDBMS到大數(shù)據(jù)的發(fā)展階段,關(guān)系數(shù)據(jù)庫(kù)RDBMS已經(jīng)空白了相當(dāng)一段時(shí)間。
6、什么是分布式數(shù)據(jù)庫(kù)?分布式數(shù)據(jù)庫(kù)的準(zhǔn)確定義:分布式數(shù)據(jù)庫(kù)由分布在計(jì)算機(jī)網(wǎng)絡(luò)中不同計(jì)算機(jī)上的一組數(shù)據(jù)組成。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都有獨(dú)立處理的能力(稱(chēng)為站點(diǎn)自治),可以執(zhí)行本地應(yīng)用程序。同時(shí),每個(gè)節(jié)點(diǎn)還可以通過(guò)網(wǎng)絡(luò)通信子系統(tǒng)執(zhí)行全局應(yīng)用。與之前的定義相比,它更注重站點(diǎn)自治和自治站點(diǎn)之間的合作。分布式數(shù)據(jù)庫(kù)系統(tǒng):粗略的定義是“分布式數(shù)據(jù)庫(kù)由一組數(shù)據(jù)組成,這些數(shù)據(jù)物理上分布在計(jì)算機(jī)網(wǎng)絡(luò)的不同節(jié)點(diǎn)(也稱(chēng)為站點(diǎn))上,邏輯上屬于同一個(gè)系統(tǒng)。
7、分布式數(shù)據(jù)庫(kù)的簡(jiǎn)介分布式數(shù)據(jù)庫(kù)是指利用高速計(jì)算機(jī)網(wǎng)絡(luò)將多個(gè)物理上分散的數(shù)據(jù)存儲(chǔ)單元連接起來(lái),形成一個(gè)邏輯上統(tǒng)一的數(shù)據(jù)庫(kù)。分布式數(shù)據(jù)庫(kù)的基本思想是將原來(lái)集中式數(shù)據(jù)庫(kù)中的數(shù)據(jù)存儲(chǔ)在通過(guò)網(wǎng)絡(luò)連接的多個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中,以獲得更大的存儲(chǔ)容量和更高的并發(fā)訪(fǎng)問(wèn)。近年來(lái),隨著數(shù)據(jù)的快速增長(zhǎng),分布式數(shù)據(jù)庫(kù)技術(shù)也得到了迅速發(fā)展。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已經(jīng)開(kāi)始從集中式模式向分布式架構(gòu)發(fā)展?;陉P(guān)系數(shù)據(jù)庫(kù)的分布式數(shù)據(jù)庫(kù)在保留傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和基本特征的同時(shí),從集中式存儲(chǔ)轉(zhuǎn)變?yōu)榉植际酱鎯?chǔ),從集中式計(jì)算轉(zhuǎn)變?yōu)榉植际接?jì)算。
8、什么是分布式數(shù)據(jù)庫(kù)處理中間件1。目前服務(wù)器的磁盤(pán)、內(nèi)存、cpu都比較好,一個(gè)數(shù)據(jù)庫(kù)服務(wù)器可以存儲(chǔ)上億條數(shù)據(jù)。在什么情況下應(yīng)該考慮分布式數(shù)據(jù)庫(kù)?幾千億?從容量或性能的角度考慮使用分布式數(shù)據(jù)庫(kù)?,F(xiàn)有的單機(jī)數(shù)據(jù)庫(kù)無(wú)法滿(mǎn)足業(yè)務(wù)需求。當(dāng)然,如果您遇到容量或性能問(wèn)題,您不必使用分布式數(shù)據(jù)庫(kù)??梢酝ㄟ^(guò)scaleup的方式解決,即升級(jí)數(shù)據(jù)庫(kù)服務(wù)器的CPU、內(nèi)存和磁盤(pán),用SSD磁盤(pán)替換SATA/SAS磁盤(pán)。
普通X86服務(wù)器,一個(gè)數(shù)據(jù)庫(kù)服務(wù)器存儲(chǔ)上億條數(shù)據(jù),問(wèn)題不大,但前提是需要?jiǎng)澐殖蓴?shù)據(jù)庫(kù)或表,單個(gè)表上億條數(shù)據(jù),普通服務(wù)器幾乎無(wú)法支撐。畢竟數(shù)據(jù)量大,會(huì)導(dǎo)致表對(duì)應(yīng)的B樹(shù)層次高,寫(xiě)的時(shí)候B樹(shù)節(jié)點(diǎn)的拆分和調(diào)整也會(huì)耗費(fèi)很多,同時(shí),在上億的規(guī)模下,單個(gè)數(shù)據(jù)庫(kù)服務(wù)器可能無(wú)法支持密集的讀取請(qǐng)求,性能可能會(huì)有問(wèn)題。