一直想整理一下這段內(nèi)容。既然是漫談,想到什么就說什么。比如我一直在互聯(lián)網(wǎng)行業(yè)。列出互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)平臺(tái)的宗旨:整合公司所有業(yè)務(wù)數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)中心;提供各種報(bào)表,有的給高管,有的給各種業(yè)務(wù);為網(wǎng)站運(yùn)營(yíng)提供運(yùn)營(yíng)支持?jǐn)?shù)據(jù)是指通過數(shù)據(jù),運(yùn)營(yíng)人員可以及時(shí)了解網(wǎng)站和產(chǎn)品的運(yùn)營(yíng)效果;為各類業(yè)務(wù)提供線上或線下數(shù)據(jù)支持,成為公司統(tǒng)一的數(shù)據(jù)交換和提供平臺(tái);分析用戶行為數(shù)據(jù),通過數(shù)據(jù)挖掘降低投入成本,提高投入效果;比如定向精準(zhǔn)廣告,用戶個(gè)性化推薦等。;開發(fā)數(shù)據(jù)產(chǎn)品,直接或間接使公司受益;建設(shè)開放數(shù)據(jù)平臺(tái),開放公司數(shù)據(jù);。
5、Hadoop,Hive,Spark之間是什么關(guān)系Spark已經(jīng)取代Hadoop成為最活躍的開源項(xiàng)目數(shù)據(jù)。但是,在選擇大型數(shù)據(jù)框架時(shí),企業(yè)不應(yīng)厚此薄彼。著名專家BernardMarr在一篇文章中分析了Spark和Hadoop的異同。Hadoop和Spark都是big 數(shù)據(jù)框架,都提供了一些工具來執(zhí)行常見的big 數(shù)據(jù)任務(wù),但恰恰,它們執(zhí)行的是不同的任務(wù)。雖然據(jù)說Spark在某些情況下比Hadoop快100倍,但它沒有分布式存儲(chǔ)系統(tǒng),而分布式存儲(chǔ)系統(tǒng)是許多大型數(shù)據(jù)項(xiàng)目的基礎(chǔ)。它可以在幾乎無限的普通計(jì)算機(jī)的硬盤上存儲(chǔ)PB級(jí)數(shù)據(jù) sets并提供良好的可擴(kuò)展性。你只需要隨著數(shù)據(jù)套的增加而增加硬盤即可。所以Spark需要一個(gè)第三方分布式存儲(chǔ)。正是因?yàn)檫@個(gè)原因,很多大型數(shù)據(jù)項(xiàng)目都在Hadoop上安裝Spark,這樣,Spark的高級(jí)分析應(yīng)用就可以使用數(shù)據(jù)存儲(chǔ)在HDFS。與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度。Spark的大部分操作都在內(nèi)存中,Hadoop的MapReduce系統(tǒng)會(huì)下載。
6、如何把獲取的json 數(shù)據(jù)插入 數(shù)據(jù)庫(kù)特點(diǎn):它們可以處理數(shù)量極大的數(shù)據(jù)。它們運(yùn)行在廉價(jià)的PC服務(wù)器集群上。PC集群擴(kuò)展非常方便,成本非常低,避免了“分片”操作的復(fù)雜性和成本。它們打破了性能瓶頸。NoSQL的支持者聲稱,可以節(jié)省將Web或Java應(yīng)用程序和數(shù)據(jù)轉(zhuǎn)換為SQL友好格式的時(shí)間,并且執(zhí)行速度可以更快。" SQL并不適合所有的程序代碼."對(duì)于那些重復(fù)操作繁重的數(shù)據(jù)來說,SQL是值得花錢的。
沒有太多的操作。雖然NoSQL的支持者也承認(rèn)關(guān)系數(shù)據(jù) library提供了一套無與倫比的功能,并且在數(shù)據(jù) integrity中絕對(duì)穩(wěn)定,但他們也表示企業(yè)的具體需求可能沒有那么多。引導(dǎo)支持因?yàn)镹oSQL的項(xiàng)目都是開源的,他們?nèi)狈碜怨?yīng)商的正式支持。像大多數(shù)開源項(xiàng)目一樣,他們必須尋求社區(qū)的支持。優(yōu)點(diǎn):NoSQL 數(shù)據(jù)庫(kù)很容易擴(kuò)展,但是一個(gè)共同的特點(diǎn)是去掉了關(guān)系數(shù)據(jù)庫(kù)的關(guān)系特征。
7、 數(shù)據(jù)庫(kù)與 hadoop與分布式文件系統(tǒng)的區(qū)別和聯(lián)系數(shù)據(jù) Library和hadoop與分布式文件系統(tǒng)的區(qū)別和聯(lián)系1。用向外擴(kuò)展而不是向上擴(kuò)展來擴(kuò)展業(yè)務(wù)關(guān)系類型數(shù)據(jù) library是非常昂貴的。他們的設(shè)計(jì)更容易擴(kuò)大規(guī)模。要運(yùn)行更大的數(shù)據(jù)庫(kù),需要購(gòu)買更大的機(jī)器。其實(shí)在市場(chǎng)上經(jīng)??梢钥吹椒?wù)器廠商把自己昂貴的高端機(jī)叫做“數(shù)據(jù)庫(kù)級(jí)服務(wù)器”。但是,有時(shí)候你可能需要加工更大的數(shù)據(jù)臺(tái),卻找不到足夠大的機(jī)器。
例如,一臺(tái)性能是標(biāo)準(zhǔn)PC四倍的機(jī)器的成本要比將同樣的四臺(tái)PC放在一個(gè)集群中高得多。Hadoop旨在能夠在商業(yè)PC集群上實(shí)現(xiàn)可擴(kuò)展的架構(gòu)。添加更多資源意味著為Hadoop集群添加更多機(jī)器。Hadoop集群的標(biāo)準(zhǔn)是十到數(shù)百臺(tái)計(jì)算機(jī)。事實(shí)上,如果不是出于開發(fā)目的,沒有理由在單個(gè)服務(wù)器上運(yùn)行Hadoop。2.用鍵/值對(duì)替換關(guān)系表數(shù)據(jù) library的一個(gè)基本原理是將數(shù)據(jù)按照一定的模式存儲(chǔ)在具有關(guān)系數(shù)據(jù)結(jié)構(gòu)的表中。
8、 hadoop是非關(guān)系型 數(shù)據(jù)庫(kù)嗎-2/庫(kù)的類型有哪些?1.數(shù)據(jù)庫(kù)有三種類型,分別是關(guān)系型數(shù)據(jù)庫(kù),非關(guān)系型數(shù)據(jù)庫(kù)和key 數(shù)據(jù)庫(kù)。2.關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。關(guān)系數(shù)據(jù)庫(kù)特征:數(shù)據(jù)集中控制;減少數(shù)據(jù)冗余等。適用范圍:結(jié)構(gòu)化數(shù)據(jù)比較適合處理,比如學(xué)生成績(jī),地址等。這種查詢通常需要使用結(jié)構(gòu)化查詢。3.數(shù)據(jù)有兩種類型的庫(kù),即關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。
有哪些輕非關(guān)系數(shù)據(jù)庫(kù)?常見的非關(guān)系型數(shù)據(jù)庫(kù)有:NoSql、Cloudant、MongoDB、redis和HBase。mongodb卡珊德拉;redishbaseneo4j其中mongodb是非常著名的NoSQL 數(shù)據(jù) library,它是一個(gè)面向開源文檔的數(shù)據(jù) library,非關(guān)系型數(shù)據(jù) library是指數(shù)據(jù) library和table可以不依賴于現(xiàn)實(shí)生活中的特定模型生成,更加靈活方便。