Da -1生態(tài)的技術(shù)應(yīng)該如何描述?Large 數(shù)據(jù),首先你需要能夠保存large 數(shù)據(jù)。如何用形象化的比喻描述Da -1生態(tài)的技術(shù)?如何用形象化的比喻描述Da -1生態(tài)的技術(shù)?如何用形象化的比喻描述-1生態(tài)big數(shù)據(jù)(big data)的技術(shù)是指在可承受的時(shí)間范圍內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)的集合。
large 數(shù)據(jù)本身是一個(gè)非常寬泛的概念,而Hadoop 生態(tài) system(或者general 生態(tài) system)基本上是單尺度數(shù)據(jù)處理。可以和廚房比,所以我需要各種工具。鍋碗瓢盆各有用途,也有重疊??梢灾苯釉谕肜镉脺?。你可以用刀或者用飛機(jī)剝。每個(gè)工具都有自己的特點(diǎn)。奇數(shù)雖然可以,但不一定是最好的。Large 數(shù)據(jù),首先你需要能夠保存large 數(shù)據(jù)。傳統(tǒng)的文件系統(tǒng)是單一的,不能跨不同的機(jī)器。
比如你說(shuō)我要獲取數(shù)據(jù)/HDFS/TMP/file1,你可以引用一個(gè)文件路徑,但是實(shí)際的數(shù)據(jù)是存儲(chǔ)在很多不同的機(jī)器里的。作為用戶(hù),你不需要知道這些,就像你不關(guān)心分散在一個(gè)扇區(qū)上的單個(gè)文件一樣。HDFS為您管理這些數(shù)據(jù)利用現(xiàn)有的數(shù)據(jù),你會(huì)開(kāi)始思考如何處理數(shù)據(jù)。雖然HDFS可以為你提供數(shù)據(jù)在不同機(jī)器上的全面管理,但是數(shù)據(jù)太大了。
人們需要一個(gè)更強(qiáng)大的模型...人們從一開(kāi)始就認(rèn)為,只要有一個(gè)強(qiáng)有力的中央數(shù)據(jù)倉(cāng)庫(kù),即在各村之間建立一個(gè)吞吐量巨大、包容性強(qiáng)(非關(guān)系型,NoSQL)的倉(cāng)庫(kù),以轉(zhuǎn)移各村生產(chǎn)的大量異質(zhì)商品,就能拉動(dòng)經(jīng)濟(jì)增長(zhǎng)。然而沒(méi)多久人們就意識(shí)到這是tooyoungtosimple的一個(gè)想法,因?yàn)檫@個(gè)倉(cāng)庫(kù)的大小總是有上限的。之后,為了解決大規(guī)模集群協(xié)同計(jì)算的問(wèn)題,google首先提出了MapReduce的概念。既然一臺(tái)電腦性能有限,為什么不把它們聯(lián)合起來(lái)呢?
3、如何用形象的比喻描述大 數(shù)據(jù)的技術(shù) 生態(tài)large數(shù)據(jù)(bigdata)是指在可承受的時(shí)間范圍內(nèi),常規(guī)軟件工具無(wú)法捕捉、管理和處理的數(shù)據(jù)的集合。有人把數(shù)據(jù)比作一個(gè)有能量的煤礦。煤炭按性質(zhì)分為焦煤、無(wú)煙煤、肥煤和瘦煤,而露天煤礦和深山煤礦的采掘成本是不同的。同樣,Da 數(shù)據(jù)不是“Da”而是“有用”。價(jià)值含量和挖掘成本比數(shù)量更重要。對(duì)于很多行業(yè)來(lái)說(shuō),如何利用這些大規(guī)模數(shù)據(jù)是贏得競(jìng)爭(zhēng)的關(guān)鍵。
4、應(yīng)該怎樣描述大 數(shù)據(jù)的技術(shù) 生態(tài)?學(xué)習(xí)對(duì)于分類(lèi)和抽象復(fù)雜的信息非常重要。對(duì)應(yīng)Da 數(shù)據(jù)的技術(shù)體系,雖然各種技術(shù)百花齊放,但Da 數(shù)據(jù)技術(shù)本質(zhì)上解決了四個(gè)核心問(wèn)題。存儲(chǔ),海量數(shù)據(jù)如何有效存儲(chǔ),主要包括hdfs和Kafka;計(jì)算,海量數(shù)據(jù)如何快速計(jì)算,主要有MapReduce,Spark,F(xiàn)link等。查詢(xún),海量數(shù)據(jù)如何快速查詢(xún),主要是Nosql和Olap,Nosql主要有Hbase,Cassandra等。,其中olap包括kylin、impla等。,其中Nosql主要解決隨機(jī)查詢(xún),Olap技術(shù)主要解決相關(guān)查詢(xún);
5、大 數(shù)據(jù)分析技術(shù) 生態(tài)圈一覽Big 數(shù)據(jù)分析技術(shù)生態(tài)圈子一目了然數(shù)據(jù)領(lǐng)域混亂。為了幫助你,我們決定制作這個(gè)制造商圖標(biāo)和目錄。并不是該領(lǐng)域每個(gè)廠商的全面列表,而是對(duì)大數(shù)據(jù)分析技術(shù)領(lǐng)域的深入探討。我們希望這些信息新穎實(shí)用。這是一個(gè)面向Hadoop的自助式大型數(shù)據(jù)分析應(yīng)用,沒(méi)有數(shù)據(jù)庫(kù)模式。平臺(tái)這是一個(gè)大型的發(fā)現(xiàn)和分析平臺(tái)。Qlikview這是一個(gè)引導(dǎo)式分析平臺(tái)。
Sqream是一個(gè)快速可擴(kuò)展的大型數(shù)據(jù)分析SQL 數(shù)據(jù)庫(kù)。Splunk是用于操作和維護(hù)的智能平臺(tái),Sumologic是一種安全、定制和基于云的機(jī)器/分析服務(wù)。Actian這是一個(gè)大型的數(shù)據(jù)分析平臺(tái),亞馬遜紅移是PB級(jí)的云數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。CitusData可以擴(kuò)展PostgreSQL,Exasol這是一個(gè)大規(guī)模并行處理(MPP)內(nèi)存數(shù)據(jù)用于分析的庫(kù)數(shù)據(jù)。