Da -1生態(tài)的技術(shù)應(yīng)該如何描述?Large 數(shù)據(jù),首先你需要能夠保存large 數(shù)據(jù)。如何用形象化的比喻描述Da -1生態(tài)的技術(shù)?如何用形象化的比喻描述Da -1生態(tài)的技術(shù)?如何用形象化的比喻描述-1生態(tài)big數(shù)據(jù)(big data)的技術(shù)是指在可承受的時間范圍內(nèi),常規(guī)軟件工具無法捕捉、管理和處理的數(shù)據(jù)的集合。
large 數(shù)據(jù)本身是一個非常寬泛的概念,而Hadoop 生態(tài) system(或者general 生態(tài) system)基本上是單尺度數(shù)據(jù)處理。可以和廚房比,所以我需要各種工具。鍋碗瓢盆各有用途,也有重疊。可以直接在碗里用湯鍋。你可以用刀或者用飛機(jī)剝。每個工具都有自己的特點(diǎn)。奇數(shù)雖然可以,但不一定是最好的。Large 數(shù)據(jù),首先你需要能夠保存large 數(shù)據(jù)。傳統(tǒng)的文件系統(tǒng)是單一的,不能跨不同的機(jī)器。
比如你說我要獲取數(shù)據(jù)/HDFS/TMP/file1,你可以引用一個文件路徑,但是實(shí)際的數(shù)據(jù)是存儲在很多不同的機(jī)器里的。作為用戶,你不需要知道這些,就像你不關(guān)心分散在一個扇區(qū)上的單個文件一樣。HDFS為您管理這些數(shù)據(jù)利用現(xiàn)有的數(shù)據(jù),你會開始思考如何處理數(shù)據(jù)。雖然HDFS可以為你提供數(shù)據(jù)在不同機(jī)器上的全面管理,但是數(shù)據(jù)太大了。
人們需要一個更強(qiáng)大的模型...人們從一開始就認(rèn)為,只要有一個強(qiáng)有力的中央數(shù)據(jù)倉庫,即在各村之間建立一個吞吐量巨大、包容性強(qiáng)(非關(guān)系型,NoSQL)的倉庫,以轉(zhuǎn)移各村生產(chǎn)的大量異質(zhì)商品,就能拉動經(jīng)濟(jì)增長。然而沒多久人們就意識到這是tooyoungtosimple的一個想法,因?yàn)檫@個倉庫的大小總是有上限的。之后,為了解決大規(guī)模集群協(xié)同計(jì)算的問題,google首先提出了MapReduce的概念。既然一臺電腦性能有限,為什么不把它們聯(lián)合起來呢?
3、如何用形象的比喻描述大 數(shù)據(jù)的技術(shù) 生態(tài)large數(shù)據(jù)(bigdata)是指在可承受的時間范圍內(nèi),常規(guī)軟件工具無法捕捉、管理和處理的數(shù)據(jù)的集合。有人把數(shù)據(jù)比作一個有能量的煤礦。煤炭按性質(zhì)分為焦煤、無煙煤、肥煤和瘦煤,而露天煤礦和深山煤礦的采掘成本是不同的。同樣,Da 數(shù)據(jù)不是“Da”而是“有用”。價(jià)值含量和挖掘成本比數(shù)量更重要。對于很多行業(yè)來說,如何利用這些大規(guī)模數(shù)據(jù)是贏得競爭的關(guān)鍵。
4、應(yīng)該怎樣描述大 數(shù)據(jù)的技術(shù) 生態(tài)?學(xué)習(xí)對于分類和抽象復(fù)雜的信息非常重要。對應(yīng)Da 數(shù)據(jù)的技術(shù)體系,雖然各種技術(shù)百花齊放,但Da 數(shù)據(jù)技術(shù)本質(zhì)上解決了四個核心問題。存儲,海量數(shù)據(jù)如何有效存儲,主要包括hdfs和Kafka;計(jì)算,海量數(shù)據(jù)如何快速計(jì)算,主要有MapReduce,Spark,F(xiàn)link等。查詢,海量數(shù)據(jù)如何快速查詢,主要是Nosql和Olap,Nosql主要有Hbase,Cassandra等。,其中olap包括kylin、impla等。,其中Nosql主要解決隨機(jī)查詢,Olap技術(shù)主要解決相關(guān)查詢;
5、大 數(shù)據(jù)分析技術(shù) 生態(tài)圈一覽Big 數(shù)據(jù)分析技術(shù)生態(tài)圈子一目了然數(shù)據(jù)領(lǐng)域混亂。為了幫助你,我們決定制作這個制造商圖標(biāo)和目錄。并不是該領(lǐng)域每個廠商的全面列表,而是對大數(shù)據(jù)分析技術(shù)領(lǐng)域的深入探討。我們希望這些信息新穎實(shí)用。這是一個面向Hadoop的自助式大型數(shù)據(jù)分析應(yīng)用,沒有數(shù)據(jù)庫模式。平臺這是一個大型的發(fā)現(xiàn)和分析平臺。Qlikview這是一個引導(dǎo)式分析平臺。
Sqream是一個快速可擴(kuò)展的大型數(shù)據(jù)分析SQL 數(shù)據(jù)庫。Splunk是用于操作和維護(hù)的智能平臺,Sumologic是一種安全、定制和基于云的機(jī)器/分析服務(wù)。Actian這是一個大型的數(shù)據(jù)分析平臺,亞馬遜紅移是PB級的云數(shù)據(jù)倉庫服務(wù)。CitusData可以擴(kuò)展PostgreSQL,Exasol這是一個大規(guī)模并行處理(MPP)內(nèi)存數(shù)據(jù)用于分析的庫數(shù)據(jù)。