如果你沒聽說過Vertica,你一定聽說過MichaelStonebraker,2014年圖靈獎獲得者,PostgreSQL和Ingres(Sybase和SQLServer都繼承自Ingres)的發(fā)明者,limit _ valuefromv $ resource _ limitwheeleresource _ name in( processes)。
hadoop是分布式架構(gòu),SQL是數(shù)據(jù)庫語言。與分布式數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫相比,分布式可以處理更大的數(shù)據(jù)庫。當(dāng)然,回到問題本身,hadoop下設(shè)置的分布式數(shù)據(jù)庫,在1000萬數(shù)據(jù)操作時,肯定比關(guān)系型數(shù)據(jù)庫好。推特上的@merv轉(zhuǎn)發(fā)了一篇名為《三角形的統(tǒng)計》的博客。這是一個關(guān)于如何計算圖形中三角形的博客,并比較了使用Vertica和Hadoop的MapReduce的結(jié)果。
而且只需要三行SQL。統(tǒng)計顯示,Vertica比1.3GB 數(shù)據(jù)更簡單、更快。但是這個結(jié)果就沒那么有趣了。寫任務(wù)的結(jié)果將完全不同。在這種情況下,SQL真的很簡單,大家都知道。SQL比MapReduce簡單很多,但是在分布式計算中MapReduce比SQL簡單很多。而MapReduce可以做SQL做不到的事情,比如圖像處理。
MPP數(shù)據(jù)Library主要適用于查詢統(tǒng)計、分析判斷等大規(guī)模處理場景。其主要特點是整體架構(gòu)扁平化,不存在單點性能瓶頸。它基于開放標(biāo)準(zhǔn)的X86PC服務(wù)器,采用分布式架構(gòu)設(shè)計,按需靈活部署,系統(tǒng)擴展性靈活,支持系統(tǒng)的縱向擴展和橫向擴展。國內(nèi)的產(chǎn)品主要是NTU的GBase8aMPPCluster,是自主研發(fā)的面向大型數(shù)據(jù)云計算場景的大規(guī)模并行數(shù)據(jù)庫集群產(chǎn)品。在海量/高速處理場景中具有高性能、低成本、高可靠性、易用性等諸多優(yōu)勢。
3、做大 數(shù)據(jù)分析一般用什么工具呢?雖然數(shù)據(jù)分析工具有千萬種,組合起來總是一樣的。不外乎數(shù)據(jù)采集,數(shù)據(jù)存儲,數(shù)據(jù)管理,數(shù)據(jù)計算,數(shù)據(jù)分析,-。SAS、R、SPSS、python、excel是最常提到的數(shù)據(jù)分析工具。PythonPython是一種面向?qū)ο蟮慕忉屝杂嬎銠C編程語言。Python語法簡潔明了,類庫豐富強大。
一種常見的應(yīng)用情況是用Python快速生成程序的原型(有時甚至是程序的最終接口),然后用更合適的語言重寫有特殊要求的部分,比如3D游戲中的圖形渲染模塊,對性能要求特別高,可以用C/C 重寫,然后封裝成Python可以調(diào)用的擴展類庫。需要注意的是,使用擴展類庫時,可能需要考慮平臺問題,有些可能不提供跨平臺實現(xiàn)。
4、常用的大 數(shù)據(jù)工具有哪些?常見的收藏工具有Octopus、ContentGrabber、Parsehub、Mozenda、ApacheFlume等。Octopus是一款免費的、可視化的、無需編程的網(wǎng)頁獲取軟件,可以從不同的網(wǎng)站中快速提取歸一化的數(shù)據(jù)。ContentGrabber是一款支持智能抓取的網(wǎng)絡(luò)爬蟲軟件。Parsehub是一個基于web的爬蟲。Mozenda是一款網(wǎng)頁抓取軟件,還可以提供商業(yè)數(shù)據(jù)抓取的定制服務(wù)。
5、如何看待國產(chǎn) 數(shù)據(jù)庫SequoiaDB開源如何看待國內(nèi)數(shù)據(jù)庫紅杉aDB開源總的來說我覺得有幾點。1)相對于mongo,還是有完整的中文文檔的,作為中國的碼農(nóng)??从⑽奈臋n還是頭疼。2)應(yīng)該說開源社區(qū)的支持還是比較快的。當(dāng)天會有人在群里回答問題,然后原廠的同學(xué)在開始的時候教我們區(qū)里的工程師配置和對接程序。還是很厲害的。3)一般來說,使用和遷移轉(zhuǎn)換你都習(xí)慣不了,不過現(xiàn)在據(jù)說SQL支持多了,你還沒試過。聽起來很厲害。不過他們原來的操作語句還是很好理解的。如何看待yandex開源的clickhouse作為專欄文檔數(shù)據(jù) library?Yandex于2016年6月15日開設(shè)了a數(shù)據(jù)analyzed數(shù)據(jù)library,這對保守的俄羅斯人來說是一件大事。
開源本專欄文檔。2016年6月15日,Yandex開設(shè)了一個名為ClickHouse的數(shù)據(jù)analysis數(shù)據(jù)library,這對于保守的俄羅斯人來說是一件大事。更令人驚訝的是,這個柱狀存儲數(shù)據(jù) library的跑分超過了很多流行的商業(yè)MPP 數(shù)據(jù) library軟件,比如Vertica。如果你沒聽說過Vertica,你一定聽說過MichaelStonebraker,2014年圖靈獎得主,PostgreSQL和Ingres (Sybase和SQLServer都繼承自Ingres)的發(fā)明者。
7、 vertica 數(shù)據(jù)庫中怎么實現(xiàn)動態(tài)參數(shù)MAX_UTILIZATION表示數(shù)據(jù)該庫自上次啟動以來達(dá)到的最大值,LIMIT_VALUE表示設(shè)置的最大值,如select resource _ name,MAX_UTILIZATION,LIMIT _ valuefromv$resource _ LIMIT wheelesource _ name in( processes , sessions )。