比如Hadoop技術(shù),能力弱到-2實(shí)時(shí)處理。如何使用Mahout和Hadoop處理大規(guī)模數(shù)據(jù)大規(guī)模數(shù)據(jù)規(guī)模問(wèn)題?在機(jī)器學(xué)習(xí)算法中有什么實(shí)際意義?Hadoop是如何處理的?Hadoop軟件處理框架1,Hadoop是一個(gè)可以分發(fā)大量數(shù)據(jù)的軟件框架。
Storm比Spark和Hadoop有優(yōu)勢(shì)。Storm的優(yōu)勢(shì)在于它是一個(gè)實(shí)時(shí)、連續(xù)、分布式的計(jì)算框架。一旦運(yùn)行,除非你殺了它,它總是處理正在計(jì)算或者等待計(jì)算的狀態(tài)。火花和hadoop做不到。當(dāng)然,它們各有各的應(yīng)用場(chǎng)景。各有各的優(yōu)勢(shì)??梢砸黄鹩?。我來(lái)翻一翻別人的資料,說(shuō)的很清楚。Storm、Spark、Hadoop各有千秋,每個(gè)框架都有自己的最佳應(yīng)用場(chǎng)景。
Storm是流式計(jì)算的最佳框架。Storm是用Java和Clojure寫(xiě)的。Storm的優(yōu)勢(shì)是全內(nèi)存計(jì)算,所以它的定位是分布式實(shí)時(shí)計(jì)算系統(tǒng)。按照Storm作者的說(shuō)法,Storm對(duì)于實(shí)時(shí)計(jì)算的意義類似于Hadoop對(duì)于批處理的意義。Storm的適用場(chǎng)景:1)Streaming數(shù)據(jù)Processing Storm可以用來(lái)處理連續(xù)流動(dòng)的消息,處理后再將結(jié)果寫(xiě)入一個(gè)存儲(chǔ)器。
這個(gè)SparkStreaming示例是Hadoop近實(shí)時(shí)會(huì)話持久性的一個(gè)很好的例子。SparkStreaming是ApacheSpark中最有趣的組件之一。使用SparkStreaming,您可以創(chuàng)建數(shù)據(jù) pipes,使用與批處理加載數(shù)據(jù)相同的API來(lái)處理流。此外,SparkSteaming的“微批處理”方法提供了相當(dāng)好的靈活性來(lái)處理某些原因?qū)е碌娜蝿?wù)失敗。
(會(huì)話化是指在單個(gè)訪問(wèn)者網(wǎng)站會(huì)話的時(shí)間范圍內(nèi)捕獲的所有點(diǎn)擊流活動(dòng)。您可以在這里找到這個(gè)演示的代碼。像這樣的系統(tǒng)對(duì)于理解訪問(wèn)者的行為超級(jí)有用,不管他們是人還是機(jī)器。通過(guò)一些額外的工作,它還可以設(shè)計(jì)為窗口模式,以異步方式檢測(cè)可能的欺詐。
3、 hadoop集群安裝完成,怎么使用現(xiàn)在安裝完成了,你要做的就是兩件事:數(shù)據(jù)在哪里?如何計(jì)算和處理數(shù)據(jù)?對(duì)于前者,可以使用hbase或者h(yuǎn)ive作為數(shù)據(jù)的存儲(chǔ)。當(dāng)然,你也可以使用hadoop你自己的分布式存儲(chǔ)系統(tǒng)hdfs,但是hbase和hive可以為你提供數(shù)據(jù) library類的結(jié)構(gòu)化存儲(chǔ),操作起來(lái)更加方便。對(duì)于后者,可以使用hadoop自己的計(jì)算框架MapReduce,存儲(chǔ)在哪里數(shù)據(jù)都無(wú)所謂??梢杂肕R離線計(jì)算數(shù)據(jù)。