推薦幾個(gè),不是國產(chǎn)的,但是表現(xiàn)力不錯(cuò)。1.RapidMinerRapidMiner是一個(gè)數(shù)據(jù)科學(xué)軟件平臺(tái),它為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本挖掘和預(yù)測(cè)分析提供了一個(gè)集成。程序完全是用Java編程語言編寫的。2.PythonPython是一種免費(fèi)的開源語言,通常易于學(xué)習(xí)和使用。很多用戶發(fā)現(xiàn)數(shù)據(jù)幾分鐘就能建好,親和度分析極其復(fù)雜。
3.KaggleKaggle是世界上最大的科學(xué)家和機(jī)器學(xué)習(xí)者社區(qū)。Kaggle最開始是一個(gè)機(jī)器學(xué)習(xí)競(jìng)賽,現(xiàn)在已經(jīng)逐漸成為一個(gè)基于公有云的數(shù)據(jù)科學(xué)平臺(tái)。Kaggle是一個(gè)幫助解決難題,招募強(qiáng)大團(tuán)隊(duì),宣傳數(shù)據(jù)科學(xué)力量的平臺(tái)。4.OracleDataMining是Oracle高級(jí)分析數(shù)據(jù) Library的代表。市場(chǎng)領(lǐng)先的公司使用它來最大限度地發(fā)揮數(shù)據(jù)的潛力,并做出準(zhǔn)確的預(yù)測(cè)。
5、如何使用 數(shù)據(jù) 挖掘提取問題熱點(diǎn)1。可視化分析大數(shù)據(jù)分析的用戶有大數(shù)據(jù)分析師和普通用戶,但是他們對(duì)大數(shù)據(jù)分析最基本的要求就是可視化分析,因?yàn)榭梢暬治隹梢猿尸F(xiàn)大。2.-2挖掘算法大數(shù)據(jù)分析的理論核心是-2挖掘算法。數(shù)據(jù) 挖掘的各種算法,可以根據(jù)不同的類型和格式,更科學(xué)地呈現(xiàn)數(shù)據(jù)的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家認(rèn)可的各種統(tǒng)計(jì)方法(可以稱之為真理),才得以深化。
6、大 數(shù)據(jù)分析,大 數(shù)據(jù)開發(fā), 數(shù)據(jù) 挖掘所用到技術(shù)和工具?Da 數(shù)據(jù)分析是一個(gè)廣義的術(shù)語,意思是數(shù)據(jù)集。它是如此龐大和復(fù)雜,以至于他們需要專門設(shè)計(jì)的硬件和軟件工具來處理它。數(shù)據(jù) set通常大小為萬億或EB。這些數(shù)據(jù)集合從各種來源收集:傳感器、氣候信息、公開信息,例如雜志、報(bào)紙和文章。分析生成的其他示例包括購買交易記錄、在線日志、醫(yī)療記錄、軍事監(jiān)控、視頻和圖像文件以及大規(guī)模電子商務(wù)。大數(shù)據(jù)分析,他們對(duì)企業(yè)的影響有很高的興趣。
1.Hadoop是一個(gè)開源框架,允許大數(shù)據(jù)在整個(gè)集群中簡單編程模型計(jì)算機(jī)的分布式環(huán)境中存儲(chǔ)和處理。它的目的是從單個(gè)服務(wù)器擴(kuò)展到數(shù)千臺(tái)機(jī)器,每臺(tái)機(jī)器都可以提供本地計(jì)算和存儲(chǔ)。Hadoop是一個(gè)可以分發(fā)大量數(shù)據(jù)的軟件框架。但是Hadoop是以一種可靠、高效和可擴(kuò)展的方式處理的。Hadoop是可靠的。即使計(jì)算元素和存儲(chǔ)發(fā)生故障,它也會(huì)維護(hù)數(shù)據(jù)的多個(gè)副本,以確??梢詾楣收瞎?jié)點(diǎn)重新分配處理。
7、大 數(shù)據(jù)、 數(shù)據(jù) 挖掘各自的特色是什么?第一個(gè)是Da 數(shù)據(jù)。我認(rèn)為Da 數(shù)據(jù)更多的是一種方法論,而不是詳細(xì)的技術(shù)細(xì)節(jié)。他的提議并不是開創(chuàng)性的創(chuàng)造,而是一種文體解決方案的總結(jié),是作為解決實(shí)際問題的可行手段正式提出的。但是,光有方法是沒用的。它必須得到執(zhí)行,而且必須在實(shí)際工作中富有成效,看得見,摸得著。那么相應(yīng)的,大量完整的技術(shù)體系也發(fā)展起來了,尤其是在開源社區(qū)的推動(dòng)下,變得越來越迅猛。
我給大家簡單羅列一下,排名不分先后:計(jì)算模型,計(jì)算引擎,運(yùn)維,調(diào)度,虛擬化,存儲(chǔ)等等。其實(shí)這些東西都不是在這個(gè)浪潮中新提出來的,過去也取得了一些成果,只是在特定的時(shí)間點(diǎn)上,地位和作用有了很大的提高,得到了全社會(huì)的認(rèn)可。于是,我們有了mapreduce、hadoop/spark/storm/、ganglia等運(yùn)維系統(tǒng)、Yarn/mesos等調(diào)度系統(tǒng)、docker等性能卓越的虛擬化工具、hdfs/hbase等優(yōu)秀的分布式存儲(chǔ)容器。
8、 數(shù)據(jù) 挖掘算法有哪些問題1:常用的數(shù)據(jù) 挖掘算法有哪些?10分有十個(gè)經(jīng)典算法:我是從譚磊的書上學(xué)的。以下是網(wǎng)站給出的答案:1,C4.5C4.5算法是機(jī)器學(xué)習(xí)算法中的分類決策樹算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),在以下幾個(gè)方面對(duì)ID3算法進(jìn)行了改進(jìn):1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)選擇值較多的屬性的不足;2)建樹過程中的修剪;3)可以完成連續(xù)屬性的離散化;4)能夠處理不完整數(shù)據(jù)。