C4.5 算法成為最多的決策樹結(jié)構(gòu)經(jīng)典,排名數(shù)據(jù)挖掘十大經(jīng)典。【嵌入文字】:1,簡(jiǎn)介置頂數(shù)據(jù)挖掘會(huì)議ICDM選數(shù)據(jù)挖掘domain十大經(jīng)典-1 2006年12月,-3 算法在數(shù)據(jù)挖掘眾所周知,數(shù)據(jù)挖掘中有很多算法在數(shù)據(jù)挖掘中,它們是不同的-。
ID3 算法是決策樹經(jīng)典的一種結(jié)構(gòu),曾是一段時(shí)間內(nèi)同類研究工作的比較對(duì)象,但通過近年來國(guó)內(nèi)外學(xué)者的研究,ID3 算法。(2)ID3非增算法。(3)ID3是單變量決策樹(在分支節(jié)點(diǎn)只考慮單個(gè)屬性)。很多復(fù)雜的概念難以表達(dá),屬性之間的關(guān)系不夠強(qiáng)調(diào),容易導(dǎo)致決策樹中子樹重復(fù)或者某些屬性在決策樹的某條路徑上被多次測(cè)試。
于是Quilan改進(jìn)了ID3,提出了C4.5 算法。C4.5 算法成為最多的決策樹結(jié)構(gòu)經(jīng)典,排名數(shù)據(jù)挖掘十大經(jīng)典。決策樹經(jīng)典Structure算法c 4.5(WEKA中的J48)因?yàn)镮D3 算法在實(shí)際應(yīng)用中存在一些問題,Quilan提出了C4.5 算法,嚴(yán)格來說是C4。
data 挖掘的核心是數(shù)據(jù)建模的過程。所有的數(shù)據(jù)挖掘產(chǎn)品都有這個(gè)建模過程,不同的是他們構(gòu)造模型的方式不同??梢允褂迷S多不同的數(shù)據(jù)。決策樹是一種經(jīng)常使用的技術(shù),它可以用來分析數(shù)據(jù)以及進(jìn)行預(yù)測(cè)。常用的算法有CHAID、CART、ID3、C4.5,決策樹方法直觀,這是它最大的優(yōu)點(diǎn)。缺點(diǎn)是隨著數(shù)據(jù)復(fù)雜度的增加,分支數(shù)量增加,管理難度加大。
近年來,神經(jīng)網(wǎng)絡(luò)越來越受到人們的重視,因?yàn)樗鼮榻鉀Q大型復(fù)雜問題提供了一種相對(duì)有效和簡(jiǎn)單的方法。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。它最大的優(yōu)點(diǎn)是能準(zhǔn)確預(yù)測(cè)復(fù)雜問題。神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)是網(wǎng)絡(luò)模型是黑箱,預(yù)測(cè)值難以理解;神經(jīng)網(wǎng)絡(luò)過擬合。IBM、SAS、SPSS、HNC、ANGOSS等公司都是該產(chǎn)品的供應(yīng)商。
3、數(shù)據(jù) 挖掘的方法有哪些data 挖掘(英文:Datamining),又譯為數(shù)據(jù)挖掘和數(shù)據(jù)挖掘。這是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD)的一個(gè)步驟。數(shù)據(jù)挖掘一般是指通過算法搜索隱藏在大量數(shù)據(jù)中的信息的過程。Data 挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),上述目標(biāo)是通過許多方法實(shí)現(xiàn)的,如統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、信息檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)規(guī)則)和模式識(shí)別。