數(shù)據(jù): 數(shù)據(jù)體量巨大的特點(diǎn)。2.分步聚類方法:又稱快速聚類方法,主要用于大數(shù)據(jù)樣本間聚類,能夠處理不同類型的數(shù)據(jù):許多算法是為聚類-1/的數(shù)值類型設(shè)計(jì)的,第六章-1 聚類算法-基于系統(tǒng)聚類方法-1聚類分析是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類的典型要求是可伸縮性:許多聚類算法在對象少于200個(gè)-1的小型數(shù)據(jù)集上運(yùn)行良好;然而,一個(gè)大規(guī)模的數(shù)據(jù)庫可能包含數(shù)百萬個(gè)對象,在如此大的數(shù)據(jù)集合樣本上傳導(dǎo)聚類可能會導(dǎo)致有偏的結(jié)果。
來這里看看聚類分析。比較流行的方法有聚類和K-means 聚類,屬于split 聚類方法。KMeans算法的思想很簡單。對于給定的樣本集,根據(jù)樣本之間的距離將其劃分為k個(gè)聚類。讓簇內(nèi)的點(diǎn)盡可能的緊密連接,讓簇間的距離盡可能的大。目標(biāo)是最小化Esum(x\miu_i),其中\(zhòng)miu_i是每個(gè)聚類的平均值。直接求上述公式的最小值并不容易,這是一個(gè)NP難問題,所以采用了啟發(fā)式迭代法KMeans。
上圖A所示為初始數(shù)據(jù)集,假設(shè)k3。在圖B中,我們隨機(jī)選取三個(gè)K類別對應(yīng)的類別質(zhì)心,即圖中的紅綠和草綠質(zhì)心,然后分別求出樣本中所有點(diǎn)到這三個(gè)質(zhì)心的距離,將每個(gè)樣本的類別標(biāo)記為與樣本距離最小的類別,如圖c所示,計(jì)算樣本與紅綠和草綠質(zhì)心的距離后,第一次迭代后得到所有樣本點(diǎn)的類別。此時(shí),我們找到我們當(dāng)前點(diǎn)的新質(zhì)心,分別標(biāo)記為紅色、綠色和草綠色,重復(fù)這個(gè)過程,將所有點(diǎn)的類別標(biāo)記為最近質(zhì)心的類別,找到新質(zhì)心。
3.1Kpototypes算法Kpototypes算法結(jié)合了可以處理符號屬性的Kmeans方法和改進(jìn)的Kmodes方法。與Kmeans方法相比,Kpototypes算法可以處理符號屬性。3.2CLARANS算法(劃分法)CLARANS算法是一種隨機(jī)搜索聚類算法,是一種劃分聚類方法。它首先隨機(jī)選取一個(gè)點(diǎn)作為當(dāng)前點(diǎn),然后在其周圍隨機(jī)檢查一些不大于參數(shù)Maxneighbor的相鄰點(diǎn)。如果找到更好的鄰點(diǎn),則移到鄰點(diǎn),否則視為局部最小值。
算法要求必須將聚類的所有對象預(yù)轉(zhuǎn)入內(nèi)存,并且數(shù)據(jù)的集合需要多次掃描,對于數(shù)據(jù)的大數(shù)據(jù)量來說相當(dāng)耗時(shí)且空間復(fù)雜。雖然通過引入R樹結(jié)構(gòu)提高了其性能,可以處理大規(guī)模的基于磁盤的數(shù)據(jù)庫,但是R*樹的構(gòu)建和維護(hù)成本太高。該算法對臟數(shù)據(jù)和異常數(shù)據(jù)不敏感,但對數(shù)據(jù)極其敏感,只能處理凸形或球形邊界聚類。