數(shù)據(jù): 數(shù)據(jù)體量巨大的特點。2.分步聚類方法:又稱快速聚類方法,主要用于大數(shù)據(jù)樣本間聚類,能夠處理不同類型的數(shù)據(jù):許多算法是為聚類-1/的數(shù)值類型設計的,第六章-1 聚類算法-基于系統(tǒng)聚類方法-1聚類分析是一種無監(jiān)督的機器學習方法,聚類的典型要求是可伸縮性:許多聚類算法在對象少于200個-1的小型數(shù)據(jù)集上運行良好;然而,一個大規(guī)模的數(shù)據(jù)庫可能包含數(shù)百萬個對象,在如此大的數(shù)據(jù)集合樣本上傳導聚類可能會導致有偏的結果。
來這里看看聚類分析。比較流行的方法有聚類和K-means 聚類,屬于split 聚類方法。KMeans算法的思想很簡單。對于給定的樣本集,根據(jù)樣本之間的距離將其劃分為k個聚類。讓簇內的點盡可能的緊密連接,讓簇間的距離盡可能的大。目標是最小化Esum(x\miu_i),其中\(zhòng)miu_i是每個聚類的平均值。直接求上述公式的最小值并不容易,這是一個NP難問題,所以采用了啟發(fā)式迭代法KMeans。
上圖A所示為初始數(shù)據(jù)集,假設k3。在圖B中,我們隨機選取三個K類別對應的類別質心,即圖中的紅綠和草綠質心,然后分別求出樣本中所有點到這三個質心的距離,將每個樣本的類別標記為與樣本距離最小的類別,如圖c所示,計算樣本與紅綠和草綠質心的距離后,第一次迭代后得到所有樣本點的類別。此時,我們找到我們當前點的新質心,分別標記為紅色、綠色和草綠色,重復這個過程,將所有點的類別標記為最近質心的類別,找到新質心。
3.1Kpototypes算法Kpototypes算法結合了可以處理符號屬性的Kmeans方法和改進的Kmodes方法。與Kmeans方法相比,Kpototypes算法可以處理符號屬性。3.2CLARANS算法(劃分法)CLARANS算法是一種隨機搜索聚類算法,是一種劃分聚類方法。它首先隨機選取一個點作為當前點,然后在其周圍隨機檢查一些不大于參數(shù)Maxneighbor的相鄰點。如果找到更好的鄰點,則移到鄰點,否則視為局部最小值。
算法要求必須將聚類的所有對象預轉入內存,并且數(shù)據(jù)的集合需要多次掃描,對于數(shù)據(jù)的大數(shù)據(jù)量來說相當耗時且空間復雜。雖然通過引入R樹結構提高了其性能,可以處理大規(guī)模的基于磁盤的數(shù)據(jù)庫,但是R*樹的構建和維護成本太高。該算法對臟數(shù)據(jù)和異常數(shù)據(jù)不敏感,但對數(shù)據(jù)極其敏感,只能處理凸形或球形邊界聚類。