聚類分析定義聚類分析是根據(jù)數(shù)據(jù)中找到的描述對象及其關(guān)系的信息對數(shù)據(jù)對象進行分組。八:聚類算法K-means(20191223-29學(xué)習(xí)內(nèi)容:無監(jiān)督聚類算法KMeanskmeans:模型原理、收斂過程、超參數(shù)的選取,聚類分析在數(shù)據(jù)中找到對象之間的關(guān)系,放入數(shù)據(jù)。
學(xué)習(xí)內(nèi)容:無監(jiān)督聚類算法KMeanskmeans:模型原理、收斂過程、超參數(shù)的選取。聚類分析發(fā)現(xiàn)數(shù)據(jù)對象之間的關(guān)系。分組數(shù)據(jù),組內(nèi)相似度越大越好。不同的聚類類型:聚類旨在發(fā)現(xiàn)有用的對象聚類?,F(xiàn)實中我們使用的聚類類型很多,用不同的聚類類型劃分數(shù)據(jù)的結(jié)果是不一樣的?;谠?Prototype-based):一個集群是一個對象的集合,其中每個對象與定義該集群的原型之間的距離比其他集群之間的距離更近。如(b)所示,原型是中心點,一個簇中的數(shù)據(jù)比另一個簇的中心點更靠近其中心點。
這種簇趨向于球形。基于密度:聚類是對象的密度區(qū)域,(d)顯示基于密度的聚類。當聚類是不規(guī)則的或交織的,并且存在早晨和異常值時,通常使用基于密度的聚類定義。有關(guān)集群的更多介紹,請參考數(shù)據(jù)挖掘簡介?;揪垲惙治鏊惴?。K-means:基于原型,分割距離技術(shù),它試圖找到一個用戶指定數(shù)量(k)的聚類。
我們來看看聚類分析。K-means聚類是一種流行的聚類方法,屬于分割聚類方法。KMeans算法的思想很簡單。對于給定的樣本集,根據(jù)樣本之間的距離將其劃分為k個聚類。讓簇內(nèi)的點盡可能的緊密連接,讓簇間的距離盡可能的大。目標是最小化Esum(x\miu_i),其中\(zhòng)miu_i是每個聚類的平均值。直接求上述公式的最小值并不容易,這是一個NP難問題,所以采用了啟發(fā)式迭代法KMeans。
上圖A所示為初始數(shù)據(jù)集,假設(shè)k3。在圖B中,我們隨機選取三個K類別對應(yīng)的類別質(zhì)心,即圖中的紅綠和草綠質(zhì)心,然后分別求出樣本中所有點到這三個質(zhì)心的距離,將每個樣本的類別標記為與樣本距離最小的類別,如圖c所示,計算樣本與紅綠和草綠質(zhì)心的距離后,第一次迭代后得到所有樣本點的類別。此時,我們找到我們當前點的新質(zhì)心,分別標記為紅色、綠色和草綠色,重復(fù)這個過程,將所有點的類別標記為最近質(zhì)心的類別,找到新質(zhì)心。