聚類分析定義聚類分析是根據(jù)數(shù)據(jù)中找到的描述對(duì)象及其關(guān)系的信息對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組。八:聚類算法K-means(20191223-29學(xué)習(xí)內(nèi)容:無監(jiān)督聚類算法KMeanskmeans:模型原理、收斂過程、超參數(shù)的選取,聚類分析在數(shù)據(jù)中找到對(duì)象之間的關(guān)系,放入數(shù)據(jù)。
學(xué)習(xí)內(nèi)容:無監(jiān)督聚類算法KMeanskmeans:模型原理、收斂過程、超參數(shù)的選取。聚類分析發(fā)現(xiàn)數(shù)據(jù)對(duì)象之間的關(guān)系。分組數(shù)據(jù),組內(nèi)相似度越大越好。不同的聚類類型:聚類旨在發(fā)現(xiàn)有用的對(duì)象聚類。現(xiàn)實(shí)中我們使用的聚類類型很多,用不同的聚類類型劃分?jǐn)?shù)據(jù)的結(jié)果是不一樣的?;谠?Prototype-based):一個(gè)集群是一個(gè)對(duì)象的集合,其中每個(gè)對(duì)象與定義該集群的原型之間的距離比其他集群之間的距離更近。如(b)所示,原型是中心點(diǎn),一個(gè)簇中的數(shù)據(jù)比另一個(gè)簇的中心點(diǎn)更靠近其中心點(diǎn)。
這種簇趨向于球形?;诿芏?聚類是對(duì)象的密度區(qū)域,(d)顯示基于密度的聚類。當(dāng)聚類是不規(guī)則的或交織的,并且存在早晨和異常值時(shí),通常使用基于密度的聚類定義。有關(guān)集群的更多介紹,請(qǐng)參考數(shù)據(jù)挖掘簡介?;揪垲惙治鏊惴?。K-means:基于原型,分割距離技術(shù),它試圖找到一個(gè)用戶指定數(shù)量(k)的聚類。
我們來看看聚類分析。K-means聚類是一種流行的聚類方法,屬于分割聚類方法。KMeans算法的思想很簡單。對(duì)于給定的樣本集,根據(jù)樣本之間的距離將其劃分為k個(gè)聚類。讓簇內(nèi)的點(diǎn)盡可能的緊密連接,讓簇間的距離盡可能的大。目標(biāo)是最小化Esum(x\miu_i),其中\(zhòng)miu_i是每個(gè)聚類的平均值。直接求上述公式的最小值并不容易,這是一個(gè)NP難問題,所以采用了啟發(fā)式迭代法KMeans。
上圖A所示為初始數(shù)據(jù)集,假設(shè)k3。在圖B中,我們隨機(jī)選取三個(gè)K類別對(duì)應(yīng)的類別質(zhì)心,即圖中的紅綠和草綠質(zhì)心,然后分別求出樣本中所有點(diǎn)到這三個(gè)質(zhì)心的距離,將每個(gè)樣本的類別標(biāo)記為與樣本距離最小的類別,如圖c所示,計(jì)算樣本與紅綠和草綠質(zhì)心的距離后,第一次迭代后得到所有樣本點(diǎn)的類別。此時(shí),我們找到我們當(dāng)前點(diǎn)的新質(zhì)心,分別標(biāo)記為紅色、綠色和草綠色,重復(fù)這個(gè)過程,將所有點(diǎn)的類別標(biāo)記為最近質(zhì)心的類別,找到新質(zhì)心。