到現(xiàn)在,數(shù)據(jù) 降維有很多方法。數(shù)據(jù) 降維是什么意思?按照降維,也叫降維,注:降維和主成分分析1) 數(shù)據(jù)壓縮減少數(shù)據(jù)從多維數(shù)據(jù)到低維數(shù)據(jù),從而減少,從不同的角度有不同的分類,主要的分類方法根據(jù)數(shù)據(jù)的特點可分為線性降維和非線性降維兩種。根據(jù)是否考慮或使用數(shù)據(jù)的監(jiān)測信息,可分為無監(jiān)督降維、有監(jiān)督降維和半監(jiān)督降維,根據(jù)holding 數(shù)據(jù)的結(jié)構(gòu)可分為全局持有。
3.2.2.1技術(shù)原理主成分分析(PCA)是一種常用的-1降維方法,應(yīng)用于多元大樣本的統(tǒng)計分析。大量的統(tǒng)計數(shù)據(jù)可以提供豐富的信息,有利于規(guī)律性。工作量增加,影響分析結(jié)果的準(zhǔn)確性。因此,利用主成分分析的降維方法,對收集到的數(shù)據(jù)進(jìn)行綜合分析,減少分析指標(biāo),最大限度地減少原指標(biāo)所包含信息的損失,將多個變量(指標(biāo))變成少數(shù)幾個能反映原多個變量大部分信息的綜合指標(biāo)。
1) 數(shù)據(jù)壓縮將數(shù)據(jù)從多維數(shù)據(jù)降低到低維數(shù)據(jù),從而降低了數(shù)據(jù)的規(guī)模,而在機(jī)器學(xué)習(xí)中,降維也可以加快算法計算的速度。2)可視化降維可以減少數(shù)據(jù)的特征數(shù)量,從而可以分析數(shù)據(jù)的基本結(jié)構(gòu),便于可視化數(shù)據(jù)。但是降維之后的新特性的含義需要我們自己根據(jù)情況來分析。PCA是一種常見的降維方法。它通過正交變換將原數(shù)據(jù)中的線性相關(guān)特征轉(zhuǎn)化為幾個線性無關(guān)的特征,這些線性無關(guān)的特征所代表的變量稱為主分量。
在機(jī)器學(xué)習(xí)中,數(shù)據(jù)通常需要表示為向量,用輸入模型進(jìn)行訓(xùn)練。但是,眾所周知,在處理和分析高維向量時,會極大地消耗系統(tǒng)資源,甚至產(chǎn)生維度災(zāi)難(此處記錄了相關(guān)注釋)。因此,用一個低維向量來表示原來的高維特征就顯得尤為重要。在機(jī)器學(xué)習(xí)領(lǐng)域,我們從原始的數(shù)據(jù)中提取特征,有時會得到更高維的特征向量。在這些向量所在的高維空間中,有很多冗余和噪聲。
主成分分析作為降維中最經(jīng)典的方法,屬于一種線性的、無監(jiān)督的、全局的降維算法。1.所謂主成分,就是對原有特征進(jìn)行線性組合得到的新特征,盡可能保留原有特征的方差。2.設(shè)置一組參數(shù),記住原特征是,新特征是。根據(jù)定義,我們要使方差盡可能大,也就是這是我們的目標(biāo)函數(shù)。3.具體求解過程取決于特征值分解。(a)是二維空間中數(shù)據(jù)的集中群。我們很容易看出主成分所在軸(以下簡稱主軸)的大致方向,也就是(b)中黃線所在的軸。