首頁 > 廠商 > 問答 > relu函數(shù),為什么要使用relu激活函數(shù)?

relu函數(shù),為什么要使用relu激活函數(shù)?

來源：整理時間：2025-01-26 04:34:24 編輯：聰明地手機版

常見的激勵函數(shù):sigmoid函數(shù)、tanh函數(shù)、ReLu函數(shù)、SoftMax函數(shù)等等。為什么要用relu激活功能？使用sigmod函數(shù)會導致將近一半的神經(jīng)元被激活，和relu函數(shù)在這方面類似，它自動引入稀疏性，相當于無監(jiān)督的預練習，k做二進制分類，激活函數(shù)非常適合作為輸出層的激活函數(shù)，其他單元都用ReLU函數(shù)。

梯度消失問題與如何選擇激活函數(shù)

1、梯度消失問題與如何選擇激活函數(shù)

本文結(jié)構(gòu):梯度消失，這種現(xiàn)象經(jīng)常發(fā)生在基于梯度訓練神經(jīng)網(wǎng)絡的過程中。當我們做反向傳播，計算損失函數(shù)對權(quán)重的梯度時，梯度隨著反向傳播越來越小，這意味著網(wǎng)絡前一層的神經(jīng)元的訓練速度會比后面慢很多，甚至不會發(fā)生變化。網(wǎng)絡前面的一些層很重要。它們負責學習和識別簡單的模式，也是整個網(wǎng)絡的基礎(chǔ)。如果它們的結(jié)果不準確，后面各層的結(jié)果也會不準確。

淺層神經(jīng)網(wǎng)絡,激活函數(shù)

如果參數(shù)發(fā)生變化，網(wǎng)絡的輸出值貢獻很小，那么參數(shù)的學習就很困難，需要很長時間。為了在訓練神經(jīng)網(wǎng)絡時使損失函數(shù)越來越小，優(yōu)化方法之一是梯度下降。梯度下降法簡單來說就是在權(quán)重的負梯度方向更新權(quán)重，如下式所示，直到梯度收斂到零。(當然在實際過程中會通過設(shè)置一個叫做最大暴跌代數(shù)的超參數(shù)來控制。如果迭代次數(shù)太少，結(jié)果會不準確。如果迭代次數(shù)太多，訓練過程會很長。

ReLU和Dropout

2、淺層神經(jīng)網(wǎng)絡,激活函數(shù)

優(yōu)點:缺點:雙曲正切函數(shù)等于雙曲正弦與雙曲余弦之比，即優(yōu)點:缺點:z為正，導數(shù)等于1；z為負時，導數(shù)等于0；當z為0時，導數(shù)是未定義的。優(yōu)點:優(yōu)點:缺點:對于j1，...，K做二進制分類，激活函數(shù)非常適合作為輸出層的激活函數(shù)，其他單元都用ReLU函數(shù)。Tanh功能幾乎在所有場合都是上乘的。最常用的默認激活函數(shù)是ReLU。如果使用線性激活函數(shù)，那么神經(jīng)網(wǎng)絡只是將輸入線性組合并輸出，并一直計算線性激活函數(shù)。還不如直接去掉所有隱藏層。

3、ReLU和Dropout

從解決最小的問題開始。ReLU族的激活函數(shù)通常是神經(jīng)網(wǎng)絡中激活函數(shù)的首選。它的優(yōu)點是漏失是防止過擬合的有效方法。這種方法的本質(zhì)是在前向傳播過程中隨機丟棄(停用)網(wǎng)絡中的一些神經(jīng)元。所謂丟棄神經(jīng)元，實際上是指當數(shù)據(jù)流經(jīng)每個神經(jīng)元時，額外乘以一個概率p，當p的值為0時，丟棄當前的神經(jīng)元。隨機丟棄神經(jīng)元的意義在于使網(wǎng)絡獨立于與某個神經(jīng)元或某個神經(jīng)元結(jié)合，因為每次隨機丟棄，網(wǎng)絡都會產(chǎn)生一個新的結(jié)構(gòu)。

4、激活函數(shù)總結(jié)

激活功能是什么？激活函數(shù)在神經(jīng)網(wǎng)絡* *中的作用是賦予神經(jīng)網(wǎng)絡更多的非線性因素。如果不使用激活函數(shù)，網(wǎng)絡的輸出是輸入的線性組合，相當于最原始的感知器，網(wǎng)絡的逼近能力相當有限。如果能引入一個合適的非線性函數(shù)作為激活函數(shù)，神經(jīng)網(wǎng)絡的逼近能力將更加強大。激活函數(shù)在學習和理解神經(jīng)網(wǎng)絡模型的復雜和非線性函數(shù)中起著重要作用。

如果網(wǎng)絡中不使用激活函數(shù)，則網(wǎng)絡每層的輸出是上層輸入的線性組合。無論神經(jīng)網(wǎng)絡有多少層，輸出都是輸入的線性組合。如果使用，激活函數(shù)在神經(jīng)元中引入非線性因子，使得神經(jīng)網(wǎng)絡可以任意逼近任意非線性函數(shù)。此時，神經(jīng)網(wǎng)絡可以應用于各種非線性場景。常見的激活函數(shù)，如sigmoid、tanh、relu等。，都具有非線性的輸入輸出映射，從而可以賦予網(wǎng)絡非線性逼近能力。

5、7.激勵函數(shù)(激活函數(shù)

在深度計算機學習中，你總會遇到一些你從未聽說過的詞匯，比如激勵函數(shù)、卷積、池化、交叉熵。剛開始可能會覺得特別陌生，一時半會兒不理解。沒關(guān)系。當你深刻理解了這個詞背后的具體含義，你會發(fā)現(xiàn)這些詞是可以慢慢接受的(習慣就好...).通常是對一層的神經(jīng)元進行加權(quán)求和，然后將非線性方程得到的結(jié)果轉(zhuǎn)化為輸出，或者作為下一層的輸入。

激發(fā)函數(shù)的作用:通過激活函數(shù)將數(shù)據(jù)壓縮到一定的范圍內(nèi)，得到的數(shù)據(jù)大小將決定神經(jīng)元是否活躍，即是否被激活。這使得神經(jīng)網(wǎng)絡能夠更好地解決更復雜的問題。常見的激勵函數(shù):sigmoid函數(shù)、tanh函數(shù)、ReLu函數(shù)、SoftMax函數(shù)等等。我們先來看sigmoid函數(shù)表達式:sigmoid函數(shù)圖像:優(yōu)點:1。輸出結(jié)果在(0，

6、激活函數(shù)

Reference:非線性激活函數(shù)可以使神經(jīng)網(wǎng)絡逼近任何復雜函數(shù)。沒有激活函數(shù)引入的非線性，多層神經(jīng)網(wǎng)絡相當于單層神經(jīng)網(wǎng)絡sigmoid1，梯度消失:sigmoid函數(shù)在0和1附近是平坦的。即在0和1附近，sigmoid的梯度為0。通過sigmoid函數(shù)網(wǎng)絡反向傳播時，當神經(jīng)元的輸出接近0和1時，神經(jīng)元的梯度趨近于0。

因此，這些神經(jīng)元的權(quán)重無法更新。而且與這些神經(jīng)元相連的神經(jīng)元的權(quán)值更新也很慢。這個問題也叫梯度消失。所以，想象一下，如果一個大的網(wǎng)絡中包含了很多在飽和動力學中具有sigmoid激活函數(shù)的神經(jīng)元，那么這個網(wǎng)絡將無法傳播回去。2.非零均值:sigmoid的輸出不是零均值。3.計算量太大:與其他非線性激活函數(shù)相比，指數(shù)函數(shù)的計算量太大。

7、激活函數(shù)與損失函數(shù)

線性模型的表達能力不夠，激活函數(shù)增加了神經(jīng)網(wǎng)絡模型的非線性，提高了神經(jīng)網(wǎng)絡模型的表達能力(數(shù)據(jù)往往是線性不可分的)。(1)sigmoid函數(shù):sigmoid函數(shù)(Logistic函數(shù))，由隱神經(jīng)元輸出，取值范圍為(0，1)，可將一個實數(shù)映射到(0，1)的區(qū)間，可分為兩類。缺點:(3)softmax函數(shù):多分類神經(jīng)網(wǎng)絡輸出:(4)LeakyReLU函數(shù):(4) Elu函數(shù):(4)MaxOut函數(shù):MaxOut是深度學習網(wǎng)絡中的一層網(wǎng)絡，是同一個池層和卷積層。Maxout可以看作是網(wǎng)絡的激活函數(shù)層，假設(shè)網(wǎng)絡某一層的輸入特征向量為:X(x1

8、為什么要使用relu激活函數(shù)

使用sigmod函數(shù)會導致將近一半的神經(jīng)元被激活。不符合人腦活動工程學，和relu函數(shù)在這方面類似，它自動引入稀疏性，相當于無監(jiān)督的預練習。增加網(wǎng)絡的非線性能力，從而擬合更多的非線性過程，ReLU可以在一定程度上防止梯度消失，但不是使用它的主要原因，主要原因是導數(shù)簡單。某種程度上意味著右端不會接近飽和，求導時導數(shù)不為零，所以梯度不會消失，但左端問題依然存在，如果落進去梯度就會消失。