Rectificador (xarxes neurals)
En el context de les xarxes neuronals artificials, la funció d'activació rectificador o ReLU (Unitat lineal rectificada) [1][2] és una funció d'activació definida com la part positiva del seu argument:
on x és l'entrada a una neurona. Això es coneix com a la funció rampa i és anàleg a la rectificació de mitja ona en enginyeria elèctrica.
Aquesta funció d'activació va començar aparèixer en el context d'extracció de les característiques visuals a les xarxes neuronals jeràrquiques a finals de la dècada de 1960.[3][4] Més tard es va argumentar que té fortes motivacions biològiques i justificacions matemàtiques.[5][6] El 2011 es va trobar que permet una millor formació de les xarxes més profundes,[7] en comparació amb les funcions d'activació àmpliament utilitzades abans de 2011, com per exemple, la logística sigmoide (que s'inspira en la teoria de probabilitat; vegeu regressió logística) i la seva homòloga més pràctica,[8] la tangent hiperbòlica. El rectificador és, a partir de 2017, la funció d'activació més popular per a xarxes neuronals profundes.[9]
Les unitats lineals rectificades tenen aplicacions en visió per ordinador [10] i reconeixement de veu [11][12] amb d'utilització de xarxes neuronals profundes i neurociència computacional.[13][14][15]
Avantatges
[modifica]- Activació dispersa: Per exemple, dins una xarxa inicialitzada a l'atzar, només s'activen un 50% de les unitats ocultes (té una sortida no nul·la).
- Propagació de gradient millor: Menys desapareixent problemes de gradient van comparar a sigmoidal funcions d'activació que satura en ambdues direccions.
- Millor propagació de gradients: Menys problemes de gradient de fuga en comparació amb funcions d'activació sigmoidal que s'aturen en ambdues direccions.[10]
- Càlcul eficient: Només comparació, addició i multiplicació.
- Invariant d'escala: .
Les funcions d'activació rectificador es van utilitzar per separar l'excitació específica i la inhibició no específica en la piràmide d'abstracció neuronal, que es va entrenar de manera supervisada per aprendre diverses tasques de visió per ordinador.[16] En 2011,[17] l'ús del rectificador com a no linealitat es va demostrar que permet la formació de xarxes neuronals profundament supervisades sense necessitat de entrenament previ no supervisat. Les unitats lineals rectificades, en comparació amb la funció sigmoide o funcions d'activació similars, permeten una formació més ràpida i eficaç d'arquitectures neuronals profundes en conjunts de dades grans i complexos.
Problemes potencials
[modifica]- No-diferenciable a zero; tanmateix, és diferenciable a qualsevol lloc més, i el valor del derivat al zero pot ser arbitràriament triat per ser 0 o 1.
- No zero-centrat.
- Desenfrenat.
- Morint ReLU problema: ReLU (Unitat Lineal Rectificada) de vegades es poden prémer les neurones a estats en el qual esdevenen inactius per eminentment tot entrades. En aquest estat, cap gradient flueix backward a través de la neurona, i així que la neurona esdevé enganxada dins un estat perpètuament inactiu i "mor". Això és una forma del desapareixent problema de gradient. En alguns casos, números grans de les neurones en una xarxa poden esdevenir enganxades en estats morts, eficaçment reduint la capacitat de model. Aquest problema típicament sorgeix quan el ritme de saber és posat massa alt. Pot ser mitigat per utilitzar leaky ReLUs en comptes d'això, els quals assignen un pendent de positiu petit per x < 0; tanmateix, l'actuació és reduïda.
Variants lineals
[modifica]ReLU amb fuites
[modifica]Les ReLU amb fuites permeten un gradient positiu petit quan la unitat no està activa.[12]
Paramètric ReLU
[modifica]Les reLUs paramètriques (PReLUs) porten aquesta idea més enllà fent el coeficient de fuita en un paràmetre que s'aprèn juntament amb altres paràmetres de xarxes neuronals.[18]
Tingueu en compte que per a ≤ 1, això és equivalent a:
i així té una relació a "maxout" xarxes.[18]
Error gaussià Unitat Lineal (GELU)
[modifica]GELU és una aproximació plana al rectificador. Té un no monotónic “cop” quan x < 0, i serveix com activació per defecte per a models com BERT.[19]
on Φ(x) és la funció de distribució acumulada de la distribució normal estàndard.
Aquesta funció d'activació s'il·lustra a la figura de l'inici d'aquest article.
SiLU
[modifica]La SiLU (Unitat lineal sigmoide) o funció swish [20] és una altra aproximació suau referenciada per primera vegada al document GELU.[19]
on és la funció sigmoide.
Softplus
[modifica]Una aproximació plana del rectificador és la funció analítica
que s'anomena funció softplus [21][10] o SmoothReLU.[22] Per a nombres grans negatius a està per sobre de és just per sobre de 0, mentre que per a nombres grans positius a sobre és just per sobre de .
Es poden incloure un paràmetre de nitidesa :
La derivada de softplus és la funció logística. Partint des de la versió paramètrica,
La funció sigmoide logística és una aproximació suau de la derivada del rectificador, la funció de pas de Heaviside.
La generalització multivariable de softplus d'una sola variable és el LogSumExp amb el primer argument establert a zero:
La funció LogSumExp és
i el seu gradient és el softmax ; el softmax amb el primer argument posat a zero és la generalització multivariable de la funció logística. Tant LogSumExp com softmax s'utilitzen en l'aprenentatge automàtic.
ELU
[modifica]Les unitats lineals exponencials intenten que les activacions mitjanes siguin més properes a zero, la qual cosa accelera l'aprenentatge. S'ha demostrat que les ELU poden obtenir una precisió de classificació més alta que les ReLU.[23]
on és un hiper-paràmetre que cal ajustar, i és una restricció.
L'ELU es pot veure com una versió suavitzada d'una ReLU desplaçada (SReLU), que té la forma donada la mateixa interpretació de .
Mish
[modifica]La funció de mish també es pot utilitzar com una aproximació suau del rectificador.[20] Es defineix com:
on és la tangent hiperbòlica i és la funció softplus.
Referències
[modifica]- ↑ Brownlee, Jason. «A Gentle Introduction to the Rectified Linear Unit (ReLU)». Machine Learning Mastery, 08-01-2019. [Consulta: 8 abril 2021].
- ↑ Liu, Danqing. «A Practical Guide to ReLU» (en anglès). Medium, 30-11-2017. [Consulta: 8 abril 2021].
- ↑ Fukushima, K. IEEE Transactions on Systems Science and Cybernetics, 5, 4, 1969, pàg. 322–333. DOI: 10.1109/TSSC.1969.300225.
- ↑ Fukushima, K.; Miyake, S. In Competition and Cooperation in Neural Nets, 45, 1982, pàg. 267–285. DOI: 10.1007/978-3-642-46466-9_18.
- ↑ Hahnloser, R.; Sarpeshkar, R.; Mahowald, M. A.; Douglas, R. J.; Seung, H. S. Nature, 405, 6789, 2000, pàg. 947–951. Bibcode: 2000Natur.405..947H. DOI: 10.1038/35016072. PMID: 10879535.
- ↑ "" a NIPS 2001.
- ↑ (2011) "Deep sparse rectifier neural networks" a AISTATS. Arxivat 2016-12-13 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2016-12-13. [Consulta: 29 novembre 2022].
- ↑ «Efficient BackProp». A: Neural Networks: Tricks of the Trade. Springer, 1998.
- ↑ Searching for Activation Functions.
- ↑ 10,0 10,1 10,2 "[1]" a AISTATS. Arxivat 2016-12-13 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2016-12-13. [Consulta: 29 novembre 2022].
- ↑ "[2]" a ICASSP.
- ↑ 12,0 12,1 Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models.
- ↑ Hansel, D.; van Vreeswijk, C. J. Neurosci., 22, 12, 2002, pàg. 5118–5128. DOI: 10.1523/JNEUROSCI.22-12-05118.2002. PMC: 6757721. PMID: 12077207.
- ↑ Kadmon, Jonathan; Sompolinsky, Haim Physical Review X, 5, 4, 19-11-2015, pàg. 041030. arXiv: 1508.06486. Bibcode: 2015PhRvX...5d1030K. DOI: 10.1103/PhysRevX.5.041030.
- ↑ Lyapunov spectra of chaotic recurrent neural networks.
- ↑ Behnke, Sven. Hierarchical Neural Networks for Image Interpretation. 2766. Springer, 2003 (Lecture Notes in Computer Science). DOI 10.1007/b11963. ISBN 978-3-540-40722-5.
- ↑ (2011) "Deep sparse rectifier neural networks" a AISTATS. Arxivat 2016-12-13 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2016-12-13. [Consulta: 29 novembre 2022].
- ↑ 18,0 18,1 Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification, 2015.
- ↑ 19,0 19,1 Gaussian Error Linear Units (GELUs), 2016.
- ↑ 20,0 20,1 «Mish: A Self Regularized Non-Monotonic Activation Function», 23-08-2019. [Consulta: 26 març 2022].
- ↑ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René Proceedings of the 13th International Conference on Neural Information Processing Systems (NIPS'00), 01-01-2000, pàg. 451–457. «Since the sigmoid h has a positive first derivative, its primitive, which we call softplus, is convex.»
- ↑ «Smooth Rectifier Linear Unit (SmoothReLU) Forward Layer» (en anglès americà). Developer Guide for Intel Data Analytics Acceleration Library, 2017. [Consulta: 4 desembre 2018].
- ↑ Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs), 2015.