Anàlisi de components principals
L'anàlisi de components principals (ACP, PCA en anglès) és una tècnica estadística utilitzada per a reduir la dimensionalitat d'un conjunt de dades amb la finalitat de poder-les representar en gràfics de dues o tres dimensions agrupant diverses variables de les dades en factors o components. Intuïtivament, la tècnica serveix per a determinar el nombre de factors que expliquen en major grau la variabilitat d'un conjunt de dades. L'ACP és útil, per exemple, per a identificar les variables responsables de causar una falla o les variables més afectades per la falla.
L'ACP construeix una transformació lineal que escull un nou sistema de coordenades per al conjunt original de dades que captura en el primer eix la variància més gran del conjunt de dades, primer component principal. La segona variància més gran és el segon eix, segon component principal, i així successivament. Per a bastir aquesta transformació lineal s'ha de construir, primer, la matriu de covariància o matriu de coeficients de correlació. La simetria d'aquesta matriu garanteix que hi ha una base completa de vectors propis. La transformació que passa les coordenades originals a les coordenades de la nova base és la transformació lineal necessària per a reduir la dimensionalitat de les dades.
Els components principals d'una col·lecció de punts en un espai de coordenades reals són un conjunt de p vectors unitaris, on l'i-èsim vector representa la direcció de la línia que millor s'ajusta a les dades i ensems és ortogonal als primers i − 1 vectors. En aquest context la línia que millor s'ajusta es defineix com aquella que minimitza la mitjana de les distàncies perpendiculars dels punts a la línia elevades al quadrat. Aquestes direccions (és a dir, components principals) constitueixen una base ortonormal amb la qual les diferents dimensions individuals de les dades no estan correlacionades linealment. Molts estudis utilitzen només els dos primers components principals per tal de representar les dades en dues dimensions i identificar visualment grups de punts de dades estretament relacionats.[1]
L'anàlisi de components principals té aplicació en molts camps, com ara la genètica de poblacions, els estudis de microbioma i la ciència atmosfèrica.
Mètode
modificaL'ACP no es pot aplicar al conjunt de dades en si perquè aquestes dades presenten magnituds i mètrica diferents. El primer pas és preparar el conjunt de dades a fi de tenir una millor representació en el monitoratge posterior.
- Preparació de les dades
- Suprimir el soroll.
- Escalar les dades.
- Descartar valors anòmals.
Cal també normalitzar les dades a fi que no tinguin magnitud i es distribueixin segons una distribució i, posteriorment, eliminar les que estiguin molt lluny de la mitjana aritmètica.
Un cop preparades les dades, un dels mètodes a aplicar es basa en la matriu de covariàncies
- Calcular la matriu de covariàncies de les dades
- Descompondre la matriu de covariàncies i calcular la matriu de vectors propis que diagonalitza la matriu C i la matriu de valors propis.
D és la matriu de valors propis. És una matriu diagonal que conté valors reals no negatius en ordre decreixent a la diagonal principal.
- Projectar el conjunt de dades en el nou espai dimensional, seguint els vectors propis calculats.
Història
modificaL'ACP la va inventar Karl Pearson[2] el 1901 per analogia amb el teorema de l'eix principal en mecànica. Més tard va ser desenvolupat de manera independent i anomenat per Harold Hotelling als anys 30.[3] Segons el camp d'aplicació rep diversos noms: en àlgebra lineal, descomposició en valors singulars o descomposició en valors propis; en processament de senyal, funcions ortogonals empíriques; en control de qualitat multivariable, transformada d'Hotelling; en enginyeria mecànica, descomposició ortogonal pròpia; també en estadística, anàlisi factorial (per a una discussió de les diferències entre l'ACP i l'anàlisi factorial, vegeu el cap. 7 de l'Anàlisi de components principals de Jolliffe)[4]; en soroll i vibració, descomposició espectral,; en dinàmica estructural, anàlisi modal empírica; etc.
Aproximació intuïtiva
modificaEs pot considerar l'anàlisi de components principals com una tècnica que permet ajustar un el·lipsoide de dimensió p a les dades en estudi; cada eix de l'el·lipsoide representa un component principal. Si algun eix de l'el·lipsoide és petit, la variància al llarg d'aquest eix també és petita.
Per a trobar els eixos de l'el·lipsoide, primer cal centrar en l'origen els valors de cada variable del conjunt de dades restant de cadascun d'aquests valors la mitjana dels valors observats de la variable. Per cadascuna de les variables s'utilitzen aquests valors transformats en lloc dels valors originals. Després hom calcula la matriu de covariància de les dades i els seus valors i vectors propis. El següent pas és normalitzar els vectors propis ortogonals per a convertir-los en vectors unitaris. Un cop fet això, cadascun dels vectors propis unitaris mútuament ortogonals es pot interpretar com un eix de l'el·lipsoide ajustat a les dades. Aquesta elecció de base transformarà la matriu de covariància en una forma diagonal, en la qual els elements diagonals representen la variància de cada eix. La proporció de la variància que representa cada vector propi es pot calcular dividint el valor propi corresponent a aquest vector propi entre la suma de tots els valors propis.
Els gràfics biplot i els de discriminació resulten molt útils per a interpretar els valors trobats per l'ACP.
Reducció de la dimensionalitat
modificaLa transformació T = X W projecta un vector de dades x(i) d'un espai de variables p a un nou espai de variables p no correlacionades amb el conjunt original. Tanmateix no cal mantenir tots els components principals; mantenint només els primers L components principals, obtinguts utilitzant només els L primers vectors propis, hom arriba a la transformació truncada
on la matriu TL ara té n files però només L columnes. Dit d'una altra manera: l'APC arriba a una transformació lineal on les columnes de la matriu p × L formen una base ortogonal per a les L característiques (els components que representen t) que no estan correlacionades.[5] Per construcció, de totes les matrius de dades transformades amb només L columnes, aquesta matriu de puntuació maximitza la variància de les dades originals que s'han conservat, alhora que minimitza l'error quadràtic total de reconstrucció o .
Aquesta reducció de la dimensionalitat pot ser un pas molt útil per a visualitzar i processar conjunts de dades de moltes dimensions, tot conservant la major part possible de la variància en el conjunt de dades. Per exemple, seleccionant L = 2 i mantenint només els dos primers components principals es troba el pla bidimensional a través del conjunt de dades d'alta dimensió en què les dades estan més repartides, de manera que si les dades contenen clústers aquests també poden estar més escampats i, per tant, ser més visibles quan es representen en un diagrama bidimensional. En canvi, si s'escullen dues direccions a través de les dades (o dues de les variables originals) a l'atzar, els clústers poden estar molt menys separats els uns dels altres, amb tendència a superposar-se i resultant indistingibles.
De la mateixa manera, en l'anàlisi de regressió, com més alt és el nombre de variables explicatives permeses, més gran és la possibilitat de sobreajustar el model i generar conclusions que no es poden generalitzar a altres conjunts de dades. Una aproximació possible, sobre tot quan hi ha correlacions fortes entre diferents variables explicatives possibles, és reduir-les a uns pocs components principals i després aplicar la regressió amb ells, un mètode anomenat regressió de components principals.
La reducció de la dimensionalitat també pot ser adequada quan les variables d'un conjunt de dades contenen soroll. Si cada columna del conjunt de dades conté soroll gaussià independent distribuït de manera idèntica, aleshores les columnes de T també contindran soroll gaussià distribuït de manera idèntica (aquesta distribució és invariable sota els efectes de la matriu W), que es pot considerar com una rotació d'alta dimensió dels eixos de coordenades. No obstant, amb bona part de la variància total concentrada en els primers components principals en comparació amb la variància del soroll, l'efecte del soroll és proporcionalment menor: és a dir, els primers components aconsegueixen una [[relació senyal-soroll] més alta. Així, l'APC pot tenir l'efecte de concentrar gran part del senyal en els primers components principals, que poden ser capturats de manera pràctica mitjançant la reducció de la dimensionalitat, mentre que els components principals posteriors poden estar dominats pel soroll, i ser eliminats sense grans pèrdues. Si el conjunt de dades no és massa gran, la importància dels components principals es pot provar mitjançant bootstrapping paramètric, com a ajuda per a determinar quants components principals cal retenir.[6]
Variables qualitatives
modificaÉs freqüent que a l'ACP es vulguin introduir variables qualitatives com a elements suplementaris. Per exemple, a les plantes s'han mesurat moltes variables quantitatives, però a més se'n disposa d'algunes de qualitatives com ara l'espècie a la qual pertany la planta. A aquestes dades qualitatives se'ls ha aplicat l'APC per a variables quantitatives; a l'hora d'analitzar els resultats, és natural connectar els components principals amb la variable qualitativa espècie. Per a això, es generen els següents resultats.
- Identificació, en els plans factorials, de les diferents espècies, per exemple, utilitzant diferents colors.
- Representació, en els plans factorials, dels centres de gravetat de les plantes que pertanyen a la mateixa espècie.
- Per a cada centre de gravetat i cada eix, valor p per a jutjar la importància de la diferència entre el centre de gravetat i l'origen.
Aquests resultats són el que s'anomena introducció d'una variable qualitativa com a element suplementari. Aquest procediment es detalla a i Husson, Lê, & Pagès (2009) i Pagès (2013). Pocs programes ofereixen aquesta opció de manera estàndard. És el cas de SPAD que històricament, seguint el treball de Ludovic Lebart, va ser el primer a proposar aquesta opció, i també el paquet R FactoMineR.
Propietats i limitacions
modificaACP és l'esquema lineal òptim per comprimir un conjunt d'alta dimensió de vectors en un conjunt de menor dimensió de vectors, en termes de mínim error de mitjana quadràtic, i reconstruir les dades del conjunt original amb aquest conjunt de menor dimensió.
L'aplicació del ACP està limitat per diverses assumpcions[7]
- Assumpció de linealitat: S'assumeix que les dades observades són combinació lineal d'una certa base.
- Importància estadística de la mitjana i la covariança: ACP utilitza els vectors propis de la matriu de covariància i només troba els eixos de dades independents sota considerant que les dades es distribueixen segons una gaussiana
- Variàncies grans tenen una dinàmica important: ACP només realitza una rotació que alinea els eixos transformats amb les direccions de màxima variancia.
ACP implica només rotació i escalat de les dades. Les assupcions esmentades estan fetes per simplificar la computació algebraica del conjunt de dades.
Usos
modificaS'utilitza per al monitoratge d'un conjunt de dades utilitzant aquesta reducció de dimensionalitat, millorant el monitoratge univariant. També es pot aplicar en la detecció de falles,[8]
Detecció de falles
modificaPer la detecció de falles s'utilitzen els valors de Hotelling, per detectar comportaments estranys en els valors de les variables, i el valor , per monitorar l'error existent en alguna dada (correspon a la predicció de l'error quadràtic, en anglès SPE)
Referències
modifica- ↑ Jolliffe, Ian T.; Cadima, Jorge «Principal component analysis: a review and recent developments». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, vol. 374, 2065, 13-04-2016, pàg. 20150202. Bibcode: 2016RSPTA.37450202J. DOI: 10.1098/rsta.2015.0202. PMC: 4792409. PMID: 26953178.
- ↑ Pearson, Karl «LIII. On lines and planes of closest fit to systems of points in space» (en anglès). The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2, 11, 11-1901, pàg. 559–572. DOI: 10.1080/14786440109462720. ISSN: 1941-5982.
- ↑ Hotelling, Harold «Relations Between Two Sets of Variates». Biometrika, 28, 3/4, 12-1936, pàg. 321. DOI: 10.2307/2333955.
- ↑ Jolliffe, I. T.. Principal Component Analysis (en anglès). New York: Springer-Verlag, 2002. DOI 10.1007/b98835. ISBN 978-0-387-95442-4.
- ↑ Bengio, Y. «Representation Learning: A Review and New Perspectives». IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, 8, 2013, pàg. 1798–1828. arXiv: 1206.5538. DOI: 10.1109/TPAMI.2013.50. PMID: 23787338.
- ↑ Plantilla:Citeu la revista
- ↑ Jonathon Shlens.A Tutorial on Principal Component Analysis. Arxivat 2010-02-15 a Wayback Machine.
- ↑ «Fault detection and diagnosis using statistical control charts and artificial neura». Artificial Intelligence in Egineering, 12, 1998, pàg. 35-47.