Análise De Compoñentes Principais

En estatística, a análise de compoñentes principais (en galego ACP, en inglés, PCA) é unha técnica utilizada para reducir a dimensionalidade dun conxunto de datos.

Análise De Compoñentes Principais
ACP dunha distribución normal multivariante centrada en (1,3) con desviación típico 3 na dirección aproximada (0,866, 0,5) e desviación típica 1 na dirección perpendicular á anterior. Os vectores mostran os autovectores da matriz de correlación escalados mediante a raíz cadrada do correspondente autovalor, e desprazados para que a súa orixe coincidan coa media estatística.

Tecnicamente, a ACP busca a proxección segundo a cal os datos queden mellor representados en termos de mínimos cadrados. Esta converte un conxunto de observacións de variables posiblemente correlacionadas nun conxunto de valores de variables sen correlación linear chamadas compoñentes principais.

A ACP emprégase sobre todo en análise exploratorio de datos e para construír modelos predictivos. A ACP implica o cálculo da descomposición en autovalores da matriz de covarianza, normalmente tras centrar os datos na media de cada atributo.

Debe diferenciarse da análise factorial coa que ten similitudes formais e na que se pode empregar como un método de aproximación para a extracción de factores.

A ACP foi inventada en 1901 por Karl Pearson, como análogo ao teorema do eixe principal na mecánica; foi desenvolvido de xeito independente na década de 1930 por Harold Hotelling, quen lle deu o nome.

Fundamento

A ACP constrúe unha transformación linear que escolle un novo sistema de coordenadas para o conxunto orixinal de datos no que a varianza de maior tamaño do conxunto de datos é capturada no primeiro eixe (chamado a primeira compoñente principal), a segunda varianza máis grande é o segundo eixe, e así sucesivamente. Para construír esta transformación linear debe construírse primeiro a matriz de covarianza ou matriz de coeficientes de correlación. Debido á simetría desta matriz existe unha base completa de vectores propios da mesma. A transformación que leva das antigas coordenadas ás coordenadas da nova base é precisamente a transformación linear necesaria para reducir a dimensionalidade de datos. Ademais as coordenadas na nova base dan a composición en factores subxacentes dos datos iniciais.

Unha das vantaxes da ACP para reducir a dimensionalidade dun grupo de datos é que retén aquelas características do conxunto de datos que contribúen máis á súa varianza, mantendo unha orde de baixo nivel dos compoñentes principais e ignorando os de alto nivel. O obxectivo é que eses compoñentes de baixa orde ás veces conteñen o aspecto "máis importante" desa información.

Matemáticas da ACP

Supóñase que existe unha mostra con n individuos para cada un dos cales se mediron m variables aleatorias Análise De Compoñentes Principais  A ACP permite atopar un número de factores subxacentes p<m que explican aproximadamente o valor das m variables para cada individuo. O feito de que existan estes p factores subxacentes pode interpretarse como unha redución da dimensionalidade dos datos: onde antes necesitabamos m valores para caracterizar cada individuo agora bástannos p valores. Cada un dos p atopados chámase compoñente principal, de aí o nome do método.

Existen dúas formas básicas de aplicar a ACP:

  1. Método baseado na matriz de correlación, cando os datos non son dimensionalmente homoxéneos ou a orde de magnitude das variables aleatorias medidas non é o mesmo.
  2. Método baseado na matriz de covarianzas, que se usa cando os datos son dimensionalmente homoxéneos e presentan valores medios similares.

Método baseado en correlacións

Considérese o valor de cada unha das m variables aleatorias Análise De Compoñentes Principais . Para cada un dos n individuos tómese o valor destas variables e escríbase o conxunto de datos en forma de matriz:

    Análise De Compoñentes Principais .

Obsérvese que cada conxunto

    Análise De Compoñentes Principais 

pode considerarse unha mostra aleatoria para a variable Análise De Compoñentes Principais . A partir dos m×n datos correspondentes ás m variables aleatorias, pode construírse a matriz de correlación muestral, que vén definida por:


Análise De Compoñentes Principais 

Posto que a matriz de correlacións é simétrica entón resulta diagonalizable e os seus valores propios Análise De Compoñentes Principais  verifican:


Análise De Compoñentes Principais 

Debido á propiedade anterior estes m valores propios reciben o nome de pesos de cada unha das m compoñentes principais. Os factores principais identificados matematicamente represéntanse pola base de vectores propios da matriz Análise De Compoñentes Principais . Está claro que cada unha das variables pode ser expresada como combinación linear dos vectores propios ou compoñentes principais.

Método baseado nas covarianzas

O obxectivo é transformar un conxunto dado de datos X de dimensión n×m a outro conxunto de datos Y de menor dimensión n×l coa menor perda de información útil posible utilizando para iso a matriz de covarianza.

Pártese dun conxunto n de mostras cada unha das cales ten m variables que as describen e o obxectivo é que, cada unha desas mostras, descríbase con só I variables, onde l<m. Ademais, o número de compoñentes principais l ten que ser inferior á menor das dimensións de X.


Análise De Compoñentes Principais 

Os datos para a análise teñen que estar centrados na media 0 (restándolles a media de cada columna) e/ou autoescalados (centrados a media 0 e dividindo cada columna pola súa desviación típica).


Análise De Compoñentes Principais 

Os vectores Análise De Compoñentes Principais  coñécense como scores e conteñen a información de como as mostras están relacionadas unhas coas outras; ademais, teñen a propiedade de ser ortogonais. Os vectores Análise De Compoñentes Principais  chámanse loadings e informan da relación existente entre as variables e teñen a calidade de ser ortonormais.

Ao coller menos compoñentes principais que variables e debido ao erro de axuste do modelo cos datos, prodúcese un erro que se acumula na matriz Análise De Compoñentes Principais .

A ACP baséase na descomposición en vectores propios da matriz de covarianza, a cal se calcula coa seguinte ecuación:


Análise De Compoñentes Principais 
Análise De Compoñentes Principais 
Análise De Compoñentes Principais 

onde Análise De Compoñentes Principais  é o valor propio asociado ao vector propio Análise De Compoñentes Principais . Por último,


Análise De Compoñentes Principais 

Esta ecuación pódese entender como que Análise De Compoñentes Principais  son as proxeccións de X en Análise De Compoñentes Principais , onde os valores propios Análise De Compoñentes Principais  miden a cantidade de varianza capturada, é dicir, a información que representan cada unha das compoñentes principais. A cantidade de información que captura cada compoñente principal vai diminuíndo segundo o seu número, é dicir, a compoñente principal número un representa máis información que a dúas e así sucesivamente.

Limitacións

A aplicación da ACP está limitada por varios supostos:

  • Suposición de linearidade: Asúmese que os datos observados son combinación linear dunha certa base.
  • Importancia estatística da media e a covarianza: a ACP utiliza os vectores propios da matriz de covarianzas e só atopa as direccións de eixes no espazo de variables considerando que os datos se distribúen de maneira gaussiana.

Exemplos

  • Unha análise considerou as cualificacións escolares n = 15 estudantes en m = materias (lingua, matemáticas, física, inglés, filosofía, historia, química, educación física). As dúas primeiras compoñentes principais explicaban xuntas o 82,1 % da varianza. A primeira delas parecía fortemente correlacionado coas materias de humanidades (lingua, inglés, filosofía, historia) mentres que a segunda aparecía relacionada coas materias de ciencias (matemáticas, física, química). Así parece que existe un conxunto de habilidades cognitivas relacionadas coas humanidades e un segundo relacionado coas ciencias; estes dous conxuntos de habilidades son estatisticamente independentes polo que un alumno pode puntuar alto en só un deles, nos dous ou en ningún.
  • Unha análise de 11 indicadores socieconómicos de 96 países, revelou que os resultados podían explicarse no alto grao a partir de só dous compoñentes principais, o primeiro deles tiña que ver co nivel de PIB total do país e o segundo co índice de ruralidade.

Notas

Véxase tamén

Bibliografía

  • Jackson, J.E. (1991). A User's Guide to Principal Components (Wiley).
  • Jolliffe, I. T. (1986). Principal Component Analysis. Springer-Verlag. p. 487. ISBN 978-0-387-95442-4. doi:10.1007/b98835. Arquivado dende o orixinal o 16 de outubro de 2019. Consultado o 6 de agosto de 2017. 
  • Jolliffe, I.T. (2002). Principal Component Analysis, second edition (Springer).
  • Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, Londres. 224p. 978-2-7535-0938-2
  • Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series, Londres 272 p

Ligazóns externas

Tags:

Análise De Compoñentes Principais FundamentoAnálise De Compoñentes Principais Matemáticas da ACPAnálise De Compoñentes Principais ExemplosAnálise De Compoñentes Principais NotasAnálise De Compoñentes Principais Véxase taménAnálise De Compoñentes PrincipaisEstatística

🔥 Trending searches on Wiki Galego:

Fillas de CassandraAmérica LatinaProvincias de EspañaAmieiro2015Lista de paísesXestaEl Correo GallegoTradescantia fluminensisManuel FragaO CarballiñoViacrucis2003DodecágonoLugoXabier FortesLuís CíliaLudwig van BeethovenStellantisSri LankaTito ValdésO GroveHomosexualidadeOtelo Saraiva de CarvalhoJulio Iglesias RedondoCarlos de Matos GomesCouselo (planta)Literatura infantilBenito Kamelaspxhj6Normativa oficial do galegoPablo EcheniqueJuana AcostaConceyu BableInstagramFauna de GaliciaConvento do Carme de PadrónReino de GaliciaHLA-DMLondresLuís Pérez BarralÁlvaro MorataFentoJohannes VermeerLingua portuguesaSegunda República EspañolaSobreiraManuel MurguíaXogos floraisPablo MartinezVigoAciñeiraJava (linguaxe de programación)Movimento das Forças ArmadasDonicelaA chave das nocesPeer-to-peerCarballoPemento de PadrónMario CaneiroRibeiraEl Pueblo GallegoParafusoCuruxa comúnMúsica tradicional galegaEstadio Municipal de RiazorRicardo BeirasAWStatsVichelocregoFerrer BassaRafael Nadal🡆 More