Introducción
El análisis de componentes principales (PCA, por sus siglas en inglés) es una técnica estadística útil para la reducción de datos. Ayuda a reducir el número de variables en un análisis al describir una serie de combinaciones lineales no correlacionadas de las variables que contienen la mayor parte de la varianza. Además de la reducción de datos, los eigenvectores de un PCA a menudo se inspeccionan para conocer más sobre la estructura subyacente de los datos. Por lo tanto, el PCA es una herramienta estadística exploratoria que no permite, en general, someter hipótesis a prueba.
El objetivo del PCA es encontrar combinaciones lineales de las variables con mayor varianza. El primer componente principal tiene una varianza general máxima, el segundo componente principal tiene una varianza máxima entre todas las combinaciones lineales que no están correlacionadas con el primer componente principal; mientras que el último componente principal tiene la varianza más pequeña entre todas las combinaciones lineales de las variables. Esto hace del PCA una transformación lineal de los datos. Es importante recalcar que no se está suponiendo que los datos satisfagan un modelo estadístico específico.
En esta entrada haremos un PCA sobre la calificación que dan un grupo de expertos a 10 distintas marcas de papas fritas, con la finalidad de apoyar en la decisión sobre las características que debe tener un nuevo producto para ser del agrado de los consumidores según la opinión de los expertos. Dicho proceso es conocido por ser parte del análisis de preferencias que usualmente realizan en algunos estudios de mercado cuantitativos.
Datos
Los datos corresponden a una base ficticia, donde se reporta por parte de un grupo de expertos su calificación para distintas características de 10 marcas distintas de papas fritas en el mercado, cierta empresa quiere reconocer las fortalezas y las debilidades del producto según el gusto de los expertos para posicionar una nueva marca en el mercado.
Realizamos una inspección sobre la correlación entre características analizadas.
- use expertos
- corr crujiente-dulzor
Como podría esperarse tenemos correlaciones positivas entre lo crujiente del producto con otras características como la dureza, la sensación de estar sobre cocido y el de ser un producto poco natural (artificial). Así como una correlación negativa con características opuestas como la fragilidad y la frescura del producto, pues se observa que hay una percepción de que un producto crujiente es menos fresco y más artificial.
Estamos trabajando con variables que no se pueden medir de una forma convencional, pues no tienen una unidad de medida específica, por lo cual el PCA se fundamentará en la matriz de correlaciones.
- sum crujiente-dulzor, sep(0)
PCA
Parar realizar el análisis en Stata sólo tenemos que teclear la siguiente línea en la barra de comandos:
- pca crujiente-dulzor
El primer panel que nos muestra Stata corresponde a los eigenvalores de la matriz de correlación, ordenados de mayor a menor; los eigenvectores correspondientes a dichos valores propios están en el siguiente panel.
Los loadings de nuestros (9) componentes principales, se encuentran normalizados a 1, lo que significa que la suma columna del cuadrado de los loadings es igual a 1.
Como estamos analizando una matriz de correlación, las variables están estandarizadas para tener una varianza unitaria, por lo que la varianza total es 11. Los valores propios son las varianzas de los componentes principales. Los eigenvalores son las varianzas de los componentes principales. El primer componente principal tiene una varianza de 4.83, que explica el 43% (4.83 / 11) de la varianza total. El segundo componente principal tiene una varianza de 2.78 o 25% (2.78 / 11) de la varianza total. Estos componentes principales no están correlacionados.
Asimismo, podemos decir que los primeros dos componentes explican la suma de las varianzas individuales de los mismos, 43%+25%=69%, del total de la varianza. Los 11 componentes principales combinados explican el total de la varianza de las variables, por lo tanto, las varianzas no explicadas enlistadas en el segundo panel son igual a cero con un Rho=1.00, tal como se observa en el primer panel. Además, podemos observar que a partir del noveno componente principal el total de nuestra varianza está explicada, sin embargo, debemos de tomar en cuenta las 11 variables para el calculo de las varianzas explicadas por cada componente.
Observamos que en los primeros 4 componentes se logra explicar el 92% de la varianza total, por lo cual podemos enfocarnos sólo a estos componentes al solicitarlo a través del comando siguiente:
- pca crujiente-dulzor, components(4)
Podemos ver como sólo el segundo panel presentado se ve afectado, pues dimos la indicación a Stata que sólo se calcularan 4 componentes principales, obteniendo también, un componente no explicado de la varianza, el cual es igual a la suma de cuadrados de los loadings ponderados por sus respectivos eigenvalores, la cual es aproximadamente del 8% (1-0.92).
A manera de nota, hay literatura y algunos softwares que tratan el PCA en combinación con el análisis factorial y tienden a mostrar los loadings de los componentes principales con una normalización asociada a los propios eigenvalores en vez de normalizarlos a 1. Para realizar esto, basta con escribir el siguiente comando:
- estat loadings, cnorm(eigen)
Ahora podemos definir cuáles son las características de los productos que tienen un mayor peso en algunos componentes, con la finalidad de observar qué características dentro del nuevo producto deben ser las más cuidadas.
- loadingplot
De manera predeterminada, Stata gráfica los loadings de los componentes 1 y 2. En este gráfico podemos notar que las características dureza, artificial y salado, son las preponderantes en ambos componentes, por lo que debe ponerse especial atención en dichas características en el proceso de elaboración del producto; en donde tal vez el producto deba tener la dureza que tienen ya algunas marcas o mayor, donde el sabor sea lo menos artificial posible y donde el sabor salado sea preponderante.
Dentro de estas observaciones, la marca que cumple mejor estos criterios dentro de los dos componentes principales es la marca 8. Misma que serviría de referencia para la elaboración de un nuevo producto, y donde se tendría que mejorar ciertas características como la sensación de ser un producto muy artificial. Esto lo podemos visualizar con el siguiente comando:
- scoreplot, mlabel(Papas)
Conclusión
Gracias a las herramientas que ofrece Stata para realizar PCA, se pueden analizar y tomar decisiones en el ámbito de la mercadotecnia para realizar análisis de preferencias, tal como lo vimos en este ejemplo.
Referencias
Stata Press. 2017. STATA Multivariate Statistics Refrence Manual, Release 15. College Station, Texas.
Para cotizaciones e información sobre Stata, escríbenos a: info@multion.com
Este blog es administrado por MultiON Consulting S.A. de C.V.
Es posible realizar en Stata un ACP con datos categóricos?. Gracias, espero su respuesta-
ResponderBorrar