El Análisis de Correspondencias se usa para representar posibles asociaciones entre variables categóricas (factores) para determinar si es posible observar patrones. Es un análisis básicamente exploratorio. El análisis de correspondencias bivariante en R es muy sencillo de realizar a partir del paquete ca, como veremos a continuación.
Sinónimos en la historia de Análisis de Correspondencias: (1) análisis de componentes principales para datos cualitativos, (2) escalado óptimo, análisis, canónico, (3) método de los promedio recíprocos, (4) puntuaciones aditivas, (5) puntuaciones apropiadas, (6) ponderaciones de Guttman, (7) teoría de cuentificación de Hayashi, (8) regresión lineal simultánea, (9) análisis factorial de correspondencias, (10) biplot, (11) escalado dual.
Quiero leer...
Ejemplo:
En 1976 se presentó un trabajo a cargo de Nanny Wermuth sobre 6851 nacimientos (n=6851). Se tomaron 2 factores, cada una con cuatro categorías:
- Factor 1 = Características de la madre, con cuatro categorías:
– jnf = madre joven que no fumó durante el embarazo
– jf = madre joven que fumó durante la gestación
– mnf = madre mayor que no fumó durante la gestación
– mf = madre mayor que fumó durante la vestación- Factor 2 = Estado del bebé, con cuatro categorías:
– pm = prematuro que murió antes de finalizar el primer año
– pv = prematuro que vivió al menos el primer año
– gcm = gestación completa que murió antes de finalizar el primer año
– gcv = gestación completa que vivió al menos el primer añoLa tabla de nacimientos contados en cada categoría se puede ver a continuación:
pm pv gcm gcv jnf 50 315 24 4012 jf 9 40 6 459 mnf 41 147 14 1594 mf 4 11 1 124 ¿Están relacionadas las Características de la madre con el Estado del bebé? Y… ¿cómo?
La primera pregunta se responde con un test Chi-cuadrado y la segunda con un Análisis de Correspondencias.
Test de independencia Chi-cuadrado
Antes de realizar un análisis de correspondencias, es absolutamente necesario contrastar si ambos factores son o no dependientes mediante un test de independencia Chi-cuadrado. Sólo si ambos son dependientes (correlacionados), tiene sentido hacer un análisis de correspondencias. La dependencia de ambos factores ya se solucionó en esta entrada.
Análisis de correspondencias bivariante en R usando el paquete «ca»
Una vez constatado que nuestras variables se correlacionan, procedemos a realizar el gráfico de análisis de correspondencias bivariante en R.
Para ello instalamos y cargamos la librería «ca» (del inglés, Correspondence Analysis).
Paquete necesario: ca
¿Cómo instalar y cargar nuevos paquetes en R Commander de un modo muy sencillo?
Introducimos los datos
Es necesario introducir los datos en R Commander. Llamaremos a la tabla como Datos.
Datos numéricos del análisis de correspondencias
Escribimos el siguiente código en la pestaña R Script de R Commander, teniendo en cuenta de poner el nombre correcto de la tabla de datos que estemos usando (marcada en rojo):
ca(Datos)
Se obtienen los siguientes resultados después de Ejecutar:
> ca(Datos) Principal inertias (eigenvalues): 1 2 3 Value 0.002532 0.000244 1.3e-05 Percentage 90.79% 8.75% 0.47% Interpretación: porcentaje de variabilidad de cada una de las dimensiones (ejes). La primera dimensión agrupa el 90.79%, la segunda el 8.75% y la tercera el 0.47%. Esto también aparece representado en la figura. Rows: jnf jf mnf mf Mass 0.642388 0.075026 0.262152 0.020435 ChiDist 0.037030 0.067524 0.070774 0.111312 Inertia 0.000881 0.000342 0.001313 0.000253 Dim. 1 -0.734934 0.848443 1.396653 2.071131 Dim. 2 0.120916 -3.346554 0.503502 2.026326 Interpretación: las variables que estaban expresadas en filas (rows) en la tabla de datos y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable están expresadas respectivamente en Dim. 1 y Dim. 2. Por ejemplo, las coordenadas de jf son (0.85,-3.35). Columns: pm pv gcm gcv Mass 0.015180 0.074880 0.006568 0.903372 ChiDist 0.353378 0.060725 0.270423 0.012320 Inertia 0.001896 0.000276 0.000480 0.000137 Dim. 1 6.962620 1.182469 4.008434 -0.244159 Dim. 2 2.878903 0.066271 -11.528932 0.029956 Interpretación: igual que en el caso anterior pero en esta ocasión respecto a las variables que estaban expresadas en columnas (columns).
Gráfico del análisis de correspondencias
Para obtener el gráfico de análisis de correspondencias bivariante en R, ejecutamos el siguiente comando, poniendo entre paréntesis el nombre de la tabla:
plot(ca(Datos))
Obteniendo el siguiente resultado:
Interpretación del análisis de correspondencias bivariante en R
Las distancias entre las diferentes categorías indican la mayor o menor relación entre ellas. Por ejemplo, pm y gcm (ambas relacionadas con la muerte de los bebés) no parecen tener una relación con la edad de la madre y con el hecho de si eran o no fumadoras. Por otro lado, las madres jóvenes no fumadoras (jnf) si parece que tienen relación con los nacimientos con gestación completa que sobreviviveron (gcv), así como la relación entre las madres mayores no fumadoras (mnf) con los nacimientos prematuros que sobrevivieron (pv).
Referencias
- Uso del paquete «ca»:
La práctica del análisis de correspondencias. Por Michael Greenacre - Métodos Avanzados de Estadística Aplicada: técnicas Avanzadas. Por Alfonso García Pérez.
Hola, sé que la pregunta que voy a hacer es muy básica, pero prefieron no quedarme con la duda. Hice un test exacto de fisher para ver si dos variable estan asociadas y el valor de p fue de 1. ¿Es posible este resultado?, ¿Habrá algún problema con mis datos?. Esppero su respuesta. Saludos
Hola Vian. Siento la tardanza. Una probabilidad está comprendida entre 0 y 1. Por lo tanto, obtener un 1 está dentro de lo posible, indicando en tu caso que no hay diferencias entre ambas variables.
Para variables numericas politomicas existe una técnica estadistica apropiada , si existe me podria dar la información, gracias.
El mismo análisis de correspondencias mismo permite variables politómicas.