Análisis de correspondencias bivariante en R

El Análisis de Correspondencias se usa para representar posibles asociaciones entre variables categóricas (factores) para determinar si es posible observar patrones. Es un análisis básicamente exploratorio. El análisis de correspondencias bivariante en R es muy sencillo de realizar a partir del paquete ca, como veremos a continuación.

Sinónimos en la historia de Análisis de Correspondencias: (1) análisis de componentes principales para datos cualitativos, (2) escalado óptimo, análisis, canónico, (3) método de los promedio recíprocos, (4) puntuaciones aditivas, (5) puntuaciones apropiadas, (6) ponderaciones de Guttman, (7) teoría de cuentificación de Hayashi, (8) regresión lineal simultánea, (9) análisis factorial de correspondencias, (10) biplot, (11) escalado dual.

Ejemplo:

En 1976 se presentó un trabajo a cargo de Nanny Wermuth sobre 6851 nacimientos (n=6851). Se tomaron 2 factores, cada una con cuatro categorías:

  1. Factor 1 = Características de la madre, con cuatro categorías:
    jnf = madre joven que no fumó durante el embarazo
    jf = madre joven que fumó durante la gestación
    mnf = madre mayor que no fumó durante la gestación
    mf = madre mayor que fumó durante la vestación
  2. Factor 2 = Estado del bebé, con cuatro categorías:
    pm = prematuro que murió antes de finalizar el primer año
    pv = prematuro que vivió al menos el primer año
    gcm = gestación completa que murió antes de finalizar el primer año
    gcv = gestación completa que vivió al menos el primer año

La tabla de nacimientos contados en cada categoría se puede ver a continuación:

pm pv gcm gcv
jnf 50 315 24 4012
jf 9 40 6 459
mnf 41 147 14 1594
mf 4 11 1 124

¿Están relacionadas las Características de la madre con el Estado del bebé? Y… ¿cómo?

La primera pregunta se responde con un test Chi-cuadrado y la segunda con un Análisis de Correspondencias.

Test de independencia Chi-cuadrado

Antes de realizar un análisis de correspondencias, es absolutamente necesario contrastar si ambos factores son o no dependientes mediante un test de independencia Chi-cuadrado. Sólo si ambos son dependientes (correlacionados), tiene sentido hacer un análisis de correspondencias. La dependencia de ambos factores ya se solucionó en esta entrada.

Análisis de correspondencias  bivariante en R usando el paquete “ca”

Una vez constatado que nuestras variables se correlacionan, procedemos a realizar el gráfico de análisis de correspondencias bivariante en R.

Para ello instalamos y cargamos la librería “ca” (del inglés, Correspondence Analysis).

Paquete necesario: ca

¿Cómo instalar y cargar nuevos paquetes en R Commander de un modo muy sencillo?

Introducimos los datos

Es necesario introducir los datos en R Commander. Llamaremos a la tabla como Datos.

Datos numéricos del análisis de correspondencias

Escribimos el siguiente código en la pestaña R Script de R Commander, teniendo en cuenta de poner el nombre correcto de la tabla de datos que estemos usando (marcada en rojo):

ca(Datos)

Se obtienen los siguientes resultados después de Ejecutar:

> ca(Datos)

 Principal inertias (eigenvalues):
           1        2        3      
Value      0.002532 0.000244 1.3e-05
Percentage 90.79%   8.75%    0.47%  

Interpretación: porcentaje de variabilidad de cada una de las dimensiones (ejes).
La primera dimensión agrupa el 90.79%, la segunda el 8.75% y la tercera el 0.47%.
Esto también aparece representado en la figura.

 Rows:
              jnf        jf      mnf       mf
Mass     0.642388  0.075026 0.262152 0.020435
ChiDist  0.037030  0.067524 0.070774 0.111312
Inertia  0.000881  0.000342 0.001313 0.000253
Dim. 1  -0.734934  0.848443 1.396653 2.071131
Dim. 2   0.120916 -3.346554 0.503502 2.026326

Interpretación: las variables que estaban expresadas en filas (rows) en la tabla de datos
y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable 
están expresadas respectivamente en Dim. 1 y Dim. 2. 
Por ejemplo, las coordenadas de jf son (0.85,-3.35).

 Columns:
              pm       pv        gcm       gcv
Mass    0.015180 0.074880   0.006568  0.903372
ChiDist 0.353378 0.060725   0.270423  0.012320
Inertia 0.001896 0.000276   0.000480  0.000137
Dim. 1  6.962620 1.182469   4.008434 -0.244159
Dim. 2  2.878903 0.066271 -11.528932  0.029956

Interpretación: igual que en el caso anterior pero en esta ocasión respecto a las variables que 
estaban expresadas en columnas (columns).

Gráfico del análisis de correspondencias

Para obtener el gráfico de análisis de correspondencias bivariante en R, ejecutamos el siguiente comando, poniendo entre paréntesis el nombre de la tabla:

plot(ca(Datos))

Obteniendo el siguiente resultado:

análisis de correspondencias bivariante en R

Interpretación del análisis de correspondencias bivariante en R

Las distancias entre las diferentes categorías indican la mayor o menor relación entre ellas. Por ejemplo, pm y gcm (ambas relacionadas con la muerte de los bebés) no parecen tener una relación con la edad de la madre y con el hecho de si eran o no fumadoras. Por otro lado, las madres jóvenes no fumadoras (jnf) si parece que tienen relación con los nacimientos con gestación completa que sobreviviveron (gcv), así como la relación entre las madres mayores no fumadoras (mnf) con los nacimientos prematuros que sobrevivieron (pv).

Referencias

  1. Uso del paquete “ca”:
    La práctica del análisis de correspondencias. Por Michael Greenacre
  2. Métodos Avanzados de Estadística Aplicada: técnicas Avanzadas. Por Alfonso García Pérez.

4 comentarios en “Análisis de correspondencias bivariante en R

  1. Hola, sé que la pregunta que voy a hacer es muy básica, pero prefieron no quedarme con la duda. Hice un test exacto de fisher para ver si dos variable estan asociadas y el valor de p fue de 1. ¿Es posible este resultado?, ¿Habrá algún problema con mis datos?. Esppero su respuesta. Saludos

    • Hola Vian. Siento la tardanza. Una probabilidad está comprendida entre 0 y 1. Por lo tanto, obtener un 1 está dentro de lo posible, indicando en tu caso que no hay diferencias entre ambas variables.

Deja un comentario

*