Análisis de correspondencias en R (Multivariante IV)

El análisis de correspondencias se usa para representar e identificar posibles asociaciones entre variables categóricas (factores), con el objetivo de determinar si existe algún patrón entre ellas. Es un análisis básicamente exploratorio que a lo largo de la historia ha recibido numerosos nombres. Estos eson algunos sinónimos que pueden leerse en la literatura especializada: análisis de componentes principales para datos cualitativos, escalado óptimo, análisis canónico, método de los promedio recíprocos, puntuaciones aditivas, puntuaciones apropiadas, ponderaciones de Guttman, teoría de cuentificación de Hayashi, regresión lineal simultánea, análisis factorial de correspondencias, biplot o escalado dual.

El análisis de correspondencias bivariante en R es sencillo de realizar a partir del paquete ca. El empleo de esta técnica estadística es de extrema utilidad ya que permite establecer hipótesis en base a lo observado para contrastarlo posteriormente con un test estadístico.

9.1 Ejemplo de cerámicas arqueológicas de Lagunillas

El ejemplo para trabajar el análisis de correspondiencias trata de la comparación entre la forma y la zona de decoración en las cerámicas arqueológicas del yacimiento Lagunillas, en Venezuela (Fernández O. 2002). Este yacimiento tiene una cronología que se sitúa entre el año 1000 A.C. y el 300 D.C.

Los datos pueden descargarse desde la web del libro con el nombre Datos_Cerámica_Correspondencias.txt. Se cargan en R Commander manteniendo la opción de separación de espacios en la ventana de importación. Se ha llamado al conjunto de datos como ceramica.

El análisis de correspondencias es un método exploratorio para ver cómo se relacionan variables cualitativas. Las dos variables cualitativas que se tratan en este ejemplo son las zonas de decoración y la forma del borde, cada una con sus correspondientes categorías. A continuación se muestran estas dos variables cualitativas con sus diferentes categorías:

  1. Variable cualitativa Zonas de decoración. Presenta 13 categorías (se ha eliminado una categoría respecto a la publicación original ya que presentaba para todos sus valores unos contajes de 0):
  • ZD1. Sin decoración.
  • ZD2. En el terminal del labio o pestaña.
  • ZD3. En el labio o pestaña (exterior).
  • ZD4. En el labio o pestaña (interior).
  • ZD5. Desde el labio hasta la inflexión.
  • ZD6. Debajo de la inflexión (exterior).
  • ZD7. Debajo del labio, sin inflexión (exterior).
  • ZD8. Debajo del labio, sin inflexión (interior).
  • ZD9. Combinación de 2 y 4.
  • ZD10. Combinación de 2 y 7.
  • ZD11. Combinación de 2 y 5.
  • ZD12. Combinación de 5 y 6.
  • ZD13. Combinación de 3 y 6.
  1. Variable cualitativa Formas del borde. Presenta 20 categorías:
  • FOR1. Posiblemente corresponde a un plato rectanguloide.
  • FOR2. Parece corresponder su forma a boles abiertos de paredes salientes y base redondeada.
  • FOR3. La reconstrucción de la forma parece reflejar boles abiertos con pestaña, algunos más llanos que otros.
  • FOR4 y FOR5. Estos bordes forman parte de boles de boca abierta o ligeramente cerrada.
  • FOR6. Posiblemente los bordes podrían pertenecer a boles más o menos llanos de boca irregular.
  • FOR7. Boles no muy hondos de boca cerrada, con una inflexión que se da con la base redondeada.
  • FOR8. Parece ser rectanguloide o naviforme.
  • FOR9. La forma reconstruida parece ser un bol carenado con pared saliente o casi vertical y con base simple.
  • FOR10. Los bordes de esta forma pertenecen a boles carenados de tamaño reducido y de poca profundidad.
  • FOR11. Parece corresponder la forma con pequeñas jarras globulares con labio saliente y base redondeada.
  • FOR12. La forma reconstruida es de una jarra semi-globular con hombro marcado y cuello corto restringido.
  • FOR13. Posiblemente corresponden a una olla de pared ligeramente entrante o casi vertical, de boca bastante abierta y conbase redondeada.
  • FOR14. La forma reconstruida es una botella de un cuerpo probablemente globular con cuello restringido.
  • FOR15. Posiblemente corresponde su forma a una jarra con boca abierta de paredes casi verticales y probablemente de base redondeada.
  • FOR16. Esta se caracteriza por paredes muy entrantes terminando en un hombro angular del cual sale una pestaña engrosada con labio redondeado.
  • FOR17. Característico de esta forma es un borde casi horizontal correspondiente a una boca restringida. Se hace muy difícil la reconstrucción de esta forma debido a lo muy fragmentado de este material.
  • FOR18. Pertenece a jarras con boca cerrada, sin cuello, de cuerpo globular.
  • FOR19. Constituida por todas aquellas microvasijas.
  • FOR20. Pertenecen a boles abiertos.

9.2 Test de independencia Chi-cuadrado

Antes de realizar un análisis de correspondencias hay que comprobar si las dos variables cualitativas o categóricas (zona de decoración y forma) están relacionadas. Sólo si están relacionadas tiene sentido hacer un análisis de correspondencias.

Para ello se ejecuta un test Chi-cuadrado de independencia ejecutando la función chisq.test() sobre el conjunto de datos.

chisq.test(ceramica)
## Warning in chisq.test(ceramica): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  ceramica
## X-squared = 4820,9, df = 228, p-value < 2,2e-16

Un p-valor inferior a 0.05 hace que se rechace la hipótesis nula de independencia de las dos variables categóricas. Es decir, se acepta la hipótesis alternativa que indica que ambas variables son dependientes y están, por tanto, relacionadas. En este caso tiene pleno sentido realizar un análisis de correspondencias, ya que si no estuviesen relacionadas no se esperaría encontrar ningún patrón con este análisis.

9.3 Instalación el paquete ca

Para realizar un análisis de correspondencias es necesario instalar el paquete ca (Correspondence Analysis). Para ello, se ejecuta la función siguiente, seleccionando un servidor CRAN específico:

install.packages("ca")

El análisis de correspondencias es muy sencillo e intuititivo de realizar en R, a pesar de que en R Commander no haya un menú gráfico que facilite la tarea. Con tres simples funciones puede llevarse a cabo. Pero antes hay que cargar el paquete ca en R Commander ejecutando la función library(ca). Las tres funciones son ca() (dentro del paquete ca) unida a summary() y plot() (que vienen de serie en R).

La primera función ejecuta el análisis de correspondencias. Los resultados numéricos se pueden ver a continuación:

ca(ceramica)
## 
##  Principal inertias (eigenvalues):
##            1        2        3        4        5        6        7       
## Value      0,765498 0,323292 0,228491 0,188003 0,142325 0,087433 0,053022
## Percentage 40,49%   17,1%    12,09%   9,94%    7,53%    4,62%    2,8%    
##            8        9        10       11       12      
## Value      0,045786 0,030654 0,021748 0,003359 0,000939
## Percentage 2,42%    1,62%    1,15%    0,18%    0,05%   
## 
## 
##  Rows:
##              ZD1       ZD2      ZD3       ZD4       ZD5      ZD6       ZD7
## Mass    0,692157  0,020784 0,005098  0,010196  0,084706 0,005882  0,169020
## ChiDist 0,535899  2,791851 2,514632  3,337809  1,923586 4,696211  1,561310
## Inertia 0,198779  0,162002 0,032237  0,113594  0,313427 0,129732  0,412017
## Dim. 1  0,592845  0,594420 0,402589  0,683747 -1,817955 0,160903 -1,650221
## Dim. 2  0,181124 -4,653694 0,004552 -0,600909  0,164006 0,907329 -0,074994
##               ZD8       ZD9      ZD10       ZD11      ZD12     ZD13
## Mass     0,000392  0,001961  0,003922   0,000784  0,002745 0,002353
## ChiDist  8,356634  2,457543  4,311934  14,543040  6,289771 7,772317
## Inertia  0,027386  0,011842  0,072913   0,165882  0,108599 0,142139
## Dim. 1   0,817257  0,726634 -0,386571   0,690680 -0,533559 0,398564
## Dim. 2  -1,073241 -0,867955 -3,522142 -24,158245  0,839716 1,481049
## 
## 
##  Columns:
##              FOR1      FOR2     FOR3      FOR4      FOR5       FOR6
## Mass     0,014118  0,152157 0,038431  0,103922  0,009804   0,004706
## ChiDist  2,868647  0,690054 0,624591  0,342067  3,114910   7,953061
## Inertia  0,116176  0,072453 0,014993  0,012160  0,095124   0,297653
## Dim. 1   0,715040  0,615930 0,679751  0,169920 -1,655037   0,604295
## Dim. 2  -0,610231 -0,464327 0,116947 -0,025391 -1,101920 -13,736073
##              FOR7      FOR8      FOR9     FOR10    FOR11     FOR12
## Mass     0,012549  0,003137  0,194118  0,006667 0,012549  0,001961
## ChiDist  2,399322  2,839226  1,572055  4,283815 2,422788  9,729965
## Inertia  0,072242  0,025290  0,479734  0,122340 0,073662  0,185632
## Dim. 1  -1,388922 -1,733407 -1,788420 -1,818776 0,498920 -0,159789
## Dim. 2   0,030246  0,292208  0,033318  0,498163 0,557087  1,737908
##            FOR13    FOR14     FOR15    FOR16    FOR17    FOR18     FOR19
## Mass    0,352549 0,025098  0,020392 0,016471 0,009804 0,014510  0,004706
## ChiDist 0,636779 1,409579  1,605556 0,537175 0,666903 1,486982  2,662265
## Inertia 0,142954 0,049868  0,052567 0,004753 0,004360 0,032083  0,033354
## Dim. 1  0,658795 0,547137 -1,294496 0,349567 0,677594 0,456466  0,379400
## Dim. 2  0,326490 0,461919 -0,027946 0,314967 0,318551 0,113459 -0,452499
##             FOR20
## Mass     0,002353
## ChiDist  1,157490
## Inertia  0,003152
## Dim. 1   0,677894
## Dim. 2  -1,098651

La primera parte de los resultados (Principal inertias (eigenvalues):) representa el porcentaje de variabilidad de cada una de las dimensiones o ejes. En este caso, el primer eje agrupa un 40.49% de variación, el segundo un 17.1%, y así sucesivamente.

La segunda parte de los resultados (Rows:) muestra las variables que estaban expresadas en filas (rows) en la tabla de datos y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable están expresadas respectivamente en Dim. 1 y Dim. 2.

La tercera parte de los resultados (Colums:) muestra las variables que estaban expresadas en columnas en la tabla de datos y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable están expresadas respectivamente en Dim. 1 y Dim. 2.

Ejecutando la función summary(ca(ceramica)) se obtienen datos más detallados del análisis de correspondencias:

summary(ca(ceramica))
## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0,765498  40.5  40.5  **********               
##  2      0,323292  17.1  57.6  ****                     
##  3      0,228491  12.1  69.7  ***                      
##  4      0,188003   9.9  79.6  **                       
##  5      0,142325   7.5  87.1  **                       
##  6      0,087433   4.6  91.8  *                        
##  7      0,053022   2.8  94.6  *                        
##  8      0,045786   2.4  97.0  *                        
##  9      0,030654   1.6  98.6                           
##  10     0,021748   1.2  99.8                           
##  11     0,003359   0.2 100.0                           
##  12     0,000939   0.0 100.0                           
##         -------- -----                                 
##  Total: 1,890549 100.0                                 
## 
## 
## Rows:
##      name   mass  qlt  inr     k=1 cor ctr      k=2 cor ctr  
## 1  |  ZD1 |  692  974  105 |   519 937 243 |    103  37  23 |
## 2  |  ZD2 |   21  933   86 |   520  35   7 |  -2646 898 450 |
## 3  |  ZD3 |    5   20   17 |   352  20   1 |      3   0   0 |
## 4  |  ZD4 |   10   43   60 |   598  32   5 |   -342  10   4 |
## 5  |  ZD5 |   85  686  166 | -1591 684 280 |     93   2   2 |
## 6  |  ZD6 |    6   13   69 |   141   1   0 |    516  12   5 |
## 7  |  ZD7 |  169  856  218 | -1444 855 460 |    -43   1   1 |
## 8  |  ZD8 |    0   13   14 |   715   7   0 |   -610   5   0 |
## 9  |  ZD9 |    2  107    6 |   636  67   1 |   -494  40   1 |
## 10 | ZD10 |    4  222   39 |  -338   6   1 |  -2003 216  49 |
## 11 | ZD11 |    1  894   88 |   604   2   0 | -13736 892 458 |
## 12 | ZD12 |    3   11   57 |  -467   6   1 |    477   6   2 |
## 13 | ZD13 |    2   14   75 |   349   2   0 |    842  12   5 |
## 
## Columns:
##       name   mass  qlt  inr     k=1 cor ctr     k=2 cor ctr  
## 1  |  FOR1 |   14   62   61 |   626  48   7 |  -347  15   5 |
## 2  |  FOR2 |  152  756   38 |   539 610  58 |  -264 146  33 |
## 3  |  FOR3 |   38  918    8 |   595 907  18 |    66  11   1 |
## 4  |  FOR4 |  104  191    6 |   149 189   3 |   -14   2   0 |
## 5  |  FOR5 |   10  257   50 | -1448 216  27 |  -627  40  12 |
## 6  |  FOR6 |    5  969  157 |   529   4   2 | -7810 964 888 |
## 7  |  FOR7 |   13  257   38 | -1215 257  24 |    17   0   0 |
## 8  |  FOR8 |    3  289   13 | -1517 285   9 |   166   3   0 |
## 9  |  FOR9 |  194  991  254 | -1565 991 621 |    19   0   0 |
## 10 | FOR10 |    7  142   65 | -1591 138  22 |   283   4   2 |
## 11 | FOR11 |   13   50   39 |   437  32   3 |   317  17   4 |
## 12 | FOR12 |    2   11   98 |  -140   0   0 |   988  10   6 |
## 13 | FOR13 |  353  904   76 |   576 819 153 |   186  85  38 |
## 14 | FOR14 |   25  150   26 |   479 115   8 |   263  35   5 |
## 15 | FOR15 |   20  498   28 | -1133 498  34 |   -16   0   0 |
## 16 | FOR16 |   16  435    3 |   306 324   2 |   179 111   2 |
## 17 | FOR17 |   10  864    2 |   593 790   5 |   181  74   1 |
## 18 | FOR18 |   15   74   17 |   399  72   3 |    65   2   0 |
## 19 | FOR19 |    5   25   18 |   332  16   1 |  -257   9   1 |
## 20 | FOR20 |    2  554    2 |   593 263   1 |  -625 291   3 |

En este caso, los resultados se dividen en tres tablas:

  • Tabla 1: Eigenvalues: la tabla 1 contiene los eigenvalues y el porcentaje de variación que retiene cada dimensión. Se muestra adicionalmente el porcentaje acumulado.
  • Tabla 2: contiene los resultados de la variable expresada en filas.
    • Coordenadas principales de las dos primeras dimensiones (k=1, k=2).
    • Correlaciones cuadradas (cor) y contribuciones (ctr) de cada punto.
    • La masa (mass) de cada punto.
    • qlt es la calidad total de la representación de los puntos en las dos dimensiones incluidas. Su valor resulta de la suma de las dos correlaciones cuadradas de cada punto.
    • inr es la inercia de cada punto.
  • Tabla 3: muestra los resultados de la variable expresada en columnas. Los datos son los mismos que en la tabla 2.

La representación gráfica del análisis de correspondencias se puede obtener ejecutando la siguiente función (Figura 94):

plot(ca(ceramica))
plot(ca(ceramica), xlim=c(0,0), ylim=c(-3, 1.5))
Figura 94: Figura que representa los dos primeros ejes del análisis de correspondencias. Arriba con todas las observaciones y abajo focalizado en la zona de máxima concentración de observación.

Como se puede observar en la Figura 94, aparecen representados los dos principales ejes que agrupan la mayor cantidad de variación: Dimensión 1 (40.5%) y Dimensión 2 (17.1%). En conjunto, ambas dimensiones agrupan un 57.6% de la variación observada. La mayor parte de los factores de ambas variables categóricas se agrupan en la parte superior de la imagen. Esto es debido a que unos pocos factores tienen gran dispersión en el eje de la Dimensión 2. Cuanto más próximos se sitúen los puntos de los factores de las dos variables categóricas, más relación existirá entre ellos.

Describiendo a la Dimensión 1, con un 40.5% de variación acumulada, se podría identificar visualmente dos grupos principales: los situados a la derecha del valor 0 y los situados a la izquierda de ese valor. En un punto intermedio entre ambos grupos podrían identificarse los factores ZD10, ZD12 y FOR12.

Describiento a la Dimensión 2, con un 17.1% de variación, se observa claramente un agrupamiento en la parte superior de la imagen de todos los factores, a excepción de los situados en la parte media e inferior de la misma (ZD2, ZD10, ZD11 y FOR6).

Analizando en conjunto ambas dimensiones, y recuperando la observación de que existen dos grupos, se puede sugerir que las zonas de decoración ZD5 y ZD7 (debajo del del labio hasta la inflexión, y debajo del labio sin inflexión exterior) presentan unas formas del borde que tienen los siguiente factores: FOR5, FOR7-10, FOR15. Estos factores, grosso modo, se corresponden con boles carenados y bases redondeadas. Destaca, sin embargo, el amplio solapamiento entre ZD5 y FOR9, lo cual relaciona directamente ambos factores. Según se describe en el artículo original, este grupo se corresponde con una alfarería decorada en el área del labio o debajo del labio, posiblemente empleada para actividades ceremoniales y para preparar, almacenar y servir alguna bebida para dicha actividad.

El segundo gran grupo destaca por englobar al resto de factores, exceptuando a ZD10, ZD12 y FOR12. Este gran grupo estaría conformado por una alfarería sin decoración en la que se podría inferir un uso de tipo culinario y un tipo de alfarería con amplias zonas de decoración con algún uso especial o poco frecuente dentro del grupo, tal y como se especifica en el artículo original.

Referencias

Fernández O., Francisco. 2002. “El Uso Del Análisis de Correspondencia Simple (ACS) Como Ayuda En La Interpretación Del Dato En Arqueología. Un Caso de Estudio.” Boletín Antropológico 20 (55).

#DATACAMP Los mejores cursos interactivos de CIENCIA DE DATOS y DATA SCIENTIST del mundo / #R #PYTHON #SQL #SHELL y más! ♥️

X