El análisis de correspondencias se usa para representar e identificar posibles asociaciones entre variables categóricas (factores), con el objetivo de determinar si existe algún patrón entre ellas. Es un análisis básicamente exploratorio que a lo largo de la historia ha recibido numerosos nombres. Estos eson algunos sinónimos que pueden leerse en la literatura especializada: análisis de componentes principales para datos cualitativos, escalado óptimo, análisis canónico, método de los promedio recíprocos, puntuaciones aditivas, puntuaciones apropiadas, ponderaciones de Guttman, teoría de cuentificación de Hayashi, regresión lineal simultánea, análisis factorial de correspondencias, biplot o escalado dual.
El análisis de correspondencias bivariante en R es sencillo de realizar a partir del paquete ca
. El empleo de esta técnica estadística es de extrema utilidad ya que permite establecer hipótesis en base a lo observado para contrastarlo posteriormente con un test estadístico.
Quiero leer...
9.1 Ejemplo de cerámicas arqueológicas de Lagunillas
El ejemplo para trabajar el análisis de correspondiencias trata de la comparación entre la forma y la zona de decoración en las cerámicas arqueológicas del yacimiento Lagunillas, en Venezuela (Fernández O. 2002). Este yacimiento tiene una cronología que se sitúa entre el año 1000 A.C. y el 300 D.C.
Los datos pueden descargarse desde la web del libro con el nombre Datos_Cerámica_Correspondencias.txt
. Se cargan en R Commander manteniendo la opción de separación de espacios en la ventana de importación. Se ha llamado al conjunto de datos como ceramica
.
El análisis de correspondencias es un método exploratorio para ver cómo se relacionan variables cualitativas. Las dos variables cualitativas que se tratan en este ejemplo son las zonas de decoración y la forma del borde, cada una con sus correspondientes categorías. A continuación se muestran estas dos variables cualitativas con sus diferentes categorías:
- Variable cualitativa
Zonas de decoración
. Presenta 13 categorías (se ha eliminado una categoría respecto a la publicación original ya que presentaba para todos sus valores unos contajes de 0):
ZD1
. Sin decoración.ZD2
. En el terminal del labio o pestaña.ZD3
. En el labio o pestaña (exterior).ZD4
. En el labio o pestaña (interior).ZD5
. Desde el labio hasta la inflexión.ZD6
. Debajo de la inflexión (exterior).ZD7
. Debajo del labio, sin inflexión (exterior).ZD8
. Debajo del labio, sin inflexión (interior).ZD9
. Combinación de 2 y 4.ZD10
. Combinación de 2 y 7.ZD11
. Combinación de 2 y 5.ZD12
. Combinación de 5 y 6.ZD13
. Combinación de 3 y 6.
- Variable cualitativa
Formas del borde
. Presenta 20 categorías:
FOR1
. Posiblemente corresponde a un plato rectanguloide.FOR2
. Parece corresponder su forma a boles abiertos de paredes salientes y base redondeada.FOR3
. La reconstrucción de la forma parece reflejar boles abiertos con pestaña, algunos más llanos que otros.FOR4
yFOR5
. Estos bordes forman parte de boles de boca abierta o ligeramente cerrada.FOR6
. Posiblemente los bordes podrían pertenecer a boles más o menos llanos de boca irregular.FOR7
. Boles no muy hondos de boca cerrada, con una inflexión que se da con la base redondeada.FOR8
. Parece ser rectanguloide o naviforme.FOR9
. La forma reconstruida parece ser un bol carenado con pared saliente o casi vertical y con base simple.FOR10
. Los bordes de esta forma pertenecen a boles carenados de tamaño reducido y de poca profundidad.FOR11
. Parece corresponder la forma con pequeñas jarras globulares con labio saliente y base redondeada.FOR12
. La forma reconstruida es de una jarra semi-globular con hombro marcado y cuello corto restringido.FOR13
. Posiblemente corresponden a una olla de pared ligeramente entrante o casi vertical, de boca bastante abierta y conbase redondeada.FOR14
. La forma reconstruida es una botella de un cuerpo probablemente globular con cuello restringido.FOR15
. Posiblemente corresponde su forma a una jarra con boca abierta de paredes casi verticales y probablemente de base redondeada.FOR16
. Esta se caracteriza por paredes muy entrantes terminando en un hombro angular del cual sale una pestaña engrosada con labio redondeado.FOR17
. Característico de esta forma es un borde casi horizontal correspondiente a una boca restringida. Se hace muy difícil la reconstrucción de esta forma debido a lo muy fragmentado de este material.FOR18
. Pertenece a jarras con boca cerrada, sin cuello, de cuerpo globular.FOR19
. Constituida por todas aquellas microvasijas.FOR20
. Pertenecen a boles abiertos.
9.2 Test de independencia Chi-cuadrado
Antes de realizar un análisis de correspondencias hay que comprobar si las dos variables cualitativas o categóricas (zona de decoración y forma) están relacionadas. Sólo si están relacionadas tiene sentido hacer un análisis de correspondencias.
Para ello se ejecuta un test Chi-cuadrado de independencia ejecutando la función chisq.test()
sobre el conjunto de datos.
chisq.test(ceramica)
## Warning in chisq.test(ceramica): Chi-squared approximation may be incorrect
## ## Pearson's Chi-squared test ## ## data: ceramica ## X-squared = 4820,9, df = 228, p-value < 2,2e-16
Un p-valor inferior a 0.05 hace que se rechace la hipótesis nula de independencia de las dos variables categóricas. Es decir, se acepta la hipótesis alternativa que indica que ambas variables son dependientes y están, por tanto, relacionadas. En este caso tiene pleno sentido realizar un análisis de correspondencias, ya que si no estuviesen relacionadas no se esperaría encontrar ningún patrón con este análisis.
9.3 Instalación el paquete ca
Para realizar un análisis de correspondencias es necesario instalar el paquete ca
(Correspondence Analysis). Para ello, se ejecuta la función siguiente, seleccionando un servidor CRAN específico:
install.packages("ca")
El análisis de correspondencias es muy sencillo e intuititivo de realizar en R, a pesar de que en R Commander no haya un menú gráfico que facilite la tarea. Con tres simples funciones puede llevarse a cabo. Pero antes hay que cargar el paquete ca
en R Commander ejecutando la función library(ca)
. Las tres funciones son ca()
(dentro del paquete ca
) unida a summary()
y plot()
(que vienen de serie en R).
La primera función ejecuta el análisis de correspondencias. Los resultados numéricos se pueden ver a continuación:
ca(ceramica)
## ## Principal inertias (eigenvalues): ## 1 2 3 4 5 6 7 ## Value 0,765498 0,323292 0,228491 0,188003 0,142325 0,087433 0,053022 ## Percentage 40,49% 17,1% 12,09% 9,94% 7,53% 4,62% 2,8% ## 8 9 10 11 12 ## Value 0,045786 0,030654 0,021748 0,003359 0,000939 ## Percentage 2,42% 1,62% 1,15% 0,18% 0,05% ## ## ## Rows: ## ZD1 ZD2 ZD3 ZD4 ZD5 ZD6 ZD7 ## Mass 0,692157 0,020784 0,005098 0,010196 0,084706 0,005882 0,169020 ## ChiDist 0,535899 2,791851 2,514632 3,337809 1,923586 4,696211 1,561310 ## Inertia 0,198779 0,162002 0,032237 0,113594 0,313427 0,129732 0,412017 ## Dim. 1 0,592845 0,594420 0,402589 0,683747 -1,817955 0,160903 -1,650221 ## Dim. 2 0,181124 -4,653694 0,004552 -0,600909 0,164006 0,907329 -0,074994 ## ZD8 ZD9 ZD10 ZD11 ZD12 ZD13 ## Mass 0,000392 0,001961 0,003922 0,000784 0,002745 0,002353 ## ChiDist 8,356634 2,457543 4,311934 14,543040 6,289771 7,772317 ## Inertia 0,027386 0,011842 0,072913 0,165882 0,108599 0,142139 ## Dim. 1 0,817257 0,726634 -0,386571 0,690680 -0,533559 0,398564 ## Dim. 2 -1,073241 -0,867955 -3,522142 -24,158245 0,839716 1,481049 ## ## ## Columns: ## FOR1 FOR2 FOR3 FOR4 FOR5 FOR6 ## Mass 0,014118 0,152157 0,038431 0,103922 0,009804 0,004706 ## ChiDist 2,868647 0,690054 0,624591 0,342067 3,114910 7,953061 ## Inertia 0,116176 0,072453 0,014993 0,012160 0,095124 0,297653 ## Dim. 1 0,715040 0,615930 0,679751 0,169920 -1,655037 0,604295 ## Dim. 2 -0,610231 -0,464327 0,116947 -0,025391 -1,101920 -13,736073 ## FOR7 FOR8 FOR9 FOR10 FOR11 FOR12 ## Mass 0,012549 0,003137 0,194118 0,006667 0,012549 0,001961 ## ChiDist 2,399322 2,839226 1,572055 4,283815 2,422788 9,729965 ## Inertia 0,072242 0,025290 0,479734 0,122340 0,073662 0,185632 ## Dim. 1 -1,388922 -1,733407 -1,788420 -1,818776 0,498920 -0,159789 ## Dim. 2 0,030246 0,292208 0,033318 0,498163 0,557087 1,737908 ## FOR13 FOR14 FOR15 FOR16 FOR17 FOR18 FOR19 ## Mass 0,352549 0,025098 0,020392 0,016471 0,009804 0,014510 0,004706 ## ChiDist 0,636779 1,409579 1,605556 0,537175 0,666903 1,486982 2,662265 ## Inertia 0,142954 0,049868 0,052567 0,004753 0,004360 0,032083 0,033354 ## Dim. 1 0,658795 0,547137 -1,294496 0,349567 0,677594 0,456466 0,379400 ## Dim. 2 0,326490 0,461919 -0,027946 0,314967 0,318551 0,113459 -0,452499 ## FOR20 ## Mass 0,002353 ## ChiDist 1,157490 ## Inertia 0,003152 ## Dim. 1 0,677894 ## Dim. 2 -1,098651
La primera parte de los resultados (Principal inertias (eigenvalues):
) representa el porcentaje de variabilidad de cada una de las dimensiones o ejes. En este caso, el primer eje agrupa un 40.49% de variación, el segundo un 17.1%, y así sucesivamente.
La segunda parte de los resultados (Rows:
) muestra las variables que estaban expresadas en filas (rows) en la tabla de datos y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable están expresadas respectivamente en Dim. 1
y Dim. 2
.
La tercera parte de los resultados (Colums:
) muestra las variables que estaban expresadas en columnas en la tabla de datos y las coordenadas que tiene cada una en la figura. Las coordenadas X e Y para cada variable están expresadas respectivamente en Dim. 1
y Dim. 2
.
Ejecutando la función summary(ca(ceramica))
se obtienen datos más detallados del análisis de correspondencias:
summary(ca(ceramica))
## ## Principal inertias (eigenvalues): ## ## dim value % cum% scree plot ## 1 0,765498 40.5 40.5 ********** ## 2 0,323292 17.1 57.6 **** ## 3 0,228491 12.1 69.7 *** ## 4 0,188003 9.9 79.6 ** ## 5 0,142325 7.5 87.1 ** ## 6 0,087433 4.6 91.8 * ## 7 0,053022 2.8 94.6 * ## 8 0,045786 2.4 97.0 * ## 9 0,030654 1.6 98.6 ## 10 0,021748 1.2 99.8 ## 11 0,003359 0.2 100.0 ## 12 0,000939 0.0 100.0 ## -------- ----- ## Total: 1,890549 100.0 ## ## ## Rows: ## name mass qlt inr k=1 cor ctr k=2 cor ctr ## 1 | ZD1 | 692 974 105 | 519 937 243 | 103 37 23 | ## 2 | ZD2 | 21 933 86 | 520 35 7 | -2646 898 450 | ## 3 | ZD3 | 5 20 17 | 352 20 1 | 3 0 0 | ## 4 | ZD4 | 10 43 60 | 598 32 5 | -342 10 4 | ## 5 | ZD5 | 85 686 166 | -1591 684 280 | 93 2 2 | ## 6 | ZD6 | 6 13 69 | 141 1 0 | 516 12 5 | ## 7 | ZD7 | 169 856 218 | -1444 855 460 | -43 1 1 | ## 8 | ZD8 | 0 13 14 | 715 7 0 | -610 5 0 | ## 9 | ZD9 | 2 107 6 | 636 67 1 | -494 40 1 | ## 10 | ZD10 | 4 222 39 | -338 6 1 | -2003 216 49 | ## 11 | ZD11 | 1 894 88 | 604 2 0 | -13736 892 458 | ## 12 | ZD12 | 3 11 57 | -467 6 1 | 477 6 2 | ## 13 | ZD13 | 2 14 75 | 349 2 0 | 842 12 5 | ## ## Columns: ## name mass qlt inr k=1 cor ctr k=2 cor ctr ## 1 | FOR1 | 14 62 61 | 626 48 7 | -347 15 5 | ## 2 | FOR2 | 152 756 38 | 539 610 58 | -264 146 33 | ## 3 | FOR3 | 38 918 8 | 595 907 18 | 66 11 1 | ## 4 | FOR4 | 104 191 6 | 149 189 3 | -14 2 0 | ## 5 | FOR5 | 10 257 50 | -1448 216 27 | -627 40 12 | ## 6 | FOR6 | 5 969 157 | 529 4 2 | -7810 964 888 | ## 7 | FOR7 | 13 257 38 | -1215 257 24 | 17 0 0 | ## 8 | FOR8 | 3 289 13 | -1517 285 9 | 166 3 0 | ## 9 | FOR9 | 194 991 254 | -1565 991 621 | 19 0 0 | ## 10 | FOR10 | 7 142 65 | -1591 138 22 | 283 4 2 | ## 11 | FOR11 | 13 50 39 | 437 32 3 | 317 17 4 | ## 12 | FOR12 | 2 11 98 | -140 0 0 | 988 10 6 | ## 13 | FOR13 | 353 904 76 | 576 819 153 | 186 85 38 | ## 14 | FOR14 | 25 150 26 | 479 115 8 | 263 35 5 | ## 15 | FOR15 | 20 498 28 | -1133 498 34 | -16 0 0 | ## 16 | FOR16 | 16 435 3 | 306 324 2 | 179 111 2 | ## 17 | FOR17 | 10 864 2 | 593 790 5 | 181 74 1 | ## 18 | FOR18 | 15 74 17 | 399 72 3 | 65 2 0 | ## 19 | FOR19 | 5 25 18 | 332 16 1 | -257 9 1 | ## 20 | FOR20 | 2 554 2 | 593 263 1 | -625 291 3 |
En este caso, los resultados se dividen en tres tablas:
- Tabla 1:
Eigenvalues
: la tabla 1 contiene los eigenvalues y el porcentaje de variación que retiene cada dimensión. Se muestra adicionalmente el porcentaje acumulado. - Tabla 2: contiene los resultados de la variable expresada en filas.
- Coordenadas principales de las dos primeras dimensiones (
k=1
,k=2
). - Correlaciones cuadradas (
cor
) y contribuciones (ctr
) de cada punto. - La masa (
mass
) de cada punto. qlt
es la calidad total de la representación de los puntos en las dos dimensiones incluidas. Su valor resulta de la suma de las dos correlaciones cuadradas de cada punto.inr
es la inercia de cada punto.
- Coordenadas principales de las dos primeras dimensiones (
- Tabla 3: muestra los resultados de la variable expresada en columnas. Los datos son los mismos que en la tabla 2.
La representación gráfica del análisis de correspondencias se puede obtener ejecutando la siguiente función (Figura 94):
plot(ca(ceramica))
plot(ca(ceramica), xlim=c(0,0), ylim=c(-3, 1.5))
Como se puede observar en la Figura 94, aparecen representados los dos principales ejes que agrupan la mayor cantidad de variación: Dimensión 1 (40.5%) y Dimensión 2 (17.1%). En conjunto, ambas dimensiones agrupan un 57.6% de la variación observada. La mayor parte de los factores de ambas variables categóricas se agrupan en la parte superior de la imagen. Esto es debido a que unos pocos factores tienen gran dispersión en el eje de la Dimensión 2. Cuanto más próximos se sitúen los puntos de los factores de las dos variables categóricas, más relación existirá entre ellos.
Describiendo a la Dimensión 1, con un 40.5% de variación acumulada, se podría identificar visualmente dos grupos principales: los situados a la derecha del valor 0 y los situados a la izquierda de ese valor. En un punto intermedio entre ambos grupos podrían identificarse los factores ZD10
, ZD12
y FOR12
.
Describiento a la Dimensión 2, con un 17.1% de variación, se observa claramente un agrupamiento en la parte superior de la imagen de todos los factores, a excepción de los situados en la parte media e inferior de la misma (ZD2
, ZD10
, ZD11
y FOR6
).
Analizando en conjunto ambas dimensiones, y recuperando la observación de que existen dos grupos, se puede sugerir que las zonas de decoración ZD5
y ZD7
(debajo del del labio hasta la inflexión, y debajo del labio sin inflexión exterior) presentan unas formas del borde que tienen los siguiente factores: FOR5
, FOR7-10
, FOR15
. Estos factores, grosso modo, se corresponden con boles carenados y bases redondeadas. Destaca, sin embargo, el amplio solapamiento entre ZD5
y FOR9
, lo cual relaciona directamente ambos factores. Según se describe en el artículo original, este grupo se corresponde con una alfarería decorada en el área del labio o debajo del labio, posiblemente empleada para actividades ceremoniales y para preparar, almacenar y servir alguna bebida para dicha actividad.
El segundo gran grupo destaca por englobar al resto de factores, exceptuando a ZD10
, ZD12
y FOR12
. Este gran grupo estaría conformado por una alfarería sin decoración en la que se podría inferir un uso de tipo culinario y un tipo de alfarería con amplias zonas de decoración con algún uso especial o poco frecuente dentro del grupo, tal y como se especifica en el artículo original.
Referencias
Fernández O., Francisco. 2002. “El Uso Del Análisis de Correspondencia Simple (ACS) Como Ayuda En La Interpretación Del Dato En Arqueología. Un Caso de Estudio.” Boletín Antropológico 20 (55).