El objetivo fundamental de este capítulo es el de ofrecer de modo estructurado y organizado una gran cantidad de test estadísticos relacionados con la comparación de la media de dos o más muestras y/o poblaciones. Es decir, estos test buscan comparar dos o más poblaciones para ver si son estadísticamente diferentes o no. En la Figura 49 se muestra un resumen de los diferentes test estadísticos y su aplicación según sus requisitos de ejecución.
Antes de comenzar a realizar cualquier test estadístico de los mostrados en la Figura 49, se debe comprar si los datos se distribuyen siguiendo una distribución normal. Dependiendo del resultado obtenido, habrá que seleccionar unos tests u otros.
Para contrastar la normalidad, es necesario aplicar un test estadístico a cada población por separado. Estos son los test más utilizados:
- Test de Shapiro-Wilk. Se aplica principalmente a una población con un tamaño muestral comprendido entre 3 y 50. Ver el anexo 4 para conocer cómo se ejecuta en R Commander.
- Test de Kolmogorov-Smirnov (con corrección Lilliefors). Se aplica principalmente a una población con un tamaño muestral situado por encima de 50. Ver el anexo 4 para conocer cómo se ejecuta en R Commander.
Dependiendo del resultado obtenido en los test de normalidad anteriores, se ejecutan test paramétricos (si provienen los datos de una distribución normal) o no paramétricos (si no proceden una distribución normal):
- Test paramétricos. Todas las poblaciones/muestras proceden de distribuciones normales. Al conjunto de los test estadísticos se lo denomina como estadística paramétrica. Las poblaciones a comparar vienen representadas por sus medias. En este caso, es necesario conocer si las poblaciones a comparar presentan varianzas iguales (homocedasticidad) o no (heterocedasticidad), ya que dependiendo de este resultado, los test estadísticos a aplicar serán diferentes. En este caso, dependiendo del número de poblaciones, aplicamos un test estadístico u otro para contrastar la igualdad de varianzas. En el anexo 5 vienen explicados en detalle estos métodos así como su consecución en R Commander. Estos son, de modo resumido, los test para contrastar la homocedasticidad:
- 2 poblaciones: Test F de Fisher y/o Test de Levene.
- Más de 2 poblaciones: Test de Bartlett y/o Test de Levene.
- Test no paramétricos. Al menos una de las poblaciones/muestras no procede de una distribución normal. A los test estadísticos en conjunto se los denomina Estadística no paramétrica. Las poblaciones a comparar vienen representadas por sus medianas (excepto el de la Chi-cuadrado).
Por lo tanto, es necesario testear la normalidad y la homocedasticidad de los datos antes de realizar algún test específico. Sin embargo, cuando las muestras son suficientemente grandes (dependiendo de los autores, entre 30 y 100), esos requerimientos se relajan y pueden utilizarse los tests sin realizar las comprobaciones previas.
Quiero leer...
Estadística paramétrica
Cuando todas las muestras cumplen la normalidad de los datos se habla de la estadística paramétrica. Dependiendo del número de muestras que se comparen, se realizan unos test u otros (Figura 49).
Si se comparan dos muestras, dependiendo del tamaño de las mismas, pueden realizarse un test u otro:
- Muestras pequeñas
- Varianzas iguales (homocedasticidad)
- t de Student
- Muestras pareadas
- Muestras independientes
- t de Student
- Varianzas distintas (heterocedasticidad)
- Test de Welch
- Varianzas iguales (homocedasticidad)
- Muestras grandes
- Test basados en la normal
Si se comparan más de dos muestras, dependiendo del tamaño de las mismas, pueden realizarse un test u otro:
- Muestras pequeñas
- Varianzas iguales (homocedasticidad)
- Análisis de la varianza (ANOVA)
- Varianzas distintas (heterocedasticidad)
- Test de Welch
- Varianzas iguales (homocedasticidad)
- Muestras grandes
- Test de Welch
Test t de Student
La prueba t de Student es uno de los test más utilizados en estadística para comparar las observaciones de 2 muestras. Existen dos tipos principales de test de la t: para dos muestras independientes y para dos muestras dependientes o apareadas. En la primera de ellas, las dos muestras no tienen relación entre ellas mientras que en la segunda normalmente se toma la medida de la variable en una muestra concreta, y después de un suceso se vuelve a medir la misma variable sobre la misma muestra.
Los requisitos para realizar una t de Student son los mostrados en la Tabla 10.
Característica | Valor |
---|---|
Número de muestras | 2 |
Tamaño muestral | Pequeño |
Normalidad de los datos | Sí |
Igualdad de varianzas | Sí |
El contraste de hipótesis de una t de Student es el siguiente:
- H0: ambas muestras presentan medias iguales.
- H1: ambas muestras presentan medias diferentes.
Prueba t test para muestras independientes
Los dientes tienen dos medidas principales en su vista oclusal: diámetro mesiodistal (MD) y diámetro bucolingual (BL). En este caso vamos a utilizar la variable BL
para comparar si el primer y el segundo molar inferior de Neandertales presentan igual dimensión (Lumley and Giacobini 2013).
Comprobamos los supuestos
Primero hay que determinar si las distancias bucolinguales del M1 y del M2 siguen una distribución normal. Para ello, se realiza un test de Shapiro-Wilk a cada variable (ver anexo 4). Los datos pueden descargarse desde la web del libro con el nombre Molares_Nean_Fisher_t_test_independiente_Normalidad.txt
. Se ha llamado al conjunto de datos en R Commander como NeanMolar
y los resultados pueden verse a continuación:
shapiro.test(NeanMolar$M1.inférieure)
## ## Shapiro-Wilk normality test ## ## data: NeanMolar$M1.inférieure ## W = 0,95508, p-value = 0,2006
shapiro.test(NeanMolar$M2.inférieure)
## ## Shapiro-Wilk normality test ## ## data: NeanMolar$M2.inférieure ## W = 0,96123, p-value = 0,2488
El diámetro bucolingual en ambos molares sigue una distribución normal, ya que sus p-valores se encuentran situados por encima de 0.05.
Por su parte, hay que comprobar también si ambos molares presentan igualdad de varianzas. Como son dos muestras, se emplea el test de Fisher (ver anexo 4). Los datos para testear la homocedasticidad descargarse desde la web del libro con el nombre Molares_Nean_Fisher_t_test_independiente.txt
. Se ha llamado al conjunto de datos en R Commander como NeanMolares
, y el resultado es el que se ve a continuación:
tapply(NeanMolares$BL_mm, NeanMolares$Molares, var, na.rm=TRUE)
## M1 M2 ## 0,6306351 0,8142353
var.test(BL_mm ~ Molares, alternative='two.sided', conf.level=.95, data=NeanMolares)
## ## F test to compare two variances ## ## data: BL_mm by Molares ## F = 0,77451, num df = 31, denom df = 34, p-value = 0,4751 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 95 percent confidence interval: ## 0,3865829 1,5695451 ## sample estimates: ## ratio of variances ## 0,7745121
El diámetro bucolingual de ambos molares presentan igualdad de varianzas, por lo que son homocedásticos. Esto es así porque su p-valor está situado por encima de 0.05. Por lo tanto, nuestros datos son normales y homocedásticos, lo que permite ejecutar un test de la t.
Ejecución en R Commander
La estructura de los datos para poder realizar un test de la t es la de una columna para todos los datos apilados, y una segunda columna con las categorías, siendo en este ejemplo los tipos de molares inferiores (M1 y M2). Son los datos que se han empleado para contrastar la igualdad de varianzas, manteniendo también el nombre del conjunto de datos (NeanMolares
).
Para realizar una t de Student en R Commander hay que seguir la siguiente ruta (Figura 50): Statistics - Means - Independent samples t-test...
.
El resultado del test de la t es el que se muestra a continuación:
t.test(BL_mm~Molares, alternative='two.sided', conf.level=.95, var.equal=TRUE, data=NeanMolares)
## ## Two Sample t-test ## ## data: BL_mm by Molares ## t = -1,7117, df = 65, p-value = 0,09173 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0,77327018 0,05952018 ## sample estimates: ## mean in group M1 mean in group M2 ## 10,80312 11,16000
Como se observa, el p-valor es 0.09173, que es mayor que alfa = 0.05. Esto indica que se acepta la hipótesis nula. Es decir, no existen diferencias estadísticamente significativas en las dimensiones bucolinguales del M1 comparado con el M2 en Neandertales. Dicho de otro modo, no existen diferencias entre el M1 y el M2.
Prueba t test para muestras dependientes
Estas muestras tienen la peculiaridad de ser medidas, comúnmente, en dos momentos diferentes sobre los mismos individuos: antes y después. En arqueología tienen especial trascendencia en estudios de arqueología experimental, donde pueden tomarse medidas antes de utilizar herramientas líticas y después de haber sido usadas, por ejemplo.
La estructura de los datos en R Commander es una columna por variable, de igual forma que para contrastar la normalidad con el test de Shapiro-Wilk. Simplemente hay que acceder a la ruta siguiente (Figura 51): Statistics - Means - Paired t-test...
.
En la ventana que aparece seleccionamos las dos variables y presionamos OK.
Test de Welch
El test de Welch se utiliza generalmente para comparar muestras que presentan normalidad en todas ellas pero no igualdad de varianzas. O bien, como alternativa al ANOVA de un factor cuando las muestran presentan un tamaño muestral muy elevado.
Los requisitos para realizar un test de Welch son los mostrados en la Tabla 11 para tamaños muestrales pequeños y en la Tabla 12 para tamaños muestrales grandes.
Característica | Valor |
---|---|
Número de muestras | ≥ 2 |
Tamaño muestral | Pequeño |
Normalidad de los datos | Sí |
Igualdad de varianzas | No |
Característica | Valor |
---|---|
Número de muestras | > 2 |
Tamaño muestral | Grande |
Normalidad de los datos | Sí |
Igualdad de varianzas | – |
El contraste de hipótesis de un test de Welch es el siguiente:
- H0: la media de todas las muestras son iguales.
- H1: al menos una de las medias es diferente del resto.
En un libro de referencia sobre restos fósiles craneales de homininos aparece, en un anexo final, datos de volúmenes endocraneales de las diferentes especies de nuestro linaje evolutivo (Holloway, Broadfield, and Yuan 2004). Una pregunta que puede hacerse es: ¿son diferentes los volúmenes de Paranthropus boisei respecto a los de Australopithecus afarensis?
Comprobamos los supuestos
Para poder ejecutar un test de Welch, las muestras, si son pequeñas como sucede en este ejemplo, tienen que presentar normalidad pero no homocedasticidad. La normalidad se ha contrastado con el test de Shapiro-Wilk (ver anexo 4) de las dos especies.Los datos pueden descargarse desde la web del libro con el nombre Australopithecus_Welch_Normalidad.txt
. Se ha llamado al conjunto de datos con el nombre de Australopithecus
.
shapiro.test(Australopithecus$afarensis)
## ## Shapiro-Wilk normality test ## ## data: Australopithecus$afarensis ## W = 0,82544, p-value = 0,1285
shapiro.test(Australopithecus$boisei)
## ## Shapiro-Wilk normality test ## ## data: Australopithecus$boisei ## W = 0,97051, p-value = 0,8959
Los resultados indican que tanto Australopithecus afarensis como Paranthropus boisei presentan normalidad en la distribución de los datos de volúmenes endocraneales, ya que sus p-valores se encuentran situados por encima de 0.05.
Por otro lado, se ha comprobado si presentan igualdad de varianzas con el test de Fisher (ver anexo 4). Los datos pueden descargarse desde la web del libro con el nombre Australopithecus_Welch.txt
. Se ha llamado al conjunto de datos en R Commander como afar
. Los resultados se encuentran a continuación:
tapply(afar$vol, afar$especie, var, na.rm=TRUE)
## afarensis boisei ## 5161,2000 546,6667
var.test(vol ~ especie, alternative='two.sided', conf.level=.95, data=afar)
## ## F test to compare two variances ## ## data: vol by especie ## F = 9,4412, num df = 4, denom df = 5, p-value = 0,02999 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 95 percent confidence interval: ## 1,277933 88,412025 ## sample estimates: ## ratio of variances ## 9,44122
Como puede comprobarse, el p-valor es 0.02999. Esto indica que se rechaza la hipótesis nula y se acepta la hipótesis alternativa, que dice que presentan varianzas diferentes. Esto confirma que puede aplicarse el test de Welch porque se cumplen todos sus supuestos.
Ejecución en R Commander
La estructura de los datos para poder realizar un test de Welch es la de una columna para todos los datos apilados y una segunda columna con las categorías (en este caso de ejemplo son las especies). Son los datos que se han usado para testear la igualdad de varianzas, manteniendo también el nombre del conjunto de datos (afar
).
Para realizar un test de Welch en R Commander hay que seguir la siguiente ruta (Figura 52): Statistics - Means - Independent samples t-test...
.
t.test(vol~especie, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=afar)
## ## Welch Two Sample t-test ## ## data: vol by especie ## t = -1,8658, df = 4,7079, p-value = 0,1247 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -150,32272 25,25605 ## sample estimates: ## mean in group afarensis mean in group boisei ## 445,8000 508,3333
Debido a que el p-valor del test de Welch está situado por encima de 0.05, se acepta la hipótesis nula que indica que los volúmenes endocraneales de Australopithecus afarensis y Paranthropus boisei son iguales. O dicho de otro modo, no existen diferencias estadísticamente significativas para separar ambas especies en base a ese carácter.
Análisis de la varianza (ANOVA)
El análisis de la varianza (ANOVA) es un test estadístico que permite comparar la media de una variable medida en más de dos muestras. Cualquier tipo de ANOVA requiere exclusivamente una variable cuantitativa y una o varias cualitativas. Dependiendo del número de variables cualitativas que contenga, puede realizarse un ANOVA de un factor (1 variable) o un ANOVA de dos factores (2 variables). Para familiarizarse con la escritura anglosajona, estos tests se conocen como One-way ANOVA o Two-way ANOVA. En esta ocasión va a tratarse exclusivamente el ANOVA de 1 factor (o unifactorial).
Los requisitos para realizar un ANOVA son los mostrados en la Tabla 13.
Característica | Valor |
---|---|
Número de muestras | > 2 |
Tamaño muestral | Pequeño |
Normalidad de los datos | Sí |
Igualdad de varianzas | Sí |
El contraste de hipótesis de un ANOVA unifactorial es el siguiente:
- H0: la media de todas las muestras son iguales.
- H1: al menos una de las medias es diferente del resto.
En una zona arqueológica de gran importancia en Nuevo Mexico (Estados Unidos) se excavaron 4 yacimientos diferentes. Se anotó la profundidad en centímetros a la que se descubrieron hallazgos arqueológicos significativos (Woosley and McIntyre 1996). Se desea conocer si todos esos hallazgos se encontraron a igual distancia de la superficie o no.
Comprobamos los supuestos
Para contrastar la normalidad de los datos, éstos pueden descargarse desde la web del libro con el nombre Profundidad_Yacimiento_ANOVA_Normalidad.txt
. Se ha llamado al conjunto de datos como Mexico
. Se ejecuta el test de Shapiro-Wilk para cada uno de ellos (ver anexo 4).
shapiro.test(Mexico$Site_I)
## ## Shapiro-Wilk normality test ## ## data: Mexico$Site_I ## W = 0,98653, p-value = 0,996
shapiro.test(Mexico$Site_II)
## ## Shapiro-Wilk normality test ## ## data: Mexico$Site_II ## W = 0,96729, p-value = 0,8647
shapiro.test(Mexico$Site_III)
## ## Shapiro-Wilk normality test ## ## data: Mexico$Site_III ## W = 0,94757, p-value = 0,6017
shapiro.test(Mexico$Site_IV)
## ## Shapiro-Wilk normality test ## ## data: Mexico$Site_IV ## W = 0,87404, p-value = 0,1358
Como se observa, los p-valores de los cuatro yacimientos están situados por encima de 0.05, lo que indica que se acepta su hipótesis nula de normalidad. Es decir, los datos de los cuatro yacimientos se distribuyen siguiendo una normal.
Un ANOVA requiere que la varianza de todas las muestras sean iguales. Para ello, se ejecuta el test de Bartlett (ver anexo 4). Los datos pueden descargarse desde la web del libro con el nombre Profundidad_Yacimiento_ANOVA_1_factor.txt
. El resultado es el mostrado a continuación, habiéndole puesto el nombre de MexicoANOVA
al conjunto de datos.
tapply(MexicoANOVA$Profundidad, MexicoANOVA$Yacimiento, var, na.rm=TRUE)
## Site_I Site_II Site_III Site_IV ## 206,6667 349,3444 359,8409 183,6111
bartlett.test(Profundidad ~ Yacimiento, data=MexicoANOVA)
## ## Bartlett test of homogeneity of variances ## ## data: Profundidad by Yacimiento ## Bartlett's K-squared = 1,7355, df = 3, p-value = 0,6291
Se observa que las varianzas son estadísticamente iguales entre los cuatro yacimientos al ejecutar un test de Bartlett, ya que su p-valor es superior a 0.05. Se acepta, por tanto, la hipótesis nula de homocedasticidad.
Ejecución en R Commander
La estructura de los datos para poder realizar un ANOVA de un factor es la de una columna para todos los datos seguidos de todos los yacimientos, y una segunda columna con los yacimientos. Son los datos empleados para testear la igualdad de varianzas, manteniendo también el nombre del conjunto de datos (MexicoANOVA
).
Para realizar un ANOVA de un factor en R Commander hay que seguir la siguiente ruta (Figura 53): Statistics - Means - One-way ANOVA...
.
En la ventana que se abre aparecen automáticamente seleccionadas las variables en su lugar correspondiente, además del nombre del modelo (AnovaModel.1
). Los resultados al presionar sobre OK
son los siguientes:
AnovaModel.1 <- aov(Profundidad ~ Yacimiento, data=MexicoANOVA) summary(AnovaModel.1)
## Df Sum Sq Mean Sq F value Pr(>F) ## Yacimiento 3 12397 4132 15,14 0,000000799 *** ## Residuals 42 11465 273 ## --- ## Signif. codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1
numSummary(MexicoANOVA$Profundidad , groups=MexicoANOVA$Yacimiento, statistics=c("mean", "sd"))
## mean sd data:n ## Site_I 94,66667 14,37591 15 ## Site_II 59,30000 18,69076 10 ## Site_III 57,75000 18,96947 12 ## Site_IV 82,88889 13,55032 9
El p-valor del test ANOVA es menor que 0.05, indicando que se rechaza la hipótesis nula y se acepta la hipótesis alternativa. El valor de 7.99e-07 está expresado científicamente, siendo su equivalencia 0.000000799. Es decir, existen diferencias significativas en las medias de esas muestras. Esto indica que los restos arqueológicos han aparecido a profundidades diferentes dependiendo del yacimiento que consideremos.
Ahora bien, se ha contrastado que existen diferencias entre las medias de profundidad de los restos arqueológicos. Pero esta diferencia podría corresponderse con un yacimiento respecto a los otros tres, o dos yacimientos respecto a los restantes dos. Existe una forma de evaluar dónde están esas diferencias y cómo se agrupan las mismas. Son los denominados test post-hoc. Si efectivamente se han encontrado diferencias significativas en un ANOVA, conviene realizar un test post-hoc para estudiar en detalle dónde se encuentran esas diferencias. Uno de los más conocidos y usados es el test Tukey HSD. También es posible realizarlo en R Commander de un modo muy sencillo.
Test post-hoc Tukey HSD
Siguiendo el mismo procedimiento que en la Figura 53, se marca la opción en la ventana que indica Pairwise comparisons of means
(Figura 54). Como se ha reejecutado un análisis ANOVA, observamos que el nombre del modelo es AnovaModel.2
.
A continuación aparece la ejecución del test Tukey HSD.
local({ .Pairs <- glht(AnovaModel.2, linfct = mcp(Yacimiento = "Tukey")) print(summary(.Pairs)) # pairwise tests print(confint(.Pairs)) # confidence intervals print(cld(.Pairs)) # compact letter display old.oma <- par(oma=c(0,5,0,0)) plot(confint(.Pairs)) par(old.oma) })
## ## Simultaneous Tests for General Linear Hypotheses ## ## Multiple Comparisons of Means: Tukey Contrasts ## ## ## Fit: aov(formula = Profundidad ~ Yacimiento, data = MexicoANOVA) ## ## Linear Hypotheses: ## Estimate Std. Error t value Pr(>|t|) ## Site_II - Site_I == 0 -35,367 6,745 -5,243 < 0,001 *** ## Site_III - Site_I == 0 -36,917 6,399 -5,769 < 0,001 *** ## Site_IV - Site_I == 0 -11,778 6,966 -1,691 0,34022 ## Site_III - Site_II == 0 -1,550 7,074 -0,219 0,99621 ## Site_IV - Site_II == 0 23,589 7,591 3,107 0,01690 * ## Site_IV - Site_III == 0 25,139 7,285 3,451 0,00684 ** ## --- ## Signif. codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 ## (Adjusted p values reported -- single-step method) ## ## ## Simultaneous Confidence Intervals ## ## Multiple Comparisons of Means: Tukey Contrasts ## ## ## Fit: aov(formula = Profundidad ~ Yacimiento, data = MexicoANOVA) ## ## Quantile = 2,6729 ## 95% family-wise confidence level ## ## ## Linear Hypotheses: ## Estimate lwr upr ## Site_II - Site_I == 0 -35,3667 -53,3953 -17,3380 ## Site_III - Site_I == 0 -36,9167 -54,0201 -19,8132 ## Site_IV - Site_I == 0 -11,7778 -30,3977 6,8421 ## Site_III - Site_II == 0 -1,5500 -20,4586 17,3586 ## Site_IV - Site_II == 0 23,5889 3,2983 43,8795 ## Site_IV - Site_III == 0 25,1389 5,6657 44,6121 ## ## Site_I Site_II Site_III Site_IV ## "b" "a" "a" "b"
Este test lo que hace es comparar dos a dos las muestras, sacando una conclusión global y agrupamientos de las mismas. No es el equivalente a la realización de un test t de Student de modo individual dos a dos. El test Tukey HSD es mucho más potente que esa comparación individual dos a dos. Entre los resultados que nos devuelve, es especialmente interesante la última parte de los mismos.
cld(.Pairs) # compact letter display Site_I Site_II Site_III Site_IV "b" "a" "a" "b"
Se han identificado dos grupos (con letras, a
y b
) que agrupan a los yacimientos por profundidad de sus hallazgos. Por ejemplo, el grupo a
engloba a los yacimientos II y III (Site_II
y Site_III
), mientras que el b
lo hace con el I y el IV (Site_I
y Site_IV
). Si se comparan estos agrupamientos con las medias de cada yacimiento, se ve que tiene una implicación evidente: las medias de profundidad de los yacimientos del grupo a
son 59.30 y 57.75 cm mientras que los del grupo b
son 94.67 y 82.89 cm.
Además de los resultados numéricos, también muestra una imagen en la que se realizan las comparaciones dos a dos a través de una función lineal (Figura 55). Los intervalos de las comparaciones dos a dos que estén incluidos en el valor 0 de la función lineal son los grupos que existen a nivel estadístico, que se corresponden obviamente con los mencionados previamente como a
y b
.
Estadística no paramétrica
Cuando no se cumple la suposición de normalidad, hay que recurrir a los test no paramétricos. Según el número de muestras a comparar aparecen dos posibilidades (Figura 49):
- 2 muestras
- Test Wilcoxon-Mann-Whitney
- Más de 2 muestras
- Test Kruskal-Wallis
Test de Wilcoxon-Mann-Whitney
El test de Wilcoxon-Mann-Whitney puede recibir varios nombres: test de Wilcoxon, test de Mann-Whitney, o la combinación de ambos. Indistintamente, todos ellos hacen referencia al mismo test. A diferencia de su homólogo paramétrico (t de Student), este test es no paramétrico y compara, en vez de las medias, las medianas.
Los requisitos para realizar un test de Wilcoxon-Mann-Whitney son los mostrados en la Tabla 14.
Característica | Valor |
---|---|
Número de muestras | 2 |
Tamaño muestral | – |
Normalidad de los datos | No |
Igualdad de varianzas | – |
El contraste de hipótesis de un test Wilcoxon-Mann-Whitney es el siguiente:
- H0: la mediana de todas las muestras son iguales.
- H1: al menos una de las medianas es diferente del resto.
En un artículo publicado en el año 2013 se ofrecían multitud de datos sobre las medidas y dimensiones de los dientes de Neandertal (Lumley and Giacobini 2013). Una pregunta muy válida a raíz de esos datos es, ¿son diferentes los dos premolares inferiores de Neandertal en su diámetro mesiodistal?
Comprobamos los supuestos
El supuesto que se mantiene en este test es la ausencia de normalidad en alguna de las muestras (o todas) a comparar. Se realiza un test de Shapiro-Wilk por premolar (ver anexo 4), descargando previamente los datos desde la web del libro con el nombre Premolares_Nean_MannWhitney_Normalidad.txt
. En este ejemplo se ha llamado al conjunto de datos Nean
. Los resultados son los siguientes:
shapiro.test(Nean$P3)
## ## Shapiro-Wilk normality test ## ## data: Nean$P3 ## W = 0,84692, p-value = 0,00154
shapiro.test(Nean$P4)
## ## Shapiro-Wilk normality test ## ## data: Nean$P4 ## W = 0,95887, p-value = 0,3083
El P3 inferior no se distribuye siguiendo una normal (p<0.05), mientras que el P4 inferior sí (p>0.05). Como uno de ellos no sigue una distribución, no se aplica un test paramétrico, sino que hay que recurrir a su alternativa en la estadística no paramétrica. En este caso, el test a aplicar sería el de Wilcoxon-Mann-Whitney.
Ejecución en R Commander
Los datos pueden descargarse desde la web del libro con el nombre Premolares_Nean_MannWhitney.txt
. Se ha llamado al conjunto de datos como NeanWMW
.
Para realizar un test no paramétrico Wilcoxon-Mann-Whitney, se sigue la siguiente ruta en R Commander (Figura 56): Statistics - Nonparametric tests - Two-sample Wilcoxon test...
.
En la ventana que se despliega ya están preseleccionadas las variables en su sitio correspondiente. Al presionar sobre OK
aparecen los siguientes resultados:
tapply(NeanWMW$MD_mm, NeanWMW$Premolar, median, na.rm=TRUE)
## P3 P4 ## 7,8 7,4
wilcox.test(MD_mm ~ Premolar, alternative="two.sided", data=NeanWMW)
## Warning in wilcox.test.default(x = c(7.8, 7.5, 7.6, 7.6, 7.5, 7.8, 7.6, : ## cannot compute exact p-value with ties
## ## Wilcoxon rank sum test with continuity correction ## ## data: MD_mm by Premolar ## W = 449, p-value = 0,135 ## alternative hypothesis: true location shift is not equal to 0
El p-valor de este test (0.135) es mayor que 0.05, por lo que se acepta la hipótesis nula. Esto significa que el diámetro mesiodistal de los dos premolares inferiores de Neandertales no son estadísticamente diferentes.
Test de Kruskal-Wallis
El test de Kruskal-Wallis se emplea para determinar si las medianas de dos o más grupos difieren. La prueba de Kruskal-Wallis es una alternativa no paramétrica al ANOVA de un factor visto previamente. El test no requiere que los datos sean normales, sino que usa la clasificación de los valores de los datos en lugar del valor real de los mismos para el análisis.
Los requisitos para realizar un test de Kruskal-Wallis son los mostrados en la Tabla 15.
Característica | Valor |
---|---|
Número de muestras | > 2 |
Tamaño muestral | – |
Normalidad de los datos | No |
Igualdad de varianzas | – |
El contraste de hipótesis de un test de Kruskal-Wallis es el siguiente:
- H0: todas las medianas de las poblaciones son iguales.
- H1: al menos una mediana de una población es diferente del resto.
Continuando con el ejemplo de las dimensiones de los dientes de Neandertal (Lumley and Giacobini 2013), una pregunta que puede plantearse es si las medidas del diámetro mesiodistal de los tres molares inferiores es igual para todos ellos o no.
Comprobamos los supuestos
El supuesto que se mantiene en este test es la ausencia de normalidad en alguna de las muestras (o todas) a comparar. Se realiza un test de Shapiro-Wilk por molar (ver anexo 4), descargando previamente los datos desde la web del libro con el nombre Molares_Nean_KruskalWallis_Normalidad.txt
. En el ejemplo se ha llamado al conjunto de datos MolaresKWN
. Los resultados son los siguientes:
shapiro.test(MolaresKWN$M1.inférieure)
## ## Shapiro-Wilk normality test ## ## data: MolaresKWN$M1.inférieure ## W = 0,93685, p-value = 0,04492
shapiro.test(MolaresKWN$M2.inférieure)
## ## Shapiro-Wilk normality test ## ## data: MolaresKWN$M2.inférieure ## W = 0,90832, p-value = 0,004415
shapiro.test(MolaresKWN$M3.inférieure)
## ## Shapiro-Wilk normality test ## ## data: MolaresKWN$M3.inférieure ## W = 0,93574, p-value = 0,06988
Para un alfa = 0.05, los molares 1 y 2 presentan diferencias significativas (p<0.05). Es decir, no se distribuyen sus medidas siguiendo una distribución normal (se rechaza la hipótesis nula). Con sólo estos datos, hay que recurrir a la alternativa no paramétrica de una ANOVA de un factor, que se conoce como Kruskal-Wallis.
Ejecución en R Commander
Los datos pueden descargarse desde la web del libro con el nombre Molares_Nean_KruskalWallis.txt
. Se ha llamado al conjunto de datos como NeanKW
.
Para realizar un test no paramétrico Kruskal Wallis se sigue la siguiente ruta en R Commander (Figura 57): Statistics - Nonparametric tests - Kruskal-Wallis test...
.
En la ventana que aparece ya están preseleccionadas las variables en su sitio correspondiente (Figura 57). Al presionar sobre OK
, R Commander ofrece los siguientes resultados:
tapply(NeanKW$MD_mm, NeanKW$Molar, median, na.rm=TRUE)
## M1 M2 M3 ## 11,20 11,75 11,30
kruskal.test(MD_mm ~ Molar, data=NeanKW)
## ## Kruskal-Wallis rank sum test ## ## data: MD_mm by Molar ## Kruskal-Wallis chi-squared = 4,9439, df = 2, p-value = 0,08442
El p-valor es mayor que 0.05, lo que indica que aceptamos la hipótesis nula de igualdad en la dimensión mesiodistal de los 3 molares. Es decir, no existen diferencias significativas entre los molares de Neandertal para esa medida.
Test Chi-cuadrado de homogeneidad
El test Chi-cuadrado de homogeneidad (o independencia) se utiliza para evaluar si dos variables categóricas están relacionadas (son dependientes) o no (son independientes). Para ello, se recurre a las tablas de contingencia, tablas en las que existen contajes de los factores de dos variables categóricas.
Los requisitos para realizar un test Chi-cuadrado de homogeneidad son los mostrados en la Tabla 16.
Característica | Valor |
---|---|
Número de muestras | ≥ 2 |
Tamaño muestral | – |
Normalidad de los datos | – |
Igualdad de varianzas | – |
El contraste de hipótesis del test Chi-cuadrado es el siguiente:
- H0: los dos factores son independientes.
- H1: los dos factores son dependientes.
Para ilustrar la funcionalidad del test Chi-cuadrado, se umplea un ejemplo basado en el contaje de tipologías líticas (microlitos, raspadores y buriles) en 5 yacimientos diferentes del Mesolítico (Baxter 2015). Los datos se pueden observar en la Tabla 17.
Yacimiento | Microlitos | Raspadores | Buriles |
---|---|---|---|
A | 68 | 37 | 8 |
B | 136 | 95 | 3 |
C | 41 | 0 | 3 |
D | 690 | 181 | 26 |
E | 78 | 165 | 19 |
Una pregunta posible viendo esos datos es si existe alguna relación entre los tipos de buriles y los yacimientos.
En R Commander hay que introducir los datos manualmente. Para ello seguimos la siguiente ruta (Figura 65): Statistics - Contingency tables - Enter and analyze two-way table...
.
Los resultados del análisis se pueden ver a continuación:
.Table <- matrix(c(68,37,8,136,95,3,41,0,3,690,181,26,78,165,19), 5, 3, byrow=TRUE) dimnames(.Table) <- list("rows"=c("A", "B", "C", "D", "E"), "columns"=c("Microlitos", "Raspadores", "Buriles")) .Table # Counts
## columns ## rows Microlitos Raspadores Buriles ## A 68 37 8 ## B 136 95 3 ## C 41 0 3 ## D 690 181 26 ## E 78 165 19
.Test <- chisq.test(.Table, correct=FALSE)
## Warning in chisq.test(.Table, correct = FALSE): Chi-squared approximation ## may be incorrect
.Test
## ## Pearson's Chi-squared test ## ## data: .Table ## X-squared = 236,68, df = 8, p-value < 2,2e-16
remove(.Test) remove(.Table)
El resultado indica que el p-valor es menor de 0.05, por lo que se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Esta hipótesis indica que ambas variables categóricas (yacimiento y tipología lítica) están relacionadas y no son independientes.
Referencias
Lumley, Marie-Antoinette de, and Giacomo Giacobini. 2013. “Les Néandertaliens de La Caverna Delle Fate (Finale Ligure, Italie). II Les Dents.” L’Anthropologie 117 (3): 305–44. https://doi.org/10.1016/j.anthro.2013.05.002.
Holloway, Ralph L., Douglas C. Broadfield, and Michael S. Yuan. 2004. The Human Fossil Record: Brain Endocasts – the Paleoneurological Evidence. 1st ed. New York: John Wiley & Sons Inc.
Woosley, Anne I., and Allan J. McIntyre. 1996. Mimbres Mogollon Archaeology. University of New Mexico Press.
Baxter, M. J. 2015. Exploratory Multivariate Analysis in Archaeology. Edición: Revised ed. Clinton Corners, NY: Ewp Foundations of Archaeology.