El Análisis de la Varianza (ANOVA) es un test estadístico que permite comparar la media de una variable en más de dos muestras.
Quiero leer...
Contraste de hipótesis
- H0: la media de todas las muestras son iguales
- H1: al menos una de las medias es diferente del resto
Requisitos
- Normalidad de los datos, en cada una de las muestras
- Homocedasticidad (igualdad de varianzas entre todas las muestras)
Ejemplo
Se quiere valorar el número de insectos en 6 parcelas independientes (A,B,C,D,E,F) que han sido tratadas con diferentes insectididas. La pregunta es ¿existen diferencias en el número de insectos en las 6 parcelas?
Los datos con los que trabajaremos se llaman InsectSprays, que se encuentran en el paquete datasets. Para cargarlos en R Commander, leer la siguiente entrada:
Modo 1: ANOVA de un factor (one-way ANOVA)
- Paso 1. Ruta para abrir la ventana y seleccionar ANOVA de un factor:
Statistics → Means → One-way ANOVA...
- Paso 2. Una vez abierta la ventana, seleccionamos la variable categórica spray en Groups (pick one) y la continua count en Response Variable (pick one).
- Paso 3. Vemos el p-valor. En este caso, es menor que 0.05 y aceptamos que existen diferencias de medias entre los grupos.
Modo 2: Modelo lineal
- Paso 1. Ruta para abrir la ventana y seleccionar modelos lineales:
Statistics → Fit models → Linear model...
- Paso 2. Una vez abierta la ventana, seleccionamos la variable categórica spray en a la derecha de la fórmula y la continua count a la izquierda de la fórmula. Como es una regresión, Y(count) depende de X(spray)
- Paso 3. Vemos el p-valor. En este caso, es menor que 0.05 y aceptamos que existen diferencias de medias entre los grupos.
Comparación de resultados
Los p-valores y los valores del estadístico F obtenidos ejecutando el ANOVA según los dos modos descritos son idénticos (F = 34.7; p-value < 2.2e-16). En ambos casos se observa por tanto que existen diferencias significativas, por lo que al menos hay una parcela en la que existen diferencias significativas en el número de insectos comparada con el resto.
Modo 1: ANOVA de un factor
> AnovaModel.1 <- aov(count ~ spray, data=InsectSprays) > summary(AnovaModel.2) Df Sum Sq Mean Sq F value Pr(>F) spray 5 2669 533.8 34.7 <2e-16 *** Residuals 66 1015 15.4 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 > numSummary(InsectSprays$count , groups=InsectSprays$spray, statistics=c("mean", "sd")) mean sd data:n A 14.500000 4.719399 12 B 15.333333 4.271115 12 C 2.083333 1.975225 12 D 4.916667 2.503028 12 E 3.500000 1.732051 12 F 16.666667 6.213378 12
Modo 2: Modelo lineal
> LinearModel.1 <- lm(count ~ spray, data=InsectSprays) > summary(LinearModel.1) Call: lm(formula = count ~ spray, data = InsectSprays) Residuals: Min 1Q Median 3Q Max -8.333 -1.958 -0.500 1.667 9.333 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.5000 1.1322 12.807 < 2e-16 *** spray[T.B] 0.8333 1.6011 0.520 0.604 spray[T.C] -12.4167 1.6011 -7.755 7.27e-11 *** spray[T.D] -9.5833 1.6011 -5.985 9.82e-08 *** spray[T.E] -11.0000 1.6011 -6.870 2.75e-09 *** spray[T.F] 2.1667 1.6011 1.353 0.181 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.922 on 66 degrees of freedom Multiple R-squared: 0.7244, Adjusted R-squared: 0.7036 F-statistic: 34.7 on 5 and 66 DF, p-value: < 2.2e-16
¿Merece la pena ejecutar ambos modos a la hora de analizar un ANOVA?
SÍ. Esto se debe a que cada modo de modo independiente ofrece información y posibilidades extra que el otro no ofrece. Por ejemplo:
- Modo 1. ANOVA de un factor
- Aparece una tabla de resultados con la media, desviación estándar y tamaño muestral de cada uno de los grupos.
- En la ventana que se despliega, se puede elegir hacer análisis post-hoc (en este caso Tukey-HSD) bajo el nombre de Pairwise comparisons of means. Este sin duda es un punto muy importante, así como el gráfico que aparece automáticamente al seleccionar dicha opción, en la que se muestran la comparación por pares de todos los grupos.
- Modo 2. Modelo lineal
- Al tratarlo como una regresión, aparecen los coeficientes de la ecuación de regresión y su significación estadística, así como su R2.
¡Viva el Software Libre!
Referencias
- Hammer, O., Harper, D., 2006. Paleontological Data Analysis. Blackwell Publishing, Oxford.
- Modelos lineales: Regresión, ANOVA y ANCOVA
En relación con el diseño de un experimento, tengo una duda conceptual. Tengo dos factores. Factor 1 riego: bajo, alto y (¿sin riego?). Factor 2 nutrientes: bajo, alto y (¿sin nutrientes?). ¿Mi duda es si deben realizarse las combinaciones de tratamientos donde no empleo algún factor porque considero que no siempre pueden estar los dos actuando a la vez?. Por ejemplo: Factor 1: sin riego + Factor 2: bajo/alto y viceversa Factor 1: bajo/alto + Factor 2: sin nutrientes. Y en última instancia: Factor 1: sin riego + Factor 2: sin nutrientes sería el control. En realidad, se trata de contemplar la posibilidad de que actúe los dos niveles de un factor sin la aplicación del otro factor. ¿cómo se definirían los tratamientos (y niveles) entonces? 3*3, y uno de ellos sería el control? Gracias