ANOVA de un factor: dos modos complementarios de ejecutarlo en R Commander

El Análisis de la Varianza (ANOVA) es un test estadístico que permite comparar la media de una variable en más de dos muestras.

Contraste de hipótesis

  • H0: la media de todas las muestras son iguales
  • H1: al menos una de las medias es diferente del resto

Requisitos

Ejemplo

Se quiere valorar el número de insectos en 6 parcelas independientes (A,B,C,D,E,F) que han sido tratadas con diferentes insectididas. La pregunta es ¿existen diferencias en el número de insectos en las 6 parcelas?

Los datos con los que trabajaremos se llaman InsectSprays, que se encuentran en el paquete datasets. Para cargarlos en R Commander, leer la siguiente entrada:

Modo 1: ANOVA de un factor (one-way ANOVA)

 

ANOVA de un factor - One-way ANOVA en R Commander

  • Paso 1. Ruta para abrir la ventana y seleccionar ANOVA de un factor:
Statistics → Means → One-way ANOVA...
  • Paso 2. Una vez abierta la ventana, seleccionamos la variable categórica spray en Groups (pick one) y la continua count en Response Variable (pick one).
  • Paso 3. Vemos el p-valor. En este caso, es menor que 0.05 y aceptamos que existen diferencias de medias entre los grupos.

Modo 2: Modelo lineal

 

ANOVA de un factor - One-way ANOVA - Modelo lineal

  • Paso 1. Ruta para abrir la ventana y seleccionar modelos lineales:
Statistics → Fit models → Linear model...
  • Paso 2. Una vez abierta la ventana, seleccionamos la variable categórica spray en a la derecha de la fórmula y la continua count a la izquierda de la fórmula. Como es una regresión, Y(count) depende de X(spray)
  • Paso 3. Vemos el p-valor. En este caso, es menor que 0.05 y aceptamos que existen diferencias de medias entre los grupos.

Comparación de resultados

Los p-valores y los valores del estadístico F obtenidos ejecutando el ANOVA según los dos modos descritos son idénticos (F = 34.7; p-value < 2.2e-16). En ambos casos se observa por tanto que existen diferencias significativas, por lo que al menos hay una parcela en la que existen diferencias significativas en el número de insectos comparada con el resto.

Modo 1: ANOVA de un factor

> AnovaModel.1 <- aov(count ~ spray, data=InsectSprays)

> summary(AnovaModel.2)
            Df Sum Sq Mean Sq F value Pr(>F)    
spray        5   2669   533.8    34.7 <2e-16 ***
Residuals   66   1015    15.4                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

> numSummary(InsectSprays$count , groups=InsectSprays$spray, statistics=c("mean", "sd"))
       mean       sd data:n
A 14.500000 4.719399     12
B 15.333333 4.271115     12
C  2.083333 1.975225     12
D  4.916667 2.503028     12
E  3.500000 1.732051     12
F 16.666667 6.213378     12

Modo 2: Modelo lineal

> LinearModel.1 <- lm(count ~ spray, data=InsectSprays)

> summary(LinearModel.1)

Call:
lm(formula = count ~ spray, data = InsectSprays)

Residuals:
   Min     1Q Median     3Q    Max 
-8.333 -1.958 -0.500  1.667  9.333 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  14.5000     1.1322  12.807  < 2e-16 ***
spray[T.B]    0.8333     1.6011   0.520    0.604    
spray[T.C]  -12.4167     1.6011  -7.755 7.27e-11 ***
spray[T.D]   -9.5833     1.6011  -5.985 9.82e-08 ***
spray[T.E]  -11.0000     1.6011  -6.870 2.75e-09 ***
spray[T.F]    2.1667     1.6011   1.353    0.181    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.922 on 66 degrees of freedom
Multiple R-squared:  0.7244,    Adjusted R-squared:  0.7036 
F-statistic:  34.7 on 5 and 66 DF,  p-value: < 2.2e-16

¿Merece la pena ejecutar ambos modos a la hora de analizar un ANOVA?

. Esto se debe a que cada modo de modo independiente ofrece información y posibilidades extra que el otro no ofrece. Por ejemplo:

  • Modo 1. ANOVA de un factor
    • Aparece una tabla de resultados con la media, desviación estándar y tamaño muestral de cada uno de los grupos.
    • En la ventana que se despliega, se puede elegir hacer análisis post-hoc (en este caso Tukey-HSD) bajo el nombre de Pairwise comparisons of means. Este sin duda es un punto muy importante, así como el gráfico que aparece automáticamente al seleccionar dicha opción, en la que se muestran la comparación por pares de todos los grupos.
  • Modo 2. Modelo lineal
    • Al tratarlo como una regresión, aparecen los coeficientes de la ecuación de regresión y su significación estadística, así como su R2.

¡Viva el Software Libre!

Referencias

 

3 comentarios en “ANOVA de un factor: dos modos complementarios de ejecutarlo en R Commander

  1. En relación con el diseño de un experimento, tengo una duda conceptual. Tengo dos factores. Factor 1 riego: bajo, alto y (¿sin riego?). Factor 2 nutrientes: bajo, alto y (¿sin nutrientes?). ¿Mi duda es si deben realizarse las combinaciones de tratamientos donde no empleo algún factor porque considero que no siempre pueden estar los dos actuando a la vez?. Por ejemplo: Factor 1: sin riego + Factor 2: bajo/alto y viceversa Factor 1: bajo/alto + Factor 2: sin nutrientes. Y en última instancia: Factor 1: sin riego + Factor 2: sin nutrientes sería el control. En realidad, se trata de contemplar la posibilidad de que actúe los dos niveles de un factor sin la aplicación del otro factor. ¿cómo se definirían los tratamientos (y niveles) entonces? 3*3, y uno de ellos sería el control? Gracias

Deja un comentario

*