Modelos de probabilidad y contraste de hipótesis en R

Quiero leer...

Modelos probabilísticos y cálculo de probabilidades

La situación que tiene normalmente un investigador es el de analizar una determinada variable X en los individuos de una población, o los restos arqueológicos de una cultura concreta, etc. Esta variable puede ser unidimensional (como por ejemplo, la materia prima de las herramientas líticas) o multidimensional (la materia prima, la longitud y el ángulo de los bordes cortantes, etc).

Entrando un poco más en detalle, el investigador tendrá el propósito de estudiar algún parámetro de sus variables de estudio, como la media, intentando inferir el valor del parámetro poblacional, construir un intervalo de confianza para dicho parámetro o tratando de decidir entre dos o más conjuntos de posibles valores mediante un contraste de hipótesis.

En esta sección se va a mostrar cuáles son los modelos más comunes de distribución de los datos. Es importante reseñar que modelos probabilísticos y distribuciones de probabilidad son conceptos sinónimos, y pueden ser empleados indistintamente. Y además, son muy importantes porque permiten calcular probabilidades.

En R existen cuatro funciones básicas asociadas a cálculos de probabilidad de los modelos probabilísticos. Si se emplea el caso de una distribución normal, se codifica como norm:

  • pnorm(x, par): Función de distribución.
  • dnorm(x, par): Función de masa o densidad.
  • qnorm(x, par): Cuantiles.
  • rnorm(x, par): Números aleatorios.

El argumento par indica que debemos incluir ahí los parámetros de la distribución considerada, mientras que x se refiere al conjunto de datos sobre los que se quieren ejecutar las funciones. En lugar de norm, referido a una distribución normal, se puede emplear el nombre de otro tipo de distribución. En R Commander, todas estas funciones se ejecutan a través de la interfaz gráfica de un modo muy sencillo.

Pero primero debemos conocer cuáles son los tipos de distribuciones más comunes que se dan a nivel de ciencias de la naturaleza, incluyendo obviamente la Arqueología en ella. Y como no podía ser de otro modo, estas distribuciones dependen del tipo de variable que estemos considerando.

Tipos de distribuciones

Existen multitud de distribuciones de probabilidad, que varían según el tipo de variable.

Las distribuciones unidimensionales continuas están construidas a partir de variables con datos continuos. Entre ellas, se puede encontrar la distribución normal:

  • Distribución Normal
  • Distribución Uniforme
  • Distribución Beta
  • Distribución Gamma
  • Distribución de Cauchy
  • Distribución Exponencial
  • Distribución de Weibull
  • Distribución Lognormal
  • Distribución Logística

Las distribuciones unidimensionales discretas están construidas a partir de variables con datos discretos:

  • Distribución Binomial
  • Distribución de Poisson
  • Distribución Geométrica
  • Distribución Hipergeométrica
  • Distribución Binomial Negativa

Entre las distribuciones unidimensionales asociados a distribuciones normales se pueden encontrar las siguientes:

  • Distribución t de Student
  • Distribución Chi-cuadrado de Pearson
  • Distribución F de Snedecor

Distribución Normal

La distribución normal muestra una distribución de los datos que tiene una forma de campana, también conocida como campana de Gauss o campana gaussiana. Estos datos proceden de una variable cuantitativa continua. Además, es una de las distribuciones más comunes porque una grandísima cantidad de fenómenos naturales se comportan siguiendo este modelo.

Algunas de las características principales de la distribución normal son (Figura 37):

  • La media se encuentra justo en la mitad de la campana, por lo que el valor de la media divide la campana en dos mitades iguales o simétricas.
  • La mediana y la moda coinciden en su posición con la media.
  • La mayoría de las observaciones se encuentran alrededor de la media.
Figura 37: Características de una distribución normal donde la media, mediana y moda coinciden en el mismo valor del eje x.

La distribución normal estándar es una distribución con media = 0 y desviación estándar = 1. Se conoce también como distribución Z.

Función de distribución y de densidad

La distribución normal puede representarse gráficamente de dos modos: mediante su función de distribución y su función de densidad.

La función de distribución muestra las probabilidades acumuladas (en el eje Y) de todos los valores que puede adquirir la variable en estudio. Es decir, el eje Y tiene un intervalo de 0 a 1 y la curva generada presenta una curva sigmoidea.

La función de densidad de una variable aleatoria permite trasladar la medida de probabilidad o “suerte” de realización de los sucesos de una experiencia aleatoria a la característica numérica que define la variable aleatoria.

Para ilustrar ambas funciones (Figura 38) aplicadas a la distribución normal estándar (media = 0, desviación estándar = 1), se ejecuta en R Commander a través de la siguiente ruta Distributions - Continuous distributions - Normal distribution - Plot normal distributions....

Figura 38: Función de densidad (izquierda) y función de distribución (derecha) de una distribución normal con media = 0 y desviación estándar = 1. Se marca con una línea roja discontinua la media.

Área de la distribución normal

Toda el área que existe debajo de la curva implica una probabilidad de 1.0, lo que representa el 100%. Es decir, todas las medidas que se tomen se van a localizar en el intervalo que representa la curva (Figura 39). Si a partir de la media (mediana o moda) se divide la campana en dos partes simétricas, cada mitad representa un área de 0.5.

Figura 39: El área situada debajo de la campana de Gauss tiene un valor de 1 (izquierda), por lo que dividiendo dicha campana por el valor de la media, cada mitad de la campana tiene un área de 0.5 (derecha).

La desviación estándar mide, como se ha mencionado en capítulos previos, la dispersión de los datos en torno a la media. En una distribución normal, la desviación estándar presenta varios grados. El primer grado de la desviación estándar (media ± 1sd) viene definido por dos puntos básicos en la campana: los dos puntos de inflexión de la curva (Figura 40). Estos puntos de inflexión se encuentran en los puntos de la curva donde ésta pasa de ser cóncava a ser convexa. Estos puntos, proyectados hacia el eje X determinan un área que representa el 68.2% de los datos. Es decir, cuando se lee en cualquier artículo científico una media con su desviación estándar, ésta es siempre 1 desviación estándar, a no ser que se especifique lo contrario. Esto significa que el 68.2% de las veces que se mida la variable en estudio, sus valores estarán comprendidos entre la media y 1 desviación estándar.

Figura 40: Explicación de las desviaciones estándar (1, 2 y 3) sobre una distribución normal y el porcentaje del área de cada una.

El segundo grado de la desviación estándar (media ± 2sd) representa un 95.4% de los datos observados, mientras que el tercer grado de la desviación estándar (media ± 3sd) se recoge el 99.6% de variación (Tabla 5).

Grados de desviación estándarÁrea bajo la curva completaÁrea del intervalo individualÁrea del intervalo bajo la curva
168.2% (0.682)34.1% (0.341)68.2% (0.682)
295.4% (0.954)13.6% (0.136)27.2% (0.272)
399.6% (0.996)02.1% (0.021)04.2% (0.042)
Tabla 5: Porcentajes del área bajo la curva según el grado de desviación estándar considerado.

Ejemplo de las manos paleolíticas

En los últimos años se han hecho intentos de determinar el sexo de las personas que pintaron y dejaron reflejadas sus manos en las cuevas paleolíticas. Para ello, se han tomado la medidas de la longitud de sus dedos y manos, entre otras variables. Para tener una muestra comparativa, diversos estudios han medido las manos y dedos de poblaciones actuales. En uno de estos estudios (Galeta, Bruzek, and Lázničková-Galetová 2014), se tomaron las medidas de mujeres y hombres del sur de Francia. Si se toma como ejemplo los datos de la longitud del segundo dedo de mujeres en milímetros, se observa que la media de la longitud es 69.6 mm y la desviación estándar es 3.37 mm. Estos datos se comportan como una distribución normal, tal y como se menciona en el artículo. Así que vamos a analizar en detalle estos datos dentro de una distribución normal y calcular algunas probabilidades.

Se representa gráficamente la distribución normal, tanto la función de densidad como la función de distribución (Figura 41) . Para ello, en R Commander se sigue la siguiente ruta Distributions - Continuous distributions - Normal distribution - Plot normal distributions....

Figura 41: Función de densidad (izquierda) y función de distribución (derecha) de los datos de la longitud del dedo.

Aplicando específicamente los valores de la longitud del dedo para cada grado de desviación estándar, se obtienen lo datos de la Tabla 6.

Grados sdAplicación al ejemploIntervaloSignificado
169.6 ± 3.37*1 mm = 69.6 ± 3.37 mm[66.23 – 72.97]El 68.2% de las medidas del dedo están comprendidas entre 66.23 y 72.97 mm.
269.6 ± 3.37*2 mm = 69.6 ± 6.74 mm[62.86 – 76.34]El 95.4% de las medidas del dedo están comprendidas entre 62.86 y 76.34 mm.
369.6 ± 3.37*3 mm = 69.6 ± 10.11 mm[59.49 – 79.71]El 99.6% de las medidas del dedo están comprendidas entre 59.49 y 79.71 mm.
Tabla 6: Interpretación de los grados de desviación estándar (sd) en relación a las medidas del dedo.

Cálculo de probabilidades

Con las áreas de la distribución normal, como se ha observado, se pueden calcular las probabilidades bajo su curva. Esto permite realizar preguntas más específicas sobre las probabilidades de encontrar unas medidas u otras.

  • Pregunta 1: ¿qué probabilidades existen de obtener la medida de un dedo de más de 75 mm? Para responder a esta pregunta se sigue la siguiente ruta (Figura 42): Distributions - Continuous distributions - Normal distribution - Normal probabilities....
Figura 42: Modo de calcular probabilidades en R Commander para una distribución normal.

Como la probabilidad deseada tiene que ser mayor de 75, se marca la opción Upper tail, que significa la parte derecha de la distribución normal. El resultado que devuelve R Commander es el siguiente:

pnorm(c(75), mean=69.6, sd=3.37, lower.tail=FALSE)
## [1] 0,05453648

Y esto significa que existe un 5.45% de probabilidades de obtener un dedo cuya medida sea superior a 75 mm.

  • Pregunta 2: ¿qué probabilidades existen de obtener un dedo con una medida comprendida entre 60 y 65 mm? Aparecen varias opciones para responder a esta pregunta:
    • Se calcula la probabilidad de obtener un dedo mayor de 65 mm y la probabilidad de obtener otro de menor de 60 mm. Con ambas probabilidades, las sumamos y se lo restamos a 1
    • Se calcula la probabilidad de obtener un dedo menor de 65 mm y la probabilidad de obtener otro menor de 60 mm. Con ambas probabilidades, restamos la primera menos la segunda.
    • Se calcula la probabilidad de obtener un dedo mayor de 60 mm y la probabilidad de obtener otro mayor de 65 mm. Con ambas probabilidades, restamos la primera menos la segunda.
    • Se calcula la probabilidad de obtener un dedo mayor de 60 mm y la probabilidad de obtener otro menor de 65 mm. Con ambas probabilidades, las sumamos y le restamos 1.

Siguiendo la misma ruta en R Commander que en la pregunta anterior, se calculan las probabilidades mencionadas en los 4 puntos anteriores (Tabla 7):

Mayor de 60 mmMenor de 60 mmMayor de 65 mmMenor de 65 mm
0.99780480.0021951560.91387110.08612886
Tabla 7: Varias probabilidades asociadas a medidas del dedo.

Y ahora se calcula la probabilidad del intervalo (entre 60 y 65 mm) en cada una de las 4 opciones mencionadas (Tabla 8):

OpciónFórmulaValores de la fórmulaResultado
11 – [(>65mm) + (<60mm)]1 – (0.9138711 + 0.002195156)0.083933
2(<65mm) – (<60mm)0.08612886 – 0.0021951560.083933
3(>60mm) – (>65mm)0.9978048 – 0.91387110.083933
4[(<65mm) + (>60mm)] – 1(0.08612886 + 0.9978048) – 10.083933
Tabla 8: Cuatro opciones diferentes con igual resultado para resolver la pregunta.

En todos los casos se obtiene una probabilidad de obtener un dedo con una medida comprendida entre 60 y 65 mm del 8.39%.

  • Pregunta 3: ¿cuál es el valor de longitud del dedo que marca el límite del 25% de longitudes más elevadas? En R Commander seguimos la siguiente ruta (Figura 43): Distributions - Continuous distributions - Normal distribution - Normal quantiles....
Figura 43: Modo de calcular el valor de la longitud del dedo para una probabilidad dad previamente. Para ello se usan los cuantiles.

Es importante que los porcentajes se introduzcan en base 1. Por lo tanto, 25% es 0.25. El resultado que devuelve R Commander es el siguiente:

qnorm(c(0.25), mean=69.6, sd=3.37, lower.tail=FALSE)
## [1] 71,87303

Esto significa que a partir de la longitud del dedo de 71.87 mm se tiene el 25% de las medidas más elevadas. Dicho de otro modo, el 25% de las medidas más altas de la longitud de los dedos comienza a partir del valor 71.87 mm.

Contraste de hipótesis

Los contrastes de hipótesis se conocen en algunas ocasiones como tests de significación. El contraste de hipótesis es el método estadístico que intenta confirmar o rechazar un supuesto sobre una población usando los datos de una muestra. Esto lleva asociado la expresión hipótesis estadística, que se refiere a una gran cantidad de supuestos que se plantean con la intención de encontrar evidencia estadística que lo apoye o rechace.

En conjunto, estos contrastes de hipótesis ocupan el núcleo central de una de las ramas principales de la estadística, conocida como la estadística inferencial. Una hipótesis estadística, o simplemente hipótesis, se refiere a una suposición acerca de algo o alguien que se somete a comprobación.

Pasos en un contraste de hipótesis

Para realizar un test de hipótesis con éxito, es necesario seguir unas etapas concretas y ordenadas:

  1. Planteamiento de las hipótesis. Formular dos tipos de hipótesis, en las que se verifique que una tenga que ser cierta obligatoriamente:
    • Hipótesis nula (se representa simbólicamente como H0). Es la hipótesis de la no diferencia. Es la hipótesis que se somete a comprobación experimental.
    • Hipótesis alternativa (se representa simbólicamente como H1). Es la hipótesis de la diferencia. Se verifica cuando la hipótesis nula se rechaza.
  2. Toma de medidas. Tomar medidas u observaciones adecuadas para contrastar algunas de las hipótesis anteriores (nula o alternativa) bajo un test estadístico particular o concreto.
  3. Ley y cálculo de la probabilidad (p-valor). Dependiendo de la naturaleza de los datos, modelos probabilísticos y de la hipótesis a contrastar, se empleará una u otra fórmula matemática, que dará lugar a un único valor. A la fórmula se la conoce como estadístico de contraste y a la solución de esta fórmula como valor del estadístico. A este valor del estadístico (obtenido a través del test estadístico de contraste) le corresponde un único valor de probabilidad, que aparece representado como p-valor (o p-value en nomenclatura anglosajona). Este valor de probabilidad puede averiguarse consultando las tablas de probabilidad del test estadístico empleado. En R y R Commander los p-valores aparecen automáticamente sin necesidad de buscarlos en la tabla correspondiente.
  4. Selección del nivel (crítico) de significación. Para tomar decisiones correctas sobre si aceptar o rechazar la hipótesis nula, hay que determinar un valor crítico de probabilidad para nuestro p-valor antes de realizar un contraste de hipótesis. Este valor de probabilidad se conoce como nivel crítico de significación, o simplemente nivel de significación. Sus valores típicos son 0.05 y 0.01 (que se corresponden con un 5% y un 1% respectivamente), y se representan con la letra griega alfa.
  5. Interpretación del p-valor y decisión del contraste de hipótesis. Por último, con el p-valor del estadístico en una mano, y con el nivel de significación en la otra, vamos a ver cómo se interpretan estos datos a la luz de aceptar o rechazar la hipótesis nula para cualquier nivel de significación:
    • p-valor < alfa. Rechazamos la hipótesis nula (H0). Como consecuencia de este rechazo, aceptamos la hipótesis alternativa (H1).
    • p-valor≥
  • alfa. Aceptamos la hipótesis nula (H0).
  • p-valores muy próximos a alfa se tratan como resultados marginales.

Si alfa=0.05, la interpretación de los resultados más específicamente serían los siguientes:

  • p-valor < 0.01 (muy pequeño): los resultados se consideran estadísticamente altamente significativos, rechazando obviamente la hipótesis nula en favor de la hipótesis alternativa.
  • 0.01 < p-valor < 0.05 (pero no próximo a 0.05): los resultados se consdieran estadísticamente significativos, rechazando nuevamente la hipótesis nula y aceptando la hipótesis alternativa.
  • p-valor próximo a 0.05: los resultados se consideran marginales, pudiendo tomar la decisión hacia uno u otro lado.
  • p-valor > 0.05: los resultados se consideran no significativos, aceptando la hipótesis nula.

Tipos de error

Existen algunos errores que hay que tener presentes a la hora de aceptar o rechazar una hipótesis nula (Tabla 9).

  • Error tipo I: rechazar una hipótesis nula cuando es cierta.
  • Error tipo II: aceptar una hipótesis nula cuando es falsa.
Decisión estadísticaLa hipótesis nula (H0) es verdaderaLa hipótesis nula (H0) es falsa
Se acepta H0CORRECTOError tipo I
Se rechaza H0Error tipo IICORRECTO
Tabla 9: Estados de la hipótesis nula (H0) con los tipos de error (I y II) a la hora de evaluar un contraste de hipótesis.

Contraste de hipótesis relacionado con la media de una población normal

Para poder comprender y realizar un contraste de hipótesis relacionado con la media de una población normal, se usan los volúmenes endocraneales de 10 Homo erectus de Asia, obtenidos de la literatura científica (Cofran and DeSilva 2015). Los datos pueden descargarse desde la web del libro con el nombre Cofran and DeSilva, 2015. Endocranial volume H. erectus.txt. Se importan en R Commander poniendo el nombre de ECV (Endocranial Volume) al conjunto de datos (Figura 44).

Figura 44: Importación de los datos de los volúmenes endocraneales de H. erectus en R Commander (izquierda) y visualización del conjunto de datos (derecha).

Ahora bien y a pesar de las disputas, existe un cierto consenso en asignar a los Homo erectus africanos a la especie H. ergaster. Al margen de estos debates taxonómicos, tres cráneos africanos asignados a esta especie (KNM-ER 3732, 3733 y 3883) presentan una media de volumen endocraneal de 800.67 cm^3 (Holloway, Broadfield, and Yuan 2004). En base a los datos mencionados, pueden hacerse varias preguntas:

  • Pregunta 1: ¿Podría decirse que la media de estos 3 cráneos es diferente a la de los H. erectus asiáticos?
  • Pregunta 2: ¿Podría decirse que la media de estos 3 cráneos es menor que la de los H. erectus asiáticos?
  • Pregunta 3: ¿Podría decirse que la media de estos 3 cráneos es mayor que la de los H. erectus asiáticos?

Antes de ejecutar cualquier contraste de hipótesis, hay que especificar cuáles son la hipótesis nula y la alternativa:

  • Pregunta 1
    • H0: media (H. erectus asiáticos) = 800.67
    • H1: media (H. erectus asiáticos) ≠
  • 800.67

Pregunta 2

  • H0: media (H. erectus asiáticos) ≤
  • 800.67
  • H1: media (H. erectus asiáticos) > 800.67

Pregunta 3

  • H0: media (H. erectus asiáticos) ≥
  • 800.67
  • H1: media (H. erectus asiáticos) < 800.67

Para poder contrastar las hipótesis anteriores, hay que seguir la siguiente ruta en R Commander (Figura 45): Statistics - Means - Single-sample t-test....

Figura 45: Ruta para realizar un test simple de la t en R Commander.

Las opciones que hay que marcar para contrastar la hipótesis de la pregunta 1 son las siguientes, con alfa=0.05 (Figura 46).

Figura 46: Opciones a rellenar para contrastar la hipótesis de la pregunta 1.

El resultado es el que se muestra a continuación:

t.test(ECV$ECV..cm3., alternative='two.sided', mu=800.67, conf.level=.95)
## 
##  One Sample t-test
## 
## data:  ECV$ECV..cm3.
## t = 4,876, df = 9, p-value = 0,0008763
## alternative hypothesis: true mean is not equal to 800,67
## 95 percent confidence interval:
##  862,7617 970,2383
## sample estimates:
## mean of x 
##     916,5

Como se observa, el p-valor es 0.0008763, por lo que se rechaza la hipótesis nula aceptando la hipótesis alternativa al ser ese valor menor de 0.05. Es decir, existen diferencias entre los volúmenes endocraneales de los H. erectus asiáticos y los H. erectus africanos.

Las opciones que hay que marcar para contrastar la hipótesis de la pregunta 2 son las siguientes, con alfa=0.05 (Figura 47).

Figura 47: Opciones a rellenar para contrastar la hipótesis de la pregunta 2.

El resultado es el que se muestra a continuación:

t.test(ECV$ECV..cm3., alternative='greater', mu=800.67, conf.level=.95)
## 
##  One Sample t-test
## 
## data:  ECV$ECV..cm3.
## t = 4,876, df = 9, p-value = 0,0004381
## alternative hypothesis: true mean is greater than 800,67
## 95 percent confidence interval:
##  872,9538      Inf
## sample estimates:
## mean of x 
##     916,5

Como se puede ver, el p-valor es 0.0004381. Como este valor es inferior a 0.05, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa. Es decir, los cráneos de los H. erectus asiáticos tienen mayor volumen endocraneal que los H. erectus africanos.

Las opciones que hay que marcar para contrastar la hipótesis de la pregunta 3 son las siguientes, con alfa=0.05 (Figura 48).

Figura 48: Opciones a rellenar para contrastar la hipótesis de la pregunta 3.

El resultado es el que se muestra a continuación:

t.test(ECV$ECV..cm3., alternative='less', mu=800.67, conf.level=.95)
## 
##  One Sample t-test
## 
## data:  ECV$ECV..cm3.
## t = 4,876, df = 9, p-value = 0,9996
## alternative hypothesis: true mean is less than 800,67
## 95 percent confidence interval:
##      -Inf 960,0462
## sample estimates:
## mean of x 
##     916,5

Como no podía ser de otro modo teniendo en cuenta los resultados anteriores, en este caso se acepta la hipótesis nula (p-valor > 0.05), lo que indica que los cráneos de H. erectus africanos son más pequeños que los de los H. erectus asiáticos.

Referencias

Galeta, Patrik, Jaroslav Bruzek, and Martina Lázničková-Galetová. 2014. “Is Sex Estimation from Handprints in Prehistoric Cave Art Reliable? A View from Biological and Forensic Anthropology.” Journal of Archaeological Science 45 (May): 141–49. https://doi.org/10.1016/j.jas.2014.01.028.

Cofran, Zachary, and Jeremy M. DeSilva. 2015. “A Neonatal Perspective on Homo Erectus Brain Growth.” Journal of Human Evolution 81: 41–47. https://doi.org/10.1016/j.jhevol.2015.02.011.

Holloway, Ralph L., Douglas C. Broadfield, and Michael S. Yuan. 2004. The Human Fossil Record: Brain Endocasts – the Paleoneurological Evidence. 1st ed. New York: John Wiley & Sons Inc.