Estadística aplicada en R: arqueología y prehistoria

La arqueología y la prehistoria son hoy en día ciencias cuantitativas que tratan con fenómenos naturales del pasado. Los especialistas de estas disciplinas deben conocer los procedimientos estadísticos estándar, incluyendo aquéllos más específicamente desarrollados y aplicados a su campo de estudio. En esta ocasión vamos a emplear la estadística aplicada en R para abordar problemáticas de estas disciplinas.

¿Por qué la estadística presenta un papel tan destacado en la explicación de los fenómenos de la naturaleza? La respuesta es muy sencilla: prácticamente la totalidad de los fenómenos naturales son de tipo aleatorio, es decir, no determinístico. La estadística es, precisamente, el lenguaje que permite entenderlos.

La estadística es la ciencia que se encarga de la recolección, análisis, presentación e interpretación de los datos. En este manual se aprenderá a describir los fenómenos mediante la estadística descriptiva. Aunque de un modo mucho más relevante, se podrá entender y predecir los fenómenos en términos de probabilidades mediante la estadística inferencial. El análisis estadístico, por tanto, presenta tres ámbitos complementarios que han sido empleados para estructurar el presente manual. A continuación se resumen estos tres aspectos:

  • Estadística descriptiva. Resume los datos bien con parámetros estadísticos (media, moda, mediana…) o gráficos (diagrama de caja y bigotes, diagrama de sectores, etc).
  • Cálculo de probabilidades. Calcular las probabilidades de que ocurra un determinado suceso. Depende del tipo de distribución o modelo probabilístico.
  • Estadística inferencial. Se utiliza para poder inferir características de una población a partir de una muestra. Es decir, la estadística inferencial permite estimar parámetros que no conocemos (población) a partir de los que conocemos (muestra). Existen dos métodos principales en la inferencia estadística: la estimación y el test de hipótesis.

Objetivos del manual y la importancia de la estadística aplicada en R

Este manual tiene el propósito de introducir ordenadamente los conceptos estadísticos mostrando ejemplos específicos provenientes del mundo de la arqueología y prehistoria. Siguiendo la estela del libro del físico británico Stephen Hawking llamado Historia del tiempo, del big bang a los agujeros negros, no se ha incluido ninguna fórmula matemática ni estadística. Este genial científico comentaba que existe una relación inversamente proporcional entre el número de fórmulas matemáticas presentes en un texto y el número de personas que lo leen. Por lo tanto, cuantas más fórmulas, menos lectores. Pues bien, este manual se ha planteado bajo esta premisa. Será enteramente aplicado con ejemplos y conceptos que faciliten su comprensión.

Además, este manual se va a complementar con el uso de ordenadores. La llegada de los mismos, unido a su amplísima distribución y democratización, ha favorecido la realización de cálculos matemáticos complejos que de otra forma serían tremendamente complicados de ejecutar. Esto incluye, obviamente, la fabulosa capacidad de representación gráfica de los datos.

En este manual vamos a emplear exclusivamente una herramienta: el lenguaje de programación R. R es un software estadístico gratuito y libre, con miles de análisis estadísticos y opciones de automatización de procesos. Está publicado con licencia GPL (GNU General Public License), lo que garantiza que es software libre (open source). El carácter de gratuidad del software, unido a su altísima potencialidad y rendimiento, ha hecho que en los últimos años su uso se haya ampliado significativamente en la comunidad científica. La prestigiosa editorial científica Springer, por ejemplo, tiene una serie de libros dedicados exclusivamente a R y su aplicación a multitud de campos, conocida bajo el nombre de Use R!.

Es probable que algún lector haya realizado previamente algún cálculo en R o que haya aprendido a utilizar los elementos básicos de este lenguaje de programación. Se habrá percatado, probablemente, que requiere una curva de aprendizaje relativamente elevada. Como lenguaje de programación, equivocarse en un signo de puntuación a lo largo del código podría implicar que fallase su ejecución, lo que devuelve un error que impide realizar el análisis estadístico que se esté llevando a cabo. Siendo conscientes de que muchos de los lectores de este manual pueden no tener experiencia previa en programación, se va a emplear una interfaz gráfica de R que se llama R Commander. De este modo se pretende facilitar la interacción entre el usuario final y el lenguaje de programación, reduciendo al mínimo los potenciales errores derivados de la escritura manual de código.

Ventajas del uso de R Commander

R Commander es una interfaz gráfica de R programada en lenguaje Java, gratuita y publicada con licencia GPL. A través de un conjunto de menús bien estructurados y organizados podemos ejecutar los análisis estadísticos más comunes, tanto univariantes como multivariantes, así como realizar cálculo de probabilidades y representaciones gráficas. De este modo no tenemos que conocer el código subyacente y lo ejecutamos todo a través de menús y ventanas.

Una de las ventajas del uso de R Commander es la hermosa dualidad que hace entre análisis estadísticos implementados en los menús de la interfaz y los códigos de ejecución de los mismos. A pesar de que los análisis estadísticos más usados están disponibles en la interfaz, cualquier cosa que realicemos mostrará el código que se ha necesitado ejecutar para su consecución. Y esto es fundamental porque en el presente manual aprovecharemos esa dicotomía para:

  1. realizar análisis con la interfaz gráfica,
  2. personalizar los códigos ejecutados,
  3. y escribir nuestros propios códigos.

En el anexo 1 y anexo 2 se muestra cómo instalar R y R Commander en Windows, GNU/Linux y MAC OS, así como una descripción de la interfaz gráfica de R Commander con algunas funcionalidades básicas.

Arqueología y estadística

La estadística aplicada a la arqueología y prehistoria, también conocida como arqueoestadística, se centra en el estudio de los fenómenos arqueológicos mediante técnicas y análisis que provienen del campo de la matemática estadística. Uno de los autores que han sintetizado la necesidad de una aproximación estadística al mundo de la arqueología es Juan A. Barceló. A su juicio, la arqueología era un campo científico en el que hasta hace relativamente poco tiempo las ciencias numéricas tenían poca relevancia. Extraemos algunas citas publicadas que resumen perfectamente la relación entre ambas disciplinas (Barceló 2009):

Muchos lectores pueden creer que el hecho de entablar un debate como éste en nuestra disciplina es señal de vitalidad de la misma. Antes al contrario, creo que no hace más que mostrar el profundo vacío y el fracaso más estrepitoso de la manera en que hemos estado haciendo arqueología. En una ciencia madura hay discusión, hay disparidad de opiniones, hay crítica incluso, pero se produce crecimiento en el saber; las diferentes opiniones enriquecen el debate, y ayudan a sumar conocimientos nuevos. En arqueología, por el contrario, cada uno de nosotros inventa lo obvio, defiende una verdad subjetiva e ignora lo que los demás dicen haber descubierto, encerrándonos en el solipsismo más absoluto. Demostramos total incapacidad por demostrar la validez de aquello en lo que decimos creer. La arqueología está enferma, quizás desde sus orígenes. Sufre de una grave indigestión de filosofía mal digerida, cuyos principales síntomas son una erupción incontenible de corrientes de pensamiento, a cual más original, que nacen (en profusión), se reproducen (poco) y mueren (enseguida), para que cuanto más movimiento aparentemente haya, menos cambio real se produzca.

[…]

Hace cuarenta años David Clarke afirmó que el lugar propio de la arqueología era la facultad de matemáticas. Cuando se elaboraron los planes de estudio de la licenciatura de historia, allá por los años 90, a algún despistado programador se le ocurrió la peregrina idea de introducir dos asignaturas anuales obligatorias de estadística. Todos sabemos el resultado. La profesión con mayor número de analfabetos matemáticos es la nuestra. Y para ocultar ese no-saber, lo hemos sustituido por histéricas retóricas en contra de la tiranía de los números y de su no-adecuación para entender la sublime complejidad humana.

[…]

Sin un método universal que nos permita poner en duda aquello que creemos es “verdad”, nadie podrá validar nada de lo afirmado y sólo quedará el recurso a la autoridad (¿moral, intelectual, política?) para aceptar la validez de una interpretación que nada explica. La alternativa es la transformación de nuestras creencias en hipótesis estadísticas y la adopción de una estrategia formalizada de contrastación de esas hipótesis. — (Barceló 2009).

En muchas excavaciones arqueológicas realizadas principalmente durante el siglo XIX y primera mitad del XX se buscaban piezas excepcionales, piezas que destacaban por su belleza y calidad, desechando en su mayoría el resto de material. Para ello empleaban obreros que, literalmente, a pico y pala vaciaban las cuevas. Esto obviamente llevaba a una pérdida inmensa de información.

En la actualidad, la mayoría de las excavaciones avanzadas recogen una ingente cantidad de información en campo. Interpretando que un proceso de excavación conlleva inherentemente un proceso de destrucción, el tomar la mayor cantidad de datos posibles garantiza la posibilidad de reconstruirlo virtualmente. Datos como la orientación de cada pieza, las coordenadas, la pendiente y las dimensiones son registradas incesantemente por los excavadores.

Los arqueólogos hoy en día dedican mucho tiempo en contar, ya sean fragmentos de cerámica, utillaje lítico, medidas de las piezas, características de las mismas, etc. El resultado de todo este preanálisis es la generación de una base de datos con números y/o categorías. Y es precisamente la estadística la que permite analizarlos y entenderlos.

Por lo tanto, podemos definir la arqueoestadística como la ciencia matemática que recolecta, analiza, presenta e interpreta todo tipo de datos de origen histórico o arqueológico. El análisis de estos conjuntos de datos puede ayudar en la toma de decisiones o explicar las características de algún fenómeno.

A nivel historiográfico, se considera a la publicación de W.S. Robinson en 1951 sobre la ordenación cronológica de varios niveles de un yacimiento maya como la primera publicación donde se incluye la estadística en el campo científico de la arqueología (Robinson 1951).

Conceptos generales de estadística

Antes de adentrarnos en el mundo de la estadística, de sus análisis, de su potencial y de su utilidad, es necesario definir con precisión los términos básicos que vamos a emplear en el desarrollo de este manual.

Estadística aplicada en R: CASOS DE USO EN aRQUEOLOGÍA Y pREHISTORIA
Figura 1: Un individuo es un elemento de una población, de la que se extrae una muestra y se toman una serie de variables.
  • Casos, observaciones, objetos, artefactos o individuos: Son cada una de las entidades objeto de estudio. Cuando nos referimos a individuos, no nos queremos referir exclusivamente a personas humanas. Nos estamos refiriendo al elemento sobre el que vamos a medir la/s variable/s aleatoria/s. Ésta puede ser efectivamente, una persona, pero también, un cráneo, un bifaz, una cerámica, un edificio, etc.
  • Población: Los fenómenos aleatorios que estudia la estadística se presentan en el mundo real sobre los individuos. El conjunto de todos los individuos se conoce como población (Figura 1). Una cuestión muy importante al principio es definir con precisión cuál es la población sobre la que queremos obtener información. Esta información la obtenemos a través de la recogida de un conjunto de individuos de esta misma población. Sin embargo, es destacable que la definición inicial de lo que constituye nuestra población de estudio depende de la experiencia que presente el experimentador y de la naturaleza del problema que se investigue.
  • Muestra: el conjunto de los individuos seleccionados para inferir parámetros de la población se conoce como muestra (Figura 1). Para garantizar que a partir de los individuos de una muestra se puedan inferir datos de la población, la muestra tiene que seleccionarse aleatoriamente. Es en caso se conoce como muestra aleatoria.
  • Tamaño muestral. El número de individuos que componen la muestra aleatoria se conoce como tamaño muestral, y se representa con la letra n. Si existe una urna con 20 caninos de chimpancé (n = 20), 10 de hembras y 10 de machos, es más probable que se extraigan dientes de machos porque son más grandes que los de las hembras. Aunque aparentemente la extracción ha sido aleatoria, es muy probable que se hayan seleccionado los más grandes al ser éstos los que se identifican más rápidamente en su interior. Este sesgo puede solucionarse con la inclusión de los números aleatorios y un ordenador. Si se da una numeración del 1 al 20 a los dientes y se extraen 5 números aleatorios con la ayuda de un ordenador, estos números obviamente se corresponden con 5 dientes reales. Las conclusiones obtenidas con esta muestra aleatoria serían mucho más precisas para estimar el parámetro poblacional real que el obtenido previamente. Sin embargo, es necesario reconocer que en algunas disciplinas, como la arqueología, la selección aleatoria es más complicada, por lo que hay que admitir que la muestra aleatoria es un ideal que en muchos casos será imposible de alcanzar.
  • Variable aleatoria y parámetro estadístico. Un investigador lo que quiere es estudiar una característica de la población. Por ejemplo, un investigador quiere conocer la longitud media de los fémures de las momias de Egipto. Esta característica particular (longitud de los fémures) es la variable aleatoria, mientras que el parámetro de estudio es la media de la longitud de los fémures. Es decir, los parámetros están relacionados con las variables (Figura 1).
  • Modelo probabilístico o distribución de probabilidad. Tenemos una muestra compuesta por 10 bifaces sobre las que medimos el ángulo de su zona apuntada. En este caso, el tamaño muestral es 10 (n = 10). Las observaciones o datos individuales de estos 10 bifaces son independientes y están distribuidos idénticamente. Ahora bien, los posibles datos de la variable aleatoria ángulo del bifaz más las probabilidades de tener esos datos se conoce como modelo probabilístico (también conocido como distribución o ley de probabilidad de la variable aleatoria). Cuando decimos probabilidades de tener esos datos nos referimos a calcular las probabilidades de estar entre uno y otro ángulo. Por ejemplo, si 5 bifaces tienen ángulos entre 20 y 25 grados, las probabilidades de otro bifaz no incluido en la muestra de tener un ángulo comprendido en ese intervalo son mayores que el que lo tenga mayor de 25º o menor de 20º. El nombre de modelo probabilístico es importante, ya que lleva la palabra modelo en él. Observar cómo se distribuyen los datos implica pasar de los datos reales (observados y medidos) a una modelización de los mismos.

Tipos de variables estadísticas

Antes de comenzar a realizar cualquier análisis estadístico, es necesario hacerse una pregunta que pueda ser resuelta utilizando la estadística. Y esto es esencial para que nuestra estadística aplicada en R sea precisa. Y para poder pasar de esa pregunta hecha con palabras al universo matemático tenemos que hacer una conversión. Y parte de esa conversión se consigue buscando las variables que permitan contrastar las hipótesis en estudio. En estadística existen 2 tipos fundamentales de variables: variables cualitativas y variables cuantitativas, cada una presentando a su vez dos categorías inferiores.

Variables cualitativas

  • Variables cualitativas. Sus valores no pueden ser representados numéricamente, sino que están agrupados por categorías (o factores). Por ejemplo, la variable Sexo tiene dos categorías (Hombre o Mujer), la variable Especie puede tener varias categorías (Homo sapiens, H. neanderthalensis, H. antecessor, etc.). Esto no quiere decir que no se puedan codificar numéricamente esas categorías, aunque esto no implica que sean tratados como números. Es decir, en el ejemplo de la variable Sexo podemos indicar que Hombre sea el número 1, y que Mujer sea el número 2. Pueden diferenciarse dos tipos de variables cualitativas:
    • Variable cualitativa nominal (= clasificar). Están formadas por categorías que no llevan intrínsecamente ningún orden o valor numérico. Es decir, no se establece ningún grado diferencial entre las categorías. Estas variables pueden ser codificadas numéricamente, sin que cambie el tipo de variable. A cada categoría se le asigna un nombre arbitrario. Un ejemplo muy ilustrativo es el tipo cerámico, donde se puede observar la clase de pasta (arcilla, añadidos minerales o vegetales, cocción oxidante o reductora, etc), el tratamiento superficial (engobe, alisado, bruñido, etc), la decoración (impresa, pintada, etc) y la forma (jarras, platos, cuencos, etc). Más ejemplos podrían ser los mencionados previamente sobre el sexo o las especies.
    • Variable cualitativa ordinal (= jerarquizar). Están formadas también por categorías, pero en este caso sí que presentan un orden o jerarquía. Es decir, se pueden establecer grados entre las diferentes categorías. Sin embargo, no existen distancias fijas entre las mismas. Es posible que una variable cualitativa nominal se convierta en ordinal si se le impone unos criterios externos que no son inherentes propiamente a los datos. Por ejemplo pueden ser las categorías de ángulos de cualquier elemento arqueológico (menor de 45º, entre 45º y 85º, entre 86º y 95º, etc).

Variables cuantitativas

  • Variables cuantitativas. Sus valores pueden ser representados numéricamente y son el producto de una medida que cumple con los criterios de una métrica. Por ejemplo la variable Distancia del área fuente hasta el yacimiento es una medida de distancia que puede adquirir cualquier valor numérico. Las variables cuantitativas pueden a su vez dividirse en dos tipos:
    • Variable cuantitativa discreta. Las variables cuantitativas discretas son finitas, es decir, no presentan teóricamente un número infinito de posibilidades. Por ejemplo, el número de extracciones de una herramienta lítica. La cantidad de extracciones es un número discreto, ya que no puede admitir valores infinitos. Aunque hay que tener en cuenta que no siempre los valores de una variable discreta se corresponden con los números enteros, sino que también pueden admitir números decimales. Continuando con el ejemplo anterior, el número de extracciones dividido por la longitud máxima de la herramienta.
    • Variable cuantitativa continua. Las variables cuantitativas continuas son teóricamente infinitas. Por ejemplo, el diámetro o superficie de un vaso campaniforme. El diámetro puede adquirir cualquier valor, aunque hay que tener en cuenta las limitaciones de la herramienta de medida.

Transformación de variables

En algunos casos resulta muy útil transformar una o más variables para crear otras nuevas y proceder al análisis estadístico. Estas transformaciones pueden implicar a una sola variable o ser una relación entre varias variables.

  • Agrupamiento: una variable continua puede agruparse según el criterio escogido en una categórica. Este agrupamiento, como depende del criterio, es flexible y debe estar debidamente justificado.
  • Índices: en algunas ocasiones relacionar dos o más variables resulta en la expresión de un nuevo atributo o característica de interés. El resultado de esta combinación resulta en la creación de una variable extra para el análisis.
  • Individuales: algunas veces es interesante transformar una variable en logaritmos para hacerla lineal.

datos en el manual para problemas de estadística aplicada en R

A lo largo del presente manual se van a emplear numerosos conjuntos de datos, que van a permitir seguir a los lectores las explicaciones estadísticas y a reproducir los resultados obtenidos. Todos estos datos pueden ser descargados desde la página web https://goo.gl/Z2gCp8.

Referencias

Barceló, Juan A. 2009. «En defensa de una arqueología explícitamente científica». Complutum 20 (1): 175-81. https://doi.org/10.5209/CMPL.30258. Robinson, W. S. 1951. «A Method for Chronologically Ordering Archaeological Deposits». American Antiquity 16 (4): 293-301. https://doi.org/10.2307/276978.