Introducción a la estadística

Introducción a la Estadística

Podemos pensar en un primer lugar que la estadística es simplemente una colección de datos cualquiera. Así decimos informalmente estadísticas del paro, de intención de voto, etc. Pero esta definición no es la que nos interesa, ya que hace mención a estudios concretos, pero no expresa una visión de esta disciplina como ciencia que estudia los datos de manera más amplia. La definición que merece un profundo estudio y que da razón de ser a nuestra asignatura es la siguiente.

Una definición un tanto exhaustiva de la estadística diría que es la ciencia que maneja los datos a través de un proceso que va desde el diseño del estudio, recogida de los datos, análisis, para finalmente organizar, resumir y mostrar la información contenida en ellos para sacar conclusiones. De manera resumida podemos dar otra definición.

La estadística es la ciencia que nos permite aprender de los datos (Moore, 2006).

Conviene aclarar que el hecho que no se desarrolle el proceso estadístico completo con todas sus fases no quiere decir que no se «haga estadística». Podemos realizar estadísticas partiendo de datos ya producidos (habiéndose hecho previamente el diseño y la recogida de datos) de modo que comencemos nuestra labor estadística en la fase de análisis de datos.

Todas las fases de un estudio estadístico son igualmente importantes, pero, de hecho, se suele decir que no hay buen análisis posible si los datos han sido recogidos de cualquier manera sin seguir unos criterios estadísticos mínimos, y es por ello que la etapa de recogida de datos es sumamente delicada y de suma importancia. Luego veremos cómo garantizar la recogida de unos «buenos» datos. Además, las fases explicadas anteriormente tampoco son únicas, pues otros autores afirman que el identificar una cuestión o problema de estudio también es en sí una fase previa.

Alguien podría preguntarnos alguna vez «¿para qué sirve la estadística?». Entonces, podríamos responderle, no sin razón, que el objetivo de la estadística es «ganar en compresión de un fenómeno a partir de los datos que se manejan sobre este» (Moore, 2006).

Población, muestra y muestreo

La definición de estadística emplea primeramente el concepto de dato, que no solo es un número, sino un número en un contexto, con lo cual es información recolectada sobre algo. Pero ese «algo» es lo que llamaremos individuo el cual conforma un colectivo que llamamos población, que es finalmente sobre lo que nos interesa estudiar y sacar conclusiones. Por lo tanto, la estadística no se encarga de cualquier fenómeno, sino de aquellos que son colectivos y que no atienden a leyes deterministas (de las cuales se encargan las ciencias exactas), es decir, de aquellos que contienen algún elemento de incertidumbre.

El proceso mediante el cual seleccionamos a los individuos que van a formar parte de la muestra se denomina muestreo y es clave para garantizar un mínimo de calidad en los datos obtenidos (es decir, una información importante sobre la población), que ayude a validar futuros análisis y conclusiones. Lo deseable al recoger la muestra es que los individuos seleccionados configuren una muestra representativa de su población, es decir, que contenga una diversidad muy similar a la de la población de origen.

Siempre que obtengamos una muestra estamos expuestos al error de muestreo, producto de inferir o extrapolar a partir de un trozo de realidad (la muestra), el cómo será la realidad entera (la población). La clave será reducir este error, inherente al propio proceso de muestreo, al mínimo.

El proceso de extrapolar las características y propiedades de la muestra a las de la población se conoce como inferencia estadística y, dada su importancia, ha devenido en una rama de la estadística (generalmente se habla de estadística descriptiva y de la inferencial).

Tipos de variables

Tal y como observamos en el esquema existen dos tipos de variables estadísticas: las categóricas y cuantitativas. La primera de ellas está dividida a su vez en dos clases, dependiendo de si las categorías son meramente cualitativas, son las llamadas nominales, o si además poseen orden, las ordinales. Las cuantitativas pueden ser discretas cuando toman un número finito de valores o continuas cuando pueden tomar infinitos valores como por ejemplo las magnitudes físicas (altura, peso, etc.)

La clasificación anterior de los tipos de variables no es única. Otros autores las subdividen de otro modo, aunque este es probablemente el más común. También podemos clasificar las variables según su enfoque metodológico:

  • Variables dependientes.
  • Variables independientes.

Las dependientes son las que sus valores dependen de los que tomen otros de acuerdo a un determinado rol hipotético que asumimos que juega cada variable y que hará que planteemos un modelo estadístico u otro en nuestros análisis estadísticos (como cuando planteamos una regresión lineal).

Ejemplo: aprobado en Lengua en el 1er Cuatrimestre será variable dependiente de otra independiente como puede ser el número de horas de estudio de Lengua. Se supone que pretendemos explicar el hecho de aprobar Lengua a partir del número de horas estudiadas para la asignatura, lo cual parece razonable (aunque existirán otros factores).

Es por ello que también recibe el nombre de variable explicada o respuesta, mientras que la independiente también recibe el nombre de variable explicativa o predictora. Depende del gusto de los autores el emplear una terminología u otra, porque en el fondo, variable dependiente, respuesta y explicada por un lado, e independiente, explicativa y predictora por el otro, no son más que sinónimos de un mismo rol que desempeña la variable. En economía u otras disciplinas pueden emplearse otros términos equivalente como variables endógenas y exógenas, etc.

Otro tipo de variable al que conviene ponerle nombre es el de las variables intermediarias u omitidas, variables que no son contempladas por el estudio o el modelo planteado en cuestión, pero que en el fondo estarían actuando de variables explicativas de nuestra variable dependiente, pero de un modo digamos oculto, o mejor dicho «desde la sombra». Conviene identificarlas para no establecer asociaciones y presuponer causalidades infundadas.

Otro tipo de variable muy empleado en estadística es el de las variables dicotómicas, ya que son muy útiles para describir el hecho de que ocurra algo (1) o no ocurra (0).

En la práctica una misma variable puede ser recodificada de diferentes modos, como por ejemplo la variable edad. En teoría se trata de una variable continua (la edad es el tiempo pasado desde el nacimiento, que es una magnitud continua), sin embargo puede ser recogida en su dimensión puramente categórica ordinal si solo apuntamos o codificamos los intervalos de edad, tal y como ocurre en numerosas encuestas. (Ejemplo: Menor de edad- De 18 a 25 años- Mayor de 25).

Ejemplos de cada tipo de variable son:

  • Categórica nominal es el género, el grupo al que pertenecen los alumnos, etc.
  • Categórica ordinal es el curso al que pertenecen los alumnos (Ejemplo: 1ºESO, 2ºESO,…, 2ºBachillerato).
  • Cuantitativa discreta es el número de asignaturas suspensas en un cuatrimestre.
  • Cuantitativa continua es el tiempo empleado en hacer el examen.

Diseño de experimentos

os estudios estadísticos pueden ser de dos clases:

  • Observacionales: Son aquellos en los recogemos datos observando por lo que no intervenimos ni alteramos a los individuos de ningún modo.
  • Experimentales: Aplicamos tratamientos y luego observamos sus efectos sobre sus sujetos, que aquí pasan a llamarse unidades experimentales.

Razonamiento estadístico

Para aprender a pensar estadísticamente debemos desarrollar un pensamiento crítico basado en varias preguntas (adaptadas de Estadística de Triola, 2009):

  1. ¿Cuál es el objetivo del estudio?
  2. ¿Quién es la fuente de los datos?
  3. ¿Con que tipo de muestreo han sido obtenidos los datos?
  4. ¿Existen variables que influyan en los resultados y que se hayan omitido?
  5. ¿Las gráficas resumen adecuadamente los datos?
  6. ¿Las conclusiones se extraen directa y naturalmente de los datos?
  7. ¿Se ha cumplido el objetivo marcado al principio del estudio y tienen sentido y utilidad práctica las conclusiones obtenidas?

El hecho de plantearnos quién es la fuente es importante porque esta puede, en un momento dado, no ser neutral con el resultado de los objetivos del estudio y este interés propio puede alterarlos. A esto muchas veces se le llama el «cocinado» de datos que viene a ser esa pequeña o grande manipulación y preparación que sufren las conclusiones de los datos para beneficio de quien presenta los resultados del estudio.

Diremos entonces que el estudio estadístico tiene un sesgo. Este concepto es fundamental para el pensamiento estadístico, y todas las preguntas anteriores deben ir enfocadas a plantearnos si existe o no sesgo. Por supuesto, existen muchas fuentes de sesgo donde la anterior es tan solo la más coloquial. Es donde solemos decir: «tal o cual estudio o investigación están sesgados…». Cuando veamos los estimadores y sus propiedades en temas posteriores aprenderemos otras variaciones del concepto de sesgo.

Muestra aleatoria simple es coger aleatoriamente unos datos de cada grupo.

Distribución de frecuencias

La frecuencia es el número de veces que se repite un determinado valor o categoría de una variable. Hay 4 tipos de vfrecuencias:

  • Absolutas
  • Relativas
  • Absolutas acumuladas. cuando se suman las frecuencias de las modalidades de la variable hasta una dada.
  • Relativas acumuladas

Tabulaciones variables

Presentación de las frecuencias mediante tabla de frecuencias. La tabla de frecuencias:

  • Normalmente columna de valores y sus frecuencias (absolutas).
  • Las relativas suelen representarse meidante porcentajes.
  • Las frecuencias relativas ……………………….

No todos los individuos tienen ascoiado un valor para cada variable.
Individuo prsenta un valor perdido (missing).
Normalmente colocamos una columna “válidos”, que no contabiliza estos valores.
En la tabla anterior la fila no aplicable recoge estos valores perdidos

Tablas de frecuencias por intervalos. Para ello necesitamos:

  • Definir el límite superior e inferior de los intervalos.
  • Valor que representa cada intervalo -> marca de clase: se usa un promedio o valor representativo.

Gráficas básicas

Es más fácil asimilar conceptos de forma más sencilla si usamos gráficos.

Pero puede haber un dilema con unos datos. ¿Qué gráficos empleamos para representarlos? Cuál es el más idóneo?

Hay que saber el tipo de datos para decidirse.

  • Diagramas de barras: para datos categóricos. Sirve con datos cualitativos ordinal y nominal, y cuantitativo discrito. No vale para datos continuos.
  • Gráfico de sectores. Se representan los porcentajes de las modalidades. Deben sumar siempre 100%. El área ocupada es proporcional al porcentaje con respecto al total.
  • Pictograma: se basa en un dibujo. Sirve para acentuar diferencias y tiene un gran efecto visual. Un error común es usar la altura para indicar las diferencias entre un elemento y otro. Se utiliza el área del dibujo, que son áreas proporcionales al valor de la modalidad.
  • Histograma: para variables cuantitativas. Equivalente al diagrama de barras pero para valores continuos. Tiene que haber continuidad en las barras y se suelen usar con intervalos.
  • Polígono de frecuencias. Es menos usado que el histograma. SE unen los puntos medios de las barras del histograma, pero es útil para acentuar las tendencias.
  • Gráfico de dispersión. Representar valores de un individuo en dos variables continuas, por lo tanto, casos cuantitativos. Variables cualitativas pueden representarse empleando códigos de color o de iconos.
  • Serie temporal: muestra una línea que recorre diferentes valores a lo largo del tiempo. El tiempo siempre va en el eje X.

RETOS DE ESTADÍSTICA EN EL bIG DATA

Se genera un problema enorme cuando tenemos una cantidad ingente de datos. La estadística clásica trabajaba relativamente con pocos datos. Pero al tener millones de datos, puede ser un reto. Hay mucha información que es difícil de analizar. Es necesario el desarrollo de novedosos métodos que nos permitan aprender de los datos. Además, el tiempo necesario para obtener resultados puede ser inviable. Por lo tanto, es necesario la creación de nuevos códigos eficientes y desarrollar métodos que sean capaces de trabajar con grandes cantidades de información.

Entre los problemas clásicos de la estadística es la eliminación o no de los outliers. Los métodos estadísticos siempre eliminan los outliers, aunque en Big Data esto no siempre es correcto. Es necesario establecer si es aconsejable la eliminación ede los mismos. Pueden tratarse los outliers como un conjunto aparte.

Otro de los problemas es la complejidad de los datos. Aparte de tener gran cantidad de datos, suelen ser muy complejos y difíciles de interpretar. Suele ser información heterogénea. Entre la solución puede ser encontrar métodos de homogeneización que permitan transofmar la información o transformar los datos para hacerlos más comprensibles.

Entre los problemas está la necesidad de infraestructuras potentes de análisis y las políticas de privacidad. Otro problema es la recogida de datos sin previa especificación del problema. En la estadística clásica se diseña el problema y se recogen los datos para su contrastación. Hoy se diseña el problema y pueden buscarse los datos ya obtenidos para poder usarse a resolver los contrastes de nuestro problema.

Deja un comentario