Métodos de captura de datos

En cualquier tipo de análisis es necesario contar con datos. Sin embargo, existen algunos conceptos que pueden generar cierta confusión. Datos, información y conocimiento suelen emplearse como sinónimos. Sin embargo, estos conceptos son son estrictamente lo mismo. Además, es importante medir la calidad de esos datos, conocer cuál es su origen y el formato en el que se encuentran. En conjunto, todo estaría encuadrado en los métodos de captura de datos.

Hace tiempo la obtención de los datos era muy costoso y principalmente participaban los humanos en su toma. Sin embargo, con el avance de la tecnología, muchos de los métodos de captura de datos están automatizados o parcialmente automatizados. Sumado a esto, el coste de almacenamiento de estos datos por unidad ha bajado, posibilitando el almacenaje de gran cantidad de datos. Además, estos datos deben estar disponibles de forma permanente.

Métodos de captura de datos

Los métodos de captura de datos pueden analizarse desde diferentes perspectivas, teniendo como punto de partida el dato. Por ello, podemos aproximarnos a ellos desde su origen, calidad y organización.

Origen de los datos

Los datos pueden almacenarse en sistemas de ficheros. Estos sistemas de ficheros son de dos formatos principales:

  • Formato plano: la información es legible directamente para una persona.
  • Formato binario: la información no es legible directamente para una persona, sino que se necesita alguna aplicación para poder acceder a esos datos.

Datos, información, conocimiento

Existen diversidad de definiciones, pero nos parecen acertados los conceptos descritos por Davenport y Prusak. Un dato es la forma más primitiva de conocimiento. Dentro de una tabla, un dato se correspondería con el valor de una celda. El dato sería, por tanto, una unidad atómica de conocimiento. Dicho de otro modo, un dato es un hecho concreto y discreto acerca de un evento. Con esos datos podemos hacer combinaciones, contextualizarlos, categorizarlos, realizar cálculos, corregirlos, etc.

España es un dato y 44 millones de habitantes sería otro dato. Al combinarlos y agregarlos tenemos información: España tiene 44 millones de habitantes. Tienen un significado semántico, ya que aportan elementos que pueden comprenderse. La información también podemos combinarla, conectarla, convertirla… El conocimiento es el asentamiento y consolidación de la información. Sin embargo, el dato, la información y el conocimiento tienen una frontera muy filosófica, siendo por tanto fronteras ambiguas. Aunque podrían representarse en un modo de pirámide.

Pirámide: conocimiento -> Información -> Datos (de menor a mayor, cúspide y base).

Si transformamos lo anterior a máquina, en vez de humanos, los datos se obtienen gracias a minería de datos. De este modo se eleva a información. Ésta a su vez puede sufrir el procesado semántico para transformarla en conocimiento.

Los datos pueden ser transformados para aumentar su valor y poder convertirlos en información. Entre estas transformaciones se encuentran la contextualización, la categorización, el cálculo, la corrección y la agregación.

Métricas de calidad de los datos

Para medir la calidad de los datos se utilizan diversas métricas, que varían ligeramente entre los profesionales que trabajan con los datos. Desde diseñadores y administradores de almacenes de datos, hasta desarrolladores de software y usuarios finales, todos necesitan de las siguientes métricas de calidad de los datos:

  • Completitud (o cobertura): cuántos NA tenemos
  • Credibilidad: si podemos fiarnos de nuestros datos.
  • Precisión:
  • Consistencia
  • Interpretabilidad: nombres bien dados para poder interpretarlo correctamente.

Hay que saber si un dataset es procesable o no procesable. Hay que limpiar siempre un dataset y nunca trabajar con datos en crudo. Hay que limpiarlo (completitud, credibilidad, precisión, consistencia e interpretabilidad).

Es muy difícil conseguir un catálogo que esté limpio de origen:

  • Por errores en la integración de bases de datos,
  • Por errores humanos.
  • Por errores de medición.

Si los datos no son fiables las conclusiones tampoco lo serán.

Es mejor gastar mucho tiempo en limpiar los datos:

  • porque de lo contrario se gasta demasiado tiempo en un análisis sin errores.
  • para poder confiar en los resultados.

Algunas pautas para limpiar los datos:

  • Es importante hacer SIEMPRE una copia de seguridad de los datos antes de comenzar la limpieza.
  • Cuando tengas la copia de seguridad lista, comprueba que eres capaz de restaurarla.
  • Cuando hayas comprobado que eres capaz de restaurarla, comprueba que está completa.
  • ¡No comiences nunca sin etar seguro de tener la copia!

Analizamos el catálogo de datos

  • Si el catálogo es grande, revisa manualmente:
  • Las 20 primeras filas (o un % razonable).
  • Las 20 últimas filas (o un % razonable)
  • 60 filas seleccionadas aleatoriamente (el número es variable) Preguntas por las que empezar la revisión manual:
  • Hay nombres en los campos “nombre”, fechas en los campos “fecha”, números en la “edad”? Son preguntas básicas.
  • ¿Los números de teléfono tienen el prefijo bien? ¿la cantidad de dígitos adecuada?
  • Obtén los máximos y mínimos del catálogo, también en fechas, ¿son razonables?
  • Ordena por orden alfabético y busca rareras al principio y al final.
  • Para acategorías quédate con los valores únicos: ¿hay duplicados?, ¿son razonables? Utiliza herramientas para encontrar tipos de datos mal asignados. Como Schema Analyzer en noSQL. A la hora de limpiar los datos, MUCHO cuidado con buscar y reemplazar. Tener cuidado con los caracteres invisibles (espacios).

Fuentes de datos

  • Captura manual (encuestas, contadores, formularios). Normalmente no generan big data, y además suelen ser datos no homnogéneos a no ser que el método sea estricto.
  • Otras bases de datos:
    • INtegración de fuentes de datos en un entorno de empresa.
    • Generan datos heterogéneos, que vienen de diferentes departamentos.
    • Suelen generar un entorno de datos para decisiones de Business Intelligence.
  • Sensores:
  • que nos capturan datos simples del mundo físico (la gente que entra en una tienda, +1, por ejemplo),
  • datos ajenos (sensor de movimiento, de luz de posición, lectores de huellas, micrófonos)
  • o datos propios (pulseras, relojes, móviles)
  • Logs de aplicación: cogen datos de una realidad virtual. En un aplicación suceden cosas y esos logs nos indican las cosas que pasan. La estructura es en forma de fila con un cuándo, un qué y un quién.
  • Procesado de documentos estructurados. Webscrapping. Lectura ordenada (y automatizada de un documento) extrayendo partes relevantes, seleccionados por su ubicación en el texto.
  • Datasets ya existentes, datos públicos
  • Grandes volúmenes de datos
  • No siempre en formato adecuado
  • Cada vez más big data.

Formato de ficheros

CSV, XML y JSON. Los que más se van a manejar son CSV y JSON.

CSV es comma separated values, aunque no siempre están separados por comas. Va por líneas, siendo la primera el nombre de las columnas y luego las observaciones. Si el valor de una celda tiene comas, hay que entrecomillarlos para evitar que emplee esa coma como separador. Es un archivo de texto muy plano

JSON es el formato de datos empleado en mongoDB. Tiene dos tipos de elementos: objetos y arrays.

  • Objeto: está delimitado por llaves. El interior de un objeto puede tener conjuntos de pares clave-valor.
  • Array: es un conjunto de valores. Un valor puede ser simple o compuesto.

Deja un comentario