Análisis de Datos

El análisis de datos es un proceso de inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil, sugeriendo conclusiones, y apoyando la toma de decisiones. El análisis de datos tiene multiples facetas y enfoques, incluyendo técnicas diversas con multiples nombres, en distintos dominios de negocios, ciencias y ciencias sociales.

Minería de datos es una técnica de análisis de datos particular que se enfoque en modelamiento y descubrimiento de conocimiento para fines predictivos, y no solamente fines descriptivas. Inteligencia de negocios cubre análisis de datos que depende en la agregación, enfocándose en información de negocios. En aplicaciones estadísticas, algunos dividen el análisis de datos entre estadísticas descriptivas y análisis exploratorio de datos, y además contraste de hipótesis. Análisis exploratorio de datos se enfoque en descubrir nuevos atributos en los datos y contraste de hipótesis en confirmar o falsificar hipótesis existentes. Analítica predictiva se enfoque en la aplicación de modelos estadísticos o estructurales para predicciones o clasificación, mientras que minería de textos aplica técnicas estadísticas, linguisticas y estructurales en la extracción y clasificación de información de fuentes textuales, una especie de datos no estructurados. Todas son variedades de análisis de datos.

La integración de datos es un precursos a análisis de datos, y un análisis de datos está conectado a la visualización de datos y su diseminación. El término de análisis de datos aveces se utiliza como un sinónimo para el modelamiento de datos.

El proceso de análisis de datos

El análisis de datos es un proceso, dentro de lo cual varios fases pueden ser distiguidos:<ref>Adèr, 2008, p. 334-335.</ref> El procesamiento de datos hace referencia a concentrar, remoldear y tratar datos de tal manera que vuelvan amigables para el análisis.

Limpieza de datos

La necesidad de limpieza de datos surgirirá de problemas en la forma en que los datos están entrados y almacenados. La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas más comunes incluyen emparejamiento de registros, desduplicación y segmentación de columnas.<ref>Plantilla:Cite web</ref> Existen multiples tipos de limpieza de datos que dependen en el tipo de dato. Metodologías de datos cuantitativos para detección de anomolías pueden ser utilizados para eliminar datos probablemente mal entrados. Chequeadores de ortografía textual pueden ser utilizados para minimizar la cantidad de palabras mal escritas, pero es más difícil saber si las palabras en sí son correctas.<ref>Plantilla:Cite journal</ref>

Análisis de datos iniciales

La distinción más clave entre la fase de análisis de datos inicial y la fase principal de análisis es que durante la fase inicial uno evita cualquier análisis que busca responder a la pregunta inicial de la investigación. La fase inicial se guia por las siguientes cuatro preguntas:<ref>Adèr, 2008, p. 337.</ref>

Calidad de datos

La calidad de los datos deben ser chequeados tan pronto que se pueda. La calidad de datos pueden ser evaluados de varias maneras, utilizando distintos tipos de análisis: conteo de frecuencias, estadística descriptiva (medios, desviación estándar, medianos), normalidad (asímetria estadística, curtosis, histogramas de frecuencia), n: variables comparados con esquemas de codificación de variables externas al conjunto de datos, y posiblemente corregidos si las esquemas de codificación no son comparables.

Pruebas para varianza de metodología común

La selección de análisis para evaluar la calidad de los datos durante la fase inicial de análisis de datos depende en los análisis que se llevará a cabo durante la fase principal de análisis.<ref>Adèr, 2008, p. 338-341.</ref>

Calidad de medición

La calidad de los instrumentos de medición deben ser chequeados solamente durante la fase inicial de análisis de datos cuando esto no es el enfoque o pregunta de investigación. Uno debe chequear si la estructura de los instrumentos corresponde a la estructura reportada en la literatura.
Existen dos maneras de evaluar mediciones

Análisis de homogeniedad (consistencia interna), que da una indicación de las fiabilidad (psicometría) de un instrumento de medición. Durante este análisis, uno inspecciona las varianzas de los ítemes y las escalas, la alfa de Cronbach de las escalas, y el cambio en la alfa de Cronbach cuando un ítem estaría borrado de una escala.<ref>Adèr, 2008, p. 341-3342.</ref>

Transformaciones iniciales

Después de evaluar la calidad de los datos y sus mediciones, uno de pronto decidiría imputar los datos que faltan, o llevar a cabo transformaciones iniciales de una o más variables, aunque esto también se puede llevar a cabo durante la fase principal de análisis.<ref>Adèr, 2008, p. 344.</ref>
Posibles transformaciones de variables incluyen:<ref>Tabachnick y Fidell, 2007, p. 87-88.</ref>

Transformación de raíces (si la distribución difiere moderadamente de la norma)
Transformación de logaritmos (si la distribución difiere sustancialmente de la norma)
Transformación inversa (si la distribución difiere severamente de la norma)
Hacer categórica (ordenal / dicótemo) (si la distribución difiere severamente de la norma, y ninguna transformación ayuda).

¿La implementación del estudio llevó a cabo las intenciones del diseño de la investigación?

Uno debe chequear el éxito del procedimiento de randomización, por ejemplo chequeando si las variables antecedentes o sustantivas están igualmente distribuidas entre y dentro de grupos.
Si el estudio no necesitó y/o utilizar un procedimiento de randomización, uno deben chequear el éxito de las muestras no aleatorias, por ejemplo chequeando si todos los subgrupos de la población de interés están representadas en la muestra.
Otras posibles distorciones en los datos que se debe chequear son:

Deserción (esto se debe identificar durante la fase inicial de análisis de datos)
La tasa de respuesta (si esto es aleatorio o no debe ser evaluado durante la fase inicial)
Calidad de tratamiento (utilizando chequeo de manipulación)<ref>Adèr, 2008, p. 344-345.</ref>

Características de la muestra de datos

En cualquier reporte o artículo, la estructura de la muestra debe ser precisamente descrito. Es especialmente importante determinar la estructura exacta de la muestra (y específicamente el tamaño de los subgrupos) cuando los análisis de subgrupos se llevará a cabo durante la fase de análisis principal.
Las características de la muestra de datos pueden ser evaluados mirando:

Estadísticos básicos de variables importantes
Diagramas de dispersión
Correlaciones y asociaciones
Tabulaciones cruzadas<ref>Adèr, 2008, p. 345.</ref>

La etapa final de los análisis iniciales de datos

Durante la etapa final, los resultados del análisis inicial de datos se documenta, y preferiblemente, acciones correctivas se lleva a cabo. Además, el plan original para los análisis principales de datos debe ser especificado en mayor detalle y/o re-escrito. Para poder hacer esto, toca tomar varias decisiones frente a los análisis de datos principales:

En el caso de distribuciones normales: uno debe transformar las variables; hacer variables categóricas (ordenal / dictómico); o adaptar la metodología.
En el caso de datos que hacen falta: uno debe ignorar o imputar datos que hacen falta; cuál técnica utilizar?
En el caso de valores extremos: se debe utilizar técnicas de análisis robustos?
En el caso de itemes que no cuadran en la escala: uno debe adaptar la medición omitiendo ítemenes, o más bien asegurar comparabilidad con otros usos del instrumento de medición?
En el caso de subgrupos demasiado pequeños: uno debe abandonar la hipótesis sobre diferencias entre grupos, o usar técnicas para muestras pequeñas, tales como pruebas exactas?
En el caso de problemas con randomización: se debe calcular propensidad e incluirlos como covariados en el análisis principal?<ref>Adèr, 2008, p. 345-346.</ref>

Análisis

Varios análisis pueden ser utilizados durante la fase inicial de análisis de datos:<ref>Adèr, 2008, p. 346-347.</ref>

Estadísticas univariadas (una sola variable)
Asociaciones bivariadas (correlaciones)
Técnicas gráficas (dispersión)

Es importante tomar en cuenta niveles de medición de las variables para el análisis, dado que existen técnicas estadísticas especiales para cada nivel:<ref>Adèr, 2008, p. 349-353.</ref>

Variables nominales y ordenales
- Conteo de frecuencia (números y porcentajes)
- Asociaciones
  - Cruz tabulación
  - Análisis linear logaritmico jerárquico (restringido a un máximo de 8 variables)
  - Análisis linear logaritimico (para identificar variables relevantes/importantes y posibles confundidores)
- Pruebas exactas o muestreos autodocimantes (en caso de pequeños subgrupos)
- Computación de nuevas variables

Variables continuas
- Distribución
  - Estadística (M, SD, varianza, curtosis, asimetría estadística)
  - Muestras base-y-hoja
  - Gráficas de caja

Análisis no linear

Análisis no linear será necesario cuando los datos se graban en un sistema no linear. Los sistemas no lineares pueden exhibir efectos dinámicos complejos incluyendo bifurcaciones, caós, harmonía y subharmonía que no se puede analizar con metodologías lineares sencillos. Análisis de datos no linear se relaciona con identificación de sistemas no lineares.<ref name="SAB1">Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013</ref>

Análisis de datos principal

En la fase de análisis de datos principal, se busca responder a la pregunta principal de la investigación, tanto como otros análisis necesarios para poder escribir el primer borrador del informe de investigación.<ref>Adèr, 2008, p. 363.</ref>

Enfoques exploratorios y confirmatorios

En la fase principal de análisis de datos, se utiliza un enfoque exploratorio o confirmatorio. Usualmente el enfoque se decide antes de la recolección de los datos. En un análisis exploratorio, ningún hipótesis se dice anterior al análisis de los datos, y los datos se revise para modelos que describen los datos bien. En un análisis confirmatorio, un hipótesis claro sobre los datos se pone a la prueba.

Análisis de datos exploratorio debe ser interpretado con cuidado. Cuando se pone a prueba multiples modelos en un solo momento, existe una alta probabilidad de que se encuentra que por lo menos uno sea significativo, pero esto puede ser por un error tipo 1. También es importante siempre ajustar la significación estadística cuando se pone a prueba multiples modelos, con, por ejemplo una corrección Bonferroni. También, uno no debe seguir un análisis exploratorio con un análisis confirmatorio en el mismo conjunto de datos. Un análisis exploratorio se utiliza para encontrar ideas para una teoría, pero no probar esa teoría también. Cuando un modelo se encuentra como exploratorio en un conjunto de datos, luego siguiendo ese análisis con un análisis confirmatorio en el mismo conjunto de datos simplemente significaría que los resultados del análisis confirmatorio son dado por el mismo error de tipo 1 que resultó en el modelo exploratorio en primer lugar. El análisis confirmatorio por ende no será más informativo que el análisis exploratorio original.<ref>Adèr, 2008, p. 361-362.</ref>

Estabílidad de resultados

Es importante obtener alguna indicación de qué tan generalizable sean los resultados.<ref>Adèr, 2008, p. 368-371.</ref> Mientras que esto no es tan facil chequear, uno puede revisar la estabilidad de los resultados. ¿Están fiables y reproducibles los resultados? Hay dos maneras para lograr esto:

Validación cruzada: Dividiendo los datos en multiples partes podemos chequear si un análisis (como un modelo ajustado al talle) basado en una parte de los datos se generaliza a otra parte de los datos también.
Análisis de sensibilidad: Un procedimiento para estudiar el comportamiento de un sistema o modelo cuando los parametros globales están (sistemáticamente) variadas. Una manera de hacer esto es con muestreo autodocimante.

Metodologías estadísticas

Muchas metodologías estadísticas han sido utilizadas para los análisis estadísticos. Un listado breve de las metodologías más populares son:

Modelo linear general: Un modelo ampliamente utilizado sobre cual se basa varias metodologías (e.g., prueba t, ANOVA, ANCOVA, MANOVA). Utilizable para evaluar el efecto de varios predictores frente a uno o más variables dependientes continuos.
Modelo linear generalizado: una extensión del modelo anterior para variables discretos dependientes.
Ecuaciones estructurales: utilizable para evaluar estructuras latentes para la medición de variables manifiestos.
Teoría de respuesta al ítem: Modelos para (en su mayoría) evaluar una variable latente de varias variables binarias medidas (e.g., un examen)

Referencias

Bibliografía

Adèr, H.J. (2008). Capítulo 14: Phases and initial steps in data analysis. En H.J. Adèr & G.J. Mellenbergh (Eds.) (con contribuciones de D.J. Hand), Advising on Research Methods: A consultant's companion (pp. 333–356). Huizen, Holanda: Johannes van Kessel Publishing.
Adèr, H.J. (2008). Capítulo 15: The main analysis phase. En H.J. Adèr & G.J. Mellenbergh (Eds.) (con contribuciones de D.J. Hand), Advising on Research Methods: A consultant's companion (pp. 333–356). Huizen, Holanda: Johannes van Kessel Publishing.
Tabachnick, B.G. & Fidell, L.S. (2007). Capítulo 4: Cleaning up your act. Screening data prior to analysis. En B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

Enlaces Externas

Análisis de datos humanitarios, por Aldo Benini.
Potencial de análisis de datos para los humanitarios, por IRIN
Datos para Respuestas a Desastres