Análisis exploratorio de datos – 1 – Descripción de una variable
ANÁLISIS EXPLORATORIO DE DATOS
1. DESCRIPCIÓN DE UNA VARIABLE
SPSS estudia las variables mediante cuatro grupos de aspectos descriptivos: distribución de frecuencias, principales estadísticos descriptivos, gráficos y percentiles.
1.1. PRINCIPALES ESTADÍSTICOS
Cuando se describe una variable se trata de reducir el conjunto de datos a unos índices numéricos que representen adecuadamente a ese conjunto de datos, que midan sus principales características. Estas características son: tendencia central o localización, dispersión y forma.
1.1.1. Localización
Describen el “centro” de los datos y las medidas más utilizadas son la media, mediana y moda. Habitualmente se utiliza la media con variables cuantitativas, la mediana con variables ordinales y la moda o valor más frecuente con variables nominales.
1.1.2. Dispersión
Las medidas de dispersión describen lo separados o agrupados que están los valores. La más utilizada en el caso de variables cuantitativas es la varianza o la desviación típica. Con variables ordinales es común utilizar el rango intercuartílico.
1.1.3. Percentiles
Los percentiles son medidas que se utilizan para describir la situación relativa de un individuo en un grupo. El percentil n será el valor que deja por debajo de él al n% de los datos.
1.1.4. Forma de la distribución
La tercera característica a estudiar en una variable es la forma de la distribución. Esta característica se estudia a partir de la distribución de frecuencias. La distribución de frecuencias es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Toda variable tiene asociada una distribución de frecuencias formada por, (1) los valores que toma la variable, denominados clases; y (2) la proporción de individuos en cada clase. Las clases deben ser excluyentes y exhaustivas, es decir que cada elemento del conjunto debe pertenecer a una sola clase y a su vez, todo elemento debe pertenecer a alguna clase.
Distinguimos entre,
• Frecuencia Absoluta: es la cantidad de datos que integran cada una de las clases.
• Frecuencia Relativa: es la proporción que representa cada clase en relación al total de las
observaciones.
Análisis exploratorio de datos – 2 – Descripción de una variable
• Frecuencia Acumulada: La frecuencia acumulada es aquella que acumula frecuencias relativas hasta un determinado valor de la variable. Sumando las frecuencias de todos los valores inferiores a un límite fijado, obtenemos la frecuencia relativa acumulada hasta ese valor. Este tipo de frecuencia tiene sentido en variables ordinales.
Una manera habitual de estudiar la forma es hacer representaciones gráficas de la distribución de frecuencias. Con variables nominales se utiliza el gráfico de barras, con una barra por cada valor de longitud proporcional a la frecuencia de ese valor. Si tienen pocos valores también es frecuente utilizar el gráfico de sectores, en el que cada valor se representa como la porción de un pastel cuyo área es proporcional a la frecuencia del valor. Con variables cuantitativas se utiliza el histograma en el que cada intervalo de valores se representa como un rectángulo cuya altura es proporcional a la frecuencia de la suma de todos los valores comprendidos en el intervalo. En el caso de las variables ordinales, su el número de valores es pequeño se trataran como nominales y si es grande como cuantitativas.
1.1.5. Asimetría y apuntamiento
Además de la distribución de frecuencias la forma de las distribuciones de variables cuantitativas u ordinales, puede describirse a través de los índices de asimetría y apuntamiento.
El índice de asimetría indica si que la distribución es simétrica cuando vale 0; si los individuos tienden a estar en la parte izquierda de la distribución, será positivo, y negativo cuando los individuos tienden a estar en la parte derecha.
El índice de apuntamiento (o curtosis) nos indica si el histograma de la distribución es apuntado o poco apuntado. Valdrá 0 cuando la forma de la distribución coincida con la forma de la distribución normal. Si es positivo, la distribución es apuntada, tiene más altura central que la normal y si es negativo, tendrá menos altura central que la normal.
1.2. DESCRIPCIÓN DE VARIABLES NOMINALES
Las variables nominales se estudian mediante la distribución de frecuencias, el gráfico de barras o el de sectores y un estadístico descriptivo: la moda.
Vamos a utilizar el archivo coches.sav y la variable Marca como ejemplo. Elegimos Analizar – > Estadisticos descriptivos -> Frecuencias. Se selecciona la variable marca, que tiene la etiqueta “constructor” y se trasfiere al cuadro variables.
Análisis exploratorio de datos – 3 – Descripción de una variable
Podemos analizar al mismo tiempo tantas variables como queramos.
Hacemos clic en el botón Gráficos y marcamos Gráficos de barras y clic en continuar.
Para calcular la moda seleccionamos el botón Estadísticos del cuadro de diálogo principal y marcamos Moda en la sección de Tendencia central. Clic en Continuar.
Al hacer clic en aceptar en el cuadro principal tenemos la tabla de frecuencias, el gráfico de barras y una tabla con la moda. En este caso aparece un aviso puesto que tenemos más de una moda, Dodge y Ford son los valores más frecuentes: 11 observaciones cada uno.
1.3. DESCRIPCIÓN DE VARIABLES ORDINALES
Las variables ordinales se estudian mediante la distribución de frecuencias, el gráfico de barras o el de sectores y los estadísticos descriptivos mediana, rango, máximo y mínimo. Seguimos con el archivo coches.sav y la variable Tipo de vehículo etiquetada con 0 = Automóvil y 1= Camioneta. El número asignado a la categoría está relacionado con el tamaño del vehículo. Elegimos Analizar -> Estadisticos descriptivos -> Frecuencias. Se
Análisis exploratorio de datos – 4 – Descripción de una variable
selecciona la variable Tipo. Como estadísticos se seleccionan la mediana en tendencia central y amplitud, mínimo y máximo en dispersión. Como gráficos seleccionamos el gráfico de sectores, ya que tenemos sólo 2 categorías. La mediana es 0, es decir que más del 50% de los casos son automóviles, concretamente el 74% de los casos.
1.4. DESCRIPCIÓN DE VARIABLES CUANTITATIVAS
Las variables cuantitativas se estudian mediante el histograma y los estadísticos descriptivos media, desviación típica, rango, máximo y mínimo, y los coeficientes de asimetría y apuntamiento. No vamos a obtener la distribución de frecuencias porque habitualmente este tipo de variables toman muchos valores y distintos entre sí.
Elegimos Analizar -> Estadisticos descriptivos -> Frecuencias. Seleccionamos la variable ventas y desmarcamos la opción mostrar tabla de frecuencias.
Como estadísticos seleccionamos la media, la desviación típica, amplitud, mínimo, máximo, asimetría y curtosis. Para obtener el error típico de la media marcamos E.T. de la media.
En los gráficos marcamos el histograma y la opción con curva normal.
Análisis exploratorio de datos – 5 – Descripción de una variable
Con la media y la desviación típica podemos hacernos una idea de entre que valores se encuentran la mayoría de los casos. Una propiedad de la distribución normal es que el 95% de las observaciones se encuentran entre dos desviaciones típicas a cada lada de la media.
1.5. PERCENTILES
Para calcular los percentiles en una muestra elegimos Analizar -> Estadisticos descriptivos – > Frecuencias y en el cuadro de diálogo de los estadísticos elegimos puntos de corte para 10 grupos iguales. La tabla que se obtiene para la variable ventas es,
Ventas en miles
N
Percentiles
Perdidos
20
30
40
50
60
70
80
90
Válidos
157
0 5,23660 10,64500 16,76980 23,08260 29,45000 39,53440 55,59240 80,37540 131,90280
10
Para interpretarlos, por ejemplo, el percentil 10 es 5,2, es decir que en la muestra el 10% de los casos tienen valores de venta menores que ese valor.
2. PRUEBAS DE NORMALIDAD
Antes de realizar cualquier análisis estadístico se deben tener presentes las condiciones de
aplicación del mismo. En casi todos los análisis estadísticos, la asunción de normalidad es un común denominador: nuestra muestra procede de una distribución normal.
Análisis exploratorio de datos – 6 – Descripción de una variable
Para comprobar la normalidad de nuestros datos elegimos Analizar-> Estadísticos descriptivos ->Explorar. Vamos a continuar con la variable Ventas. Transferimos la variable a el cuadro de variables,
En el menú Gráficos elegimos Gráficos con pruebas de normalidad,
Vamos a obtener dos contrastes,
• Prueba de Kolmogorov – Smirnov
• Prueba de Shapiro- Wilk, para un tamaño muestral menor de 50
Estos contrastes tienen el problema de que con muestras muy grandes son muy sensibles a pequeñas desviaciones de la hipótesis de normalidad, por eso es bueno siempre acompañarlos con los gráficos de normalidad,
• Q-Q Normal, desviaciones de la diagonal indican desviaciones de la normalidad
• Q-Q Normal sin tendencia, la presencia de pautas no aleatorias entorno al 0 indican
desviaciones de la normalidad
Análisis exploratorio de datos – 7 – Descripción de una variable
Para la variable ventas tenemos,
a Corrección de la significación de Lilliefors
que los dos contrastes rechazan la hipótesis de normalidad. Gráficamente,
Kolmogorov-Smirnov(a)
Shapiro-Wilk
Estadístico
gl
Sig.
Estadístico
gl
Sig.
Ventas en miles
,218
157
,000
,667
157
,000
Claramente los datos de ventas no soportan la hipótesis de normalidad, algo que ya habíamos visto en el histograma,
El menú Analizar-> Estadísticos descriptivos ->Explorar permite también generar descripciones numéricas de variables cuantitativas, permitiendo la descripción de variables por grupos y generar gráficos.
Análisis exploratorio de datos Descripción de una variable
Los pasos a seguir son:
1. Elegir las variables a analizar. Tenemos dos tipos de variables
• Dependientes, la(s) variable(s) cuantitativas que queremos analizar
• Factores, la(s) variable(s) cualitativas por las que queremos agrupar
2. Elegir los estadísticos en el botón “Estadísticos”
3. Elegir los gráficos en el botón “Gráficos”. Los gráficos que pueden elegirse son:
– 8 –
• Diagramas de cajas. Los bordes de la caja son los percentiles 75, el superior, y 25 el inferior, la línea central es la mediana. El límite superior es el máximo (no extremo) y el inferior el mínimo. Aparecen con puntos o * los casos extremos (separados >1.5 la amplitud intercuartil = 50% de las observaciones puntos, y >3 *)
• Gráfico de tallo y hojas. Se divide la muestra en intervalos (columna del tallo) y se obtiene el número de casos comprendidos en cada intervalo
• Histograma
Siguiendo con el ejemplo de las ventas de coches. Para obtener los descriptivos de ventas por marca seleccionar Analizar-> Estadísticos descriptivos ->Explorar. Como variable dependiente elegimos ventas y como factor la marca,
3. GRÁFICOS
Es evidente que un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros resultados. SPSS dispone de una opción dentro de la barra de herramientas que permite realizar gráficos. El procedimiento es muy sencillo bastará seleccionar el menú Gráficos -> Generador de Gráficos, elegir el tipo de gráfico deseado en el cuadro de diálogo y definir las variables que intervienen en dicho gráfico.
Análisis exploratorio de datos – 9 – Gráficos
Después de haber creado un gráfico, puede editar muchos de sus atributos para cambiar su aspecto. Se puede cambiar el título, el etiquetado, las fuentes y los colores…Eliminar categorías, cambiar la amplitud del eje de escala e intercambiar los ejes…Y cambiar el tipo de gráfico. Para ello pulsamos dos veces en el gráfico que deseamos editar. El gráfico aparecerá en una ventana de gráficos.
Análisis exploratorio de datos – 10 – Gráficos
Se puede editar el gráfico con los menús, con la barra de herramientas o pulsando dos veces en el objeto que desee modificar.
3.1. ELEGIR EL GRÁFICO ADECUADO
Es importante elegir el gráfico adecuado al tipo de datos que estemos manejando y los resultados que queramos mostrar.
3.1.1. Análisis descriptivo
Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida.
Como ya hemos avanzado anteriormente, los gráficos más adecuados dependen del tipo de variables que estemos manejando.
Para variables categóricas, se quiere conocer la frecuencia y el porcentaje del total de casos de cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores.
• En los gráficos de sectores, también conocidos como diagramas de “tartas”, se divide un
círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara. La situación ideal es cuando hay un máximo de tres o cuatro categorías.
• Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase.
Para variables numéricas continuas, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos.
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los “bigotes” que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen
Análisis exploratorio de datos – 11 – Gráficos
también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
En lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el apuntamiento de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los QQ plots. En estos gráficos se representan los cuantiles de la distribución de la variable respecto a los cuantiles de la distribución normal. Si la variable es normal deberían coincidir.
3.1.2. Comparación de dos o más grupos
Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos
una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Se pueden representar, varios grupos de barras. En cada grupo determinado por una de las variables, se dibujan tantas barras como clases tenga la otra variable, representando siempre el porcentaje de individuos. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso.
La comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse también diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.
Por último, señalar que también en esta situación pueden utilizarse los gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo. No son más que una serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas
Análisis exploratorio de datos – 12 – Gráficos
según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc).
3.1.3. Relación entre dos variables numéricas
Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. En este gráfico puede observarse si existe no una relación directa o inversa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta.
Relación entre variables categóricas – 13 – Tablas de contingencia
RELACIÓN ENTRE VARIABLES CATEGÓRICAS
Las medidas adecuadas para el estudio de la relación entre variables va a depender de los tipos de las variables que se quiere relacionar. La relación entre variables nominales u ordinales con pocas categorías se realiza con el análisis de tablas de contingencia.
1. TABLAS DE CONTINGENCIA
Por tablas de contingencia se entiende aquellas tablas de doble entrada donde se realiza una clasificación de la muestra de acuerdo a un doble criterio de clasificación. Se utilizan para hallar de manera simultánea distribuciones de frecuencias de dos variables y hallar índices que midan la fuerza de la asociación entre las variables.
En el ejemplo de los coches vamos a evaluar la relación que existe entre la marca y el tipo de automóvil. Las dos variables son categóricas y hacemos una tabla de contingencia eligiendo Analizar -> Estadisticos descriptivos-> Tablas de contingencia. En el cuadro de diálogo elegimos una de las variables como variable fila y la otra como variable columna.
El resumen bivariante de la muestra por defecto se muestra en números absolutos, resultado de contar, pero es posible obtener porcentajes relativos al total de la muestra, al total de una fila o al de una columna. Para ello, seleccionamos el botón Casillas, y en el área de porcentajes, seleccionamos lo que nos interese.
Relación entre variables categóricas – 14 – Tablas de contingencia
Además de la descripción de la distribución, en forma de tabla, la pregunta que nos planteamos es ¿existe relación entre estas dos variables? La hipótesis que debemos contrastar es que ambos criterios de clasificación (variables) son independientes. Es decir, la pertenencia de un individuo a una clase de una de las variables no afecta a la probabilidad de pertenencia a las distintas clases de la otra. El contraste chi-cuadrado de Pearson es el método más común para llevar a cabo este contraste. Para obtenerlo hacemos clic en el botón Estadísticos y seleccionamos Chi-cuadrado.
El resultado es una tabla del tipo,
a 52 casillas (86,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,26.
Valor
gl
Sig. asintótica (bilateral)
Chi-cuadrado de Pearson
46,527(a)
29
,021
Razón de verosimilitudes Asociación lineal por lineal
56,531 ,063
29 1
,002 ,802
N de casos válidos
157
Relación entre variables categóricas – 15 – Tablas de contingencia
Hay que tener en cuenta la observación acerca del número de casillas con frecuencias esperadas menores que 5. Cuando hay muchas (>15%) el estadístico chi-cuadrado puede no ser válido por lo que se recomienda usar la alternativa exacta, el contraste de Fisher o el de razón de verosimilitudes.
Estos contrasten nos dan información sobre si existe o no asociación, pero no de la magnitud de dicha relación. La razón es que el estadístico no tiene límite superior. Para facilitar la interpretación se emplean los coeficientes C o V de Cramer,
Estos estadísticos varían entre 0 y 1, siendo 0 el valor de falta de asociación. Todos estos coeficientes están basados en el estadístico chi-cuadrado y en consecuencia tendrán los mismos problemas.
Una alternativa a los coeficientes basados en chi cuadrado son los coeficientes basados en la idea de reducción proporcional del error, en la comparación de la predicción del resultado de una variable basándose en el conocimiento de la otra variable implicada. Un coeficiente basado en esta idea es el Lambda de Godman y Kruskal que varía entre 0 y 1. Debido a la asimetría de la relación se producen 3 coeficientes lambda, cuando una variable es la dependiente, cuando la otra es la dependiente y cuando no se tiene muy claro quién es la dependiente (simétrico). En el ejemplo,
a Asumiendo la hipótesis alternativa.
b Empleando el error típico asintótico basado en la hipótesis nula. c Basado en la aproximación chi-cuadrado.
Valor
Error típ. asint.(a)
T aproximada(b)
Sig. aproximada
Simétrica
,059
,040
1,442
,149
Lambda
Constructor dependiente
Tipo de vehículo dependiente
,027 ,171
,025 ,131
1,073 1,189
,283 ,235
Nominal por nominal
Tau de
Constructor dependiente
,012
,003
,003(c)
Goodman y Kruskal
Tipo de vehículo
dependiente
,296
,051
,022(c)
Relación entre variables categóricas – 16 – Tablas de contingencia
Utilizando el concepto de Capas podemos aumentar las dimensiones de la tabla. Por ejemplo, si queremos hacer el análisis por separado en cada zona,