Análisis exploratorio de datos – 1 – Ejercicios
ANÁLISIS EXPLORATORIO DE DATOS EJERCICIOS
EJERCICIO 1
Crear un nuevo archivo de datos puntuacion.sav que contenga una variable, test, con las puntuaciones a un cierto test y los siguientes datos,
49 38 31 27 20 48 37 31 26 19 46 37 31 26 18 46 37 30 25 16 44 35 30 24
43 35 29 23 43 34 29 23 41 33 28 22 41 33 27 21 39 32 27 21
Introducir los datos de arriba abajo y de izquierda a derecha.
1.- Añadir dos sujetos con valor perdido (-9) y un sujeto con puntuación 150. 2.- Crear tres nuevas variables:
− Crear una nueva variable, identif, con el número de orden del sujeto. Podéis utilizar la
función $CASENUM
− Crear una nueva variable nominal, momento, de acuerdo al siguiente esquema: las dos
primeras columnas, es decir del individuo 1 al 20, son sujetos cuyo valor de momento es mañana; la siguiente columna (individuos 21 al 30) el valor de momento es tarde; y en el resto el valor de momento es noche. Para ello recodificar la variable identif en la nueva variable momento.
− Crear una nueva variable nominal, conocer, de acuerdo al siguiente esquema: las cuatro primeras filas (sujetos 1-4, 11-14, 21-24, 31-34, 41-44) pertenecen a la categoría legos y los restantes a la categoría expertos. Hacerlo en 2 pasos: en el primero recodificar la variable identif en la variable conocer, los sujetos legos. En el segundo paso, recodificar en la misma variable los valores perdidos por el sistema (vacíos) al valor expertos.
3.- Calcular la media, desviación típica, coeficiente de asimetría y apuntamiento de la variable test y el histograma con la curva normal superpuesta. ¿Es posible suponer normalidad?
4.- Eliminar del análisis el sujeto con puntuación 150. Repetir el análisis y comprobar las diferencias en las medidas descriptivas. ¿Cuál es la conclusión respecto a la hipótesis de normalidad?
5.- Hallar los percentiles 20, 40, 60 y 80 de la variable test con el dato del sujeto cuyo valor es 150 y sin considerarle. ¿Cambian los valores de los percentiles?
6.- Sin considerar el individuo extremo, calcular los descriptivos de la variable test para los distintos grupos de momento. A la vista del diagrama de cajas, ¿habrá diferencia entre los
Análisis exploratorio de datos – 2 – Ejercicios
grupos formados por la variable momento? ¿Apoyan vuestras conclusiones los intervalos de confianza?
Repetir el análisis según los grupos formados por conocer.
7.- Extraer la distribución de frecuencias de las variables momento y conocer, junto con un diagrama de barras. ¿Qué medidas estadísticas os interesaría conocer para estas variables?