代写 R game Diferencia de medias Contrastes paramétricos

Diferencia de medias Contrastes paramétricos
– 1 –
DIFERENCIA DE MEDIAS
1. CONTRASTES PARAMÉTRICOS
Analizamos el problema de la diferencia de medias entre dos o más grupos, o la diferencia de
una media respecto de la media poblacional. Vamos a realizar comparaciones paramétricas de medias en distintas situaciones:
• Prueba T de una muestra
• Prueba T de muestras independientes
• Prueba T de muestras relacionadas
• Anova de 1 factor
A lo largo de esta sección, vamos a utilizar el archivo de ejemplo fisica.sav con 12 casos de una variable cualitativa y 6 cuantitativas. 4 sujetos realizan cierto estudio por la mañana, 4 por la tarde y otros 4 por la noche. A cada sujeto se le mide el rendimiento en 3 asignaturas: mecánica, calor y sonido con dos variantes de método de enseñanza: tradicional y por descubrimiento. El objetivo es evaluar la efectividad de los dos métodos de enseñanza y el efecto que puede tener el momento del día sobre el rendimiento.
1.1. DIFERENCIA ENTRE DOS MEDIAS , t-test
Se utiliza el contraste t-Student cuando el objetivo es comprobar si una muestra pertenece a una población, para evaluar la diferencia de medias en muestras independientes o para muestras relacionadas.
1.1.1. Comparación de una muestra con una población
Queremos comprobar si la media de una muestra pertenece a una población con cierta media. En el ejemplo comprobamos si la muestra de la variable meca_tra pertenece a una población de media 35.
Elegimos Analizar -> Comparar medias -> Prueba T para una muestra. Elegimos la variable a analizar y escribimos el valor con el que queremos compararnos en Valor de prueba,

Diferencia de medias – 2 – Contrastes paramétricos
Como resultado se obtiene una primera tabla con estadísticos descriptivos y una tabla con el resultado del contraste,
Prueba para una muestra
Valor de prueba = 35
95% Intervalo de confianza para la diferencia
t
gl
Sig. (bilateral)
Diferencia de medias
Inferior
Superior
Mecánica método tradicional
-,894
11
,391
-1,833
-6,35
2,68
Si el resultado es no significativo se concluirá que no existen evidencias para rechazar que la muestra pertenece a una población de media 35. El intervalo de confianza es una manera alternativa de comprobar lo mismo: si incluye al valor 0 no se rechaza la hipótesis. Por defecto el intervalo de confianza será el del 95%, si se quiere obtener un intervalo con otro nivel de significación hacemos clic en el botón Opciones y especificamos este nivel.
1.1.2. Diferencia de medias para muestras independientes
Queremos comprobar si existen diferencias entre las medias en mecánica tradicional de los estudiantes del grupo de tarde y del grupo de noche (niveles 2 y 3). Elegimos Analizar -> Comparar medias -> Prueba T para muestras independientes. Elegimos la variable a analizar, meca_tra y la trasferimos al cuadro contrastar variables.
En la variable de agrupación seleccionamos momento y hacemos clic en el botón Definir grupos. El grupo 1 es el que tiene el valor 2 en la variable momento y el grupo 2 el que tiene el valor 3.

Diferencia de medias – 3 – Contrastes paramétricos
El resultado incluye la tabla de descriptivos y el resultado de la prueba. Este contraste es diferente según se pueda suponer que las varianzas entre lso grupos son iguales o distintas. Por eso el primer contraste que aparece en la tabla es el de Levene. En este caso no se rechaza la hipótesis de igualdad de varianzas por lo que el contraste t correcto es en el que se asumen varianzas iguales.
Prueba de muestras independientes
Se han asumido varianzas iguales
Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
3,000
Sig.
,134
t
12,961
gl
6
Sig. (bilateral)
,000
Diferencia de medias
14,000
Error típ. de la diferenci a
1,080
95% Intervalo de confianza para la diferencia
Inferior
11,357
Superior
16,643
No se han asumido varianzas iguales
12,961
5,069
,000
14,000
1,080
11,235
16,765
1.1.3. Diferencia de medias para muestras relacionadas
En el caso de muestras independientes se comparan grupos de individuos diferentes. En el ejemplo podríamos querer comparar las notas en mecánica por el método tradicional y por el método por descubrimiento. Las dos variables están medidas en los mismos sujetos, decimos que son muestras relacionadas: comparamos los rendimientos de los mismos individuos según métodos diferentes.
Elegimos Analizar -> Comparar medias -> Prueba T para muestras relacionadas. Elegimos las dos variable a analizar, meca_tra y meca_des y las trasferimos al cuadro variables relacionadas,
Los resultados incluyen, la tabla de estadísticos, una tabla con la correlación entre las variables y el resultado del contraste,
Prueba de muestras relacionadas

Diferencia de medias – 4 – Contrastes paramétricos
Par 1
Mecánica método tradicional – Mecánica método por descubrimiento
Diferencias relacionadas
t
-19,700
gl
11
Sig. (bilateral)
,000
Media
-21,000
Desviaci ón típ.
3,693
Error típ. de la media
1,066
95% Intervalo de confianza para la diferencia
Inferior
-23,346
Superior
-18,654
1.2. DIFERENCIA ENTRE DOS o MAS MEDIAS, ANOVA DE UN FACTOR
El ANOVA (análisis de la varianza) es un procedimiento que se emplea para comprobar la existencia de diferencias de medias entre 2 o más poblaciones independientes. Es una generalización de la prueba de la t para dos muestras independientes en el caso en el que tengamos más de dos grupos. Intervienen por tanto, dos variables:
• Variable cuantitativa que deseamos comparar, que llamaremos variable dependiente
• Variable cualitativa o factor que define los grupos que queremos comparar y que
denominamos variable independiente
Cuando el ANOVA encuentra que la diferencia es significativa entre la media de varios grupos quiere decir que hay diferencia entre al menos dos de las medias pero no se indica entre qué medias hay diferencias. Por eso es necesario hacer un análisis posterior, los contrastes a posteriori, en el que se comprueba la diferencia entre todos los pares de medias.
Para realizar un ANOVA hay que verificar las siguientes hipótesis:
• Normalidad de la variable cuantitativa. La variable tiene una distribución normal en cada
una de las J subpoblaciones. No obstante, y si los tamaños de los grupos son lo suficiente grandes esta suposición puede relajarse: obtenemos buenos resultados incluso en poblaciones bastante alejadas de la normalidad
• Homogeneidad de las varianzas. La variable tiene la misma varianza en las J subpoblaciones. Hay que prestar especial atención a esta hipótesis cuando los grupos sean de distinto tamaño
• Independencia de las observaciones
Utilizando los datos del archivo fisica.sav vamos a comprobar si existen diferencias entre los tres grupos de individuos: mañana, tarde y noche en mecánica con el método tradicional. Con el contraste de la t sólo se comprobó si existían diferencias entre el grupo de tarde y de noche, no entre los tres.
Se elige Analizar -> Comparar medias -> ANOVA de un factor. Se selecciona la variable meca_tra y se transfiere a la sección Dependientes. Se selecciona la variable momento y se transfiere a la sección Factor,

Diferencia de medias – 5 – Contrastes paramétricos
El resultado que se muestra por defecto es la tabla ANOVA,
ANOVA
Mecánica método tradicional
Para comprobar la hipótesis de homogeneidad de varianzas a través del estadístico de Levene y obtener los estadísticos descriptivos hacemos clic en el botón opciones y se marcan las opciones correspondientes,
Suma de cuadrados
gl
Media cuadrática
F
Sig.
Inter-grupos
472,667
2
236,333
25,627
,000
Intra-grupos Total
83,000 555,667
9 11
9,222
Para realizar las comparaciones a posteriori hacer clic en el botón Post hoc,

Diferencia de medias – 6 – Contrastes paramétricos
Estas comparaciones tienen sentido si el contraste global rechaza de la hipótesis nula de igualdad de medias. Tenemos dos opciones,
• Asumiendo igualdad de varianzas. Podemos seleccionar uno o varios de todos estos
procedimentos. Los más utilizados son:
o Bonferroni, cada comparación se evalúa adaptando el nivel de significación al
número de grupos a comparar
o Scheffé, se utiliza para hacer comparaciones por pares. Es muy conservador
(para rechazar la hipótesis necesita más evidencias muestrales entonces
rechaza menos veces de las que debería
o Tukey, el más utilizado. Todas las comparaciones hacen referencia a una
diferencia mínima
o Dunnett, se compara cada grupo con un grupo control que por defecto será
la última categoría, aunque también puede asignarse la primera
• No asumiendo igualdad de varianzas. El que más se suele utilizar es el de Games-Howell
En el ejemplo el contraste de Levene no rechaza la igualdad de varianzas,
Prueba de homogeneidad de varianzas
Mecánica método tradicional
Y ya hemos visto que se rechaza la hipótesis de igualdad de medias global. Para comparar los pares elegimos el contraste de Tukey,
Comparaciones múltiples
Variable dependiente: Mecánica método tradicional
Estadístico de Levene
gl1
gl2
Sig.
3,000
2
9
,100
(I) Momento
(J) Momento
Diferencia de medias (I-J)
Error típico
Sig.
Intervalo de confianza al 95%
Límite inferior
Límite superior
Mañana
Tarde
-12,500(*)
2,147
,001
-18,50
-6,50
Noche
1,500
2,147
,770
-4,50
7,50
Tarde
Mañana
12,500(*)
2,147
,001
6,50
18,50
Noche
14,000(*)
2,147
,000
8,00
20,00
Noche
Mañana
-1,500
2,147
,770
-7,50
4,50
Tarde
-14,000(*)
2,147
,000
-20,00
-8,00
* La diferencia de medias es significativa al nivel .05.
Se observan diferencias significativas entre el grupo de tarde y el resto. Así las diferencias observadas se pueden explicar por la existencia de dos grupos: uno compuesto por los grupos de mañana y noche y el otro por el grupo de tarde.

Diferencia de medias Contrastes paramétricos
Mecánica método tradicional
Se muestran las medias para los grupos en los subconjuntos homogéneos. a Usa el tamaño muestral de la media armónica = 4,000.
– 7 –
Subconjunto para alfa = .05
HSD de Tukey(a)
Mañana Tarde Sig.
Momento
N
2
1
Noche
4
28,00
4 4
29,50
,770
42,00 1,000
1.3. ANOVA CON MÁS DE UN FACTOR
Podemos hacer ANOVA con más de un factor, para comprobar si existen diferencias entre las medias de los niveles de cada uno de esos factores. Para verlo con un ejemplo utilizamos el archivo compra.sav.
Supongamos que queremos saber si existen diferencias en el gasto por sexo y tipo de compra. Nos hacemos las siguientes preguntas: ¿Hay diferencias entre las medias de gasto de hombres y mujeres? ¿Hay diferencias entre las medias de gasto si la compra es quincenal, semanal o frecuente? Además de estas dos preguntas que responden a los efectos de los factores podemos responder a ¿existe interacción entre el sexo y el tipo de compra? Es decir, ¿las diferencias en el gasto de hombres y mujeres no son iguales dependiendo del tipo de compra?. Por ejemplo, existirá interacción si las mujeres gastan más cuando la compra es más frecuente pero los hombres gastan lo mismo independientemente de la frecuencia en la que compren.
Para ajustar este modelo seleccionamos Analizar -> Modelo lineal general -> Univariante. Seleccionamos la variable dependiente: gasto y la transferimos a la sección Dependiente. Seleccionamos la variable Sexo y la transferimos a la sección Factores fijos y lo mismo con la variable estilo,

Diferencia de medias – 8 – Contrastes paramétricos
Tendremos la siguiente tabla de resultados,
Variable dependiente: Cantidad gastada
Fuente
Suma de cuadrados tipo
III
gl
Media
cuadrática
F
Significación
Modelo corregido
469402,996(a)
5
93880,599
11,092
,000
Intersección
sexo
estilo
sexo * estilo Error
Total
Total corregida
39359636,387
158037,442 33506,210 69858,325
2920058,824 59475118,440 3389461,820
1
1 2 2
345 351 350
39359636,3 87 158037,442 16753,105 34929,163 8463,939
4650,274
18,672 1,979 4,127
,000
,000 ,140 ,017
a R cuadrado = ,138 (R cuadrado corregida = ,126)
Son significativos el efecto del sexo y el de su interacción con el estilo de compra. En este tipo de modelos es muy útil un gráfico de medias, ya que ayuda a la interpretación. Para construirlo, hacemos clic en el botón Gráficos y seleccionamos la variable estimo en el eje horizontal y sexo como líneas distintas,
Después hacemos clic en Añadir y en Continuar. El gráfico es fácilmente interpretable: las mujeres gastan menos que los hombres salvo en el caso en el que las compras sean frecuentes, donde la media del gasto es prácticamente la misma entre hombres y mujeres.

Diferencia de medias – 9 – Contrastes paramétricos
En este tipo de modelos podemos hacer comparaciones a posteriori de cada efecto principal (botón Post Hoc) y obtener el contraste de igualdad de varianzas en el botón Opciones, de manera muy similar al ANOVA de un único factor.
2. CONTRASTES NO PARAMÉTRICOS
Hasta ahora hemos visto una serie de métodos diseñados para analizar variables cuantitativas: el contraste t para medias, el ANOVA y la prueba de Levene. Todos ellos coinciden en que permiten contrastas hipótesis referidas a algún parámetro y exigen el cumplimiento de determinadas hipótesis sobre las poblaciones de las que se extraen las muestras (generalmente normalidad y homocedasticidad). Estas características permiten agrupar estos procedimientos en una familia de técnicas denominadas contrastes paramétricos.
Bajo el epígrafe de pruebas no paramétricas se engloban una serie de pruebas estadísticas, más o menos heterogéneas en cuanto a las hipótesis que contrastan, pero que tienen como denominador común la ausencia de asunciones acerca de la ley de probabilidad que sigue la población de la que ha sido extraída la muestra. Por esta razón es común referirse a ellas como pruebas de distribución libre. Estos métodos se utilizarán cuando no se verifiquen las hipótesis de las pruebas paramétricas, que generalmente ocurre cuando se trabaja con muestras pequeñas y si los datos son ordinales.
En SPSS los contrastes no paramétricos se encuentran en el menú Analizar -> Pruebas no paramétricas. Los métodos disponibles aparecen ordenados por el número de muestras que permiten analizar:
• Prueba Chi-cuadrado
• Prueba Binomial
• Prueba de rachas
• Prueba para 2 muestras independientes
• Prueba para k muestras independientes
• Prueba para 2 muestras relacionadas
• Prueba para k muestras relacionadas
Utilizamos los datos de ejemplo empleados.sav.
2.1. PRUEBA CHI-CUADRADO
Es un contraste de bondad de ajuste con variables categóricas, es decir, permite contrastar si las frecuencias observadas en cada una de las clases de una variable categórica varían de forma significativa de las frecuencias que se esperaría encontrar si la muestra hubiese sido extraída de una población con una determinada distribución de frecuencias.

Diferencia de medias – 10 – Contrastes no paramétricos
Para obtener la prueba chi-cuadrado elegimos Analizar -> Pruebas no paramétricas ->Chi- cuadrado. Transferimos la variable categórica que queremos analizar y posteriormente las frecuencias esperadas bajo la hipótesis que queremos contrastar. Tenemos dos opciones para hacer esto último:
• Todas las categorías iguales, las frecuencias esperadas son el número total de casos entre el número total de clases. Equivale al ajuste de una distribución uniforme
• Valores, introducir las frecuencias esperadas. Se debe tener en cuenta, que el orden es importante (mismo orden que los códigos de la variable categórica) y que la suma de los valores observados en la muestra debe ser igual a la suma de valores esperados. Los valores introducidos se interpretarán como proporciones.
Como ejemplo analizamos la variable educ de nuestro archivo, comparando con la distribución uniforme,
Además del análisis estándar le pedimos los descriptivos haciendo clic en el botón Opciones
El resultado de la prueba es una tabla con descriptivos, la tabla de frecuencias en las que se muestran frecuencias observadas, esperadas y la diferencia entre ambas (residual), y el estadístico chi-cuadrado,
Estadísticos de contraste

Diferencia de medias – 11 – Contrastes no paramétricos
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 170,0.
Si el nivel de significación es lo suficientemente pequeño se rechaza la igualdad de distribuciones.
2.2. PRUEBA BINOMIAL
Es habitual encontrarse variables que sólo tomas dos posibles valores (éxito vs fracaso, viva vs muerta,…). Son variables dicotómicas y de manera general llamaremos a las dos categorías posibles acierto y error. La prueba binomial permite averiguar si una variable dicotómica sigue un determinado modelo de probabilidad, en concreto si la proporción de “aciertos” se ajusta a la proporción teórica de una distribución binomial. Esto se traduce en que permite contrastar hipótesis sobre una proporción.
Para obtener una prueba binomial seleccionamos Analizar -> Pruebas no paramétricas -> Prueba binomial. Hay que elegir la variable a contrastar y transferirla al cuadro contrastar variables. En nuestro archivo elegimos la variable impagos anteriores que puede tomar los valores 0= No y 1 = Sí. Después hay que especificar la proporción teórica con la que se desea comparar. Esta proporción hace referencia a la categoría de referencia, que siempre es aquella de menor código, en nuestro caso No. Si el valor teórico no es 0.5 se hace un contraste unilateral, por ejemplo en nuestro caso la proporción observada en la categoría No es 0.74, si elegimos el valor teórico 0.7, la hipótesis que se contrastará será H0= proporción poblacional < 0.7. Nivel de educación Chi- cuadrado(a) 793,835 gl Sig. asintót. 4 ,000 Diferencia de medias Contrastes no paramétricos - 12 – Prueba binomial Categoría N Proporción observada Prop. de prueba Sig. asintót. (unilateral) Impagos anteriores Grupo 1 Sí 183 ,3 ,7 ,000(a,b) Grupo 2 Total No 517 700 ,7 1,0 a La hipótesis alternativa establece que la proporción de casos del primer grupo sea < ,7. b Basado en la aproximación Z. Desde el cuadro de diálogo principal es posible definir la variable dicotómica. Cuando la variable de interés no tiene esta caraacterística, es posible definir un punto de corte indicándolo en la sección Definir dicotomía, Punto de corte. Valores menores o iguales que el indicado constituiran el primer grupo, y valores mayores el segundo. 2.3. PRUEBA DE RACHAS Sirve para contrastar si una muestra es o no aleatoria, es decir si las observaciones de una determinada secuencia son independientes entre sí. El concepto de rachas hace referencia a una secuencia de observaciones del mismo tipo. Supongamos que lanzamos una moneda al aire 10 veces, si obtenemos CCCXCCXXXC, tenemos 5 rachas y se podrá suponer aleatoriedad, pero si obtuviésemos CCCCCXXXXX (2 rachas) suponer aleatoriedad sería cuando menos arriesgado. Esta prueba permite comprobar si el número de rachas obtenidas en una muestra es lo suficientemente grande para poder considerar la secuencia como aleatoria. Para obtener un test de rachas elegimos Analizar -> Pruebas no paramétricas -> Rachas. La variable a contrastar debería ser dicotómica con dos grupos exhaustivos y mutuamente excluyentes. Al igual que ocurría en la prueba binomial es posible dicotomizar una variable que no tenga estas características a partir de la media, la mediana, la moda o un valor personalizado. Por ejemplo la variable edad, la dicotomizamos utilizando la mediana, es decir construimos dos grupos: valores menores o iguales que la mediana de la muestra y valores mayores que la mediana,

Diferencia de medias – 13 – Contrastes no paramétricos
Prueba de rachas
Edad en años
Valor de prueba(a)
34
Casos < Valor de prueba Casos >= Valor de prueba
Casos en total Número de rachas
Z
Sig. asintót. (bilateral)
389 461
850
429 ,418 ,676
a Mediana
No se rechaza la hipótesis de independencia y no hay evidencias para suponer que la secuencia de observaciones no sea aleatoria.
2.4. PRUEBA PARA DOS MUESTRAS INDEPENDIENTES
Es la versión no paramétrica del contraste de medias de la t para dos muestras independientes. Tenemos las siguientes posibilidades:
• U de Mann-Whitney. La más común. Se utiliza en lugar de la t cuando o bien no hay
normalidad o cuando la variable a comparar es ordinal
• Reacciones extremas de Moses. Sirve para ver si existen diferencias en el grado de
variabilidad o dispersión de dos muestras
• Prueba de Kolmogorov-Smirnov para dos muestras. Sirve para contrastar si dos
muestras proceden de la misma población (tienen la misma distribución subyacente)
• Prueba de las rachas de Wald-Wolfowitz. Similar a la de las rachas, permite contrastar si
dos muestras proceden de la misma población
Para acceder a estos contrastes seleccionar Analizar -> Pruebas no paramétricas -> Pruebas para dos muestras independientes. Como ejemplo contrastamos la variable Ingresos familiares y como variable de agrupación elegimos impago. En el tipo de prueba seleccionamos las cuatro opciones disponibles.

Diferencia de medias – 14 – Contrastes no paramétricos
Debemos definir los grupos haciendo clic en el botón Definir grupos e indicando los valores de la variable de agrupación que definen los dos grupos,
Los resultados obtenidos son,
1) La prueba U de Mann-Whitney,
Estadísticos de contraste(a)
a Variable de agrupación: Impagos anteriores
Rechazamos la hipótesis de igualdad de medias, por lo que los grupos definidos por la variable impagos anteriores proceden de poblaciones de ingresos con distinto promedio.
2) La prueba de reacciones extremas de Moses,
Estadísticos de contraste(a,b)
Ingresos familiares en
miles
U de Mann-Whitney
37828,500
W de Wilcoxon
Z
Sig. asintót. (bilateral)
54664,500 -4,032 ,000
Ingresos familiares en miles
Amplitud observada del grupo control
Amplitud recortada del grupo control
Sig. (unilateral)
Sig. (unilateral)
697
,057 614 ,001
25
Valores atípicos recortados de cada extremo
a Prueba de Moses
b Variable de agrupación: Impagos anteriores
En la primera parte la tabla recoge la amplitud observada del grupo control, el de menor código de la variable de agrupación, y la probabilidad de obtener una amplitud como esa o menor. A continuación se recoge la amplitud recortada, al 5% y la probabilidad de obtener una amplitud como esa o menor. Puesto que esa probabilidad es <0.05 podemos considerar que se han producido reacciones extremas Diferencia de medias - 15 – Contrastes no paramétricos 3) En el caso de la prueba de Kolmogorov-Smirnov aparecen en primer lugar las diferencias más extremas entre las funciones de distribución de ambas muestras. A continuación el valor del estadístico y su p-valor asociado, Estadísticos de contraste(a) a Variable de agrupación: Impagos anteriores Se rechaza la igualdad de distribuciones y concluimos que los dos grupos comparados difieren significativamente. 4) El resultado de la prueba de rachas incluye el número mínimo y máximo de rachas, dependiendo del tratamiento que se de a los empates, el valor del estadístico en ambos casos y el nivel crítico, Estadísticos de contraste(b,c) a Hay 56 empates inter-grupos que implican 576 casos. b Prueba de Wald-Wolfowitz c Variable de agrupación: Impagos anteriores En este caso se consiguen dos resultados muy diferentes por lo que habría que recurrir a otros contrastes para tomar una decisión. 2.5. PRUEBA PARA k MUESTRAS INDEPENDIENTES Es la versión no paramétrica del ANOVA de un factor. Tenemos las siguientes posibilidades: • H de Kruskal-Wallis. Se utiliza en lugar del ANOVA cuando no se verifican las hipótesis de normalidad y/o homocedasticidad o cuando la variable a comparar es ordinal • Prueba de la mediana. Similar al contraste chi-cuadrado en tablas de contingencia cuando una de las variables es cuantitativa y se dicotomiza utilizando la mediana. La hipótesis que contrastamos es si todos los grupos proceden de poblaciones con la misma mediana • Prueba de Jonckheere-Terpstra, sólo disponible con el módulo de pruebas exactas. Para obtener estos contrastes seleccionamos Analizar -> Pruebas no paramétricas -> Pruebas para k muestras independientes. Como ejemplo contrastamos la variable Ingresos familiares y como variable de agrupación elegimos educ. En el tipo de prueba seleccionamos
Ingresos familiares en
miles
Diferencias más extremas
Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)
Positiva Negativa
Absoluta
,165
,009 -,165 1,916 ,001
Número de rachas
Z
Sig. asintót. (unilateral)
Ingresos familiares en miles
Máximo posible
Mínimo posible
78(a)
-18,943
,000
351(a)
7,808
1,000

Diferencia de medias – 16 – Contrastes no paramétricos
H de Kruskal-Wallis y la prueba de la mediana. En este caso también hay que definir el rango de la variable de agrupación indicando los valores de las categorías más extremas.
La primera tabla que aparece es un descriptivo de los rangos promedio en cada grupo,
Rangos
Nivel de educación
N
Rango promedio
Ingresos familiares en miles
No completó el bachillerato
460
381,79
Título de Bachiller Superiores iniciados Título Superior Título de Post-grado Total
235
101
49
5
850
446,39 543,05 469,04 663,80
Un rango es la posición que ocupa un individuo en la muestra. El rango promedio de un grupo será la media de los rangos de individuos de un grupo.
Los resultados de la prueba de kruskal- Wallis incluyen el valor del estadístico, sus grados de libertad y el nivel de significación,
Estadísticos de contraste(a,b)
a Prueba de Kruskal-Wallis
b Variable de agrupación: Nivel de educación
En este caso se rechaza la hipótesis de igualdad de medias entre los 5 grupos considerados. Para realizar las comparaciones múltiples habría que utilizar el test U de Mann Whitney con la corrección de Bonferroni, según la cual el nuevo nivel de significación se obtiene
Ingresos familiares en
miles
Chi-cuadrado
45,705
gl
Sig. asintót.
4 ,000

Diferencia de medias – 17 – Contrastes no paramétricos
dividiendo el nivel fijado por el número de pruebas a realizar. En este caso si fijamos el nivel en 0.05, como tenemos 10 comparaciones posibles, sólo se consideraran significativos p- valores menores que 0.005.
En cuanto a la prueba de la mediana se muestra una tabla con las frecuencias en cada grupo respecto de los dos grupos que resultan de tomar la mediana como punto de corte,
Frecuencias
Estadísticos de contraste(b)
a 2 casillas (20,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 2,4.
b Variable de agrupación: Nivel de educación
Se rechaza la hipótesis de igualdad de medias.
2.6. PRUEBA PARA DOS MUESTRAS RELACIONADAS
Versión no paramétrica de la prueba de la t para muestras relacionadas, del tipo de mediciones antes-después. Tenemos las siguientes posibilidades:
• Wilcoxon. Sirve para contrastar la hipótesis de igualdad de medianas entre las dos
muestras, utilizando la diferencia entre los pares de valores observados
• Signos. Sirve para contrastar la hipótesis de igualdad de medianas entre las dos
muestras, utilizando sólo si la diferencia es positiva o negativa
• McNemar y homogeneidad marginal. Sirven para contrastar hipótesis sobre igualdad de
proporciones. Se utiliza con 2 variables cualitativas iguales una antes y otra después. Tienen más que ver con tablas de contingencia por lo que no se van a ver en detalle.
Para obtener estos contrastes seleccionamos Analizar -> Pruebas no paramétricas -> Pruebas para 2 muestras relacionadas. Como ejemplo contrastamos las variable Ingresos familiares e ingresos familiares anteriores. En el tipo de prueba seleccionamos Wilcoxon y Signos.
bachillerato
Nivel de educación
No completó el
Título de
Superiores
Título
Título de
Bachiller
iniciados
Superior
Post-grado
Ingresos familiares en miles
<= Mediana > Mediana
193
124
72
22
4
267
111
29
27
1
Ingresos familiares en
miles
N
850
Mediana Chi-cuadrado gl
Sig. asintót.
35,0000 32,788(a) 4 ,000

Diferencia de medias – 18 – Contrastes no paramétricos
Los resultados de la prueba de Wilcoxon incluyen información sobre los rangos positivos, negativos y empates. En el pie de tabla se incluye la información de lo que significa cada uno de estos rangos,
Rangos
a Ingresos familiares anteriores (miles) < Ingresos familiares en miles b Ingresos familiares anteriores (miles) > Ingresos familiares en miles
c Ingresos familiares anteriores (miles) = Ingresos familiares en miles
En este caso se considera la variable diferencia y los rangos corresponden a esta variable en
valor absoluto. Se divide la muestra en tres grupos, los individuos con diferencias positivas, los individuos con diferencias negativas y los empates. Es con estos rangos con los que se realiza el contraste.
Estadísticos de contraste(b)
N
Rango promedio
Suma de rangos
Ingresos familiares anteriores (miles) – Ingresos familiares en miles
Rangos positivos Empates
Total
Rangos negativos
431(a)
418,87
180532,00
419(b) 0(c) 850
432,32
181143,00
Ingresos familiares anteriores (miles) – Ingresos familiares en miles
Z
-,043(a)
Sig. asintót. (bilateral)
,966
a Basado en los rangos negativos.
b Prueba de los rangos con signo de Wilcoxon
En este caso no se rechaza la hipótesis de igualdad de ingresos. Los resultados con la prueba de signos son similares,

Diferencia de medias – 19 – Contrastes no paramétricos
Estadísticos de contraste(a)
Ingresos familiares anteriores (miles) – Ingresos familiares en miles
Z
-,377
Sig. asintót. (bilateral)
,706
a Prueba de los signos
2.7. PRUEBA PARA VARIAS MUESTRAS RELACIONADAS
Se utilizan en diseños con medidas repetidas, más de dos. Tenemos las siguientes posibilidades:
• Friedman. Sirve para comparar k medias poblacionales. Es la versión no paramétrica del
ANOVA con medidas repetidas. El diseño es k muestras relacionadas (tratamientos
distintos, momentos de tiempo distintos,…) y n sujetos a los que se les mide las k veces
• Coeficiente de concordancia W de Kendall. Sirve para estudiar el acuerdo o concordancia entre k conjuntos de rangos (k médicos evalúan a los mismos pacientes, ¿están de
acuerdo?)
• Prueba de Cochran. Contraste de proporciones de una variable dicotómica en k muestras
relacionadas. Tienen más que ver con tablas de contingencia por lo que no se van a ver en detalle.
En esta ocasión utilizamos los datos memoria.sav. Recoge datos sobre la calidad del recuerdo según pasa el tiempo: 1 hora, 1 día, 1 semana y 1 mes. Obviamente son 4 medidas relacionadas. Elegimos Analizar -> Pruebas no paramétricas -> Pruebas para varias muestras relacionadas. seleccionamos las variable hora, dia, semana y mes y las transferimos al cuadro contrastar variables. En el tipo de prueba seleccionamos Friedman y W de Kendall.

Diferencia de medias – 20 – Contrastes no paramétricos
Las hipótesis que se contrastan con estas dos variables son equivalentes, pero son distintas. En la prueba de Friedman se contrasta igualdad de medias, mientras que en la W de Kendall se contrasta la hipótesis de concordancia nula, es decir que las J variables son independientes. Ambas se basan en rangos promedios,
Rangos
Estadísticos de contraste(a)
a Prueba de Friedman
Se rechaza la hipótesis, luego la calidad del recuerdo no es la misma en los 4 momentos considerados.
Estadísticos de contraste
a Coeficiente de concordancia de Kendall
Se rechaza la hipótesis, es decir que entre las 4 puntuaciones existe una asociación significativa.
Rango promedio
memoria 1 hora
3,94
memoria 1 día memoria 1 semana memoria 1 mes
2,44 1,67 1,94
N
9
Chi-cuadrado gl
Sig. asintót.
18,556 3 ,000
N
9
W de Kendall(a) Chi-cuadrado
gl
Sig. asintót.
,687
18,556 3 ,000

Diferencia de medias Correlación
– 21 –
CORRELACIÓN
Hemos visto la relación entre dos variables cualitativas: tablas de contingencia, la relación entre una variable cualitativa y otra cuantitativa: comparación de grupos, y falta la relación entre 2 variables cuantitativas: la correlación.
El coeficiente de correlación de Pearson es adecuado para medir la magnitud y signo de la relación lineal entre dos variables cuantitativas. Este coeficiente varía entre -1 y 1, siendo 0 cuando no existe relación lineal. El signo indica el signo de la relación. Si es positivo la relación será directa, es decir a mayor valor de una variable mayor valor de la otra. Si es negativo, la relación será inversa, es decir a mayor valor de una variable menor valor de la otra.
Utilizamos el archivo simulaciones.sav. Elegimos Analizar -> Correlaciones -> Bivariadas. Seleccionamos las variables X1 y X2 y el coeficiente de correlación de Pearson,
El resultado es un coeficiente de correlación muy grande, muy cerca del 1, es decir existe correlación directa entre estas dos variables,
Correlaciones
** La correlación es significativa al nivel 0,01 (bilateral).
X1
X2
X1
Correlación de Pearson
1
,946(**)
Sig. (bilateral) N
,000 21 1
21 ,946(**) ,000
X2
Correlación de Pearson
Sig. (bilateral)
N
21
21

Diferencia de medias – 22 – Correlación
Cuando estudiamos la correlación entre dos variables es muy importante representar esta relación en un gráfico de dispersión. La razón es que, en primer lugar este coeficiente es muy sensible a valores extremos. En el ejemplo,
Claramente la relación la está marcando un punto muy extremo. Al eliminar este punto la correlación sigue siendo positiva, pero el coeficiente de correlación pasa de 0.946 a 0.448,
Correlaciones
* La correlación es significante al nivel 0,05 (bilateral).
También hay que tener cuidado con mezclar grupos de individuos no homogéneos. Por ejemplo las variables X3 y X4 tienen un coeficiente de correlación,
Correlaciones
** La correlación es significativa al nivel 0,01 (bilateral).
X1
X2
X1
Correlación de Pearson
1
,448(*)
Sig. (bilateral)
,048 20 1
20
N X2
Sig. (bilateral) N
20 ,448(*) ,048 20
Correlación de Pearson
X3
X4
X3
Correlación de Pearson
1
,955(**)
Sig. (bilateral) N
21 ,955(**) ,000
,000 21 1
X4
Correlación de Pearson
Sig. (bilateral)
N
21
21

Diferencia de medias – 23 – Correlación
Claramente existen dos grupos, si calculamos el coeficiente de correlación en los dos grupos por separado,
Correlaciones Grupo 1 (Id<=11) X3 X4 X3 Correlación de Pearson 1 -,558 Sig. (bilateral) ,075 11 1 11 N X4 Sig. (bilateral) N 11 -,558 ,075 11 Correlación de Pearson Correlaciones Grupo 2 (Id>11)
X3
X4
X3
Correlación de Pearson
1
,274
Sig. (bilateral)
,444 10 1
10
N X4
Sig. (bilateral) N
10 ,274 ,444 10
Correlación de Pearson
El coeficiente de correlación sólo sirve para identificar correlación lineal. En el ejemplo, entre las variables X5 y X6 no hay correlación fuerte. Gráficamente se observa una clara relación entre ellas, una relación no lineal.

Diferencia de medias Correlación
– 24 –
Correlaciones
X5
X6
X5
Correlación de Pearson
1
-,129
Sig. (bilateral)
,579 21 1
21
N X6
Sig. (bilateral) N
21 -,129 ,579 21
Correlación de Pearson
Además del coeficiente de correlación de Pearson, SPSS ofrece dos coeficientes no paramétcos,
• Tau-b de Kendall: Es una medida no paramétrica de asociación para variables ordinales o
de rangos que tiene en consideración los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.
• Spearman: Versión no paramétrica del coeficiente de correlación de Pearson, que se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para datos ordinales, o los cuantitativos que no satisfagan el supuesto de normalidad. Los valores del coeficiente van de -1 a +1. El signo del coeficiente indica la dirección de la relación y el valor absoluto del coeficiente de correlación indica la fuerza

Diferencia de medias – 25 – Correlación
de la relación entre las variables. Los valores absolutos mayores indican que la relación es mayor.