Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

U Mann Whitney Test

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

U-Mann-Whitney

Samuel Martı́nez
October 28, 2019

1 Pruebas de Dos muestras


En el tratamiento de datos es frecuente tener datos que NO se ajustan a una
distribución normal.
Los métodos estadı́sticos para el tratamiento de datos que no se distribuyen
de manera normal reciben el nombre de Métodos no Paramétricos.
Los métodos no paramétricos más útiles son las pruebas de rangos (posiciónes)
de cada observación una vez ordenados los datos.
La mayor parte de los datos que no se ajustan a la normal es debido a a
la asimétria de su distribución de probabilidad. Las distribuciones asimétricas
muestran sesgos en las colas de la distribución, luego utilizar la media como
medida de centro no es correcto.
En las pruebas no parámetricas preferimos la mediana como medida de cen-
tro. Es decir, las hipótesis de las pruebas de rangos sustituyen la media por la
mediana.
Las pruebas de rangos utilizan el centro de la variable para realizar sus
inferencias.
En primer lugar se ordenan las observaciones de menor a mayor. El rango
de cada observación es su posición en la lista ordenada.
La implicación de trabajar con rangos es que sólo tenemos en cuenta su
orden, NO los valores numéricos de las observaciones. El hecho de trabajar
con las posiciones nos permite prescindir de suposiciones sobre la forma de la
distribución de los datos.
Las hipótesis a probar son:

H0 : M ediana1 = M ediana2
Ha : M ediana1 6= M ediana2

H0 : M ediana1 ≤ M ediana2
Ha : M ediana1 > M ediana2

1
H0 : M ediana1 ≥ M ediana2
Ha : M ediana1 < M ediana2

Obtén de una población de una muestra aleatoria simple de tamaño n1 y


de otra población una muestra aleatoria simple independiente de tamaño n2 .
Tenemos un total de N observaciones, de manera que N = n1 + n2 . Ordena
todas las observaciones y asigna rangos.
El estadı́stico U − M ann − W hitney es:

n1 ∗ (n1 + 1)
U = n1 ∗ n2 + − R1
2
la media del estadı́stico U − M ann − W hitney es:
n1 ∗ n2
µU =
2
y el error estándar es:
r
n1 ∗ n2 (n1 + n2 + 1)
σU =
12
La distribución muestral del estadı́stico U puede aproximarse por la dis-
tribución normal cuando n1 y n2 son mayores que 10. Luego, el estadı́stico
calculado es
U − µU
Z=
σU
El valor crı́tico Zα se encuentra en la tabla de distribución normal.
Finalmente, si el estadı́stico calculado es mayor que el valor crı́tico, se rechaza
H0

1.1 Ejemplo:
1. Suponga que la junta directiva de una gran universidad estatal del este de
Estados Unidos desea probar la hipótesis de que las calificaciones promedio
en la prueba SAT en dos planteles de la universidad son iguales. La junta
mantiene estadı́sticas de todos los estudiantes en todos los planteles del
sistema. Una muestra aleatoria de 15 estudiantes de cada plantel produjo
los datos que se muestran en la tabla

Plantel A 1000 1100 800 750 1300 950 1050 1250


Plantel S 920 1120 830 1360 650 725 890 1600
Plantel A 1400 850 1150 1200 1500 600 775
Plantel S 900 1140 1550 550 1240 925 500

2
La junta directiva desea probar al nivel de significancia de 0.15 la hipótesis
de que estas muestras fueron extraı́das de poblaciones idénticas.
Desarrollo:
Se tiene que n1 = 15 y n2 = 15. Ahora, se organizan las calificaciones por
rangos:

Rango Calif. Plantel Rango Calif. Plantel


1 500 S 16 1000 A
2 550 S 17 1050 A
3 600 A 18 1100 A
4 650 S 19 1120 S
5 725 S 20 1140 S
6 750 A 21 1150 A
7 775 A 22 1200 A
8 800 A 23 1240 S
9 830 S 24 1250 A
10 850 A 25 1300 A
11 890 S 26 1360 S
12 900 S 27 1400 A
13 920 S 28 1500 A
14 925 S 29 1550 S
15 950 A 30 1600 S

luego los rangos son R1 = 247 y R2 = 218. El estadı́stico U es:

n1 ∗ (n1 + 1)
U = n1 ∗ n2 + − R1
2
15 ∗ 16
U = 15 ∗ 15 + − 247
2
U = 225 + 120 − 247
U = 98

la media muestral:

n1 ∗ n2
µU =
2
15 ∗ 15
µU =
2
µU =112.5

3
y el error estándar:
r
n1 ∗ n2 (n1 + n2 + 1)
σU =
12
r
15 ∗ 15(15 + 15 + 1)
σU =
12
r
6985
σU =
12

σU = 581.25
σU = 24.1

luego el estadı́stico es:

U − µu
z=
σu
98 − 112.5
z=
24.1
z = − 0.602

El valor crı́tico es z = −1.44. Es decir, no se rechaza H0 . No existe


evidencia de diferencias entre las medianas de los dos grupos.

4
1.2 Ejercicios
1. La presencia de malas hierbas, ¿reduce el rendimiento en cultivos de maı́z?
La cañota es una mala hierba común en los campos de maı́z. Un agrónomo
sembró 8 parcelas experimentales con la misma cantidad de maı́z. En 4
de ellas, escogidas al azar, se eliminaron todas las malas hierbas. En las 4
restantes se dejó una densidad de 3 cañotas por metro lineal. He aquı́ los
rendimientos del maı́z en cada una de las parcelas.

Por metro cuadrado Rendimiento


0 11.2 11.5 11.1 11.9
3 10.6 11.8 10.3 10.5

Las observaciones sugieren que los rendimientos pueden ser menores cuando
hay malas hierbas. Comprueba esta hipótesis con α = 0.05

2. Un grupo de estudiantes de la Universidad Carlos III quiere saber si el


número de ciudades españolas visitadas por los turistas japoneses es mayor
que el número de ciudades visitadas por los turistas estadounidenses. Con
este fin los estudiantes escogen una muestra aleatoria simple de 138 tur-
istas estadounidenses y 140 japoneses que visitaron Madrid el verano del
año 2000. A cada turista de la muestra se le pregunta el número de ciu-
dades españolas que piensa visitar durante su estancia en España. Los
resultados son los siguientes:

Turistas 1 2 3 4 5 más de 5
Japoneses 10 15 26 49 10 30
Estadounidenses 37 28 52 14 5 2

¿ Exite evidencia de que los turistas japoneses visitan más ciudades que
los turistas estadounidenses?

3. Pruebe la hipótesis de que no hay diferencia entre las edades de empleados


masculinos y femeninos de cierta compañı́a. Use el nivel de significancia
de 0.10.

Hombres 31 25 38 33 42 40 44 26 43 35
Mujeres 44 30 34 47 35 32 35 47 48 34

5
4. Los siguientes datos muestran horas anuales perdidas por enfermedad de
los 24 hombres y mujeres de la Northern Packing Company, Inc. Al nivel
de significancia de 0.10, ¿existe alguna diferencia atribuible al sexo?.

Hombres 31 44 25 30 70 63 54 42 36 22 25 50
Mujeres 38 34 33 47 58 83 18 36 41 37 24 48

5. Para incrementar las ventas durante los dı́as de más demanda, una cadena
de tiendas que vende queso en centros comerciales da pruebas de su pro-
ducto a la entrada de las tiendas. La administración de la cadena define
los dı́as de más venta y selecciona aleatoriamente los dı́as para repartir
muestras. De una muestra de dı́as que se consideraron fuertes en com-
pras, los siguientes datos proporcionan las ventas de una tienda en los
dı́as que dio muestras de quesos y en los que no.

Dı́as de promoción 18 21 23 15 19 26 17 18 22 20 18 21 27
Dás normales 22 17 15 23 25 20 26 24 16 17 23 21

Use nivel de significancia de 5% para decidir si regalar muestras frente a


las tiendas produjo mayores ventas.
6. Se realizó una prueba de mercado en grupos de hombres y mujeres ac-
erca de su preferencia sobre una bebida energética que está en proceso de
desarrollo para su lanzamiento al mercado. Se les pidió a los miembros
de ambos grupos que calificaran la bebida en una escala de 0 a 10 y se
obtuvieron los resultados siguientes:

Mujeres Hombres
8 2
6 10
7 7
4 6
6 6
10 8
8 6
6 5

Pruebe la hipótesis de que no existe diferencia entre las preferencias por


la bebida entre los 2 sexos, con un nivel de significación de α = 0.01.

6
7. McConaughy (1980) has argued that younger children organize stories
in terms of simple descriptive (“and then. . .”) models, whereas older
children incorporate causal statements and social inferences. Suppose that
we asked two groups of children differing in age to summarize a story they
just read. We then counted the number of statements in the summary
that can be classed as inferences. The data follow:

Younger Children 0 1 0 3 2 5 2
Older Children 4 7 6 4 8 7

(a) Analyze the data using the U-Mann-Whitney test (two-tailed).


(b) What can you conclude?

8. Kapp, Frysinger, Gallagher, and Hazelton (1979) have demonstrated that


lesions in the amygdala can reduce certain responses commonly associated
with fear (e.g., decreases in heart rate). If fear is really reduced, then it
should be more difficult to train an avoidance response in lesioned animals
because the aversiveness of the stimulus will be reduced. Assume two
groups of rabbits: One group has lesions in the amygdala, and the other
is an untreated control group. The following data represent the number
of trials to learn an avoidance response for each animal:

Group with Lesions 15 14 15 8 7 22 36 19 14 18 17


Control Group 9 4 9 10 6 6 4 5 9

(a) Analyze the data using the U-Mann-Whitney test (two-tailed).


(b) What can you conclude?

También podría gustarte