c02 Estadistica No Parametrica
c02 Estadistica No Parametrica
c02 Estadistica No Parametrica
ESTADÍSTICA NO PARAMÉTRICA
1. Introducción
2. Medición
Se define a la medición como la asignación de números a objetos o eventos de acuerdo con
un conjunto de reglas. Las diversas escalas de medición son consecuencia del hecho de que la
medición puede llevarse a cabo según diferentes conjuntos de reglas. En orden de menos a más,
por su nivel, las escalas que se utilizan son:
Una prueba útil (no significa que sea la mejor) para datos en escala nominal, también lo
es para datos en escalas superiores. Por lo contrario, una prueba que es útil para datos en
escala de intervalo es inaplicable para datos de escala inferior.
EJEMPLO 1: Los datos 14.5, 10.3, 11.0, 8.5 y 15.8, pueden ordenarse de menor a mayor
y tener rangos respectivamente:
EJEMPLO 2: Los números 9, 5, 11, 9, 12, 16 y 8 reciben los rangos de 1 a 7, pero hay un
empate de 9 con los rangos 3 y 4. Se calcula media de 3 y 4 (que es 3.5) y asignamos los rangos:
Datos ordenados: 5 8 9 9 11 12 16
Rangos: 1 2 3.5 3.5 5 6 7
De manera similar, si el empate es de las tres observaciones más pequeñas cuyos rangos son 1, 2
y 3, entonces a cada una se le asigna el rango medio (1+2+3) / 3 = 2
PRESENTACIÓN DE CASO:
El trabajo se realizó durante el otoño del 2007, la muestra fue de 25 chiscos capturados con una red entre las 13 y 15 horas,
desde el 4 hasta el 8 de junio de ese año.
La conclusión mas importante es que la mayor afluencia es de chiscos (Mimus longicaudatus) adultos, no encontrándose
diferencia significativa (prueba de signos con =.05), respecto al tamaño planteado
La prueba del signo es una de las pruebas no paramétricas más sencillas de utilizar. Su nombre
proviene del hecho en que se basa en la dirección (o signo) de los datos en lugar de su valor
numérico.
La prueba se usa cuando:
No es posible suponer normalidad de los datos
Los datos disponibles están en escala ordinal, por lo menos
La prueba supone que la muestra se obtiene de una población simétrica en la cual la probabilidad
de que un valor muestral sea menor que la mediana (media) es 1/2 e igual a la probabilidad de
que sea mayor.
Para los cálculos de la prueba los datos son signos + y –, dependiendo si las observaciones están
por arriba o por debajo de la mediana hipotética.
PROCEDIMIENTO
4. Decisión
Cuando H1: P(+) < P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de observar s ó
menos signos + es menor ó igual que
Cuando H1: P(+) > P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de observar s ó
menos signos – es menor ó igual que
Cuando H1: P(+) P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de obtener un valor
de s tanto ó más extremo como el que se calculó, es menor ó igual que /2.
OBSERVACIONES
1. La estadística de prueba S tiene distribución Binomial (n, =1/2)
2. Si el tamaño de muestra n, es pequeño, se usará la verdadera distribución.
Si n es grande (n >30), la distribución de S se puede aproximar por la normal con parámetros
= n y = n (1– ), luego con la corrección de continuidad,
s 1 / 2 n
P ( S s ) P Z
n (1 )
PRUEBA DE NORMALIDAD
60
50
40
30
20
10
1
-40 -20 0 20 40 60 80 100
Presas
PROCEDIMIENTO:
Mar Abr May Jun Jul Ago Set Oct Nov Dic
+ – – – – + – – – –
Suponga una situación con una muestra de tamaño n = 40 (grande), en la cual se observaron 11
signos – y 29 signos +.
11 0.5 40(1 / 2)
P( S 11) P Z = PZ 2.69 = 0.0036
40(1 / 2)(1 / 2)
Luego, se rechaza H0
Un dato pareado o de una muestra pareada es un dato bivariado (x,y) que corresponde a:
Dos variables obtenidas para un mismo elemento de la población.
Una variable obtenida en un mismo elemento de la población, en dos momentos distintos o
por dos observadores.
La prueba se usa cuando:
No son satisfechas las suposiciones de la prueba t
Los datos disponibles están en escala ordinal, por lo menos
La prueba se basa en las medianas de X e Y. Supone que se muestrean dos poblaciones simétricas
que son dependientes, relacionadas.
La prueba compara los valores del par observado y se basa en la dirección de esta diferencia. Se
toma la pareja de datos de la observación i y se obtiene la diferencia xi – yi, la cual puede ser
mayor que 0 ó menor que 0, es decir, tener signo + ó –. Si la diferencia entre las medianas es 0, se
esperaría que un par xi , yi cualquiera tenga igual probabilidad de dar un signo + ó –.
PROCEDIMIENTO
La hipótesis
H0: Mex = Mey , (Mex – Mey = 0) ó equivalentemente
H0: P (xi > yi ) = P (xi < yi) = 1/2
También se puede plantear,
H0: P(+) = P(–) = 0.5
En una muestra aleatoria se esperaría que el número de signos + y – sea casi igual. Si existen más
signos + ó – que los que pueden atribuirse únicamente al azar, cuando H0 es verdadera, se dudará
de la veracidad de H0. Mediante la prueba de signos, es posible determinar cuántos signos de uno
u otro tipo son más de los que pueden atribuirse únicamente al azar.
El procedimiento continúa como en el caso de una muestra.
PRESENTACIÓN DE CASO:
… …
Se usa cuando se desea probar una hipótesis con respecto a la media de una población, pero
por alguna razón, ni Z ni t resultan adecuadas como estadística de prueba.
La prueba del signo no sea aconseja porque podría desperdiciarse demasiada información
contenida en los datos.
La prueba utiliza en lugar de los signos, las magnitudes de las diferencias entre las observaciones
y el parámetro de interés ordenadas por rangos.
Las hipótesis que pueden probarse para alguna media de población no conocida:
4. Encontrar las estadísticas: T+, la suma de las categorías con signo + y T –, la suma de las
categorías con signo –.
El valor calculado se compara con los valores críticos de la estadística de prueba de Wilcoxon
que se encuentran en la tabla correspondiente. Los valores se presentan para todas las muestras de
tamaño 5 hasta n = 30.
a: T
R i
. Luego se usa la aproximación de la distribución normal estándar.
n(n 1)(2n 1)
6
Suponga el estudio del efecto de una dieta en 15 animales de laboratorio en los que se midió el
aumento de peso en gramos de cada uno de ellos:
4.91 4.10 6.74 7.27 7.42 7.50 6.56 4.64 5.98 3.14 3.23
5.80 6.17 5.39 5.77
Se desea probar la hipótesis de que el incremento de peso en media fue de 5.05 gramos.
PROCEDIMIENTO
La estadística de prueba es el menor entre los valores T, en este caso T - = 34, la pregunta es ¿es
suficientemente pequeño para rechazar H0?
Recién
sacrificados Recalentados Diferencia Rango
573 481 92 18
482 343 139 19
377 383 -6 -3
390 380 10 5
535 454 81 17
414 425 -11 -6
438 393 45 15
410 435 -25 -10
418 422 -4 -2
368 346 22 9
445 443 2 1
383 342 41 13
391 378 13 8
410 402 8 4
433 400 33 11.5
405 360 45 15
340 373 -33 -11.5
328 373 -45 -15
400 412 -12 -7
Probability Plot of di
Normal
99
Mean 20.79
StDev 45.84
95 N 19
AD 0.472
90
P-Value 0.216
80
70
Percent
60
50
40
30
20
10
1
-100 -50 0 50 100 150
di
d 20.79
t0 1.9767
sd / n 45.845 / 19
Por tanto concluimos que no existen diferencias entre las medias o las constantes son las mismas.
Resultados en MINITAB
T-Test of mean difference = 0 (vs not = 0): T-Value = 1.98 P-Value = 0.064
PRESENTACIÓN DE CASO:
Algunas conclusiones:
La prueba de Mann Whitney registró que los huevos eclosionados fueron de mayor tamaño, particularmente más largos, que
los no eclosionados, además se observó que el peso inicial de los pichones que sobrevivieron tiende a ser mayor, aunque no
significativamente, que el peso de aquellos pichones que murieron antes de alcanzar el mes de vida.
Alternativa a la prueba t para la diferencia de dos medias. La prueba utiliza la información de los
datos ordenados por rangos. Las preguntas que se hacen y que la prueba va a responder son:
¿Hay tendencia de una población a producir valores más grandes que la otra población?
¿Son las medianas de las poblaciones iguales?
PROCEDIMIENTO
Combinar los valores de ambas muestras aleatorias y luego asignar rangos (de menor a mayor)
sin importar a que población pertenece cada valor y considerando empates o coincidencias.
Si la mediana de la población X es, en efecto, más pequeña (o más grande) que la mediana de la
población Y, es de esperar, (para muestras de igual tamaño) que la suma de los rangos asignados
a las observaciones de X sea menor (o mayor) que la suma de los rangos asignados a las
observaciones de la población Y.
La prueba estadística se basa en la estadística U = mín (U1, U2 ), donde U1 y U2 son funciones de
Rx y Ry de la forma siguiente:
n1 (n1 1) n2 (n2 1)
U1 n1n2 Rx U 2 n1n2 Ry
2 2
Animales expuestos 14.4 14.2 13.8 16.5 14.1 16.6 15.9 15.6 14.1 15.3
X 15.7 16.7 13.7 15.3 14.0
Animales no expuestos Y
17.4 16.2 17.1 17.5 15.0 16.0 16.9 15.0 16.3 16.8
X Rango Y Rango
13.7 1
13.8 2
14.0 3
14.1 4.5
14.1 4.5
14.2 6
14.4 7
15.0 8.5
15.0 8.5
15.3 10.5
15.3 10.5
15.6 12
15.7 13
15.9 14
16.0 15
16.2 16
16.3 17
16.5 18
16.6 19
16.7 20
16.8 21
16.9 22
17.1 23
17.4 24
17.5 25
Rx = 145 Ry = 180
n1 (n1 1) 15 16
U 1 n1 n 2 R x 15 10 145 125
2 2
n (n 1) 10 11
U 2 n1 n 2 2 2 R y 15 10 180 25
2 2
U = mín ( U1 , U2 ) = 25
Luego, se rechaza H0. La prueba resultó significativa. Es posible concluir que la inhalación
prolongada de óxido de cadmio disminuye el nivel de hemoglobina (p<0.05)
OBSERVACIONES
DECISIÓN
W = 145.0
PRESENTACIÓN DE CASO:
EJEMPLO: CSSCCCCSSSCCSCSSC
n1 = 9 número de caras
n2 = 8 número de sellos
r = 9 número de rachas
El estadístico r tiene su propia distribución muestral y su prueba.
Demasiadas o muy pocas rachas en una muestra indican que intervino otro factor además de la
casualidad cuando ocurrieron (o se seleccionaron) los elementos. En otras palabras, los elementos
no son aleatorios.
Sí n1 ó n2 > 20, la distribución de r puede aproximarse mediante una distribución normal
2 n1 n2 2 n1 n2 (2 n1 n2 n1 n2 )
r = 1 y r =
n1 n2 (n1 n2 ) 2 (n1 n2 1)
CÁLCULOS:
n1 = 29 (ocurrencias M), n2 = 11 (ocurrencias F), r = 17
2 29 11 2 29 11 (2 29 11 29 11)
r 1 16.95 y r 2.4727
29 11 (29 11)2 (29 11 1)
La región de validez de H0 es: r ± Z/2 r
rinf = 16.95-1.96(2.4727) = 12.1
rsup = 16.95+1.96(2.4727) = 21.8
CONCLUSIÓN:
Se acepta H0, la muestra es aleatoria. Se puede afirmar que los nacimientos de machos y hembras
están ocurriendo aleatoriamente. No hay ocurrencias que nos hagan pensar lo contrario.