Contraste de Hipotesis
Contraste de Hipotesis
Contraste de Hipotesis
Definición de muestras
dep. e indep. Ejemplo
MUESTRAS DEPENDIENTES
E INDEPENDIENTES
CONTRASTES DE
Diferencia de Diferencia de
HIPOTESIS PARA
proporciones medias
MUESTRAS
DEPENDIENTES E
INDEPENDIENTES
Casos prácticos
Por la definición
Con Minitab
Proyecto e-Math 1
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
INTRODUCCIÓN ___________________
Además de calcular intervalos de confianza (rango de valores dentro del que se espera
encontrar un determinado parámetro de la población), se realizará lo que llamaremos prueba
de hipótesis acerca de una afirmación sobre un parámetro de la población. Para poner de
manifiesto sus aplicaciones en la vida real, pondremos ejemplos de actividades en el ámbito
económico-empresarial y en el informático. [2]
Hasta ahora, habíamos utilizado una sóla muestra aleatoria, comparando su media con un
valor supuesto de la media poblacional, es decir, nos planteábamos si era posible que
muestra con una media dada pudiera provenir de una población la media propuesta.
En este caso, extenderemos la idea anterior a dos muestras, preguntándonos si las medias
de ambas son iguales o no, es decir, el planteamiento será razonar si es posible que las dos
medias muestrales puedan provenir de dos poblaciones idénticas.
OBJETIVOS ________________________
Proyecto e-Math 2
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Dos muestras son independientes o dependientes entre sí, en función de si las observaciones
de las muestras se han obtenido de los mismos individuos u objetos o no.
Sin embargo, si las observaciones o valores de ambas muestras se obtienen de los mismos
individuos, empresas, agentes, etc., diremos que hay algo en común en dichas muestras por
lo que serán muestras “dependientes” o “no independientes”.
Ejemplo:
A continuación, para poder comparar los beneficios del sector con el año 2002, se toma otra
muestra aleatoria distinta con otras 30 empresas constructoras y analizamos sus beneficios
en el año 2002.
En este caso se trata de muestras “independientes” puesto que las observaciones de ambas
muestras se toman de distintos individuos, en este caso distintas empresas.
Sin embargo, si en el año 2002 observamos los beneficios de las mismas 50 empresas
constructoras de la muestra del año 2001, estaríamos por tanto ante muestras
“dependientes”, o “no independientes”.
Proyecto e-Math 3
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
A las personas que sufren de tensión alta, se les recomienda seguir una dieta libre de sal.
Queremos realizar un estudio para comprobar si esta dieta es efectivamente ventajosa. Para
el estudio se estudio una muestra de 8 personas y se tomó la tensión antes de empezar la
dieta y dos semanas después. Los resultados obtenidos fueron:
H0 : µA = µB
(1)
H1 : µ A < µ B (≠, >)
Observación: En el caso que tuviéramos la creencia de que el hacer dieta supone una
disminución de la presión de 2 puntos entonces el contraste deberíamos plantearlo como:
H0 : µA − µB = 2
H1 : µ A − µ B < 2 (≠, >)
Para realizar el contraste observamos en primer lugar que las muestras de antes, XA, y
después de la dieta, XB, son dependientes, puesto que se han tomado del mismo individuo.
H 0 : µd = 0
H 1 : µ d < 0 (≠, >)
El intervalo de confianza, a nivel 1-α, para µd = µA-µB viene dado por la expresión:
(
d ± t n − 1,α
2
)* S d
donde t(n-1,α/2) es el valor que, en una t-Student con n-1 grados de libertad, deja a su
derecha un área de α/2 , y Sd es la desviación estándar muestral de la v.a. d.
H 0 : µ d = µ 0
El estadístico de contraste para el test es:
H 1 : µ d ≠ µ 0 (o bien < ó >)
Proyecto e-Math 4
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
d − µd
t* = ≈ t − Sudent (n − 1)
Sd
Supongamos que un estadístico de recursos humanos desea analizar si los salarios por hora
de los obreros semiespecializados son los mismos, mayores o menores en Madrid que en
Barcelona. Los datos muestrales obtenidos son los siguientes:
Proyecto e-Math 5
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Observamos además que tal como hemos tomados las muestras éstas provienen de grupos
independientes. Realizaremos pues un contraste de hipótesis de muestras
independientes.
Denotamos:
Bajo el supuesto que los salarios (por hora) se distribuyen mediante una distribución Normal
tenemos:
σ M2
+σ B
2
X M − X B ≈ N µ M − µ B ,
nM nB
( X M− X B ) ± t (min{nM − 1, nB − 1},α / 2) S M2 S B2
+
nM nB
donde t(min{…},α/2) es el valor que, en una t-Student con los grados de libertad indicados,
deja a su derecha un área de α/2, y SM, SB son las desviaciones estándar de las muestras.
( X M − X B ) − (µ M − µ B ) H0
t* = ≈ t (min{ n M − 1, n B − 1}, α / 2)
S M2 2
+ SB
nM nB
(µ M − µ B ) H0
La expresión es el valor de la diferencia bajo la hipótesis nula. En nuestro
ejemplo H 0 : µ M − µ B = 0 por lo tanto ( µ M − µ B ) H =0. 0
Observación 1:
Proyecto e-Math 6
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
En algunos casos lo que nos interesa es discutir si el promedio de las muestras difieren
significativamente o no en un número k. Por ejemplo si en el enunciado del ejemplo anterior
nos expusieran lo siguiente:
“Por cuestiones de impuestos sabemos que en Madrid los salarios son 1Euro por hora más
que en Madrid, pero sospechamos que son más de un euro”
H 0 : µ M − µ B = 1
De este modo, el contraste de hipótesis se traduce formalmente como:
H 1 : µ M − µ B > 1
Para contrastar esta hipótesis utilizamos el mismo estadístico t* pero en este caso
( µ M − µ B ) H 0 =1.
(8,95 − 9,1) − 0
t* = = −2,83
0,4 2 0,6 2
+
200 175
Entonces como min(199,174) = 174, para 174 grados de libertad, si vamos a la tabla de la t-
student a los grados de libertad más cercanos, 150, podemos ver que el área que hay por
debajo de t* = -2,83, será menor que 0,005 que es el área por debajo del valor t = -2,609 por
tanto el p-valor, si el contraste es unilateral, será menor que 2*0,005 = 0,01.
Como el p-valor es menor que el nivel de significación, si cogemos el 5%, por tanto
rechazaremos la hipótesis nula y por tanto existe evidencia estadística de que sí existen
diferencias significativas en los salarios de los trabajadores semiespecializados en las dos
ciudades.
Ejemplo:
X M = 110 X B = 100
2
SM = 35 S B2 = 26
n M = 61 n B = 61
Contrastar la hipótesis de que la velocidad media es la misma para ambos procesadores.
Nivel de significación del 1%.
Solución 1:
Proyecto e-Math 7
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
(
( X M − X B ) ± t min{n M − 1, n B − 1},α
2
) S M2
nM
+
S B2
nB
)
en nuestro caso, tenemos una t-student con 60 grados de libertad con
α / 2 = 0.01 / 2 = 0.005 , quedaría:
35 26
(110 − 100) ± 2.6603 +
61 61
10 ± 2.66
El intervalo de confianza para la diferencia de medias al 99% es (7.34 , 12.66).
Como el intervalo no contiene el valor 0, rechazamos que las medias de los Pentium y los
AMD sean iguales.
Solución 2:
Podemos realizar un contraste de hipótesis para contestar la cuestión de forma directa.
H 0 : µ M = µ B
H1 : µ M = µ B
( X M − X B ) − ( µ Mi − µ Bo ) H 0 10
El estadístico del contraste es: t* = = = 10
2
SM 2 1
+ SB
nM nB
Supongamos que con fines de la declaración del impuesto IRPF, el Ayuntamiento de una
determinada ciudad ha estado utilizando dos métodos para listar propiedades. El primero
requiere que el dueño de la propiedad aparezca en persona ante el recabador de la
información; y el segundo método permite que el propietario envíe por correo una declaración
fiscal con la información requerida. El Alcalde de la ciudad considera que el método en el cual
se requiere la presencia de la persona produce menor errores que el otro. Autoriza la
realización de un examen de 100 listas hechas con el primer método, donde el 71% no tiene
errores y de 90 listas tomadas de los datos llegados por correo, donde el 64,4% no tiene
errores.
El Ayuntamiento desea probar, al nivel de significación del 5%, si existe diferencia entre la
información recogida entre los dos métodos.
Proyecto e-Math 8
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
En este caso queremos contrastar si hay diferencias o no entre las proporciones de errores
en el método en el que se requiere presencia respecto a las que no se requiere presencia. Si
llamamos PA a la proporción de errores (poblacionales) cometidos con el método que se
requiere presencia y PB a la proporción de errores cometidos con el método sin presencia, el
contraste anterior es equivalente a formular:
H 0 : PA = PB
H 1 : PA ≠ PB (o bien < ó >)
Las muestras en este caso son independientes. Este hecho es fundamental para que se
cumplan los resultados que damos a continuación.
Denotamos:
XA: número de errores al realizar nA pruebas en el método en el que se requiere presencia
(poblacional).
XB: número de errores al realizar nB pruebas en el método en el que NO se requiere
presencia (poblacional).
P (1 − PA ) PB (1 − PB )
( p A − p B ) ≈ N PA − PB , A +
nA nB
El intervalo de confianza, a nivel 1-α, para pA-pB viene dado por la expresión:
( 2)
( p ′A − p ′B ) ± z α
p ′A (1 − p ′A ) p ′B (1 − p ′B )
nA
+
nB
donde z(α/2) es el valor que, en una normal estándar, deja a su derecha un área de α/2 .
( p' A − p' B )
Z* =
1 1
p ' p (1 − p´ p ) +
n
A n B
Proyecto e-Math 9
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Podemos escoger diferentes versiones del valor p’p. (consultar lieteratura para ver
opciones). Una posible buena aproximación que utilizamos en los ejemplos que siguen
n A p' A + n B p' B
es p ' p = la cual es la estimación de la porción completa de éxitos de las
n A + nB
poblaciones combinadas.
El último paso será calcular el p-valor de z = 0,9729. Como el contraste es bilateral por
las dos colas, debemos buscar el área que hay por encima de z = 0,9729 y el área que
hay por debajo de z = - 0,9729 que será, p-valor = 2 * 0,1660=0,332, porque el área por
debajo de z = 0,9729 es 1-0,8340, mientras el área por debajo de z = - 0,9729 es 0,1660.
Como el p-valor es 0,332 que es mayor que el nivel de significación del 5%, no
rechazaremos la hipótesis nula, por lo tanto existe evidencia estadística de que los dos
métodos de recogida de información sobre las propiedades de esta ciudad son
igualmente fiables.
Proyecto e-Math 10
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
1 13,2 14,0
2 8,2 8,8
3 10,9 11,2
4 14,3 14,2
5 10,7 11,8
6 6,6 6,4
7 9,5 9,8
8 10,8 11,3
9 8,8 9,3
10 13,3 13,6
En primer lugar, comprobaremos el supuesto de que las poblaciones siguen una distribución
aproximadamente normal:
Proyecto e-Math 11
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
En los gráficos resultantes se observa que no hay indicios para dudar de que se cumple el
supuesto de normalidad ya que los puntos se encuentran muy próximos a las respectivas
rectas.
Además, los gráficos nos proporcionan también el p-valor asociado al test de normalidad de
Anderson-Darling, siendo dicho p-valor suficientemente grande en ambos casos como para
no descartar la hipótesis nula de este contraste: que los datos siguen una distribución normal.
,999
,99
,95
Probability
,80
,50
,20
,05
,01
,001
Proyecto e-Math 12
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
,999
,99
,95
Probability
,80
,50
,20
,05
,01
,001
6 7 8 9 10 11 12 13 14
EV_2
Av erage: 11,04 Anderson-Darling Normality Test
StDev : 2,51847 A-Squared: 0,236
N: 10 P-Value: 0,715
Proyecto e-Math 13
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Los resultados obtenidos nos dicen que, en base a las observaciones registradas, hay una
probabilidad de 0,95 de que µA-µB sea un valor del intervalo (-0,688 , -0,134). Además, con
un p-valor de 0,008 también podemos afirmar que hay indicios suficientes como para
descartar la hipótesis nula. Por tanto, parece sensato pensar que las dos medias
poblacionales son distintas. Notar que esta conclusión es coherente con que el valor 0 no
esté incluido en el intervalo de confianza hallado para la diferencia de ambas medias.
• Una agencia de valores desea analizar qué éxito han tenido sus nuevos comerciales
en la obtención de nuevos clientes para la intermediación bursátil. Para ello, se
tomaron dos muestras de 8 comerciales hombres y 8 comerciales mujeres donde se
observó la cantidad de nuevas cuentas conseguidas por cada comercial (hombre o
mujer) en el primer mes de trabajo.
Proyecto e-Math 14
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
a) Construir una nueva columna con las diferencias entre C1 y C2. Hallar el intervalo de
confianza a nivel del 95% para la media de dichas diferencias.
Así generamos una nueva columna formada por la diferencia entre los valores registrados.
Seleccionamos ahora Stat > Basic Statistics > 1-Sample t :
Proyecto e-Math 15
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
T Confidence Intervals
De este resultado deducimos que en el 95% de los casos la diferencia de nuevos clientes
conseguidos entre comerciales hombres y mujeres estará entre –1 y 3, es decir, un máximo
de 3 nuevos clientes.
H0 : µA = µB;
H1 : µA ≠ µB;
De donde,
H0 : µB-A = µB - µA = 0 ;
H1 : µB-A = µB - µA ≠ 0;
Proyecto e-Math 16
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Observar que el p-valor obtenido 0,28 es mucho mayor que 0,05 por lo cual no hay indicios
suficientes para rechazar la hipótesis nula. Esto quiere decir que las dos medias no son
significativamente diferentes.
• Supongamos que disponemos los datos sobre las calificaciones obtenidas por dos
grupos de estudiantes de Estadística de la UOC.
Grupo 1 Grupo 2
5 6.25
7.5 5.75
6 5
2.5 4.75
8 8
9 9
7 7.5
6 8
4 9
3.75 10
9
10
8.25
9
6
Proyecto e-Math 17
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
a) Calcular la un intervalo de confianza para cada una de las dos poblaciones al nivel de
confianza del 95%. Comentar los resultados.
Para calcular un intervalo de confianza debemos usar las opciones Stat > Basic Statistic >
1-Sample t, pues no tenemos información acerca de la varianza de la población.
Si nos fijamos en los dos intervalos de confianza, estos se solapan. Esto implica que si
estamos interesados en comparar las medias de ambas poblaciones, estas media pertenecen
a intervalos con parte en comun, lo cual hace pensar que estas medias poblacionales, es
decir, las medias del grupo1 y del grupo2 pueden ser iguales. En el siguiente apartado
veremos si tras contrastar la hipótesis de igualdad de medias podemos concluir lo mismo.
Proyecto e-Math 18
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Proyecto e-Math 19
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
c) Que error de equivocarnos, si concluimos que hay diferencias entre las poblaciones,
deberíamos estar dispuestos a asumir.
Si observamos por ejemplo el caso en el cual consideramos las varianzas iguales en las dos
poblaciones, el error de equivocarnos al rechazar la hipótesis de igualdad de medias es de
0,47. Este error es muy alto, por lo que debemos concluir que no podemos rechazar la
hipótesis nula de igualdad de medias.
d) Comentar y contrastar las hipótesis que hemos asumido para poder realizar el
experimento de comparar las dos muestras.
Las hipótesis que hemos utilizado para poder realizar el ejercicio son:
Proyecto e-Math 20
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
,999
,99
,95
Probability
,80
,50
,20
,05
,01
,001
El p-valor del contraste es >0,15. Por lo tanto no podemos rechazar la hipótesis de que los
datos provengan de una distribución normal.
,999
,99
,95
Probability
,80
,50
,20
,05
,01
,001
5 6 7 8 9 10
Grupo2
Average: 7,325 Kolmogorov-Smirnov Normality Test
StDev: 1,80682 D+: 0,124 D-: 0,139 D : 0,139
N: 10 Approximate P-Value > 0.15
Proyecto e-Math 21
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Proyecto e-Math 22
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
Sample X N Sample p
1 58 2000 0,029000
2 61 2500 0,024400
El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, está entre -
0,0049 y 0,0141. Esto parece apuntar a que el porcentaje de empresas que tiene alguna
anomalía en sus cuentas contables no es significativamente diferente en los dos años.
El estadístico de contraste es z = 0,96 cuyo p-valor es 0,339 que al ser menor que el nivel
de significación del 5%, el p-valor resulta coherente con la impresión anterior, por lo que no
rechazaremos la hipótesis nula.
Es inmediato comprobar que se cumplen los supuestos para este caso, por lo que
pasaremos a calcular un intervalo de confianza del 95% para la diferencia entre
proporciones y a realizar el correspondiente test de hipótesis:
Proyecto e-Math 23
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, tiene por
extremos los valores positivos 0,003 y 0,117 (observar que no contiene el valor 0, aunque por
muy poco). Esto parece apuntar a que el porcentaje de defectos en los discos del anunciante
es significativamente superior al porcentaje de la competencia. Para un nivel de significación
del 0,05, el p-valor resulta coherente con la impresión anterior, por lo que resulta sensato
rebatir la afirmación del anunciante (si bien las cosas cambiarían si tomásemos α = 0,01).
Proyecto e-Math 24
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Contraste de hipótesis de dos poblaciones
BIBLIOGRAFÍA ___________________________________
[1] D.A. Lind, R.D. Mason, W.G. Marchal (2001): “Estadística para Administración y Economía”.
Ed. Irwin McGraw-Hill.F.
[4] Richard I. Levin & David S. Rubin (1996): “Estadística para Administradores”. Ed. Prentice
Hall.
[5] Cuadras, Carles M.: “Problemas de probabilidades y estadística Barcelona” : EUB, 1995.
ENLACES ___________________________________
Proyecto e-Math 25
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)