Prueba Chicuadrado - 2020 - II
Prueba Chicuadrado - 2020 - II
Prueba Chicuadrado - 2020 - II
PRUEBA CHICUADRADO χ 2
Las pruebas Chi cuadrado consisten en sacar conclusiones directamente de las observaciones
muestrales, sin formular los supuestos a cerca del tipo de distribución de la población de la que
proviene. La prueba Chi cuadrada que se relaciona con las tablas de contingencia nos permite
realizar las siguientes pruebas:
Pruebas de bondad de ajuste (para una variable).
Prueba de independencia de dos variables estadísticas (para dos variables)
Prueba de homogeneidad de muestras (para dos variables)
TABLAS DE CONTINGENCIA
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número
de casos o individuos que poseen un nivel de uno de los factores o características analizadas y
otro nivel del otro factor analizado.
Por ejemplo: podemos saber si el género de una persona es un factor determinante en que dicha
persona fume o no fume.
GENERO
FUMA VARÓN MUJER TOTAL
SI O11 O12 O1.
NO O21 O22 O2.
TOTAL O.1 O.2 n
Donde:
Oij= número de observaciones que tienen el atributo i y j
O i ∙ = número de observaciones que tienen el atributo i
O∙ j= número de observaciones que tienen el atributo j
La tabla de contingencia se define por el número de atributos o variables que se analizan
conjuntamente y el número de modalidades o niveles de los mismos.
El ejemplo propuesto es una tabla de contingencia 2x2, ya que tiene dos atributos (FUMA y
GÉNERO) y cada uno de ellos tiene dos niveles.
1. Formulación de hipótesis
H 0 : Las variables son independientes es decir no hay asociación entre las variables
consideradas
H A : Las variables son dependientes es decir hay asociación entre las variables
consideradas
3. Estadístico de prueba
r c 2
2 ( oij −e^ ij ) 2
χ cal =∑ ∑ se distribuye con una χ ( α ) , v gl
i=1 j=1 e^ ij
Donde:
o ij: Se denomina frecuencia observada
e^ ij: Se denomina frecuencia esperada
oi ∙ ×o ∙ j
e^ ij =
n
v=(r−1)(c−1)
r : Número de filas
c : Número de columnas
4. Región critica
Donde: v=(r−1)(c−1)
5. Conclusión
2 2
Si χ cal >χ ( α ) ,v gl se rechaza la hipótesis nula, caso contrario se acepta.
EJEMPLO 1
Determinar si el género de una persona se relaciona con el hábito de fumar, utilice un
nivel de confianza del 95%
Hábito de Género
Total
fumar Varón Mujer
Si 65 58 123
No 43 67 110
1. Formulación de hipótesis
H 0 : El género de una persona no se relaciona con el hábito de fumar
H A : El género de una persona se relaciona con el hábito de fumar
3. Estadístico de prueba
r c 2 r c 2
2 ( oij −e^ ij ) ( Dij ) 2
χ cal =∑ ∑ =∑ ∑ se distribuye con una χ ( α ) , v gl
i=1 j=1 e^ ij i=1 j=1 e^ ij
oi ∙ ×o ∙ j
e^ ij =
n
108 ×123
e^ 11= =57.01
233
125 ×123
e^ 12= =65.99
233
108 × 110
e^ 21= =50.99
233
125 × 110
e^ 21= =59.01
233
Genero
4. Región critica
χ 20 = χ 2 [ α , ( v ) gl ] = χ 2 [ 0.05 , ( 1 ) gl ] Cola a la derecha = 3.841
Gráfica de distribución
Chi-cuadrada; df=1
1,6
1,4
1,2
1,0
Densidad
0,8
0,6
0,4
0,2
0,05
0,0
0 3,841
4.42
X
5. Conclusión
Como χ 2cal ¿ χ 20 entonces se rechaza la hipótesis nula, es decir, al 95% de confianza se
En la opción Chi cuadrada, activamos: Prueba chi cuadrado y en estadísticas que se mostraran
en cada celda activamos conteos de celdas esperados
Gráfica de distribución
Chi-cuadrada; df=1
1,6
1,4
1,2
1,0
Densidad
0,8
0,6
0,4
0,2
0,05
0,0
0 3,841
X
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 4,418 1 0,036 < 0.05
Relación de verosimilitud 4,436 1 0,035
Tabla 1
Hábito de fumar y género
Género
Hábito de Total
fumar Varón Mujer
f % f % f %
Mediante la prueba Chi cuadrado y al 95% de confianza se afirma, que el género de una
persona se relaciona con el hábito de fumar, con p=0,036<0,05
EJEMPLO 2
500 artículos se escogieron al azar del total de artículos producidos estos se clasificaron según
su calidad: 1, 2 y 3 y según su línea de producción: 1, 2 y 3, como se indica en la tabla siguiente
Línea de producción
Calidad del
producto Línea 1 Línea 2 Línea 3 Total
C1 40 90 70 200
C2 50 60 60 170
C3 60 50 20 130
Total 150 200 150 500
A un nivel de confianza del 95% ¿Puede inferir que la calidad del producto es independiente de
la línea de producción?
1. Formulación de hipótesis
H 0 : La calidad del producto es independiente de la linea de produccion.
H A : La calidad del producto depende de la línea de producción.
3. Estadístico de prueba
r c 2 r c 2
2 ( oij −e^ ij ) ( Dij )
χ cal =∑ ∑ =∑ ∑
i=1 j=1 e^ ij i=1 j=1 e^ ij
Línea de producción
Línea 1 Línea 2 Línea 3 TOTAL
Calidad del
producto o ij e ij Dij o ij e ij Dij o ij e ij Dij
C1 40 90 70 200
C2 50 60 60 170
C3 60 50 20 130
TOTAL 150 200 150 500
En la opción Chi cuadrada, activamos: Prueba chi cuadrado y en estadísticas que se mostraran
en cada celda activamos conteos de celdas esperados
EJEMPLO 3
Se realizó un estudio a los alumnos ingresante a la universidad para ver a que le dan
mayor prioridad de entre tres posibilidades tener buenas notas, destacar en deportes o
ser popular entre los compañeros.
Prioridad
Género Deporte
Notas Popular
s
Mujer 17 101 75
Varón 51 95 38
1. Formulación de hipótesis
H 0 : Las variables son independientes es decir no hay asociación entre las variables
consideradas
H A : Las variables son dependientes es decir hay asociación entre las variables
consideradas
EJEMPLO 4
La siguiente tabla muestra la relación entre el desempeño de estudiantes en matemáticas
y estadística. Pruebe la hipótesis de que el desempeño en estadística es independiente
del desempeño en matemáticas.
Matemática
Estadística Calificacione
Calificaciones Calificaciones
s
altas Bajas
medias
Calificaciones altas 56 71 12
Calificaciones
47 163 38
medias
Calificaciones bajas 14 42 85
1 Formulación de hipótesis
H 0 : El desempeño en estadística es independiente del desempeño de los estudiantes de
matemática.
H A : El desempeño en estadística es dependiente del desempeño de los estudiantes de
matemática.
2 Nivel de significación: 0.05
3 Estadístico de prueba
Filas: CALIFICACIONES ESTADISTICA Columnas: CALIFICACIONES
MATEMATICA
Calificaciones Calificaciones Calificaciones
altas matem bajas matem medias matem Todo
Calificaciones altas estad. 56 12 71 139
10.61 2.27 13.45 26.33
30.80 35.54 72.66
Calificaciones bajas estad. 14 85 42 141
2.65 16.10 7.95 26.70
31.24 36.05 73.70
Calificaciones medias estad. 47 38 163 248
8.90 7.20 30.87 46.97
54.95 63.41 129.64
Todo 117 135 276 528
22.16 25.57 52.27 100.00
Contenido de la celda
Conteo
% del total
Conteo esperado
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 145.781 4 0.000
Relación de verosimilitud 134.756 4 0.000
REGIÓN CRITICA
145.8
Conclusión
Como χ 2cal ¿ χ 20 entonces se rechaza la hipótesis nula, es decir, al 95% de confianza se afirma
TRABAJO GRUPAL 2
TAREA 1
Un investigador estudia el nivel de efectividad de tres remedios R1, R2 y R3 para aliviar cierta
enfermedad. Para esto escogió tres muestras aleatorias de tamaños 50, 70 y 60 de pacientes con
la enfermedad, suministrando a la primera el remedio R1, a la segunda el remedio R2 y a la
tercera el remidió R3 y midiendo la efectividad de los remedios en tres niveles: sin alivio, cierto
alivio y alivio total. Los resultados se muestran a continuación.
Sin alivio 10 20 15
Cierto alivio 30 20 20
Alivio total 10 30 25
Puede Ud. Inferir al 95% de confianza que los tres remedios para la alergia son igualmente
efectivos.
TAREA 2
A una muestra de empleados de la UAC clasificados como: docentes, estudiantes y de servicios,
se les pidió que escogieran entre tres planes de seguro familiar: A, B y C. En el cuadro se dan
los resultados:
Plan de Seguro
Tipo de labor
A B C
Docente 100 150 60
Estudiante 40 70 20
Servicios 20 40 10
Se quiere probar si hay relación entre el plan de seguro que seleccionaron y el tipo de labor que
desempeñan con un nivel de significancia del 5%.
1. Formulación de hipótesis
H 0 : El plan de seguro que escogieron los docentes, estudiantes y los de servicios es
independiente de la labor que desempeñan los mismos.
H A : : El plan de seguro que escogieron los docentes, estudiantes y los de servicios es
dependiente de la labor que desempeñan los mismos.
2. Nivel de significación: 0.05
3. Estadístico de prueba
Filas: Tipo de labor Columnas: Plan de seguro
A B C Todo
Docente 100 150 60 310
19.61 29.41 11.76 60.78
97.25 158.04 54.71
Estudiante 40 70 20 130
7.84 13.73 3.92 25.49
40.78 66.27 22.94
Servicios 20 40 10 70
3.92 7.84 1.96 13.73
21.96 35.69 12.35
Todo 160 260 90 510
31.37 50.98 17.65 100.00
Contenido de la celda
Conteo
% del total
Conteo esperado
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
4. REGIÓN CRITICA
2.745
5. Conclusión
Como χ 2cal ¿ χ 20 entonces se acepta la hipótesis nula, es decir, al 95% de confianza se afirma que
el plan de seguro que escogieron los docentes, estudiantes y los de servicios es independiente
de la labor que desempeñan los mismos
6. Conclusión con Minitab
Como p = 0.601 < 0.05 entonces se acepta la hipótesis nula, es decir, al 95% de confianza se
afirma que el plan de seguro que escogieron los docentes, estudiantes y los de servicios es
independiente de la labor que desempeñan los mismos
TAREA 3
Una muestra aleatoria de 200 adultos se clasifico de acuerdo a su sexo y al número de horas que
miran televisión durante la semana. Las frecuencias observadas se dan en la siguiente tabla:
Número de horas que miran TV
Sexo
Menos de 15 horas Al menos 15 horas
Varones 55 45
Mujeres 40 60
Con esta información se puede concluir, al nivel de significancia del 5% ¿Qué el tiempo
utilizado para ver televisión es independiente del sexo?
TAREA 4
Se seleccionó una muestra de 800 votantes y se les clasifico de acuerdo a su nivel de ingresos
como: bajo, medio, alto y según su opinión con respecto a una reforma impositiva en: a favor,
en contra, sin decisión, las frecuencias observadas se dan en la siguiente tabla:
Ingresos
Opinión
Bajo Medio Alto
A favor 200 130 70
En contra 60 60 80
Sin decisión 40 60 100
¿Hay relación entre la opinión de los votantes y su nivel de ingresos? Use el nivel de
significancia del 5%
TAREA 5
Un investigador realizo un estudio para determinar si el tamaño de familia depende del nivel de
educación del padre. La muestra se clasifico de acuerdo al nivel de educación y al número de
hijos, en la siguiente tabla:
Número de hijos
Nivel de educación
0-1 2 3 4 >=5
Primaria 20 18 12 14 30
Secundaria 50 25 18 16 24
Superior 12 6 4 8 12
¿Se puede inferir que el tamaño de familia es independiente del nivel de educación del padre?
Use un nivel de significancia del 5%.