Análisis de Datos Categóricos - Prueba Chi-Cuadrado
Análisis de Datos Categóricos - Prueba Chi-Cuadrado
Análisis de Datos Categóricos - Prueba Chi-Cuadrado
El EXPERIMENTO MULTINOMINAL
Cuando presentamos la variable aleatoria binomio, hicimos inferencias acerca del parámetro
binomial p (y por default, q 1 p ) usando métodos de muestra grande basados en la
estadística z . En este capitulo, extendemos esta idea para hacer inferencias acerca de los
parámetros multinomiales, p1 , p2 ,..., pk , usando un tipo diferente de estadística. Esta
estadística, cuya distribución de muestreo aproximada fue derivada por un estadístico ingles
llamado Karl Pearson en 1900, se llama estadística ji cuadrada (o a veces ji cuadrada de Pearson)
La prueba Chi- Cuadrado o Ji- Cuadrado es una de las más utilizadas en estadística, tiene usos
adicionales con mayor frecuencia para el análisis o conteo de frecuencias. Por ejemplo es posible
saber para una muestra de pacientes hospitalizados cuantos son varones y cuántos son mujeres.
Para la misma muestra, también es posible saber cuántos tiene seguro de vida particular, cuantos
tienen seguros para gastos médicos y cuantos tienen asistencia médica.
Es posible saber, para la población de la que se extrajo la muestra, si el tipo de seguro de vida es
diferente de acuerdo con el sexo.
Otro uso, quizá el mas frecuente, de la distribución Ji- cuadrado es el de probar la hipótesis nula
que indican que dos criterios de clasificación son independientes cuando se aplican al mismo
conjunto de entidades.
Por ejemplo, si el nivel socioeconómico y el área de residencia de los habitantes de cierta ciudad
son independientes, se esperaría encontrar la misma proporción de familias en los grupos
socioeconómicos bajo, medio y alto en todas las aéreas de la ciudad.
Planteamiento de la hipótesis
r c (Oij Eij ) 2
2
i j Eij
Df=(r-1) (c-1)
Dada la hipótesis de independencia de las dos variables, la frecuencia esperada relacionada con
cada casilla de una tabla de contingencia debería ser proporcional al total de frecuencias
observadas incluidas en la fila y columna en la que está ubicada la casilla, e relación con el tamaño
total de la muestra.
Tabla de contingencia 2 x 2
Una tabla de contingencia con dos filas y dos columnas es un caso particular de independencia de
criterios se presenta cuando los sujetos se categorizan según 2 factores o criterios, cada uno de los
cuales ocurre en dos niveles.
2
ad bc 0.5n n 2
a b a c b d c d
Primer criterio de
Segundo criterio clasificación Total
de clasificación
1 2
1 a b a+b
2 c d c+d
Total a+c b+d a+b+c+d
La frecuencia teórica mínima par la tabla de 2x2 no debe ser menor de 5 y no debe emplearse 2
cuando n es menor que 40. La corrección por continuidad puede omitirse si n≥ 50 y usar como
función
r s (Oij Eij ) 2
2 con 1 gl.
i j Eij