Supuestos Del Modelo de Normalidad
Supuestos Del Modelo de Normalidad
Supuestos Del Modelo de Normalidad
Normalidad de Residuos
(Solo cuando se realiza inferencia)
Realizado por:
Loor Neira Jennyfer
Colcha Guaspa Erika
Proaño Genesis
Semestre:
Cuarto “2”
Objetivo
Estudiar la importancia e implicaciones del supuesto de
normalidad en el modelo de regresión lineal y de manera
específica en la inferencia estadística de sus parámetros y la
aplicación de la prueba de Jarque-Bera utilizada para detectar
si los términos en el modelo siguen o no una distribución
normal.
¿Qué es la normalidad?
Es uno de los supuestos que se consideran en el modelo de Regresión
Lineal Múltiple
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Patrones en los gráficos de Residuos
Patrón Lo que podría indicar el patrón
Dispersión irregular o en forma de embudo o Varianza no constante (Heterocedasticidad )
abanico
Curvilíneo Falta incluir algún término de mayor orden.
(Cuadrtico, cúbico )
Aumento o disminución de puntos Outlier
Predominio de residuos positivos o negativos. Outlier
Un patrón de "abanico". Es decir, los residuos son cercanos a 0 para valores de x pequeños y
están más extendidos para valores de x grandes.
Un patrón de "canalización". Es decir, los residuos se separan para valores de x pequeños pero
se cercan a 0 para valores de x grandes.
Un patrón más complejo.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Importancia del Supuesto de Normalidad
En el contexto del modelo de regresión múltiple, los estimadores de MCO se distribuyen
como una función de densidad de probabilidad normal.
Esta propiedad permite realizar inferencia estadística sobre el modelo a través de
probar diferentes hipótesis en los valores de los estimadores:
t-Student´s F-estadística cuadrada
El rechazo de normalidad en los errores afecta el valor de los estadísticos de las pruebas
de hipótesis como el t-Student y F. Los valores de los estadísticos son sensibles a la
distribución normal
• El valor del estadístico ji-cuadrada también se ve afectado. Bajo condiciones de No-
normalidad el valor crítico del ji-cuadrado se modifica
• Los estimadores siguen siendo insesgados, pero cuando no se cumple el supuesto de
normalidad se pierde eficiencia.
International Statistical Review(1987),55,pp.163-172.Printed in
Great Britain.International Statistical Institute
Especificación del modelo
Considere que la variable dependiente es explicada por K-1 variables independientes, esto
es, donde , . . . , son los parámetros del modelo, es la
variable dependiente, las ’s, 𝑘 = 2, . . . ,𝐾, son las variables independientes, 𝜀𝑡 es el término
o error 97 estocástico, t, 𝑡 = 1, . . . , 𝑇, es un índice que indica el número de la observación
y T es el total de observaciones.
El
1. modelo
está formulado en el momento o periodo t, por ello las variables y el término
estocástico están indexados con ese subíndice; mientras que el subíndice k en las variables
independientes o explicativas, indica el número de la variable en la ecuación de regresión.
En la especificación anterior se distinguen dos partes, la determinista o también conocida
como forma funcional, dada por
y la estocástica, que no es más que el término o error aleatorio .
1.
Esta especificación y todo lo que sigue es válido c uando en lugar de variables en series de
tiempo se introducen en corte transversal. 𝜀 )′ y
𝛽 )′ . Observe que el vector y está constituido por las T observaciones de la variables
dependiente, la matriz X de dimensión 𝑇 × 𝐾 , por una columna de unos asociada al
término independiente y las K-1 columnas restantes corresponden a las observaciones de
las variables independientes, el vector 𝛽 de dimensión K, por los parámetros del modelo
y 𝜀 por los T términos estocásticos, uno por cada periodo.
Prueba de Jarque-Bera
Jarque y Bera (1980, 1987) formulan una prueba de normalidad que lleva su nombre, ellos
plantean que existen distribuciones que pueden coincidir con la distribución normal, en media y
varianza o sea, que su primer momento centrado en cero y su segundo alrededor de la media son
los mismos, pero que no necesariamente el tercero y cuarto momentos centrados en la media
son iguales. Esa es la razón que los conduce a plantear la prueba de normalidad basada en el
sesgo, s, y la curtosis, c, de manera que las hipótesis a probar son
𝐻0: Errores normales vs 𝐻1: Errores no normales o equivalentemente
𝐻0: 𝑠 = 0, 𝑐 = 3 vs 𝐻1: 𝑠 ≠ 0 y/o 𝑐 ≠ 3
y el estadístico de prueba bajo 𝐻0 es
Observe que si el estadístico de prueba JB es cercano a cero hay evidencia a favor de que
los errores se distribuyen de manera normal, en caso contrario, es decir, cuando JB está
alejado de cero, se rechaza la hipótesis nula y las distribuciones de los estimadores de las
betas y de la varianza de los errores estocásticos, no tendrán las distribuciones que
permiten hacer inferencia estadística del modelo de regresión lineal y por tanto, ellas serán
válidas sólo de manera asintótica de acuerdo al teorema de límite central.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Distribución normal de los residuos mediante inferencia
visual
Si se cumple el supuesto de
normalidad de los residuos,
los puntos que constituyen
la gráfica de probabilidad
normal deberían alinearse
entorno a la línea recta
Posibles causas
de alejamiento a
la normalidad
La variable respuesta podría tener muchos Al ajustarse el modelo y representar los residuos
valores pequeños y pocos valores grandes, resultantes mediante un histograma, se podría
dando una representación de asimetría observar una distribución de colas livianas
positiva, o pocos valores pequeños y muchos producto de obtener pocos residuos de gran
valores grandes (asimetría negativa) magnitud, o bien, muchos residuos de gran
magnitud podría conducir a una distribución de
colas pesadas.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Diagrama de
árbol para
elegir el tipo de
distribución de
los datos,
adaptado de
Aswath
Damodaran
Ejemplo: Cuantil para el modelo de efectos mixtos
previamente ajustado
1.Se proporcionó los residuos pearson, datos
que se obtuvieron mediante previo ajuste del
modelo.
2.Línea de puntos el cual indica la ubicación
de los datos de acuerdo a los cuantiles de la
distribución normal y de la distribución
observada.
3.Si los puntos están cerca de línea recta,
significa que los datos y la distribución
normal tienen cuantiles comparables y se
cumple el supuesto de normalidad de los
residuos.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H. Freeman and Company: 724.
Solución
Al observar el tráfico se puede concluir
que el rendimiento en la evaluación en
la prueba de matemáticas de la base de
datos no cumple el supuesto de
normalidad, una vez se aprecia que los
puntos no están del todo alineados
entorno a la recta, observándose unas
ligeras desviaciones en las colas.
En este sentido y haciendo uso del
diagrama de árbol presentado con
anterioridad, elija la distribución que
más se acerca a la distribución
presentada por dicho datos.
Moore, D. y G. McCabe (2000) Introduction to the Practice of Statistics, 3ra. Edición, New York, W. H.
Freeman and Company: 724.
Gráfica de probabilidad normal de los residuos
La gráfica de probabilidad normal de los residuos para verificar el supuesto de que los
residuos están distribuidos normalmente.
Minitab. (2019). Minitab. Obtenido de Gráficas de residuos para Ajustar modelo de regresión:
https://bit.ly/3jGJSSR
GRACIAS