Pruebas de Normalidad
Pruebas de Normalidad
Pruebas de Normalidad
Los resultados obtenidos por el mtodo de los Mnimos Cuadrados Ordinarios, en un principio,
parecen ser adecuados al obtenerlos minimizando la suma de cuadrados de los errores estimados.
Sin embargo, para que los estimadores estimados resultantes de aplicar MCO tngan las
propiedades deseadas en todo buen estimador, se hace necesario realizar la comprobacin de
ciertas hiptesis que avalan su aplicacin y as poder tener la seguridad que los estimadores
obtenidos son insesgados y ptimos.
Las hiptesis ms importantes, que permiten obtener unos estimadores con las propiedades
deseadas son:
a.- Las relativas a los residuos del modelo
Valor esperado del termino error aleatorio es cero, lo cual garantiza que las variables no
incluidas explcitamente en el modelo y recogidas por el termino aleatorio no afectan
sistemticamente el valor de la variable explicada.
Normalidad
Homocedasticidad
No Autocorrelacin
b.- Las relativas a las variables explicativas del modelo
Las variables X1, X2, X3, ..Xk son linealmente independiente: No multicolinealidad
Exogenidad dbil: Prueba de endogenidad
Exogenidad fuerte
c.- Relativas al modelo:
No hay sesgos de especificacin por omisin de variables relevantes
No hay sesgos de especificacin por inclusin de variables irrelevantes
No hay sesgo de especificacin por forma funcional incorrecta.
Sin embargo, cuando se cumplen el supuesto de normalidad, aunque sea en forma aproximada,
los mtodos paramtricos son mucho ms potentes que las pruebas no paramtricas, por lo que a
menudo se recurre al uso de alguna funcin matemtica que transforme los datos de tal forma que
los nuevos valores cumplan con el supuesto requerido.
Una propiedad de la distribucin normal es que cualquier funcin lineal de variables normalmente
distribuidas estar tambin normalmente distribuida.
Dado que los estimadores de MCO son funciones lineales de u, entonces tambin siguen una
distribucin normal.
De esta manera, si se trabaja con muestras de menos de 100 observaciones resulta crucial el
verificar si los errores cumplen, de manera aproximada, una distribucin normal.
Las inferencias en cuanto a las medias son en general robustas, por lo que si el tamao de
muestra es grande, los intervalos de confianza y contrastes basados en la t de Student son
aproximadamente vlidos, con independencia de la verdadera distribucin de probabilidad de los
datos; pero si sta distribucin no es normal, los resultados de la estimacin sern poco precisos.
La comprobacin de la normalidad es necesaria, para realizar los test de hiptesis exactos y la
construccin de intervalos de confianza.
Es importante resaltar que para hacer inferencia estadstica necesitamos que se cumpla el
siguiente supuesto: las perturbaciones siguen una distribucin normal; este supuesto es necesario
solamente para llevar a cabo inferencia, no para efectos de estimacin.
Causas de la no Normalidad
- Existencia de valores atpicos
- Distribuciones no normales [formas no simtricas, que no estn centradas en la media por: fallo
de la simetra, mayor masa probabilstica en el centro que la normal (curva leptocrtica) mayor
masa en los extremos que la normal (Curva platicrtica)]
- Existen observaciones heterogneas. En este caso se debe averiguar la causa que origina estas
observaciones: errores en la recogida de datos; el modelo especificado no es correcto porque se
han omitido variables regresoras (por ejemplo, no se ha tenido en cuenta una variable de
clasificacin cuando las observaciones proceden de diferentes poblaciones).
Se debe hacer un estudio de influencia de las observaciones atpicas para averiguar el grado de
influencia en la estimacin del modelo. Si esta influencia es muy grande puede ser conveniente
recurrir a procedimientos de estimacin robusta en el clculo del modelo.
- Existe asimetra en la distribucin. En este caso suele ser conveniente transformar la variable
respuesta (transformacin de Box-Cox). Este problema suele estar relacionado con otros
problemas como falta de linealidad o Heterocedasticidad, la solucin de transformar las
observaciones pueden resolverlos conjuntamente.
- Si la hiptesis de normalidad no se verifica y las soluciones anteriores no son vlidas se pueden
obtener intervalos de confianza de los parmetros por mtodos diferentes de los expuestos en los
que se tiene en cuenta la distribucin especfica de los errores.
Cuando se quieren contrastar las suposiciones del MRLN, siempre se parte del modelo, con alguna
generalizacin, es decir se suponen validas todas las suposiciones excepto la que se quiere
contrastar.
_ En el caso de la normalidad se suponen todos menos la normalidad de las perturbaciones.
Supuestos:
Los errores (e) son independientes e igualmente distribuidas y no dependen de las X
(Independencia, homocedasticidad y Exogenidad)
son estables y estimables (Estabilidad e identificabilidad).
Las X no estn relacionadas entre s y vienen dadas sin error (no colinealidad y
mensurabilidad)
Estadsticos de prueba
Informales:
a.- Grficos de probabilidad normal P-P plots
b.- Grficos de Cuantiles normales Q-Q plots
Formales:
c.- Prueba Chi cuadrada
d.- Prueba de Geary
e.- Prueba de Jarque Bera (JB)
e.- Mtodo de Kolmogorov - Smirnov (K-S)
f.- Contraste de Shapiro - Wilks (S-W)
g.- Prueba de Anderson Darling (A-D)
h.- La prueba Sktest (Skewness-Kurtosis)
PROCEDIMIENTOS PARA VERIFICAR EL AJUSTE A UNA DISTRIBUCIN DE
PROBABILIDAD
PRUEBAS INFORMALES
PRUEBAS FORMALES
Este test contrasta la simetra y la curtsis que bajo el supuesto de normalidad deberan ser 0 y 3
respectivamente. Analiza por consiguiente si la distribucin falla en alguna de las caractersticas
bsicas de la normal, si es simtrica o si tiene diferente peso los valores centrales respecto a los
extremos de la normal.
Se suele hacer una comparacin de cada uno de ellos independientemente y otro test conjunto
mediante el siguiente estadstico:
( )
= [ + ] ;
Comprobar si el ndice de tasa de cambio real de Colombia 1996.1 2013.4 se distribuye como
una normal. Anexo 1.
H0: La variable ITCR sigue una distribucin normal
H1: La variable ITCR no sigue una distribucin normal
Criterio de decisin: Dado que el Valor-P del estadstico de prueba es mayor que el nivel de
significacin establecido (0.102586>0.05), se puede inferir que con una confianza del 95% hay
evidencia estadsticamente significativa para decir que el ITCR en Colombia se distribuye como
una normal.
De igual forma, como el estadstico de prueba (4.67723) es inferior que el estadstico crtico (5.991)
se llega a la misma decisin.
9
Series: ITCR
8 Sample 1996Q1 2013Q4
Observations 72
7
6 Mean 103.4124
Median 101.3900
5 Maximum 134.4300
Minimum 84.59000
4 Std. Dev. 13.74651
Skewness 0.474132
3
Kurtosis 2.227372
2
Jarque-Bera 4.488474
1 Probability 0.106008
0
90 100 110 120 130
Fuente: Clculos propios utilizando EViews
Criterio de decisin:
Si el estadstico de prueba JBP < JBC no se tiene evidencia estadsticamente significativa para
rechazar HO, en caso contrario se debe rechazar.
Si el Valor-P (JBP) > al NS, no se tiene evidencia estadsticamente significativa para rechazar H O,
en caso contrario se debe rechazar.
La salida del EViews arroj un Valor-P = 0.106008 superior al 0.05, por lo tanto no se tiene
evidencia estadsticamente significativa que nos induzca a rechazar H O.
De igual manera como JB=4.448847 < JB(2; 5%) =5.991, tambin nos esta indicando que no se
tiene evidencia estadsticamente significativa que nos induzca a rechazar H O.
Este contraste, que es vlido nicamente para variables continuas, compara la funcin de
distribucin (probabilidad acumulada) terica con la observada, y calcula un valor de discrepancia,
representado habitualmente como DN, que corresponde a la discrepancia mxima en valor absoluto
entre la distribucin observada y la distribucin terica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente
se hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa
probabilidad es grande no habr por tanto razones estadsticas para suponer que nuestros datos
no proceden de una distribucin normal, mientras que si es muy pequea, no ser aceptable
suponer ese modelo probabilstico para los datos.
La K.S se convierte en una prueba conservadora (y por lo tanto pierde poder) si la Media y la
Varianza no estn especificadas de antemano, sino que debe ser calculada a partir de los datos de
la muestra.
Zona de aceptacin
Z. Rechazo
EJERCICIO DE APLICACIN DE LA PRUEBA KOLMOGOROV SMIRNOV (K-S)
X: Variable aleatoria que representa el nmero de respuestas correctas para una prueba de
matemticas aplicada el ltimo ao.
La aplicacin de esta prueba en aos anteriores arroj que el nmero de respuestas correctas se
distribuy normalmente con una media de 985 y desviacin estndar 50.
Dada la informacin Existe alguna razn para afirmar que se han presentado cambios en la
distribucin de respuestas correctas para la prueba de matemticas?
F0(X) es la funcin de distribucin normal Z con media : =
La variable X debe ser ordenada de menor a mayor.
Rango es el orden de la variable.
Sx(X) es la funcin de distribucin muestral.
Dn es la mxima diferencia encontrada entre Sx(X) y F0(X) : = () 0 ()
Hiptesis a probar H0: F(X) = F0(X) (La variable X se distribuye como una normal).
H1: F(X) F0(X) (La variable X no se distribuye como una normal).
C.D.D. Si La mxima diferencia encontrada (en valor absoluto), D n, que es nuestro estadstico de
prueba, es mayor que el estadstico critico a un nivel de significacin establecido se debe rechazar
la hiptesis nula en favor de la alternativa.
852985
F0(X1=852) = = = 2.66 ( = 2.66) = 0.0039
50
910985
F0(X1=910) = = = 1.5 ( = 1.5) = .
50
1063985
F0(X16=1063) = = = 1.56 ( = 1.56) = 0.09406
50
La mxima diferencia absoluta encontrada DN = 0.1875 0.06681 = 0.1207
El estadstico critico D16(5%) = 0.327 tabla KS
Criterio de decisin: Como 0.1207 < 0.327 se puede afirmar con una confianza del 95% de que no
existe evidencia estadstica suficiente para rechazar la H 0, o lo que es lo mismo, no se detectaron
cambios en el nmero de respuestas correctas de la prueba de matemticas de la ya establecida
N(985; 50).
Ejercicio de aplicacin
Probar que los datos si se ajustan a una distribucin normal con 3.5 y 0.7
Desarrollada por Samuel S. Shapiro y Martin B. Wilks en 1965. Aunque esta prueba es menos
conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribucin
normal, sobre todo cuando la muestra es pequea (< 50).
Est diseada para detectar desviaciones de la normalidad sin necesidad de que la Media y la
Varianza de la distribucin normal sean especificadas por anticipado.
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico normal el cual permite
adems apreciar el ajuste o desajuste de forma visual:
En escala probabilstica normal se representa en el eje horizontal, para cada valor observado en
nuestros datos, la funcin de distribucin o probabilidad acumulada observada, y en el eje vertical
la prevista por el modelo de distribucin normal. Si el ajuste es bueno, los puntos se deben
distribuir aproximadamente segn una recta a 45.
En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo histograma de
los datos, y comparar el valor de la media y la mediana, as como evaluar el coeficiente de
asimetra y apuntamiento, adems de llevar a cabo una representacin en escala probabilstica de
la distribucin de probabilidad esperada versus observada. El SW es un valor comprendido entre 0
y 1 y entre ms se acerque a 1 mayor es el grado de normalidad de la distribucin. En el grfico de
la distribucin la zona de rechazo estar localizada a la izquierda y por ende la de no rechazo
estar a la derecha.
ZR Zona de no rechazo
2
Estadstico de prueba: = 2
= Donde D es la deferencia entre los
mayores y los menores valores de la variable, previamente ordenados de mayor a menor, y p
es el factor obtenido de la tabla S.W
C.D.D. :
Se debe rechazar la propuesta de normalidad (H0) de la distribucin cuando el estadstico de
prueba sea menor que el estadstico crtico, SW cal < SW crt. (Pea, D., 2001 pag. 470)
No se debe rechazar la propuesta de normalidad (H0) de la distribucin cuando el estadstico de
prueba sea mayor que el estadstico crtico, SW cal > SW crt
Al utilizar el criterio del Valor-P: Si Valor-P(SW) > N.S se debe rechazar H0 y en el caso contrario
no se debe rechazar, Valor-P(SW) < N.S.
Resumen de la prueba de normalidad para el ITCR en una muestra de 50 datos utilizando Excel.
Tabla anexa.
Hiptesis a probar:
Si la distribucin es ms apuntada que la normal (mayor parte de los valores agrupados en torno
de la media y colas ms largas en los extremos), se debe investigar la presencia de
heterogeneidad en los datos y de posibles valores atpicos o errores en los datos. La solucin
puede ser emplear pruebas no paramtricas.
Si la distribucin es unimodal y asimtrica, la solucin ms simple y efectiva suele ser utilizar una
transformacin para convertir los datos en normales.
Una alternativa muy interesante a los mtodos paramtricos y a las pruebas no paramtricas
clsicas, la constituye la metodologa de estimacin autosuficiente.
El grafico de cajas y bigotes es un buen indicador del tipo de transformacin que debemos realizar
a la variable para hacerla normal.
Si la distribucin es ASIMTRICA POSITIVA: es conveniente utilizar races cuadradas o
logaritmos La correccin de la asimetra positiva ser an mayor con la transformacin
logartmica.
Si la distribucin es ASIMTRICA NEGATIVA: es conveniente elevar al cuadrado o al cubo, siendo
la transformacin ms adecuada si elevamos al cubo la variable.
La utilizacin de transformaciones para lograr que los datos se ajusten a una distribucin normal es
en muchas ocasiones la solucin ms natural, ya que existen gran cantidad de parmetros que
tienen una distribucin asimtrica a la derecha, y que se convierten en aproximadamente
simtricas al transformarlas mediante el logaritmo natural.
Tenemos problemas con la transformacin logartmica ln(x) si la variable puede tomar el valor 0,
por lo que en esos casos, o incluso si existen valores muy pequeos, ser adecuado emplear la
transformacin ln(x+1).
Cuando la desviacin tpica de los datos es proporcional a la media o cuando el efecto de los
factores es multiplicativo, en lugar de aditivo, est indicado el uso de la transformacin logartmica.
Otra transformacin posible es , que es aplicable cuando las varianzas son proporcionales a
la media, lo que ocurre a menudo cuando los datos provienen de una distribucin de Poisson
(recuentos).
Otra transformacin habitualmente empleada es 1/ X, que tambin precisa que sumemos una
cantidad a cada valor si existen ceros.
Estas tres transformaciones comprimen los valores altos de los datos y expanden los bajos, en
sentido creciente en el siguiente orden: (la que menos), ln x, 1/x.
Si la concentracin de datos est, en el lado de la derecha y la cola en la izquierda, se puede
utilizar la transformacin x, que comprime la escala para valores pequeos y la expande para
valores altos.
Cuando los datos son proporciones o porcentajes de una distribucin binomial, las diferencias con
una distribucin normal son ms acusadas para valores pequeos o grandes de las proporciones,
utilizndose entonces transformaciones basadas en .
En todos los casos para los clculos estadsticos basados en la teora normal, se utilizarn los
valores transformados, pero despus para la presentacin de los resultados se efectuar la
transformacin inversa para presentarlos en su escala de medida natural.
Transformaciones sugeridas basada en las graficas
_Si la distribucin es ASIMTRICA NEGATIVA: 1-elevar al cuadrado (X2) o 2-al cubo (X3). La
correccin de los datos ser mayor cuanto mayor es la exponenciacin.
Las transformaciones ms comunes son el logaritmo (ln), la raz cuadrada (SQRT) y potencias
(**potencia deseada)
Pruebas no paramtricas
Conviene tener en cuenta que con variables que muestran una distribucin prxima a la
normalidad la aplicacin de las transformaciones puede provocar hacerlas ms asimtricas.
Cuando esto ocurre lo ms conveniente es trabajar con los datos de la variable original.