Regresion No Lineal
Regresion No Lineal
Regresion No Lineal
En muchos casos, si la recta de regresin no ajusta correctamente al conjunto de datos bivariados, se puede lograr hacer un ajuste de otras curvas conocidas. En algunos casos el procedimiento consiste en aplicar, a los datos, transformaciones previas que permitan la linealizacin de la relacin entre las variables, para luego aplicar el mtodo de los mnimos cuadrados. Entre los modelos ms comunes de regresin no lineal entre las variables X e Y tenemos los siguientes: el polinomio de segundo grado, el modelo exponencial y el modelo potencial. MODELO POLINOMIAL DE SEGUNDO ORDEN (PARABOLA) En muchas situaciones, la relacin que existe entre una variable regresora (independiente) X y una variable de respuesta (dependiente) Y , se representa mediante el modelo de regresin polinomial de segundo orden:
Y = 0 + 1 X + 2 X 2 +
donde , error o perturbacin, es una variable aleatoria que explica la variabilidad de Y que no puede ser explicada por X, segn el modelo planteado. En la prctica, se estima este modelo mediante la funcin:
Y ' = a + bX + cX 2
Utilizando el mtodo de mnimos cuadrados, se trata de estimar los parmetros 0 , 1 , 2 encontrando los valores a, b y c (coeficientes de regresin) de tal manera que la suma de los errores al cuadrado sea mnima.
n i =1
SCE = yi y
' i
sea mnima.
(1)
Utilizando el clculo diferencial se puede demostrar que los valores que minimizan la expresin (1) se obtienen a partir de las siguientes ecuaciones llamadas ecuaciones normales:
n i =1 n n i i i =1 n 2 i =1 n i =1 n i =1 n i =1 n i =1 n i =1 n i =1
yi = na + b xi + c xi2 x y
i =1 n
= a xi + b xi2 + c xi3
x
i =1
La solucin de este sistema de ecuaciones nos permite obtener los valores de los coeficientes de regresin a, b y c.
1
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
b= Det.b/
c= Det.c /
La ecuacin de regresin estimada Y ' = a + bX + cX 2 es conocida tambin como parbola mnimo cuadrtica. El coeficiente de regresin C nos indica que el crecimiento de Y en promedio es proporcional al cuadrado del crecimiento de X. Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin: S yx = [ (yi-y)2/ n-p ] 1/2
S yx =
Tabla de anlisis de varianza para probar la significancia de la regresin Fuente de Suma de Grados de Cuadrado medio F0 variacin cuadrados libertad Regresin SCR k CMR=SCR/K CMR/CME Residual SCE n-k-1 o (n p) CME=SCE/n-p Total SCT n-1
Donde k es igual al nmero de variables y p es el nmero de trminos de la ecuacin (p=k+1). SCT corresponde a la variacin total de los valores de y i respecto a su media.
SCR corresponde a la suma de cuadrados explicada por la influencia no lineal de X (parbola), se denomina variacin explicada. SCE corresponde a la suma de los cuadrados de los errores , se denomina variacin residual no explicada
Para la adecuacin del modelo se realiza el anlisis de residuos mediante grficos similares al estudiado para el caso de la recta de regresin.
EJEMPLO: Una compaa de electricidad est interesada en estimar el consumo mensual de energa elctrica de una vivienda en funcin del tamao de la misma. Considerando una muestra de 10 viviendas se obtuvieron los siguientes datos:
2
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ X, tamao de la casa : 1290 1350 1470 1600 1710 1840 1980 2230 2400 2930 (en pies2) Y, consumo mensual : 1182 1172 1264 1493 1571 1711 1804 1840 1956 1954 (en kilowatts / hora) La ecuacin estimada es Y = -1216.14389 + 2.39893X 0.00045X2 Se puede usar esta ecuacin para estimar el consumo de electricidad de una vivienda que tiene 1500 pies cuadrados. Y = -1216.14389 + 2.39893(1500) 0.00045(1500)2 Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin: S yx = [ (yi- )2/ n-p ] 1/2
S yx = ( queda como ejercicio hallar su valor) =
( )
Para el ejemplo, R2 = 0,98189 valor que indica que el 98,189% de la variacin del consumo mensual de energa elctrica es explicado por el tamao de la casa, segn un ajuste parablico. Ejercicio: Elaborar la tabla de anlisis de varianza MODELO DE REGRESIN EXPONENCIAL Una funcin no lineal muy til que se aplica en situaciones que son incompatibles con funciones polinomiales es la funcin exponencial, tales como crecimiento de poblaciones (humana, bacterias etc.), crecimiento de dinero colocado en un banco a una tasa constante de inters. Modelo a ajustar: Y = 0 1 donde donde Y: variable dependiente o de respuesta X: variable independiente o regresora 0 y 1 : parmetros desconocidos del modelo : error o perturbacin, variable aleatoria que explica la variabilidad de Y que no puede ser explicada por X, segn el modelo exponencial. Se estima este modelo mediante la funcin: Y' = abX Siendo a y b los coeficientes de regresin. Para linealizar la ecuacin (2) se toma logaritmo en base 10, resultando (2)
X
3
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ log Y = log a + (log b)X forma equivalente a Y = a + b X Se observa que, segn la expresin (3), se logra un ajuste rectilneo entre X y (log Y). Con los datos se ajusta una recta a los puntos (xi, log yi) usando el mtodo de mnimos cuadrados, obteniendo las ecuaciones normales: log yi = n loga + xi log b x i log yi = x i log a + x i2 log b para luego obtener las estimaciones de los coeficientes de regresin de la ecuacin de la recta mnimo cuadrtica de log y i en x i, donde
COV ( X , log Y ) 2 SX Siendo equivalente a:
(3)
b =
a = log Y b' X
(4)
(5) (6)
Los valores de a y de b de la ecuacin (2) son los antilogaritmos de a y de b de (4). Donde a se interpreta como la cantidad inicial de la poblacin o de dinero en el perodo de estudio y b sirve para conocer la tasa de crecimiento en el perodo de tiempo estudiado, siendo b = 1 + t donde t es la tasa de crecimiento. Para evaluar la bondad del ajuste se utiliza El error estndar de estimacin: S yx = [ (yi- )2/ n-p ] 1/2 (7)
S log yx =
(8)
SCR = 1 [SCE/ SCT] SCT ( 9)
(10)
Para comprobar si el modelo es adecuado se realiza el anlisis de residuos Ejemplo: Un bilogo registra la siguiente informacin del nmero de bacterias por unidad de volumen (Y) segn el nmero de horas transcurridas (X) con el objetivo de conocer el tipo de relacin entre ambas variables, predecir el nmero de bacterias y hallar la tasa de crecimiento del nmero de bacterias cada hora.
4
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
UNMSM FCM - EAP de ESTADISTICA ESTADISTICA II sem 2011-2 ______________________________________________________________________ N horas x 0 1 2 3 4 5 6 21 N de log y bacterias Y 1.51 32 47 65 92 132 190 275 833
1.67 1.81 1.96 2.12 2.28 2.44 X logY X2 (log yi)2 (yi- )2 (yi- )2 SCE 0 1.67 3.62 5.88 8.48 11.40 14.64 0 1 4 9 16 25 36 2.280 2.7889 3.2761 3.8416 4.4944 5.1984 5.9536 32.15 45.88 65.47 93.42 133.3 1 190.2 4 271.4 7 0.021 5 sct 7.569 i- )2
SCR
13.79
45.69
91
27.8331
12.97 25 18.50 27
45944
45926. 2512
a) Construyendo el grfico de dispersin, se observa que la nube de puntos se asemeja a una exponencial b) Ajustamos la curva exponencial Usando la expresin (5) se obtiene log b = 0.1542857 b= 1.4265457 Usando la expresin (6) se obtiene log a = 1.5071429 a= 32.147181 La exponencial ajustada resulta segn (3) : log Yi' = 1.51 + 0.15 X i Y segn la expresin (2) resulta: Yi' = 32.15 (1.427) Xi Es decir se estima la cantidad inicial de bacterias en 32 a las o horas y la tasa de crecimiento ser igual a: t =b 1= 1.427 -1 = 0.427 = 42.7 % cada hora que transcurre. c) Podemos predecir el nmero de bacterias a la 3.5 horas, usando la expresin (3) como la expresin (2)
log Yi' = 1.51 + 0.15 (3.5) y luego tomar el antilogaritmo o directamente de (2) Yi' = 32.15 (1.427) X
d) Evaluando la bondad de ajuste : Error estndar de estimacin S yx = [ (yi- )2/ n-p ] 1/2 = 1.8840807 . Haciendo uso de (9) tenemos: R2=1 [SCE/ SCT]= 1 =0.999597277=99.9% Haciendo uso de (10) tenemos: R2= 99.9%
. ( . . ) . ( . ( ) . ) ( . )
= 0.999532=
(log yi-
)2
(logyi-
)2
i-
)2
5
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
R 1.000
R Square 1.000
df 1 5 6
F 15272.04
Sig. .000
Coefficients Unstandardized Coefficients B X (Constant) 1.427 32.147 Std. Error .004 .333 Standardized Coefficients Beta 2.718
t B 347.579 96.401
Y
Observed Compound Exponential
300
200
100
0 0 1 2 3 4 5 6
6
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
R 1.000
R Square 1.000
The independent variable is numero de horas. Coefficients Unstandardized Coefficients B 1.427 Std. Error .004 Standardized Coefficients Beta 2.718
t B 347.579 96.401
N Horas X 0 1 2 3 4 5 6 21 3
Total Media
ln y
X lnY
X2
0 1 4 9 16 25 36 91
Ln b=[ 7(105.2312425) (21)(31.75865635)] / [7(91) (21)2] = 69.68691415 / 196 =0.35554548, luego b = antiln(0.35554548) = 1.42695882 Ln a = 4.536950907 (0.35554548)(3) = 3.470314467, luego a = antiln (3.470314467) = 32.14684998 Ln Y = 3.470314467 + 0.35554548 X Y = 32.147(1.427) X Para comprobar si el modelo es adecuado se realiza el anlisis de resduos Queda como ejercicio realizar los grficos apropiados para el anlisis de residuo y la elaboracin de la tabla de anlisis de varianza.
MODELO DE REGRESIN POTENCIAL Modelo a ajustar: Y = 0 X 1 e (11) donde Y: variable dependiente o de respuesta X: variable independiente o regresora 7
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
0 y 1 : parmetros desconocidos del modelo : error o perturbacin, variable aleatoria que explica la variabilidad de Y que no
puede ser explicada por el modelo. Se estima este modelo mediante la funcin: Y = aXb Para linealizar la ecuacin (12) se toma logaritmo en base 10, resultando log Y = log a + b log X forma equivalente a Y = a + b X Entonces, se logra un ajuste lineal entre (log X) y (log Y). Esto quiere decir que, aplicando a los datos (log xi, log yi) el mtodo de mnimos cuadrados, se obtiene las ecuaciones normales: log y i = n log a + b log x i log xi log yi = log a log x I + b (log xi) 2 los valores de b y de log a = a' se hallan del modo siguiente: b= COV (log X , log Y ) 2 S log X y a' = log Y blog X log b (13) (12)
log a =
El valor de a en la ecuacin (12) es el antilogaritmo de a. Para evaluar la bondad del ajuste se utiliza: El error estndar de estimacin de log y en log x:Slog y logx = [ (log yi-log y')2/ n-p ] Slog y logx =
( )
1/2
(14)
SCR . SCT
( )
(15) (16)
V* = A + b U
8
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
1/5
X 1 2 3 4 5 15 3
e=Y-Y*
-0,0057 0,0112 0,0697 0,1799 -0,4012 -0,1461 -0,0292
e0
b= C UV 1/5 UV - U V 2,6856 - 0,9575 2,1332 = = = 1,9902 S2 1/5 U 2 U 2 1,2397 0,9575 2 U
ln Y* = ln 0.2277 + 1.9902 ln X Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557 Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902 Bondad del Ajuste: Ntese que al haber transformado la variable dependiente ya no se minimiza
sino
(lnY - lnY * )
2
(V - V * )
= 0, de ah que
e 0.
SCE =
(lnY - lnY * )
df 1 3 4
F 60585.333
Sig. .000
9
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari
t B 246.141 111.069
Y
Observed Power
40,00
30,00
20,00
10,00
0,00 1 2 3 4 5
Ejercicio: Usando el mtodo de mnimos cuadrados, escriba las ecuaciones normales, y estime el coeficiente de regresin de la ecuacin de regresin: hiprbola equiltera : Y = a / X.
10
Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari