Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Trabajo de Modelos de Regresión

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 27

TRABAJO DE MODELOS DE REGRESIÓN

Presentado por:

Diego Armando Ramírez Hernández

Presentado a:

Msc Margarita Barraza

Universidad del Atlántico

Departamento de Posgrados

Especialización en Estadística Aplicada

Barranquilla - Atlántico

20 de junio de 2019
Ejercicio 1

Datos:

1 3
2 5
3 7
4 9
5 11

Se completan los datos para los cálculos correspondientes así:

n XY X^2 Y^2 (x-Xmedia)^2


5 1 3 3 1 9 4
2 5 10 4 25 1
3 7 21 9 49 0
4 9 36 16 81 1
5 11 55 25 121 4
Sumatorias 15 35 125 55 285 10
Medias 3 7

Luego, se proceden a realizar los calculas de las Sumatorias de Cuadrados

SSxx 10
SSR 40
SSxy 20

SSyy 40
r 1

SSE 0,0000 R^2 1

Beta 2 R^2 = r^2 0

Alfa 1 (Sr)^2 0,000

Obteniendo la siguiente tabla ANOVA:

Fuente Suma de Gl Cuadrado Razón-F Valor-P


Cuadrados Medio
Modelo 40,0 1 40,0
Residuo 0,0 3 0,0
Total (Corr.) 40,0 4
Fuente: StatGraphics

Así mismo, se obtienen los siguientes cálculos que como se expresaron en las tablas iniciales, nos
muestran una perfecta y fuerte correlación entre la Variable Dependiente y la Variable
Independiente con un alto nivel de significancia.

Coeficiente de Correlación = 1,0


R-cuadrada = 100,0 porciento
R-cuadrado (ajustado para g.l.) = 100,0 porciento

Por lo tanto tenemos que el Coeficiente de Correlación r es igual a 1 y el Coeficiente de


Determinación R2 también igual a 1, confirmando así que el modelo es de perfecto ajuste y fuerte
relación entre las variables. Esto se ve reflejado en que el Estadístico t calculado es indeterminado
puesto que al no existir error este tenderá al infinito así:
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 1,0 0,0
Pendiente 2,0 0,0

Ahora bien, procedemos a calcular el mejor modelo de regresión para nuestro estimador Ŷ así:
Comparación de Modelos Alternos
Modelo Correlación R-
Cuadrada
Lineal 1,0000 100,00%
Raíz Cuadrada Doble 0,9998 99,96%
Cuadrado Doble 0,9996 99,93%
Multiplicativa 0,9991 99,81%
Logarítmico-Y Raíz 0,9972 99,44%
Cuadrada-X
Doble Inverso 0,9968 99,36%
Raíz Cuadrada de Y 0,9956 99,13%
Raíz Cuadrada de X 0,9935 98,71%
Raíz Cuadrada-Y Log-X 0,9904 98,08%
Cuadrado de Y 0,9860 97,22%
Exponencial 0,9822 96,47%
Cuadrado de X 0,9811 96,26%
Logaritmo de X 0,9733 94,73%
Curva S -0,9660 93,31%
Cuadrado-Y Raíz Cuadrada- 0,9610 92,36%
X
Raíz Cuadrada-X Cuadrado- 0,9590 91,97%
X
Inversa de Y -0,9322 86,90%
Log-Y Cuadrado-X 0,9281 86,13%
Cuadrado-Y Log-X 0,9226 85,12%
Inversa de X -0,9018 81,32%
Inversa-Y Cuadrado-X -0,8477 71,87%
Cuadrado-Y Inversa de X -0,8216 67,51%

Así las cosas, tenemos que la ecuación de estimación será:

Ŷ =1+ 2 X

Con gráfica:
Gráfico
Gráfico del
del Modelo
Modelo Ajustado
Ajustado
Y_0
Y_0 =
=11+
+ 2*X_0
2*X_0
11
11

9
9
Y_0

7
Y_0

5
5

3
3
0
0 1
1 2
2 3
3 4
4 5
5
X_0
X_0

Fuente: StatGraphics

Ejercicio 2

Datos:

0,99 90,01
1,29 93,74
0,87 87,59
1,4 93,65
0,98 90,56
1,2 90,39
1,43 94,98
1,02 89,05
1,46 96,73
1,23 91,77
1,19 93,54
1,01 89,54
1,26 93,25
0,95 87,33
1,15 91,43
1,36 94,45
1,55 99,42
1,15 92,52
1,11 89,85
1,32 93,41

Completando los datos para el cálculo de las Sumatorias de Cuadrados:


n XY X^2 Y^2 (x-Xmedia)^2
20 0,99 90,01 89 1 8102 0,042
1,29 93,74 121 2 8787 0,009
0,87 87,59 76 1 7672 0,106
1,4 93,65 131 2 8770 0,042
0,98 90,56 89 1 8201 0,047
1,2 90,39 108 1 8170 0,000
1,43 94,98 136 2 9021 0,055
1,02 89,05 91 1 7930 0,031
1,46 96,73 141 2 9357 0,070
1,23 91,77 113 2 8422 0,001
1,19 93,54 111 1 8750 0,000
1,01 89,54 90 1 8017 0,035
1,26 93,25 117 2 8696 0,004
0,95 87,33 83 1 7627 0,061
1,15 91,43 105 1 8359 0,002
1,36 94,45 128 2 8921 0,027
1,55 99,42 154 2 9884 0,125
1,15 92,52 106 1 8560 0,002
1,11 89,85 100 1 8073 0,007
1,32 93,41 123 2 8725 0,015
Sumatorias 24 1843 2215 29 170045 0,681
Medias 1,1960 92,1605

Luego se realizan los cálculos respectivos así:

SSxx 0,6809

SSxy 10,1774 SSR 152,1271

SSyy 173,3769 r 0,9367

SSE 21,2498 R^2 0,8774

Beta 14,9475 R^2 = r^2 0,0000

Alfa 74,2833 (Sr)^2 1,1805

Cabe resaltar que los datos α, β, r y R2 son para un modelo lineal, el cual, como veremos más
adelante, no es el que mejor se ajusta a la distribución, luego estos datos cambiarán para ajustarse
el mejor modelo de regresión.

Obteniendo la siguiente tabla ANOVA:

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 0,415532 1 0,415532 144,66 0,0000
Residuo 0,0517028 18 0,00287238
Total (Corr.) 0,467234 19

Coeficiente de Correlación = 0,94305


R-cuadrada = 88,9343 porciento
R-cuadrado (ajustado para g.l.) = 88,3195 porciento
Error estándar del est. = 0,0535946

Notamos que el Coeficiente de Correlación es 0,94305 mostrando una excelente correlación entre
las variables y un Coeficiente de Determinación del 88,9343% mostrando una fuerte relación entre
las Variables Dependiente e Independiente.

El estadístico R-Cuadrada indica que el modelo ajustado explica 88,9343% de la variabilidad en


Y_i. El coeficiente de correlación es igual a 0,94305, indicando una relación relativamente fuerte
entre las variables. El error estándar del estimado indica que la desviación estándar de los
residuos es 0,0535946. Este valor puede usarse para construir límites de predicción para nuevas
observaciones, seleccionando la opción de Pronósticos del menú de texto.

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Y_i y X_i con un nivel de confianza del 95,0%.

Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:

Sr 1,0865

b1 0,0000

t calculado 11,3517

t teorico 2,1009

Alfa 74,2833

n-2 18
Así:

H 0 :b1=0

H 1 : b1 ≠ 0

Sabemos que si el Estadístico t calculado es mayor que el Estadístico t teórico entonces se


rechaza la hipótesis nula y como vemos en la tabla anterior podemos comprobar que el Estadístico
t calculado = 11,3517 > Estadístico t teórico = 2,1009, por lo tanto se rechaza la hipótesis nula y
por lo tanto el modelo es confiable.

Así las cosas procedemos a modelar la ecuación del Ŷ así:

Comparación de Modelos Alternos


Modelo Correlación R-
Cuadrada
Raíz Cuadrada-X Cuadrado- 0,9430 88,93%
X
Log-Y Cuadrado-X 0,9430 88,93%
Cuadrado de X 0,9429 88,91%
Inversa-Y Cuadrado-X -0,9427 88,86%
Cuadrado Doble 0,9424 88,81%
Inversa de Y -0,9393 88,22%
Exponencial 0,9382 88,03%
Raíz Cuadrada de Y 0,9375 87,90%
Lineal 0,9367 87,74%
Inversa-Y Raíz Cuadrada-X -0,9357 87,56%
Cuadrado de Y 0,9347 87,37%
Logarítmico-Y Raíz 0,9340 87,23%
Cuadrada-X
Raíz Cuadrada Doble 0,9329 87,04%
Raíz Cuadrada deX 0,9318 86,82%
Inversa-Y Log-X -0,9309 86,66%
Cuadrado-Y Raíz Cuadrada- 0,9291 86,32%
X
Multiplicativa 0,9285 86,21%
Raíz Cuadrada-Y Log-X 0,9271 85,95%
Logaritmo de X 0,9256 85,68%
Cuadrado-Y Log-X 0,9223 85,05%
Doble Inverso 0,9177 84,22%
Curva S -0,9140 83,54%
Raíz Cuadrada-Y Inversa de -0,9120 83,17%
X
Inversa de X -0,9098 82,77%
Cuadrado-Y Inversa de X -0,9051 81,93%

Notamos, que el modelo de mayor ajuste es Raíz Cuadrada-Y Cuadrado-X estructurado de la


siguiente forma:

Ŷ =(∝+ β X 2)2

Luego, utilizando los datos arrojados por STATGRAPHICS nuestra ecuación queda de la siguiente
forma:

Ŷ =(9,12502+0,323522 X 2 )2

Con grafica de ajuste así:

Gráfico del Modelo Ajustado


Y_i = (9,12502 + 0,323522*X_i^2)^2
102

99

96
Y_i

93

90

87
0,87 1,07 1,27 1,47 1,67
X_i

Ejercicio 3
Datos:

Yi
1 1
2 1
3 2
4 2
5 4

Se completan los datos para los cálculos correspondientes así:

n Yi XY X^2 Y^2 (x-Xmedia)^2


5 1 1 1 1 1 1
2 1 2 4 1 0
3 2 6 9 4 1
4 2 8 16 4 4
5 4 20 25 16 9
Sumatorias 15 10 37 55 26 15
Medias 3 2

Y se realizan las operaciones pertinentes para un modelo lineal, el cual será puesto a prueba para
determinar si es el mejor modelo de regresión para la distribución de los datos

SSxx 10

SSxy 7 SSR 5

SSyy 6 r 1

SSE 1,1000 R^2 1

Beta 1 R^2 = r^2 0

Alfa 0 (Sr)^2 0,367

Con la siguiente tabla ANOVA para el modelo ya ajustado:

Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 0,917372 0,0964362 9,51274 0,0025
Pendiente 0,0407557 0,00689181 5,91364 0,0097

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 0,621225 1 0,621225 34,97 0,0097
Residuo 0,0532917 3 0,0177639
Total (Corr.) 0,674517 4

Coeficiente de Correlación = 0,959684


R-cuadrada = 92,0993 porciento
R-cuadrado (ajustado para g.l.) = 89,4657 porciento
Como vemos en los cálculos anteriores, el Coeficiente de Correlación r es del 95,9684 y el
Coeficiente de Determinación es del 92,0993% lo que nos evidencia una fuerte correlación entre
las variables.

Así mismo, puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación
estadísticamente significativa entre Y_2 y X_2 con un nivel de confianza del 95,0%.

Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:

Sr 0,606

b1 0,000

t calculado 3,6556

t teorico 2,3060

Alfa 0

n-2 3
Así:

H 0 :b1=0

H 1 : b1 ≠ 0

Sabemos que si el Estadístico t calculado es mayor que el Estadístico t teórico entonces se


rechaza la hipótesis nula y como vemos en la tabla anterior podemos comprobar que el Estadístico
t calculado = 2,3060 > Estadístico t teórico = 2,3060, por lo tanto se rechaza la hipótesis nula y por
lo tanto el modelo es confiable.

Ahora procedemos a verificar el mejor modelo de regresión así:

Comparación de Modelos Alternos


Modelo Correlación R-
Cuadrada
Raíz Cuadrada-X Cuadrado- 0,9597 92,10%
X
Log-Y Cuadrado-X 0,9580 91,77%
Cuadrado de X 0,9500 90,24%
Exponencial 0,9449 89,29%
Inversa de Y -0,9428 88,89%
Raíz Cuadrada de Y 0,9296 86,41%
Inversa-Y Cuadrado-X -0,9250 85,56%
Logarítmico-Y Raíz 0,9200 84,64%
Cuadrada-X
Cuadrado Doble 0,9102 82,84%
Lineal 0,9037 81,67%
Raíz Cuadrada Doble 0,8965 80,37%
Multiplicativa 0,8810 77,62%
Raíz Cuadrada deX 0,8632 74,51%
Raíz Cuadrada-Y Log-X 0,8507 72,37%
Cuadrado de Y 0,8387 70,35%
Doble Inverso 0,8215 67,48%
Logaritmo de X 0,8113 65,81%
Cuadrado-Y Raíz Cuadrada- 0,7871 61,95%
X
Curva S -0,7768 60,35%
Cuadrado-Y Log-X 0,7265 52,78%
Inversa de X -0,6922 47,91%
Cuadrado-Y Inversa de X -0,5996 35,95%

Notamos, que el modelo de mayor ajuste es Raíz Cuadrada-Y Cuadrado-X estructurado de la


siguiente forma:

Ŷ =(∝+ β X 2)2

Luego, utilizando los datos arrojados por STATGRAPHICS nuestra ecuación queda de la siguiente
forma:

Ŷ =(0,917372+0,0407557 X 2 )2

Con gráfica:

Gráfico del ModeloAjustado


Y_2 = (0,917372 + 0,0407557*X_2^2)^2
4

3,5

3
Y_2

2,5

1,5

1
0 1 2 3 4 5
X_2

Ejercicio 4

Datos:
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06

Completando los datos para el cálculo de las Sumatorias de Cuadrados:

presion temperatura
n XY X^2 Y^2 (x-Xmedia)^2
17 194,5 20,79 4044 37830 432 37830,250
194,3 20,79 4039 37752 432 37752,490
197,9 22,4 4433 39164 502 39164,410
198,4 22,67 4498 39363 514 39362,560
199,4 23,15 4616 39760 536 39760,360
199,9 23,35 4668 39960 545 39960,010
200,9 23,89 4800 40361 571 40360,810
201,1 23,99 4824 40441 576 40441,210
201,4 24,02 4838 40562 577 40561,960
201,3 24,01 4833 40522 576 40521,690
203,6 25,14 5119 41453 632 41452,960
204,6 26,57 5436 41861 706 41861,160
209,5 28,49 5969 43890 812 43890,250
208,6 27,76 5791 43514 771 43513,960
210,7 29,04 6119 44394 843 44394,490
211,9 29,88 6332 44902 893 44901,610
212,2 30,06 6379 45029 904 45028,840
Sumatorias 3450 426 86735 700759 10821 700759,020
Medias 202,9529 25,0588

SSxx 530,7824 SSR 145,1246


SSxy 277,5421
r 0,9972
SSyy 145,9378
R^2 0,9944
SSE 0,8131

R^2 = r^2 0,0000


Beta 0,5229

Alfa -81,0637 (Sr)^2 0,0542

Cabe resaltar que los datos α, β, r y R2 son para un modelo lineal, el cual, como veremos más
adelante, no es el que mejor se ajusta a la distribución, luego estos datos cambiarán para ajustarse
el mejor modelo de regresión.

La tabla ANOVA a continuación expuesta está calculada con el mejor modelo así:
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 7,43049 0,0731278 101,61 0,0000
Pendiente -855,004 14,8248 -57,6739 0,0000

NOTA: intercepto = ln(a)


Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 0,225857 1 0,225857 3326,28 0,0000
Residuo 0,00101851 15 0,0000679008
Total (Corr.) 0,226875 16

Coeficiente de Correlación = -0,997753


R-cuadrada = 99,5511 porciento
R-cuadrado (ajustado para g.l.) = 99,5211 porciento

Vemos en los Coeficientes de Correlación de -0,997753 cercano a -1, como es el ideal cercano a
-1 o 1, y el Coeficiente de Determinación del 99,5511 que el modelo está fuertemente relacionado.

También, el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Temperatura y Presión con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo ajustado explica 99,5511% de la variabilidad en


Temperatura. El coeficiente de correlación es igual a -0,997753, indicando una relación
relativamente fuerte entre las variables. El error estándar del estimado indica que la desviación
estándar de los residuos es 0,00824019.

Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:
Sr 0,2328

b1 0,0000

t calculado 51,7408

t teorico 2,1009

Alfa -81,0637

n-2 15
Así:

H 0 :b1=0

H 1 : b1 ≠ 0

Sabemos que si el Estadístico t calculado es mayor que el Estadístico t teórico entonces se


rechaza la hipótesis nula y como vemos en la tabla anterior podemos comprobar que el Estadístico
t calculado = 51,7408 > Estadístico t teórico = 22,1009, por lo tanto se rechaza la hipótesis nula y
por lo tanto el modelo es confiable.
Ahora procedemos a verificar el mejor modelo de regresión así:

Comparación de Modelos Alternos


Modelo Correlación R-
Cuadrada
Curva S -0,9978 99,55%
Multiplicativa 0,9977 99,54%
Raíz Cuadrada de Y 0,9977 99,54%
Raíz Cuadrada Doble 0,9976 99,53%
Raíz Cuadrada-X Cuadrado- 0,9976 99,53%
X
Logarítmico-Y Raíz 0,9976 99,52%
Cuadrada-X
Raíz Cuadrada-Y Log-X 0,9976 99,51%
Cuadrado de X 0,9975 99,50%
Exponencial 0,9975 99,50%
Raíz Cuadrada-Y Inversa de -0,9973 99,45%
X
Lineal 0,9972 99,44%
Log-Y Cuadrado-X 0,9971 99,42%
Raíz Cuadrada deX 0,9970 99,40%
Logaritmo de X 0,9968 99,35%
Doble Inverso 0,9966 99,32%
Inversa de X -0,9961 99,23%
Inversa-Y Log-X -0,9958 99,17%
Inversa-Y Raíz Cuadrada-X -0,9954 99,08%
Cuadrado Doble 0,9954 99,08%
Inversa de Y -0,9949 98,98%
Cuadrado de Y 0,9944 98,89%
Cuadrado-Y Raíz Cuadrada- 0,9939 98,79%
X
Inversa-Y Cuadrado-X -0,9938 98,77%
Cuadrado-Y Log-X 0,9934 98,68%
Cuadrado-Y Inversa de X -0,9921 98,42%

Vemos que el mejor modelo es Curva S con ecuación para Ŷ así:

β
(α + )
X
Ŷ =℮

Tomando los datos de STATGRAPHICS

855,004
(7,43049− )
X
Ŷ =℮

Con gráfica
Gráfico del Modelo Ajustado
Temperatura = exp(7,43049 - 855,004/Presion)
32

30

28
Temperatura

26

24

22

20
190 194 198 202 206 210 214
Presion

Ejercicio 5

Datos
X1 X2 Y
SEXO % GRASA IMC
FEMENINO 0 37,5 22,4
MASCULINO 1 17 24,2
FEMENINO 0 36,5 20
FEMENINO 0 25,5 22,6
FEMENINO 0 22,8 22,8
MASCULINO 1 27,6 28
FEMENINO 0 45 28,9
FEMENINO 0 43,6 27,8
FEMENINO 0 38,2 23
MASCULINO 1 26 24
FEMENINO 0 28,7 19,8
MASCULINO 1 46,2 27,6
MASCULINO 1 23,3 25,5
MASCULINO 1 23,3 23,4
MASCULINO 1 22,4 22,8
MASCULINO 1 18,9 24
MASCULINO 1 14,4 20,7
MASCULINO 1 26 25
MASCULINO 1 23 23
FEMENINO 0 37,6 23,2
FEMENINO 0 26 24
FEMENINO 0 24 25
FEMENINO 0 28,7 19,8
FEMENINO 0 46,2 27,6
FEMENINO 0 17 20
FEMENINO 0 29,3 19
MASCULINO 1 30,7 26
FEMENINO 0 24 25
MASCULINO 1 37 33
FEMENINO 0 17 22
MASCULINO 1 22,5 23,4

Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 16,4902 1,65749 9,94889 0,0000
Sexo 3,09227 0,898889 3,4401 0,0018
% Grasa 0,213356 0,0500825 4,26008 0,0002

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 130,859 2 65,4294 11,62 0,0002
Residuo 157,723 28 5,63297
Total (Corr.) 288,582 30

R-cuadrada = 45,3454 porciento


R-cuadrado (ajustado para g.l.) = 41,4415 porciento
Error estándar del est. = 2,37339
Error absoluto medio = 1,88268
Estadístico Durbin-Watson = 1,53823 (P=0,0886)
Autocorrelación de residuos en retraso 1 = 0,21396

La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre IMC y 2 variables independientes. La ecuación del modelo ajustado es

IMC = 16,4902 + 3,09227*Sexo + 0,213356*% Grasa

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 45,3454% de la variabilidad en
IMC. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 41,4415%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 2,37339. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 1,88268 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

A pesar de tener un Coeficiente de Determinación bajo, el modelo tiene un alto nivel de


significancia y los Valores P de las Variables Independientes son menores de 0,05 lo que cual nos
indica que no debemos eliminar variables del modelo, sin embargo procedemos a realizar prueba
de eliminación y nos arroja los siguientes resultados:

Modelos con Mayor R-Cuadrada Ajustada


R- Variables
Cuadrada
CME R- Ajustada Cp Incluidas
Cuadrada
5,63297 45,3454 41,4415 3,0 AB
7,73743 22,2455 19,5643 12,8343 A
8,96386 9,92093 6,81475 19,1483 B
9,6194 0,0 0,0 22,2309

El StatAdvisor
Esta tabla muestra los modelos que dan los valores más altos de R-Cuadrada ajustada. El
estadístico de R-Cuadrada ajustada mide la proporción de variabilidad en IMC que es explicada por
el modelo. Valores grandes de R-Cuadrada ajustada corresponden a valores pequeños de
cuadrado medio del error (CME). Se muestran hasta 5 modelos en cada subconjunto de entre 0 y
2 variables. El mejor modelo contiene 2 variables, % Grasa, y Sexo.
Esto nos indica que, no es necesario eliminar variables del modelo pues de hacerlo, tendríamos un
Coeficiente de Determinación ajustado mucho mejor al ideal.

El modelo final queda así:

IMC = Ŷ =¿ 16,4902 + 3,09227 X 1 + 0,213356 X 2

Con gráfica

Gráfica de R-Cuadrada Ajustada para IMC

50

40
R-Cuadrada ajustada

30

20

10

0
0 1 2 3 4
Número de Coeficientes

Ejercicio 6

Datos e información

En la Facultad de Ingeniería de la Universidad  se quiere entender los factores de aprendizaje de


los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15
alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos 
y Programación como se muestran en el siguiente cuadro.
x1 x2 x3 y
Algoritmos Base de Datos Programación PHP
15 15 13 13
14 13 12 13
16 13 14 13
20 14 16 15
18 18 17 16
16 17 15 15
13 15 11 12
16 14 15 13
15 14 13 13
14 13 10 13
12 12 10 11
16 11 14 14
17 16 15 15
19 14 16 15
13 15 10 15

Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 2,55147 2,36933 1,07687 0,3046
Algoritmos 0,58269 0,266534 2,18617 0,0513
Base de Datos 0,373483 0,144234 2,58942 0,0252
Programación -0,241526 0,270419 -0,893155 0,3909

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 18,7738 3 6,25793 8,44 0,0034
Residuo 8,15955 11 0,741777
Total (Corr.) 26,9333 14

R-cuadrada = 69,7047 porciento


R-cuadrado (ajustado para g.l.) = 61,4423 porciento
Error estándar del est. = 0,861265
Error absoluto medio = 0,581954
Estadístico Durbin-Watson = 1,67328 (P=0,2187)
Autocorrelación de residuos en retraso 1 = -0,045809

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre PHP y 3 variables independientes. La ecuación del modelo ajustado es

PHP = 2,55147 + 0,58269*Algoritmos + 0,373483*Base de Datos - 0,241526*Programación

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 69,7047% de la variabilidad en
PHP. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 61,4423%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 0,861265. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 0,581954 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables
independientes es 0,3909, que corresponde a Programación. Puesto que el valor-P es mayor o
igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del
95,0% ó mayor. Consecuentemente, debería considerarse eliminar Programación del modelo.

Procedemos a realizar la prueba para el mejor modelo de regresión así:

Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 3,48411 2,10883 1,65215 0,1244
Algoritmos 0,364359 0,105334 3,45909 0,0047
Base de Datos 0,319992 0,130102 2,45955 0,0301

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 18,1821 2 9,09103 12,47 0,0012
Residuo 8,75128 12 0,729273
Total (Corr.) 26,9333 14

R-cuadrada = 67,5076 porciento


R-cuadrado (ajustado para g.l.) = 62,0922 porciento
Error estándar del est. = 0,853975
Error absoluto medio = 0,588591
Estadístico Durbin-Watson = 1,4678 (P=0,1135)
Autocorrelación de residuos en retraso 1 = 0,0101728

Regresión por Pasos


Método: Selección Hacia Atrás
F para Introducir: 4,0
F para Eliminar: 4,0

Paso 0:
3 variable(s) en el modelo. 11 g.l. para el error.
R-cuadrado = 69,70% R-cuadrado ajustado = 61,44% CME = 0,741777

Paso 1:
Eliminando variable Programación con F para eliminar =0,797726
2 variable(s) en el modelo. 12 g.l. para el error.
R-cuadrado = 67,51% R-cuadrado ajustado = 62,09% CME = 0,729273

Modelo Final seleccionado.

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre PHP y 3 variables independientes. La ecuación del modelo ajustado es

PHP = 3,48411 + 0,364359*Algoritmos + 0,319992*Base de Datos


Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 67,5076% de la variabilidad en
PHP. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 62,0922%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 0,853975. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 0,588591 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

Notamos que el Coeficiente de Determinación bajo de 69% a 67% pero el Valor p del modelo se
redujo, dándonos mayor significancia y confiabilidad al modelo que al final queda expresado así

PHP = Ŷ =¿ 3,48411 + 0,364359 X 1 + 0,319992 X 2

Con gráfica:

Gráfico Componente+Residuo para PHP

1,9
efecto de componente

0,9

-0,1

-1,1

-2,1
12 14 16 18 20
Algoritmos

Ejercicio 7

Datos e información

Los siguientes datos muestran el número de habitaciones el número de baños y los precios a los
que se vendieron hace poco 8 casas de una muestra aleatoria de un distrito de lima.
x1 x2 y
N° de habitantes N° de baños Precio $USD
3 2 78.800
2 1 74.300
4 3 83.800
2 1 74.200
3 2 79.700
2 2 74.900
5 3 88.400
4 2 82.900

Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 65191,7 418,0 155,961 0,0000
Número de Baños 758,333 340,497 2,22713 0,0764
Número de 4133,33 228,591 18,0818 0,0000
Habitantes

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,85269E8 2 9,26346E7 675,34 0,0000
Residuo 685833, 5 137167,
Total (Corr.) 1,85955E8 7

R-cuadrada = 99,6312 porciento


R-cuadrado (ajustado para g.l.) = 99,4837 porciento
Error estándar del est. = 370,36
Error absoluto medio = 235,417
Estadístico Durbin-Watson = 2,28716 (P=0,7921)
Autocorrelación de residuos en retraso 1 = -0,297995

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Precio de Venta Casas y 2 variables independientes. La ecuación del modelo
ajustado es

Precio de Venta Casas = 65191,7 + 758,333*Número de Baños + 4133,33*Número de Habitantes

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 99,6312% de la variabilidad en
Precio de Venta Casas. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 99,4837%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 370,36. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 235,417 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Notamos que el Valor p de la Variable X 2 =número de baños es mayor que 0,05, no obstante, no
procedemos a eliminar la variable del modelo en virtud que el Valor p del modelo en general es
menor a 0,05 y nos da un alto nivel de significancia.

Sumado a esto, encontramos que el Coeficiente de Determinación es del 99,6312% mostrando una
fuerte relación entre las variables.

El modelo final queda así

Precio de Venta Casas = Ŷ =¿65191,7 + 4133,33 X 1 + 758,333 X 2

Con gráfica

GráficodePrecio de VentaCasas
(X1000,0)
89

86

83
observado

80

77

74
74 77 80 83 86 89
(X1000,0)
predicho

Ejercicio 8

Datos e información

Se realiza un estudio para saber si existe alguna relacion que afecte el gasto de alimentación
mensual de una familia (Y) con las siguientes variables. El ingreso mensual (x1), el número de
integrantes (X2) y el monto de ahorro por proyecto familiar (x3)

Gastos en alimentos Ingreso mensual Integrantes de familia Ahorro mensual


y x1 x2 x3
5000 10000 6 500
6000 45000 9 2000
2000 11000 5 1000
3000 12000 6 500
1500 10500 3 1000
5000 10000 6 2000

Ahorro Mensual (X_3)

Error
Estadístic
o
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2081,68 2249,65 -0,925336 0,4525
Ingreso Mensual -0,0567687 0,0732609 -0,774883 0,5195
Integrantes de la 1024,87 492,585 2,0806 0,1730
Familia
Ahorro Mensual 0,673048 1,02616 0,655889 0,5793
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,35945E7 3 4,53151E6 2,76 0,2769
Residuo 3,28048E6 2 1,64024E6
Total (Corr.) 1,6875E7 5

R-cuadrada = 80,5601 porciento


R-cuadrado (ajustado para g.l.) = 51,4003 porciento
Error estándar del est. = 1280,72
Error absoluto medio = 604,702
Estadístico Durbin-Watson = 1,24533 (P=0,0956)
Autocorrelación de residuos en retraso 1 = 0,167346

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Gasto de Alimentación y 3 variables independientes. La ecuación del modelo
ajustado es

Gasto de Alimentación = -2081,68 - 0,0567687*Ingreso Mensual + 1024,87*Integrantes de la


Familia + 0,673048*Ahorro Mensual

Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relación
estadísticamente significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 80,5601% de la variabilidad en
Gasto de Alimentación. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 51,4003%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 1280,72. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 604,702 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables
independientes es 0,5793, que corresponde a Ahorro Mensual. Puesto que el valor-P es mayor o
igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del
95,0% ó mayor. Consecuentemente, debería considerarse eliminar Ahorro Mensual del modelo.

A pesar de tener un buen Coeficiente de Correlación, nuestro Valor p es superior a 0,05, por lo
tanto procedemos a retirar las variables que afectan al modelo así:

Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE -973,451 1494,4 -0,6514 0,5503
Integrantes de la 809,735 245,126 3,30334 0,0298
Familia

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5

R-cuadrada = 73,176 porciento


R-cuadrado (ajustado para g.l.) = 66,47 porciento
Error estándar del est. = 1063,78
Error absoluto medio = 758,112
Estadístico Durbin-Watson = 1,03126 (P=0,0492)
Autocorrelación de residuos en retraso 1 = 0,209695

Regresión por Pasos


Método: Selección Hacia Atrás
F para Introducir: 4,0
F para Eliminar: 4,0

Paso 0:
3 variable(s) en el modelo. 2 g.l. para el error.
R-cuadrado = 80,56% R-cuadrado ajustado = 51,40% CME = 1,64024E6

Paso 1:
Eliminando variable Ahorro Mensual con F para eliminar =0,430191
2 variable(s) en el modelo. 3 g.l. para el error.
R-cuadrado = 76,38% R-cuadrado ajustado = 60,63% CME = 1,3287E6

Paso 2:
Eliminando variable Ingreso Mensual con F para eliminar =0,406751
1 variable(s) en el modelo. 4 g.l. para el error.
R-cuadrado = 73,18% R-cuadrado ajustado = 66,47% CME = 1,13164E6

Modelo Final seleccionado.

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Gasto de Alimentación y 3 variables independientes. La ecuación del modelo
ajustado es

Gasto de Alimentación = -973,451 + 809,735*Integrantes de la Familia

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 73,176% de la variabilidad en
Gasto de Alimentación. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 66,47%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 1063,78. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es menor que 0,05, hay indicación de una posible correlación serial con un nivel de
confianza del 95,0%. Grafique los residuos versus el número de fila para ver si hay algún patrón
que pueda detectarse.

Hasta aquí nuestro modelo es:


Gasto de Alimentación = Ŷ =¿-973,451 + 809,735 X 2 con un Coeficiente de Determinación del
73,176% y un Valor p 0,0298, lo cual nos indica que hay un buen nivel de significancia en el
modelo pero la fuerza de la correlación entre las variables aún es débil.

Ahora bien, si analizamos nos damos cuenta que el modelo queda con una única variable, lo que
nos remite a un modelo de regresión simple así

Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto -973,451 1494,4 -0,6514 0,5503
Pendiente 809,735 245,126 3,30334 0,0298

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5

Coeficiente de Correlación = 0,85543


R-cuadrada = 73,176 porciento
R-cuadrado (ajustado para g.l.) = 66,47 porciento
Error estándar del est. = 1063,78
Error absoluto medio = 758,112
Estadístico Durbin-Watson = 1,03126 (P=0,0492)
Autocorrelación de residuos en retraso 1 = 0,209695

El StatAdvisor
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Gasto
de Alimentación y Integrantes de la Familia. La ecuación del modelo ajustado es

Gasto de Alimentación = -973,451 + 809,735*Integrantes de la Familia

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Gasto de Alimentación y Integrantes de la Familia con un nivel de confianza del
95,0%.

El estadístico R-Cuadrada indica que el modelo ajustado explica 73,176% de la variabilidad en


Gasto de Alimentación. El coeficiente de correlación es igual a 0,85543, indicando una relación
moderadamente fuerte entre las variables. El error estándar del estimado indica que la desviación
estándar de los residuos es 1063,78. Este valor puede usarse para construir límites de predicción
para nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.

El error absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El estadístico de
Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa
basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es menor
que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%.
Grafique los residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
Procedemos a analizar el mejor modelo de regresión así:

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Doble Inverso 0,9075 82,36%
Inversa-Y Log-X -0,9008 81,14%
Multiplicativa 0,8768 76,88%
Logarítmico-Y Raíz Cuadrada-X 0,8712 75,90%
Raíz Cuadrada Doble 0,8643 74,70%
Raíz Cuadrada-Y Log-X 0,8625 74,39%
Curva S -0,8584 73,69%
Cuadrado de Y 0,8580 73,61%
Raíz Cuadrada deX 0,8573 73,50%
Lineal 0,8554 73,18%
Raíz Cuadrada de Y 0,8550 73,11%
Exponencial 0,8545 73,02%
Cuadrado Doble 0,8513 72,47%
Inversa de Y -0,8499 72,23%
Logaritmo de X 0,8484 71,98%
Cuadrado-Y Raíz Cuadrada-X 0,8465 71,66%
Raíz Cuadrada-Y Inversa de X -0,8314 69,13%
Cuadrado-Y Log-X 0,8246 67,99%
Cuadrado de X 0,8241 67,91%
Raíz Cuadrada-X Cuadrado-X 0,8103 65,65%
Inversa de X -0,8051 64,82%
Log-Y Cuadrado-X 0,7961 63,38%
Inversa-Y Cuadrado-X -0,7661 58,68%
Cuadrado-Y Inversa de X -0,7594 57,66%

Ajustando el modelo obtenemos lo siguiente:

Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto -0,000115812 0,00011326 -1,02254 0,3643
Pendiente 0,002413 0,00055845 4,32085 0,0124
4

Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,65931E-7 1 1,65931E-7 18,67 0,0124
Residuo 3,55507E-8 4 8,88769E-9
Total (Corr.) 2,01481E-7 5

Coeficiente de Correlación = 0,907498


R-cuadrada = 82,3553 porciento
R-cuadrado (ajustado para g.l.) = 77,9442 porciento
Error estándar del est. = 0,0000942745
Error absoluto medio = 0,0000648536
Estadístico Durbin-Watson = 1,14213 (P=0,0913)
Autocorrelación de residuos en retraso 1 = 0,21918

El StatAdvisor
La salida muestra los resultados de ajustar un modelo doble inverso para describir la relación entre
Gasto de Alimentación y Integrantes de la Familia. La ecuación del modelo ajustado es

Gasto de Alimentación = 1/(-0,000115812 + 0,002413/Integrantes de la Familia)

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Gasto de Alimentación y Integrantes de la Familia con un nivel de confianza del
95,0%.

El estadístico R-Cuadrada indica que el modelo ajustado explica 82,3553% de la variabilidad en


Gasto de Alimentación. El coeficiente de correlación es igual a 0,907498, indicando una relación
relativamente fuerte entre las variables. El error estándar del estimado indica que la desviación
estándar de los residuos es 0,0000942745.

Notamos que nuestro modelo ahora tiene un Coeficiente de Determinación del 82,3553% y un
Coeficiente de Correlación de 0,907498 indicando una fuerte correlación entre las variables y un
Valor p de 0,0124 el cual es menor que 0,05 y nos indica un alto grado de significancia. Así
obtuvimos un modelo más confiable y con mayor correlación dándonos mayor significancia y
precisión para las predicciones

El modelo final queda así:

1
Ŷ=
α + β X2

Tomando los datos de STATGRAPHICS obtenemos el modelo así:

1
Ŷ=
−0,000115812+ 0,002413 X 2

Con gráfica

Gráfico del Modelo Ajustado


Gasto de Alimentación = 1/(-0,000115812 + 0,002413/Integrantes de la Familia)
6500

5500
Gasto de Alimentación

4500

3500

2500

1500
3 4 5 6 7 8 9
Integrantes de la Familia

También podría gustarte