Trabajo de Modelos de Regresión
Trabajo de Modelos de Regresión
Trabajo de Modelos de Regresión
Presentado por:
Presentado a:
Departamento de Posgrados
Barranquilla - Atlántico
20 de junio de 2019
Ejercicio 1
Datos:
1 3
2 5
3 7
4 9
5 11
SSxx 10
SSR 40
SSxy 20
SSyy 40
r 1
Así mismo, se obtienen los siguientes cálculos que como se expresaron en las tablas iniciales, nos
muestran una perfecta y fuerte correlación entre la Variable Dependiente y la Variable
Independiente con un alto nivel de significancia.
Ahora bien, procedemos a calcular el mejor modelo de regresión para nuestro estimador Ŷ así:
Comparación de Modelos Alternos
Modelo Correlación R-
Cuadrada
Lineal 1,0000 100,00%
Raíz Cuadrada Doble 0,9998 99,96%
Cuadrado Doble 0,9996 99,93%
Multiplicativa 0,9991 99,81%
Logarítmico-Y Raíz 0,9972 99,44%
Cuadrada-X
Doble Inverso 0,9968 99,36%
Raíz Cuadrada de Y 0,9956 99,13%
Raíz Cuadrada de X 0,9935 98,71%
Raíz Cuadrada-Y Log-X 0,9904 98,08%
Cuadrado de Y 0,9860 97,22%
Exponencial 0,9822 96,47%
Cuadrado de X 0,9811 96,26%
Logaritmo de X 0,9733 94,73%
Curva S -0,9660 93,31%
Cuadrado-Y Raíz Cuadrada- 0,9610 92,36%
X
Raíz Cuadrada-X Cuadrado- 0,9590 91,97%
X
Inversa de Y -0,9322 86,90%
Log-Y Cuadrado-X 0,9281 86,13%
Cuadrado-Y Log-X 0,9226 85,12%
Inversa de X -0,9018 81,32%
Inversa-Y Cuadrado-X -0,8477 71,87%
Cuadrado-Y Inversa de X -0,8216 67,51%
Ŷ =1+ 2 X
Con gráfica:
Gráfico
Gráfico del
del Modelo
Modelo Ajustado
Ajustado
Y_0
Y_0 =
=11+
+ 2*X_0
2*X_0
11
11
9
9
Y_0
7
Y_0
5
5
3
3
0
0 1
1 2
2 3
3 4
4 5
5
X_0
X_0
Fuente: StatGraphics
Ejercicio 2
Datos:
0,99 90,01
1,29 93,74
0,87 87,59
1,4 93,65
0,98 90,56
1,2 90,39
1,43 94,98
1,02 89,05
1,46 96,73
1,23 91,77
1,19 93,54
1,01 89,54
1,26 93,25
0,95 87,33
1,15 91,43
1,36 94,45
1,55 99,42
1,15 92,52
1,11 89,85
1,32 93,41
SSxx 0,6809
Cabe resaltar que los datos α, β, r y R2 son para un modelo lineal, el cual, como veremos más
adelante, no es el que mejor se ajusta a la distribución, luego estos datos cambiarán para ajustarse
el mejor modelo de regresión.
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 0,415532 1 0,415532 144,66 0,0000
Residuo 0,0517028 18 0,00287238
Total (Corr.) 0,467234 19
Notamos que el Coeficiente de Correlación es 0,94305 mostrando una excelente correlación entre
las variables y un Coeficiente de Determinación del 88,9343% mostrando una fuerte relación entre
las Variables Dependiente e Independiente.
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Y_i y X_i con un nivel de confianza del 95,0%.
Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:
Sr 1,0865
b1 0,0000
t calculado 11,3517
t teorico 2,1009
Alfa 74,2833
n-2 18
Así:
H 0 :b1=0
H 1 : b1 ≠ 0
Ŷ =(∝+ β X 2)2
Luego, utilizando los datos arrojados por STATGRAPHICS nuestra ecuación queda de la siguiente
forma:
Ŷ =(9,12502+0,323522 X 2 )2
99
96
Y_i
93
90
87
0,87 1,07 1,27 1,47 1,67
X_i
Ejercicio 3
Datos:
Yi
1 1
2 1
3 2
4 2
5 4
Y se realizan las operaciones pertinentes para un modelo lineal, el cual será puesto a prueba para
determinar si es el mejor modelo de regresión para la distribución de los datos
SSxx 10
SSxy 7 SSR 5
SSyy 6 r 1
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 0,917372 0,0964362 9,51274 0,0025
Pendiente 0,0407557 0,00689181 5,91364 0,0097
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 0,621225 1 0,621225 34,97 0,0097
Residuo 0,0532917 3 0,0177639
Total (Corr.) 0,674517 4
Así mismo, puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación
estadísticamente significativa entre Y_2 y X_2 con un nivel de confianza del 95,0%.
Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:
Sr 0,606
b1 0,000
t calculado 3,6556
t teorico 2,3060
Alfa 0
n-2 3
Así:
H 0 :b1=0
H 1 : b1 ≠ 0
Ŷ =(∝+ β X 2)2
Luego, utilizando los datos arrojados por STATGRAPHICS nuestra ecuación queda de la siguiente
forma:
Ŷ =(0,917372+0,0407557 X 2 )2
Con gráfica:
3,5
3
Y_2
2,5
1,5
1
0 1 2 3 4 5
X_2
Ejercicio 4
Datos:
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06
presion temperatura
n XY X^2 Y^2 (x-Xmedia)^2
17 194,5 20,79 4044 37830 432 37830,250
194,3 20,79 4039 37752 432 37752,490
197,9 22,4 4433 39164 502 39164,410
198,4 22,67 4498 39363 514 39362,560
199,4 23,15 4616 39760 536 39760,360
199,9 23,35 4668 39960 545 39960,010
200,9 23,89 4800 40361 571 40360,810
201,1 23,99 4824 40441 576 40441,210
201,4 24,02 4838 40562 577 40561,960
201,3 24,01 4833 40522 576 40521,690
203,6 25,14 5119 41453 632 41452,960
204,6 26,57 5436 41861 706 41861,160
209,5 28,49 5969 43890 812 43890,250
208,6 27,76 5791 43514 771 43513,960
210,7 29,04 6119 44394 843 44394,490
211,9 29,88 6332 44902 893 44901,610
212,2 30,06 6379 45029 904 45028,840
Sumatorias 3450 426 86735 700759 10821 700759,020
Medias 202,9529 25,0588
Cabe resaltar que los datos α, β, r y R2 son para un modelo lineal, el cual, como veremos más
adelante, no es el que mejor se ajusta a la distribución, luego estos datos cambiarán para ajustarse
el mejor modelo de regresión.
La tabla ANOVA a continuación expuesta está calculada con el mejor modelo así:
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto 7,43049 0,0731278 101,61 0,0000
Pendiente -855,004 14,8248 -57,6739 0,0000
Vemos en los Coeficientes de Correlación de -0,997753 cercano a -1, como es el ideal cercano a
-1 o 1, y el Coeficiente de Determinación del 99,5511 que el modelo está fuertemente relacionado.
También, el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Temperatura y Presión con un nivel de confianza del 95,0%.
Procedemos a realizar Prueba de Hipótesis para determinar la veracidad del modelo con los
siguientes datos:
Sr 0,2328
b1 0,0000
t calculado 51,7408
t teorico 2,1009
Alfa -81,0637
n-2 15
Así:
H 0 :b1=0
H 1 : b1 ≠ 0
β
(α + )
X
Ŷ =℮
855,004
(7,43049− )
X
Ŷ =℮
Con gráfica
Gráfico del Modelo Ajustado
Temperatura = exp(7,43049 - 855,004/Presion)
32
30
28
Temperatura
26
24
22
20
190 194 198 202 206 210 214
Presion
Ejercicio 5
Datos
X1 X2 Y
SEXO % GRASA IMC
FEMENINO 0 37,5 22,4
MASCULINO 1 17 24,2
FEMENINO 0 36,5 20
FEMENINO 0 25,5 22,6
FEMENINO 0 22,8 22,8
MASCULINO 1 27,6 28
FEMENINO 0 45 28,9
FEMENINO 0 43,6 27,8
FEMENINO 0 38,2 23
MASCULINO 1 26 24
FEMENINO 0 28,7 19,8
MASCULINO 1 46,2 27,6
MASCULINO 1 23,3 25,5
MASCULINO 1 23,3 23,4
MASCULINO 1 22,4 22,8
MASCULINO 1 18,9 24
MASCULINO 1 14,4 20,7
MASCULINO 1 26 25
MASCULINO 1 23 23
FEMENINO 0 37,6 23,2
FEMENINO 0 26 24
FEMENINO 0 24 25
FEMENINO 0 28,7 19,8
FEMENINO 0 46,2 27,6
FEMENINO 0 17 20
FEMENINO 0 29,3 19
MASCULINO 1 30,7 26
FEMENINO 0 24 25
MASCULINO 1 37 33
FEMENINO 0 17 22
MASCULINO 1 22,5 23,4
Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 16,4902 1,65749 9,94889 0,0000
Sexo 3,09227 0,898889 3,4401 0,0018
% Grasa 0,213356 0,0500825 4,26008 0,0002
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 130,859 2 65,4294 11,62 0,0002
Residuo 157,723 28 5,63297
Total (Corr.) 288,582 30
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre IMC y 2 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 45,3454% de la variabilidad en
IMC. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 41,4415%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 2,37339. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 1,88268 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
El StatAdvisor
Esta tabla muestra los modelos que dan los valores más altos de R-Cuadrada ajustada. El
estadístico de R-Cuadrada ajustada mide la proporción de variabilidad en IMC que es explicada por
el modelo. Valores grandes de R-Cuadrada ajustada corresponden a valores pequeños de
cuadrado medio del error (CME). Se muestran hasta 5 modelos en cada subconjunto de entre 0 y
2 variables. El mejor modelo contiene 2 variables, % Grasa, y Sexo.
Esto nos indica que, no es necesario eliminar variables del modelo pues de hacerlo, tendríamos un
Coeficiente de Determinación ajustado mucho mejor al ideal.
Con gráfica
50
40
R-Cuadrada ajustada
30
20
10
0
0 1 2 3 4
Número de Coeficientes
Ejercicio 6
Datos e información
Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 2,55147 2,36933 1,07687 0,3046
Algoritmos 0,58269 0,266534 2,18617 0,0513
Base de Datos 0,373483 0,144234 2,58942 0,0252
Programación -0,241526 0,270419 -0,893155 0,3909
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 18,7738 3 6,25793 8,44 0,0034
Residuo 8,15955 11 0,741777
Total (Corr.) 26,9333 14
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre PHP y 3 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 69,7047% de la variabilidad en
PHP. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 61,4423%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 0,861265. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 0,581954 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables
independientes es 0,3909, que corresponde a Programación. Puesto que el valor-P es mayor o
igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del
95,0% ó mayor. Consecuentemente, debería considerarse eliminar Programación del modelo.
Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 3,48411 2,10883 1,65215 0,1244
Algoritmos 0,364359 0,105334 3,45909 0,0047
Base de Datos 0,319992 0,130102 2,45955 0,0301
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 18,1821 2 9,09103 12,47 0,0012
Residuo 8,75128 12 0,729273
Total (Corr.) 26,9333 14
Paso 0:
3 variable(s) en el modelo. 11 g.l. para el error.
R-cuadrado = 69,70% R-cuadrado ajustado = 61,44% CME = 0,741777
Paso 1:
Eliminando variable Programación con F para eliminar =0,797726
2 variable(s) en el modelo. 12 g.l. para el error.
R-cuadrado = 67,51% R-cuadrado ajustado = 62,09% CME = 0,729273
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre PHP y 3 variables independientes. La ecuación del modelo ajustado es
El estadístico R-Cuadrada indica que el modelo así ajustado explica 67,5076% de la variabilidad en
PHP. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con
diferente número de variables independientes, es 62,0922%. El error estándar del estimado
muestra que la desviación estándar de los residuos es 0,853975. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de
texto. El error absoluto medio (MAE) de 0,588591 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Notamos que el Coeficiente de Determinación bajo de 69% a 67% pero el Valor p del modelo se
redujo, dándonos mayor significancia y confiabilidad al modelo que al final queda expresado así
Con gráfica:
1,9
efecto de componente
0,9
-0,1
-1,1
-2,1
12 14 16 18 20
Algoritmos
Ejercicio 7
Datos e información
Los siguientes datos muestran el número de habitaciones el número de baños y los precios a los
que se vendieron hace poco 8 casas de una muestra aleatoria de un distrito de lima.
x1 x2 y
N° de habitantes N° de baños Precio $USD
3 2 78.800
2 1 74.300
4 3 83.800
2 1 74.200
3 2 79.700
2 2 74.900
5 3 88.400
4 2 82.900
Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE 65191,7 418,0 155,961 0,0000
Número de Baños 758,333 340,497 2,22713 0,0764
Número de 4133,33 228,591 18,0818 0,0000
Habitantes
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,85269E8 2 9,26346E7 675,34 0,0000
Residuo 685833, 5 137167,
Total (Corr.) 1,85955E8 7
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Precio de Venta Casas y 2 variables independientes. La ecuación del modelo
ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 99,6312% de la variabilidad en
Precio de Venta Casas. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 99,4837%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 370,36. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 235,417 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Notamos que el Valor p de la Variable X 2 =número de baños es mayor que 0,05, no obstante, no
procedemos a eliminar la variable del modelo en virtud que el Valor p del modelo en general es
menor a 0,05 y nos da un alto nivel de significancia.
Sumado a esto, encontramos que el Coeficiente de Determinación es del 99,6312% mostrando una
fuerte relación entre las variables.
Con gráfica
GráficodePrecio de VentaCasas
(X1000,0)
89
86
83
observado
80
77
74
74 77 80 83 86 89
(X1000,0)
predicho
Ejercicio 8
Datos e información
Se realiza un estudio para saber si existe alguna relacion que afecte el gasto de alimentación
mensual de una familia (Y) con las siguientes variables. El ingreso mensual (x1), el número de
integrantes (X2) y el monto de ahorro por proyecto familiar (x3)
Error
Estadístic
o
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2081,68 2249,65 -0,925336 0,4525
Ingreso Mensual -0,0567687 0,0732609 -0,774883 0,5195
Integrantes de la 1024,87 492,585 2,0806 0,1730
Familia
Ahorro Mensual 0,673048 1,02616 0,655889 0,5793
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,35945E7 3 4,53151E6 2,76 0,2769
Residuo 3,28048E6 2 1,64024E6
Total (Corr.) 1,6875E7 5
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Gasto de Alimentación y 3 variables independientes. La ecuación del modelo
ajustado es
Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relación
estadísticamente significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 80,5601% de la variabilidad en
Gasto de Alimentación. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 51,4003%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 1280,72. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 604,702 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables
independientes es 0,5793, que corresponde a Ahorro Mensual. Puesto que el valor-P es mayor o
igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del
95,0% ó mayor. Consecuentemente, debería considerarse eliminar Ahorro Mensual del modelo.
A pesar de tener un buen Coeficiente de Correlación, nuestro Valor p es superior a 0,05, por lo
tanto procedemos a retirar las variables que afectan al modelo así:
Error Estadístic
o
Parámetro Estimació Estándar T Valor-P
n
CONSTANTE -973,451 1494,4 -0,6514 0,5503
Integrantes de la 809,735 245,126 3,30334 0,0298
Familia
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5
Paso 0:
3 variable(s) en el modelo. 2 g.l. para el error.
R-cuadrado = 80,56% R-cuadrado ajustado = 51,40% CME = 1,64024E6
Paso 1:
Eliminando variable Ahorro Mensual con F para eliminar =0,430191
2 variable(s) en el modelo. 3 g.l. para el error.
R-cuadrado = 76,38% R-cuadrado ajustado = 60,63% CME = 1,3287E6
Paso 2:
Eliminando variable Ingreso Mensual con F para eliminar =0,406751
1 variable(s) en el modelo. 4 g.l. para el error.
R-cuadrado = 73,18% R-cuadrado ajustado = 66,47% CME = 1,13164E6
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la
relación entre Gasto de Alimentación y 3 variables independientes. La ecuación del modelo
ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 73,176% de la variabilidad en
Gasto de Alimentación. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar
modelos con diferente número de variables independientes, es 66,47%. El error estándar del
estimado muestra que la desviación estándar de los residuos es 1063,78. Este valor puede usarse
para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú
de texto. El error absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación
significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el
valor-P es menor que 0,05, hay indicación de una posible correlación serial con un nivel de
confianza del 95,0%. Grafique los residuos versus el número de fila para ver si hay algún patrón
que pueda detectarse.
Ahora bien, si analizamos nos damos cuenta que el modelo queda con una única variable, lo que
nos remite a un modelo de regresión simple así
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto -973,451 1494,4 -0,6514 0,5503
Pendiente 809,735 245,126 3,30334 0,0298
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5
El StatAdvisor
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Gasto
de Alimentación y Integrantes de la Familia. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Gasto de Alimentación y Integrantes de la Familia con un nivel de confianza del
95,0%.
El error absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El estadístico de
Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa
basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es menor
que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%.
Grafique los residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
Procedemos a analizar el mejor modelo de regresión así:
Coeficientes
Mínimos Estándar Estadístic
Cuadrados o
Parámetr Estimado Error T Valor-P
o
Intercepto -0,000115812 0,00011326 -1,02254 0,3643
Pendiente 0,002413 0,00055845 4,32085 0,0124
4
Análisis de Varianza
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 1,65931E-7 1 1,65931E-7 18,67 0,0124
Residuo 3,55507E-8 4 8,88769E-9
Total (Corr.) 2,01481E-7 5
El StatAdvisor
La salida muestra los resultados de ajustar un modelo doble inverso para describir la relación entre
Gasto de Alimentación y Integrantes de la Familia. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente
significativa entre Gasto de Alimentación y Integrantes de la Familia con un nivel de confianza del
95,0%.
Notamos que nuestro modelo ahora tiene un Coeficiente de Determinación del 82,3553% y un
Coeficiente de Correlación de 0,907498 indicando una fuerte correlación entre las variables y un
Valor p de 0,0124 el cual es menor que 0,05 y nos indica un alto grado de significancia. Así
obtuvimos un modelo más confiable y con mayor correlación dándonos mayor significancia y
precisión para las predicciones
1
Ŷ=
α + β X2
1
Ŷ=
−0,000115812+ 0,002413 X 2
Con gráfica
5500
Gasto de Alimentación
4500
3500
2500
1500
3 4 5 6 7 8 9
Integrantes de la Familia