Taller 4 Regresión Logística

Taller 4.
Regresión Logística
En un estudio para investigar la incidencia de dengue en una determinada ciudad de la costa
mexicana, un total de 196 individuos, escogidos aleatoriamente en dos de los sectores de la
ciudad, respondió a las siguientes preguntas:
(i) (edad) Edad (en años),
(ii) (nivel) nivel socioeconómico (1 nivel alto/ 2 nivel medio/ 3 nivel bajo),
(iii) (sector) sector en el que vive y
(iv) (enfermedad) si el entrevistado contrajo o no la enfermedad recientemente (1 si/
0 no).
Los datos se encuentran en el archivo dengue.csv.
1. Considere un modelo logístico lineal para explicar la probabilidad de que un
individuo contraiga la enfermedad a partir de las tres variables explicativas.
Describa las componentes aleatoria y sistemática del modelo propuesto.
El modelo propuesto es el siguiente:

Logit (Y )=B B 1 x 1+ ^
^0 + ^ B2 x 2+ ^
B3 x 3
^0 + ^
Logit ( enfermedad )= B B1 edad+ ^
B2 nivel 2+ ^
B3 nivel 3+^
B4 sector 2
1
Los coeficientes que acompañan a las variables predictores son los siguientes:
Logit ( enfermedad )=−2.29393+ 0.02699∗edad +0. 04461∗nivel 2+ 0.25343∗nivel 3+1.24363∗sec
La componente aleatoria identifica la variable respuesta y su distribución de

probabilidad. En este modelo las observaciones de Y (enfermedad) son binarias y se
identifican como la probabilidad de enfermarse o no enfermarse.
La componente sistemática especifica las variables explicativas (independientes,

explicativas o predictoras) utilizadas en la función predictora lineal. En este caso las
variables predictoras son edad, nivel y sector. Esta combinación lineal de variables
explicativas se denomina predictor lineal. A su vez, las variables nivel y sector están
descompuestas en cofactores (nivel1, nivel2, nivel3, sector1 y sector2) A partir de la
estimación realizada el coeficiente de la variable edad fue 0.02699; nivel2 de
0.04461; nivel3 de 0.25343; sector2 de 1.24363. Las únicas variables significativas
fueron edad (pvalor=0.00186) y sector2 (pvalor=0.00042). Conforme a lo que dice
la teoría no se incluyeron el nivel 1 ni el sector 1 y los resultados de significancia no
cambian para el análisis.
2. ¿La probabilidad de que un individuo contraiga la enfermedad depende de su

edad?
De acuerdo con los resultados obtenidos sí hay significancia estadística de la edad

respecto a la probabilidad de estar enfermo.
3. ¿La probabilidad de que un individuo contraiga la enfermedad depende del

sector de la ciudad en el que vive?
De acuerdo con los resultados obtenidos sí hay significancia estadística entre el

sector donde vive y la probabilidad de enfermarse.
4. Según el modelo estimado, cuál es la probabilidad de contraer dengue de una

persona de 30 años, nivel socioeconómico alto y que vive en el sector 2 de la
ciudad?
Logit ( enfermedad )=−2 . 293+^

0.02 69∗edad+ 0.253∗nivel alto+^
1.2 43∗sector 2
^ ^
e−2.29 3+0.0269∗30+0.253∗nivel alto +1.24 3∗sector 2
Probabilidad enfermedad =
( ) ^ ^
1+e−2.29 +0.0269∗30 +0.253∗nivel alto+1.24 3∗sector 2
Probabilidad ( enfermedad ) =¿ 0.1844 = 18,44%
2
5. Seleccione el “mejor” modelo para describir el fenómeno bajo estudio. Use
como guía la medida de calidad del ajuste AIC. Verifique que todas las
variables en el modelo elegido sean estadísticamente significativas.
INTERPRETE los parámetros del modelo escogido.
Considerando el criterio AIC, los resultados del valor de z y los niveles de

significancia el mejor modelo es el siguiente:
^0 + ^
Logit ( enfermedad )= B B1 edad+ ^
B2 sector
Logit ( enfermedad )=−3.341135 +^

0.02681∗edad+^
1.18169∗sector
P robabilidad ( enfermedad )
e(−3.341135+(0.02681∗edad )+ (1.18169∗sector ))
¿
1+ e(−3.341135+( 0.02681∗edad )+(1.18169∗sector )) g
De acuerdo con los modelos estimados, el mejor es el de la tabla anterior

considerando los valores de las variables predictoras que resultaron significativas y
por tanto fueron incorporadas en la regresión (se dejó el bloque de la variable sector
porque es significativo y se excluyó el bloque de la variable nivel por no serlo).
Además, el criterio AIC es el menor de todos los modelos estimados (AIC=217.6).
El logaritmo de odds de que una persona se enferme o no, está positivamente
relacionado con la edad (coeficiente parcial = 0.02681) y es significativa esta
relación (p-valor = 0.00194). Que sea menor que cero el coeficiente de edad
significa que a mayor edad tiene mayor probabilidad de enfermar. De igual manera,
3
el logaritmo de odds presenta una relación positiva con el sector donde vive la
persona (coeficiente parcial = 1.18169) y la relación es significativa (p-valor =
0,00045),
6. Describa el desempeño del modelo seleccionado usando su matriz de confusión.
A partir de lo observado, es posible indicar que el modelo es capaz de clasificar

correctamente el 75 % (130+17/130+17+40+9 =0.75) de las observaciones de
entrenamiento. Al analizar cómo se distribuye el error, se aprecia que el modelo solo ha
sido capaz de identificar correctamente a 17 de las 57 de las personas que podrían
enfermarse.
Conclusión
El modelo logístico creado para predecir la probabilidad de que una persona se enferme o
no a partir de la edad y el sector donde vive es en conjunto significativo teniendo en cuenta
los resultados Likelihood ratio (p-valor = 0.00000361). Además, el p-valor de ambos
predictores es significativo (edad = 0.00194, sector =0.00045) y valor de z (nivel de
confianza del 95%) también es superior a 1,96 en las variables consideradas.

Taller 4 Regresión Logística

Cargado por

Copyright:

Formatos disponibles

Taller 4 Regresión Logística

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller 4 Regresión Logística

Cargado por

Copyright:

Formatos disponibles

Taller 4.

El modelo propuesto es el siguiente:

Logit ( enfermedad )=−2.29393+ 0.02699∗edad +0. 04461∗nivel 2+ 0.25343∗nivel 3+1.24363∗sec

La componente aleatoria identifica la variable respuesta y su distribución de

La componente sistemática especifica las variables explicativas (independientes,

2. ¿La probabilidad de que un individuo contraiga la enfermedad depende de su

De acuerdo con los resultados obtenidos sí hay significancia estadística de la edad

3. ¿La probabilidad de que un individuo contraiga la enfermedad depende del

De acuerdo con los resultados obtenidos sí hay significancia estadística entre el

4. Según el modelo estimado, cuál es la probabilidad de contraer dengue de una

Logit ( enfermedad )=−2 . 293+^

Probabilidad ( enfermedad ) =¿ 0.1844 = 18,44%

Considerando el criterio AIC, los resultados del valor de z y los niveles de

Logit ( enfermedad )=−3.341135 +^

De acuerdo con los modelos estimados, el mejor es el de la tabla anterior

6. Describa el desempeño del modelo seleccionado usando su matriz de confusión.

A partir de lo observado, es posible indicar que el modelo es capaz de clasificar

También podría gustarte