Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Taller 4 Regresión Logística

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

Taller 4.

Regresión Logística
En un estudio para investigar la incidencia de dengue en una determinada ciudad de la costa
mexicana, un total de 196 individuos, escogidos aleatoriamente en dos de los sectores de la
ciudad, respondió a las siguientes preguntas:
(i) (edad) Edad (en años),
(ii) (nivel) nivel socioeconómico (1 nivel alto/ 2 nivel medio/ 3 nivel bajo),
(iii) (sector) sector en el que vive y
(iv) (enfermedad) si el entrevistado contrajo o no la enfermedad recientemente (1 si/
0 no).
Los datos se encuentran en el archivo dengue.csv.
1. Considere un modelo logístico lineal para explicar la probabilidad de que un
individuo contraiga la enfermedad a partir de las tres variables explicativas.
Describa las componentes aleatoria y sistemática del modelo propuesto.

El modelo propuesto es el siguiente:


Logit (Y )=B B 1 x 1+ ^
^0 + ^ B2 x 2+ ^
B3 x 3
^0 + ^
Logit ( enfermedad )= B B1 edad+ ^
B2 nivel 2+ ^
B3 nivel 3+^
B4 sector 2

1
Los coeficientes que acompañan a las variables predictores son los siguientes:

Logit ( enfermedad )=−2.29393+ 0.02699∗edad +0. 04461∗nivel 2+ 0.25343∗nivel 3+1.24363∗sec

La componente aleatoria identifica la variable respuesta y su distribución de


probabilidad. En este modelo las observaciones de Y (enfermedad) son binarias y se
identifican como la probabilidad de enfermarse o no enfermarse.

La componente sistemática especifica las variables explicativas (independientes,


explicativas o predictoras) utilizadas en la función predictora lineal. En este caso las
variables predictoras son edad, nivel y sector. Esta combinación lineal de variables
explicativas se denomina predictor lineal. A su vez, las variables nivel y sector están
descompuestas en cofactores (nivel1, nivel2, nivel3, sector1 y sector2) A partir de la
estimación realizada el coeficiente de la variable edad fue 0.02699; nivel2 de
0.04461; nivel3 de 0.25343; sector2 de 1.24363. Las únicas variables significativas
fueron edad (pvalor=0.00186) y sector2 (pvalor=0.00042). Conforme a lo que dice
la teoría no se incluyeron el nivel 1 ni el sector 1 y los resultados de significancia no
cambian para el análisis.

2. ¿La probabilidad de que un individuo contraiga la enfermedad depende de su


edad?

De acuerdo con los resultados obtenidos sí hay significancia estadística de la edad


respecto a la probabilidad de estar enfermo.

3. ¿La probabilidad de que un individuo contraiga la enfermedad depende del


sector de la ciudad en el que vive?

De acuerdo con los resultados obtenidos sí hay significancia estadística entre el


sector donde vive y la probabilidad de enfermarse.

4. Según el modelo estimado, cuál es la probabilidad de contraer dengue de una


persona de 30 años, nivel socioeconómico alto y que vive en el sector 2 de la
ciudad?

Logit ( enfermedad )=−2 . 293+^


0.02 69∗edad+ 0.253∗nivel alto+^
1.2 43∗sector 2

^ ^
e−2.29 3+0.0269∗30+0.253∗nivel alto +1.24 3∗sector 2
Probabilidad enfermedad =
( ) ^ ^
1+e−2.29 +0.0269∗30 +0.253∗nivel alto+1.24 3∗sector 2

Probabilidad ( enfermedad ) =¿ 0.1844 = 18,44%

2
5. Seleccione el “mejor” modelo para describir el fenómeno bajo estudio. Use
como guía la medida de calidad del ajuste AIC. Verifique que todas las
variables en el modelo elegido sean estadísticamente significativas.
INTERPRETE los parámetros del modelo escogido.

Considerando el criterio AIC, los resultados del valor de z y los niveles de


significancia el mejor modelo es el siguiente:

^0 + ^
Logit ( enfermedad )= B B1 edad+ ^
B2 sector

Logit ( enfermedad )=−3.341135 +^


0.02681∗edad+^
1.18169∗sector

P robabilidad ( enfermedad )
e(−3.341135+(0.02681∗edad )+ (1.18169∗sector ))
¿
1+ e(−3.341135+( 0.02681∗edad )+(1.18169∗sector )) g

De acuerdo con los modelos estimados, el mejor es el de la tabla anterior


considerando los valores de las variables predictoras que resultaron significativas y
por tanto fueron incorporadas en la regresión (se dejó el bloque de la variable sector
porque es significativo y se excluyó el bloque de la variable nivel por no serlo).
Además, el criterio AIC es el menor de todos los modelos estimados (AIC=217.6).
El logaritmo de odds de que una persona se enferme o no, está positivamente
relacionado con la edad (coeficiente parcial = 0.02681) y es significativa esta
relación (p-valor = 0.00194). Que sea menor que cero el coeficiente de edad
significa que a mayor edad tiene mayor probabilidad de enfermar. De igual manera,

3
el logaritmo de odds presenta una relación positiva con el sector donde vive la
persona (coeficiente parcial = 1.18169) y la relación es significativa (p-valor =
0,00045),

6. Describa el desempeño del modelo seleccionado usando su matriz de confusión.

A partir de lo observado, es posible indicar que el modelo es capaz de clasificar


correctamente el 75 % (130+17/130+17+40+9 =0.75) de las observaciones de
entrenamiento. Al analizar cómo se distribuye el error, se aprecia que el modelo solo ha
sido capaz de identificar correctamente a 17 de las 57 de las personas que podrían
enfermarse.
Conclusión
El modelo logístico creado para predecir la probabilidad de que una persona se enferme o
no a partir de la edad y el sector donde vive es en conjunto significativo teniendo en cuenta
los resultados Likelihood ratio (p-valor = 0.00000361). Además, el p-valor de ambos
predictores es significativo (edad = 0.00194, sector =0.00045) y valor de z (nivel de
confianza del 95%) también es superior a 1,96 en las variables consideradas.

También podría gustarte