Regresión Logística Binaria
Regresión Logística Binaria
Regresión Logística Binaria
LA VARIABLE CATEGRICA
Si tenemos una variable categrica la tenemos que seleccionar en este
men,
Qu es lo que ocurre cuando uno crea una variable categrica?
cuando uno tiene variables categricas el programa va crear variables
dicotmicas variables ficticias las cuales se van a generar en las categoras
que tiene esa variable, en tal case va realizar 3 variables ficticias si vs el
resto talves vs el resto no vs el resto
Hoy nos centramos en explicar qu es la regresin logstica binaria y cmo analizarla en 6 pasos.
La regresin logstica binaria es la tcnica estadstica que tiene como objetivo comprobar hiptesis
o relaciones causales cuando la variable dependiente (resultado) es una variable binaria
(dicotmica, dummy), es decir, que tiene solo dos categoras.
Aunque su lectura se asemeja a la regresin lineal mltiple, la cual se usa cuando la variable
dependiente es ordinal o escalar, la regresin logstica est basada en principios diferentes como
los odd ratio y las probabilidades. Esto es algo complejo y largo de explicar, pero en pocas
palabras se basa en la idea que las variables independientes tratan de predecir la probabilidad que
ocurra algo sobre la probabilidad que no-ocurra. Por ejemplo, si queremos explicar por qu la gente
vota o no-vota en las elecciones, y nuestras variables independientes o predictoras son el nivel de
ingresos, la escala ideolgica (izquierda-derecha) y nivel educativo, los estadsticos obtenidos a
travs de la regresin logstica binaria sealarn si las variables independientes son buenas
predictoras o explicadoras del evento de votar.
En lugar de 4 pasos como en la regresin lineal mltiple, en este caso analizamos la regresin
logstica binaria en 6 pasos:
Sobre la bondad del modelo
1.
Significacin de chi-cuadrado del modelo en la prueba mnibus: Si la significacin es
menor de 0,05 indica que el modelo ayuda a explicar el evento, es decir, las variables
independientes explican la variable dependiente.
2.
R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke: Indica la parte de la varianza de
la variable dependiente explicada por el modelo. Hay dos R-cuadrados en la regresin logstica, y
ambas son vlidas. Se acostumbra a decir que la parte de la variable dependiente explicada por el
modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke. Cuanto ms alto
es la R-cuadrado ms explicativo es el modelo, es decir, las variables independientes explican la
variable dependiente.
3.
Porcentaje global correctamente clasificado: Este porcentaje indica el nmero de casos
que el modelo es capaz de predecir correctamente. Me explico. En base a la ecuacin de regresin
y los datos observados, se realiza una prediccin del valor de la variable dependiente (valor
La edad explica el evento de votar (significacin menor de 0,05). A ms edad ms probabilidad que
ocurra el evento de votar sobre la posibilidad que no ocurra (signo + en la B).
El nivel educativo tambin explica la variable dependiente. A ms nivel educativo ms probabilidad
que se vote.
A mayor importancia de Dios, ms probabilidad que se vote.
Cuanto ms de ideologa de derechas, ms probabilidad que ocurra el evento de votar.
De todas las variable seleccionadas, aquella que tiene una mayor fortaleza para explicar el evento
de votar es el nivel educativo (su exponencial de b -Exp(b)-) ms se aleja de 1.
Podemos decir en base a los datos analizados que el perfil de las personas que votan en Colombia
son de estudios altos, que le dan importancia a Dios, mayores en edad y de tendencia de
derechas.
La regresin logstica binaria es una tcnica estadstica muy til para sacar perfiles y sobre todo
para identificar las causas de los fenmenos, algo importantsimo si queremos incidir o intervenir
sobre la realidad social.