Análisis de Regresión - 2023
Análisis de Regresión - 2023
Análisis de Regresión - 2023
EDA 2023
▪ Análisis de residuos
▪ Transformaciones
▪ Regresión múltiple
▪ Selección de variables
1
6 7 8 9 10 11 12
Log de Income per capita 2017
INTRODUCCIÓN
Introducción
• El análisis de regresión estudia la relación que existe entre
variables.
4.0
3.5
5
lnField
3.0
4
2.5
3
2.0
2
1 1.5
6 7 8 9 10 11 12 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Log de Income per capita 2017 lnLab
Introducción
• ¿Qué tanto los años de experiencia, de educación y el género
influyen en el sueldo de una empresa?
• ¿Cómo el consumo de energía anual en una empresa, depende del
cambio climático, área construida y/o máquinas instaladas?
• ¿Qué tanto afecta la temperatura, pH del agua, etc. en el
crecimiento de langostinos?
• ¿El gasto en marketing puede ayudarnos a predecir las ventas de
una empresa?
• ¿El tiempo de permanencia de un paciente en un hospital puede ser
estimado en base a su relación con la severidad de la operación?
• …
Relaciones entre variables
• Nos interesa ver si dos o más variables están relacionadas. Si lo
están, podremos plantear un modelo (una relación funcional) que
describa dicha relación.
oY es la variable de respuesta
y X la variable predictora o
explicativa.
Correlación y causalidad
Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad
Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad
Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad
Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Recolección de datos
Libras de vapor de
Mes Temperatura aire/1000 pie
cúbico
Ene 21 185.79
Feb 24 214.47
Mar 32 288.03
Abr 47 424.84
May 50 454.58
Jun 59 539.03
Jul 68 621.55
Ago 74 675.06
Set 62 562.03
Oct 50 452.93
Nov 41 369.95
Dic 30 273.98
Gráfico de dispersión
Scatterplot of lnField vs lnLab
4.5
4.0
3.5
Con la gráfica de
lnField
3.0
observar la relación
2.0
1
6 7 8 9 10 11 12
Log de Income per capita 2017
Gráfico de dispersión
Estadística Aplicada
Facultad de Ingeniería
2017-I
Universidad de Piura
Gráfico de dispersión
2. Correlación (r)
• Medida numérica que mide la fuerza de la relación lineal entre dos variables.
• El numerador indica la asociación entre dos variables X y Y (Covarianza).
• Puede ser positiva o negativa.
• Sólo toma valores de entre -1 y 1. (-1 ≤ r ≤ 1)
Correlación
Limitación:
▪ La correlación puede solo medir la fuerza de una relación LINEAL
entre dos variables.
▪ Si son relaciones no lineales, ese valor de correlación puede ser
erróneo.
Correlación
Correlación
Correlación
Correlación
REGRESIÓN LINEAL SIMPLE
Regresión lineal simple
• Se trata de plantear un modelo matemático que mida la relación entre dos
variables: “x” y “y”.
• A la variable “x” se le llama variable explicativa o predictora. A la variable “y” se
le llama variable de respuesta.
• El modelo de regresión lineal simple es:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
Siendo:
❑ yi el valor i-ésimo observado de y.
❑ xi el valor i-ésimo observado de x.
❑ β0 es el intercepto y β1 es la pendiente.
❑ 𝜖 i el error aleatorio.
Regresión lineal simple
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
❑Linealidad
❑Los errores se distribuyen normalmente, con media igual a 0 y
varianza σ2: 𝝐𝒊 ~ N(0, σ2)
❑Tienen varianza (σ2) constante.
❑𝜖𝑖 son independientes entre sí.
Regresión lineal simple
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
¿y si β1 <0 o β1>0?
Modelo de regresión simple – ejemplo 1
Establezcamos el supuesto de que la producción de soja está determinada
por el modelo:
𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑜𝑗𝑎 = 𝛽0 + 𝛽1 ∗ 𝑓𝑒𝑟𝑡𝑖𝑙𝑖𝑧𝑎𝑛𝑡𝑒 + 𝜖
𝑦ො𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
Si 𝛽1 = 0, entonces podemos decir que 𝑦𝑖 no depende de 𝑥 .
pairs(data[,2:8])
cor(data[,2:8])
Resultados: estimamos un modelo de
RLS
En R, se puede usar la función “lm()”:
Este objeto
debe contener
lm(Y~X, data=data) los datos.
= 17.6106 + 0.02686*Manuf
𝑆𝑂2
𝑆𝑆𝑅𝑒𝑔
Coeficiente de determinación: 𝑅2 =
𝑆𝑆𝑇
• 0 < 𝑅2 < 1
• Mide qué tanto el modelo de regresión explica la variabilidad en los
datos de y.
• No mide qué tan adecuado es el modelo.
R 2
𝑆𝑂2(𝑥 = 200) = 𝟐𝟐. 𝟗𝟖
▪ Se estima un 22.98 de SO2 en promedio para un estado con 200 fábricas.
▪ En R:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
En donde Ɛi ~ N(0, σ2 )
• Residuos alrededor de 0.
• No se encuentra ningún patrón.
• La variabilidad de los residuos es constante.
Análisis de residuos
• Patrón de residuos con curvatura:
Y vs. X
Residuos vs. X
¿Qué hacer si no se cumplen los supuestos?
hist(residuos)
qqnorm(residuos) # gráfico de cuantiles de los residuos
qqline(residuos)
Analizamos residuos para el ejemplo SO2
▪ Analizamos la normalidad en R con Shapiro Test.
shapiro.test(residuos)
¿Cuál es la H0 en un ajuste
de distribución?
Analizamos residuos para el ejemplo SO2
▪ Analizamos la varianza constante e independencia de residuos.
par(mfrow=c(1,2)) # divide la ventana en una fila y dos columnas
plot(fitlm$fitted.values,fitlm$residuals)
plot(fitlm$residuals)
library(MASS)
𝑦∗ = 𝑦
1 ∗ 1
𝑦∗ = ;𝑥 =
𝑦 𝑥
𝑦 ∗ = ln 𝑦
𝑥 ∗ = ln(𝑥)
3
Regresión lineal múltiple
40
Tiempo de delivery (min)
0
30
20
Número de casos
10
1600
800
Distancia (pie)
𝑀𝑆𝑅𝑒𝑔
Se calcula 𝐹 = , el que se obtiene de la tabla ANOVA.
𝑀𝑆𝑅𝑒𝑠
Concluimos que sí
existe relación lineal
entre la y y la(s) x’(s).
¿Es 𝛽𝑖 =0?
¿Es 𝛽𝑖 =0?
𝐻0 : 𝛽𝑖 = 0 (no hay relación entre y y 𝑥𝑖 ) P-valor < 0.05
𝐻𝑎 : 𝛽𝑖 ≠ 0 (sí hay relación) Rechazamos 𝑯𝟎
Concluimos que sí
hay relación entre el
tiempo de reparto y el
número de casos
Después de la
transformación
MULTICOLINEALIDAD Y EL FIV (FACTOR
DE INFLACIÓN DE LA VARIANZA)
Multicolinealidad
▪ La multicolinealidad surge cuando las variables explicativas (predictoras o
independientes: “las X’s”) del modelo están altamente correlacionadas entre sí.
1. El peor caso es cuando la multicolinealidad es exacta: Cuando una variable
explicativa es combinación lineal (o función) de otra o de otras variables
explicativas. ¿Cómo resolverlo? Identificando y eliminando algún regresor(es)
colineal(es).
2. Si no es exacta, alguna variable está altamente correlacionada con otra(s). Más
difícil de detectar y de resolver. Aquí podemos usar el FIV para detectarlo.
Multicolinealidad: ¿Qué problemas puede
traer?
▪ Puede incrementar la varianza de los coeficientes de regresión, haciéndolos
inestables. Por ejemplo:
▪ Los coeficientes pueden parecer no significativos incluso cuando exista una relación significativa
entre el predictor y la respuesta.
▪ La eliminación de cualquier término muy correlacionado del modelo afectará considerablemente
los coeficientes estimados de los demás términos.
▪ Los coeficientes de los términos muy correlacionados incluso pueden tener el signo equivocado.
1
𝐹𝐼𝑉𝑗 =
1 − 𝑅𝑗2
CITY Ciudad
Dióxido de azufre en el aire en microgramos por
SO2 m^3
MANUF Número de empresasde manufactura
POP Tamaño de la población en miles
TEMP Temperatura promedio anual en °F
WIND Velocidad del viento promedio en millas/hora
¿Cómo lo corregimos?
Data Polución
¿Cómo lo corregimos?
Eliminando una de las variables predictoras muy correlacionadas.
Dado que esta variable a eliminar suministra información
redundante, su eliminación no suele reducir drásticamente el R2.
INTERPRETACIÓN DE UN COEFICIENTE
PARA UNA VARIABLE CATEGÓRICA BINARIA
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
Variables Descripción
Satisfacción del paciente con el servicio recibido en una
Satisfacción escala de 0 a 110
¿Cuál sería le
𝒚𝒊
ecuación de = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅
regresión lineal + 𝟐. 𝟐𝟑 ∗ 𝑸𝒖𝒊𝒓ú𝒓𝒈𝒊𝒄𝒐𝒎é𝒅𝒊𝒄𝒐 + 𝝐𝒊
múltiple?
Data Satisfacción – Resultados
Al ser
“Quirúrgico/mé Si Quirúrgico/médico=1
dico” una
variable 𝒚𝒊 = (𝟏𝟒𝟎. 𝟏𝟕 + 𝟐. 𝟐𝟑) − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝝐𝒊
categórica
binaria: Si Quirúrgico/médico=0
𝑯𝟎 : 𝜷𝟔 = 𝟎
𝑯𝒂 : 𝜷𝟔 ≠ 𝟎
De las 3 clases que tiene
Data Satisfacción – Resultados la variable Región, solo se
definirían dos de ellas
La ecuación de (número total de clases -
regresión lineal 1), como variables
múltiple: categóricas binarias.
𝒚𝒊
= 𝟕. 𝟖𝟏 + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓
− 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 − 𝟏. 𝟓𝟏𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏𝟐 + 𝟎. 𝟗𝟕𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏 𝟑 + 𝝐𝒊
C
a D
s i
R-Sq R-Sq Mallows o s
Vars R-Sq (adj) (pred) Cp S s t
1 93.0 92.7 87.3 16.9 4.1814 X
1 79.5 78.6 70.1 90.6 7.1791 X
2 96.0 95.6 92.1 3.0 3.2595 X X
▪ El “Mallow Cp” (Cp de Mallows) compara la precisión y el sesgo del modelo completo con las otras
opciones para estimar los coeficientes de regresión verdaderos y pronosticar futuras respuestas.
▪ Los modelos con falta de ajuste y sesgo tienen valores de Cp de Mallows más grandes que p.
▪ Se debe buscar modelos donde el valor del Cp de Mallows sea pequeño y esté cercano al número de
predictores del modelo más la constante (p).
Paso a paso
MINITAB: Estadísticas > Regresión > Regresión > Ajustar modelo de regresión > Paso a paso
▪ Se verá en clase.
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
1. Estime un modelo de regresión lineal múltiple incluyendo todas las
variables. ¿Todas son necesarias?