Análisis de Regresión - 2023

Análisis de regresión
EDA 2023
Prof. Valeria Quevedo

Ingeniería Industrial y
de Sistemas
Contenido
▪ Introducción
▪ Regresión lineal simple
▪ Análisis de residuos
▪ Transformaciones
▪ Regresión múltiple
▪ Selección de variables
▪ Optimización de la variable de respuesta

De datos a información
Children per woman 2017

6
1
6 7 8 9 10 11 12
Log de Income per capita 2017
INTRODUCCIÓN
Introducción
• El análisis de regresión estudia la relación que existe entre
variables.
• Estas relaciones pueden ser expresadas a través de ecuaciones que

describen la relación estadística entre la variable de respuesta y una
o más variables predictoras.
8 Scatterplot of lnField vs lnLab

4.5
7
4.0

6
3.5
5
lnField
3.0
4
2.5
3
2.0
2
1 1.5
6 7 8 9 10 11 12 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Log de Income per capita 2017 lnLab
Introducción
• ¿Qué tanto los años de experiencia, de educación y el género
influyen en el sueldo de una empresa?
• ¿Cómo el consumo de energía anual en una empresa, depende del
cambio climático, área construida y/o máquinas instaladas?
• ¿Qué tanto afecta la temperatura, pH del agua, etc. en el
crecimiento de langostinos?
• ¿El gasto en marketing puede ayudarnos a predecir las ventas de
una empresa?
• ¿El tiempo de permanencia de un paciente en un hospital puede ser
estimado en base a su relación con la severidad de la operación?
• …
Relaciones entre variables
• Nos interesa ver si dos o más variables están relacionadas. Si lo
están, podremos plantear un modelo (una relación funcional) que
describa dicha relación.
• Lo primero que debemos distinguir es la diferencia entre relación

funcional y relación estadística entre dos variables.
Relación funcional: Y=f(X)

oY es la variable dependiente
o X es la variable
independiente.
Relación estadística: Y=f(X) + e
oNo es una relación perfecta.
oY es la variable de respuesta
y X la variable predictora o
explicativa.
Correlación y causalidad
Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
causa-efecto.
causa-efecto.
causa-efecto.
Recolección de datos
• Tipos de recolección de datos:

• Data histórica.
• Data observacional. Por ejemplo, a través de encuestas. El investigador
observa y puede decidir qué variables recolectar pero no tiene control
sobre ellas.
• Diseño de experimentos. Se tiene control sobre las variables que
intervienen en el proceso.
Data de tipo corte transversal
Data de tipo corte transversal
Porcentaje de
Temperatura Concentración impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9
Series de tiempo
Libras de vapor de
Mes Temperatura aire/1000 pie
cúbico
Ene 21 185.79
Feb 24 214.47
Mar 32 288.03
Abr 47 424.84
May 50 454.58
Jun 59 539.03
Jul 68 621.55
Ago 74 675.06
Set 62 562.03
Oct 50 452.93
Nov 41 369.95
Dic 30 273.98
Gráfico de dispersión
Scatterplot of lnField vs lnLab
4.5
4.0
3.5
Con la gráfica de
lnField
3.0
dispersión podremos 2.5
observar la relación
2.0
entre dos variables.

1.5
1.5 2.0 2.5 3.0 3.5 4.0 4.5
8
lnLab
7

6
1
6 7 8 9 10 11 12
Log de Income per capita 2017
Estadística Aplicada
Facultad de Ingeniería
2017-I
Universidad de Piura
¿Hay alguna relación?

Medidas de asociación
Medidas de relaciones lineales entre dos variables:
1. Covarianza
• Mide la fuerza de la relación entre dos variables.

• Puede ser positiva o negativa.
• Si no hay relación entre las variables, la covarianza será cercana a
cero.
• No se puede, sin embargo, interpretar la magnitud de la covarianza.
Medidas de asociación
2. Correlación (r)
• Medida numérica que mide la fuerza de la relación lineal entre dos variables.
• El numerador indica la asociación entre dos variables X y Y (Covarianza).
• Puede ser positiva o negativa.
• Sólo toma valores de entre -1 y 1. (-1 ≤ r ≤ 1)
Correlación
Limitación:
▪ La correlación puede solo medir la fuerza de una relación LINEAL
entre dos variables.
▪ Si son relaciones no lineales, ese valor de correlación puede ser
erróneo.
Correlación
Correlación
Correlación
Correlación
REGRESIÓN LINEAL SIMPLE
Regresión lineal simple
• Se trata de plantear un modelo matemático que mida la relación entre dos
variables: “x” y “y”.
• A la variable “x” se le llama variable explicativa o predictora. A la variable “y” se
le llama variable de respuesta.
• El modelo de regresión lineal simple es:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
Siendo:
❑ yi el valor i-ésimo observado de y.
❑ xi el valor i-ésimo observado de x.
❑ β0 es el intercepto y β1 es la pendiente.
❑ 𝜖 i el error aleatorio.
𝛽0 y 𝛽1 se desconocen. Se pueden estimar usando el método de

mínimos cuadrados para el cual se necesita que se cumplan los
siguientes supuestos:
❑Linealidad
❑Los errores se distribuyen normalmente, con media igual a 0 y
varianza σ2: 𝝐𝒊 ~ N(0, σ2)
❑Tienen varianza (σ2) constante.
❑𝜖𝑖 son independientes entre sí.
¿Qué representa β0 ? ¿y β1?
¿Qué significa si β1 =0?
¿y si β1 <0 o β1>0?
Modelo de regresión simple – ejemplo 1
Establezcamos el supuesto de que la producción de soja está determinada
por el modelo:
𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑜𝑗𝑎 = 𝛽0 + 𝛽1 ∗ 𝑓𝑒𝑟𝑡𝑖𝑙𝑖𝑧𝑎𝑛𝑡𝑒 + 𝜖
¿Qué le interesará saber al agrónomo?

- El efecto de los fertilizantes sobre la producción de soja.
- Este efecto nos lo da 𝛽1 .
- El término 𝜖 contiene factores como la calidad de la tierra, la lluvia, etc.
Ajuste lineal
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝝐𝒊
𝑦ො𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
• El 𝑦ෝ𝑖 es un estimado del “y”

real.
• La diferencia entre valor
observado (𝑦𝑖 ) y el estimado
(𝑦ෝ𝑖 ) se le llama residuo:
𝑒𝑖 = 𝑦𝑖 - 𝑦ො𝑖
Análisis del modelo
▪ ¿Hay relación entre la variable de respuesta y la predictora?
Si 𝛽1 = 0, entonces podemos decir que 𝑦𝑖 no depende de 𝑥 .
Si 𝛽1 > 0, entonces ambas tienen una relación positiva.

Si 𝛽1 < 0, entonces ambas tienen una relación negativa.
Prueba de hipótesis de la pendiente
¿Es 𝜷𝟏 =0?
𝐻0 : 𝛽1 = 0
𝐻𝑎 : 𝛽1 ≠ 0
Rechazamos la hipótesis nula si el 𝑡 > 𝑡𝑛−2,∝/2 … o si el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼
Al rechazar 𝐻0 , podemos concluir que sí existe relación entre la “x” y la “y”.

Data Polución
▪ Medidas de calidad de aire a través del contaminante atmosférico dióxido
de azufre SO2 en 41 ciudades de U.S. (Data obtenida de “A Handbook of
Small Data Sets”, edited by D.J. Hand)
1. Primero use las gráficas de dispersión para evaluar visualmente qué
variable podría tener la mayor correlación con el SO2 .
2. Ajuste un modelo de regresión lineal entre el SO2 y la variable escogida
en 1).
3. Interprete el coeficiente de SO2.
4. ¿Qué tanta variabilidad de la variable respuesta es explicada por dicha
variable?
Ejemplo: evaluamos las correlaciones
de SO2 y el resto de variables
En R, se puede usar la función “cor()” para hallar las correlaciones entre variables o
“pairs()” para visualmente evaluar dichas correlaciones.
pairs(data[,2:8])
cor(data[,2:8])
Resultados: estimamos un modelo de
RLS
En R, se puede usar la función “lm()”:
Este objeto
debe contener
lm(Y~X, data=data) los datos.
Para nuestro ejemplo:
fitlm <- lm(SO2~MANUF, data=data)

summary(fitlm)
En MINITAB: Regresión > Regresión > Ajustar un modelo de regresión

Resultados: estimamos un modelo de
RLS
fitlm <- lm(SO2~MANUF, data=data)
summary(fitlm)
෢ = 17.6106 + 0.02686*Manuf
𝑆𝑂2
𝑆𝑂2 = 17.6106 + 0.02686*Manuf +

e
¿Es 𝛽1 =0?
¿Es 𝛽1 =0?
𝐻0 : 𝛽1 = 0 (no hay relación entre y y x)
𝐻𝑎 : 𝛽1 ≠ 0 (sí hay relación)
P-valor < 0.05

Rechazamos 𝐻0
Coeficiente de determinación (𝑅 2 )
𝑆𝑆𝑅𝑒𝑔
Coeficiente de determinación: 𝑅2 =
𝑆𝑆𝑇
• 0 < 𝑅2 < 1
• Mide qué tanto el modelo de regresión explica la variabilidad en los
datos de y.
• No mide qué tan adecuado es el modelo.
R 2
El 41.57% de la variabilidad de “y” se puede explicar

por el modelo de regresión lineal planteado.
Predicción de SO2, según el RLS
estimado
• Para este ejemplo, usando el modelo lineal simple, ¿cuál es el
estimado de SO2 para una cantidad de fábricas de 200?
෢ = 17.6106 + 0.02686 *Manuf
𝑆𝑂2
෢ = 17.6106 + 0.02686*(200)
𝑆𝑂2
෢
𝑆𝑂2(𝑥 = 200) = 𝟐𝟐. 𝟗𝟖
▪ Se estima un 22.98 de SO2 en promedio para un estado con 200 fábricas.
▪ En R:
nueva.data <- data.frame(MANUF = c(200))

predict(fitlm, nueva.data, interval = "confidence")
ANÁLISIS DE RESIDUOS
Análisis de residuos
• Recordemos el modelo de regresión:
En donde Ɛi ~ N(0, σ2 )
Cuatro supuestos se deben verificar:

• La data debe seguir una tendencia lineal.
• Residuos se distribuyan normalmente con media igual a 0.
• Varianza constante.
• Independencia de los residuos.
Esto se puede verificar gráficamente.

• Patrón de residuos ideal:
• Residuos alrededor de 0.
• No se encuentra ningún patrón.
• La variabilidad de los residuos es constante.
• Patrón de residuos con curvatura:
• Este gráfico nos indica que el modelo lineal no es adecuado. Quizá se

necesita ajustar un modelo no-lineal, o se necesite transformar las
variables.
• Patrón de residuos “embudo”:
• Este gráfico muestra que la varianza de los residuos no es constante.

Análisis de residuos - ejemplos
Y vs. X
Residuos vs. X
¿Qué hacer si no se cumplen los supuestos?
▪ Se usan transformaciones a las variables y o x.

▪ Las más comunes son:
▪ La transformación logarítmica.
▪ Transformación raíz cuadrada.
▪ Transformación Box-Cox de tipo yc, para c<1.
▪ Estas transformaciones ayudan a hacer la varianza de los residuos más

consistentes y los hacen más “normales” (que sigan distribución normal).
¿Qué hacer si no se cumple la varianza constante o
normalidad en la varianza?
Problema Transformación sugerida
Si la varianza crece con respecto a y. 𝑦
𝑦 𝑐 , cuando c<1
Si la varianza crece a un ritmo mayor, con 𝑙𝑛(𝑦)
respecto a y.
Analizamos residuos para el ejemplo SO2
▪ Analizamos la normalidad en R:
residuos<-fitlm$residuals
par(mfrow=c(1,2)) # divide la ventana en una fila y dos columnas
hist(residuos)
qqnorm(residuos) # gráfico de cuantiles de los residuos
qqline(residuos)
▪ Analizamos la normalidad en R con Shapiro Test.
shapiro.test(residuos)
P-valor < 0.05, se rechaza

la H0.
¿Cuál es la H0 en un ajuste
de distribución?
▪ Analizamos la varianza constante e independencia de residuos.
par(mfrow=c(1,2)) # divide la ventana en una fila y dos columnas
plot(fitlm$fitted.values,fitlm$residuals)
abline(h=0) # dibuja la recta en cero
plot(fitlm$residuals)
abline(h=0) # dibuja la recta en cero
▪ Con estas gráficas también

podríamos evaluar el supuesto de
Linealidad.
¿Qué podemos si se incumplen los
supuestos?
▪ Se podría evaluar alguna transformación a la data:
Por ejemplo si se quiere transformar la variable de
respuesta con la función logaritmo:
fitlm2 <- lm(log(SO2)~MANUF, data=data)
▪ También se puede evaluar la transformación Box-

Cox para evaluar la más adecuada:
library(MASS)
boxcox(fitlm, lambda = seq(-2, 2, 0.1))

Data DemandaEnergía
▪ Una planta está interesada en desarrollar un modelo relacionado a la
demanda de energía eléctrica durante la hora pico en un barrio
residencial. Para ello cuenta con el uso en kWh de sus clientes
durante el mes. Se cuenta con la data de uso de energía eléctrica en
kWh (kilowatt-hora) de 53 residentes en el mes de agosto.
▪ Inspeccione la data y vea si la relación entre las variables puede ser
lineal.
▪ Plantee el modelo de regresión simple con dicha data. ¿El modelo es
el adecuado?
▪ Si no lo es, realizar la transformación requerida y estime el modelo
lineal más adecuado.
DATA DemandaEnergía
𝑦∗ = 𝑦
▪ Observamos que la varianza se estabiliza.

¿Qué hacer si no se cumple la linealidad?
Problema Transformación sugerida
Si la relación de x y y presenta curvatura. 𝑙𝑛(𝑦), y/o 𝑙𝑛(𝑥)
1 ∗ 1
𝑦∗ = ;𝑥 =
𝑦 𝑥
Si la relación de x y y presenta relación 𝑙𝑛(𝑦)

exponencial.
Data NIST
▪ Investigadores del National Institute of Standards and Technology (NIST)
recolectaron mediciones ultrasónicas de la profundidad de los defectos en
el campo. La profundidad de los defectos también fue medida en el
laboratorio. Estas mediciones en laboratorio son más precisas que las de
campo pero son mucho más caras y demandantes. Se quiere desarrollar
una ecuación de regresión para corregir las mediciones de campo. Para ello
se han hecho 107 mediciones en campo y laboratorio.
▪ Haga un análisis gráfico primero para observar la linealidad de las
variables.
▪ Estime un modelo de regresión lineal entre las variables.
▪ Si no los satisface, realizar la transformación requerida y estime el modelo
lineal más adecuado.
DATA NIST
𝑦 ∗ = ln 𝑦
𝑥 ∗ = ln(𝑥)
▪ Observamos que la varianza se estabiliza.

REGRESIÓN LINEAL MÚLTIPLE
Regresión lineal múltiple
• Es es una extensión de la regresión lineal simple.

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 … + 𝛽𝑘 𝑥𝑖𝑘 + 𝜖𝑖
Se asume que los errores siguen una distribución normal con

media igual a 0 y varianza igual a σ2 y son independientes:
𝜖𝑖 ~𝑁(0, 𝜎 2 )
• Regresión lineal múltiple significa que el modelo es lineal con

respecto a sus coeficientes.
• Por ejemplo:
3
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 … + 𝛽𝑘 𝑥𝑖𝑘 + 𝜖𝑖
¿Qué representan los coeficientes?

• Cambio esperado en la variable de respuesta por una
unidad de cambio en xi, manteniendo las otras variables
regresoras constantes.
Ejemplo
Un distribuidor de bebidas, desea analizar el servicio del llenado de las máquinas
dispensadoras en uno de los supermercado más grandes. Está interesado en
predecir el tiempo requerido por el encargado de este servicio en base a dos
variables: número de bebidas a llenar y tiempo que debe recorrer para llegar a cada
máquina dispensadora. Observación
Tiempo de
delivery (min) Número de casos Distancia (pie)
1 16.68 7 560
2 11.5 3 220
3 12.03 3 340
4 14.88 4 80
5 13.75 6 150
6 18.11 7 330
7 8 2 110
8 17.83 7 210
9 79.24 30 1460
10 21.5 5 605
11 40.33 16 688
12 21 10 215
13 13.5 4 255
14 19.75 6 462
15 24 9 448
16 29 10 776
17 15.35 6 200
18 19 7 132
19 9.5 3 36
20 35.1 17 770
21 17.9 10 140
22 52.32 26 810
23 18.75 9 450
24 19.83 8 635
Resultados
Matrix Plot of Tiempo de delive, Número de casos, Distancia (pie)
10 20 30
80
40
Tiempo de delivery (min)
0
30
20
Número de casos
10
1600
800
Distancia (pie)
0 Tiempo de delive Número de casos

0 40 80 0 800 1600
Número de casos 0.965
0.000
Distancia (pie) 0.892 0.824

0.000 0.000
Cell Contents: Pearson correlation

P-Value
Resultados
Adecuación del modelo lineal
H0: No existe alguna relación entre
𝐻0 : 𝛽1 = 𝛽2 = ⋯ 𝛽𝑝 = 0 la variable de respuesta y las
variables regresoras.
𝐻𝑎 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝛽𝑖 ≠ 0
Ha: Sí existe relación lineal
𝑀𝑆𝑅𝑒𝑔
Se calcula 𝐹 = , el que se obtiene de la tabla ANOVA.
𝑀𝑆𝑅𝑒𝑠
Rechazamos 𝐻0 si el 𝐹 > 𝐹𝑝−1,𝑛−𝑝,∝/2

∗
… o si el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 0.05.
Es decir, sí existe relación lineal.

Adecuación del modelo lineal general
𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 = ⋯ 𝜷𝒑 = 𝟎
𝑯𝒂 : 𝒂𝒍 𝒎𝒆𝒏𝒐𝒔 𝒖𝒏𝒂 𝜷𝒊 ≠ 0
Concluimos que sí
existe relación lineal
entre la y y la(s) x’(s).
¿Es 𝛽𝑖 =0?
¿Es 𝛽𝑖 =0?
𝐻0 : 𝛽𝑖 = 0 (no hay relación entre y y 𝑥𝑖 ) P-valor < 0.05
𝐻𝑎 : 𝛽𝑖 ≠ 0 (sí hay relación) Rechazamos 𝑯𝟎
Concluimos que sí
hay relación entre el
tiempo de reparto y el
número de casos
P-valor < 0.05

Rechazamos 𝑯𝟎
Concluimos que sí
hay relación entre el
tiempo de reparto y la
distancia
R 2 ajustado
El R2 ajustado es el porcentaje de la variación en la
respuesta que es explicada por el modelo, ajustado para
el número de predictores en el modelo relativo al
número de observaciones.
El 95.59% de la variabilidad de “y” se puede explicar

por el modelo de regresión lineal planteado.
¿Es adecuado el modelo?
Se evalúa las gráficas

de residuos.
¿Es adecuado el modelo?
Después de la
transformación
MULTICOLINEALIDAD Y EL FIV (FACTOR
DE INFLACIÓN DE LA VARIANZA)
Multicolinealidad
▪ La multicolinealidad surge cuando las variables explicativas (predictoras o
independientes: “las X’s”) del modelo están altamente correlacionadas entre sí.
1. El peor caso es cuando la multicolinealidad es exacta: Cuando una variable
explicativa es combinación lineal (o función) de otra o de otras variables
explicativas. ¿Cómo resolverlo? Identificando y eliminando algún regresor(es)
colineal(es).
2. Si no es exacta, alguna variable está altamente correlacionada con otra(s). Más
difícil de detectar y de resolver. Aquí podemos usar el FIV para detectarlo.
Multicolinealidad: ¿Qué problemas puede
traer?
▪ Puede incrementar la varianza de los coeficientes de regresión, haciéndolos
inestables. Por ejemplo:
▪ Los coeficientes pueden parecer no significativos incluso cuando exista una relación significativa
entre el predictor y la respuesta.
▪ La eliminación de cualquier término muy correlacionado del modelo afectará considerablemente
los coeficientes estimados de los demás términos.
▪ Los coeficientes de los términos muy correlacionados incluso pueden tener el signo equivocado.
▪ Si existe un problema de multicolinealidad: los coeficientes no pueden interpretarse

de forma fiable, pero los valores ajustados no se ven afectados.
¿Cómo detectarlo? → FIV
▪ El Valor de inflación de la varianza (FIV) cuantifica la intensidad de la multicolinealidad.
Mide qué tanto la varianza de un coeficiente aumenta si los predictores están
correlacionados.
1
𝐹𝐼𝑉𝑗 =
1 − 𝑅𝑗2
▪ En donde 𝑅𝑗2 es el coeficiente de determinación del regresor “j” (de una de

las X) con respecto al resto de regresores (de las demás X’s).
▪ El valor mínimo es 1.
▪ Un FIV > 10 puede indicar la existencia de multicolinealidad muy alta.
▪ Se recomienda mantener un FIV < 5.
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
Variables Descripción
Satisfacción del paciente con el servicio recibido en una
Satisfacción escala de 0 a 110
Edad Edad del paciente
Severidad de la condición o dolencia medido en una escala

Severidad de 0 a 100
Si el servicio médico recibido ha sido de tipo quirúrgico (1) o

Quirúrgico/médico médico (0)
Ansiedad Ansiedad que tiene el paciente en una escala de 0 a 10
1. Estime un modelo de regresión lineal múltiple incluyendo todas las variables.

¿Todas son necesarias?
2. ¿Cuál sería el mejor modelo de regresión?
3. ¿Se satisfacen los supuestos del modelo?
Data Satisfacción – Resultados
▪ Tabla de coeficientes
Vemos que el FIV para todos los

valores es bajo. Esto nos indica
que no hay problemas de
multicolinealidad.
Data Polución
▪ Medidas de calidad de aire a través del contaminante atmosférico dióxido
de azufre SO2 en 41 ciudades de U.S. (Data obtenida de “A Handbook of
Small Data Sets”, edited by D.J. Hand)
CITY Ciudad
Dióxido de azufre en el aire en microgramos por
SO2 m^3
MANUF Número de empresasde manufactura
POP Tamaño de la población en miles
TEMP Temperatura promedio anual en °F
WIND Velocidad del viento promedio en millas/hora
PRECIP-IN Precipitación promedio anual en pulgadas

PRECIP-DAY Número de días lluviosos
Data Polución
Tabla de coeficientes:
Del análisis y resultados del FIV Podemos

ver que las variables predictoras MANUF
y POP están altamente correlacionadas.
¿Cómo lo corregimos?
Data Polución
¿Cómo lo corregimos?
Eliminando una de las variables predictoras muy correlacionadas.
Dado que esta variable a eliminar suministra información
redundante, su eliminación no suele reducir drásticamente el R2.
INTERPRETACIÓN DE UN COEFICIENTE
PARA UNA VARIABLE CATEGÓRICA BINARIA
Variables Descripción
Satisfacción del paciente con el servicio recibido en una
Satisfacción escala de 0 a 110
Edad Edad del paciente
Severidad de la condición o dolencia medido en una escala

Severidad de 0 a 100
Si el servicio médico recibido ha sido de tipo quirúrgico (1) o

Quirúrgico/médico médico (0)
Ansiedad Ansiedad que tiene el paciente en una escala de 0 a 10
1. Estime un modelo de regresión lineal múltiple incluyendo todas las variables.

¿Todas son necesarias?
▪ Tabla de coeficientes
Evaluemos si hay relación entre

la satisfacción de los pacientes y
la variable “Quirúrgico/médico”.
¿ 𝑬𝒔 𝜷𝟒 =0?
𝑯𝟎 : 𝜷𝟒 = 𝟎
𝑯𝒂 : 𝜷𝟒 ≠ 𝟎
▪ Tabla de coeficientes ¿Cómo se
intrepreta el Si un paciente ha recibido
atención médica del tipo
coeficiente?
quirúrgico, entonces su
satisfacción aumenta en 2.23
puntos en promedio,
manteniendo el resto de las
variables constantes
¿Cuál sería le
𝒚𝒊
ecuación de = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅
regresión lineal + 𝟐. 𝟐𝟑 ∗ 𝑸𝒖𝒊𝒓ú𝒓𝒈𝒊𝒄𝒐𝒎é𝒅𝒊𝒄𝒐 + 𝝐𝒊
múltiple?
¿Cuál sería le ecuación de

regresión lineal múltiple?
𝒚𝒊 = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝟐. 𝟐𝟑 ∗ 𝑸𝒖𝒊𝒓ú𝒓𝒈𝒊𝒄𝒐𝒎é𝒅𝒊𝒄𝒐 + 𝝐𝒊
Al ser
“Quirúrgico/mé Si Quirúrgico/médico=1
dico” una
variable 𝒚𝒊 = (𝟏𝟒𝟎. 𝟏𝟕 + 𝟐. 𝟐𝟑) − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝝐𝒊
categórica
binaria: Si Quirúrgico/médico=0
𝒚𝒊 = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝝐𝒊

INTERPRETACIÓN DE UN COEFICIENTE
PARA UNA VARIABLE CATEGÓRICA MULTI-
CLASE
Data Vino - Caso
▪ Se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se
dispone de valores de 5 variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad,
Región) que pueden explicar dichos valores de calidad.
1. Estimar un modelo de regresión usando todas las variables y analice los
residuos. ¿Todas las variables son necesarias?
2. ¿Cuál sería el mejor modelo de regresión? Use la opción de los mejores
subconjuntos y para ayudarlo a ver cuál sería un mejor modelo.
3. Para el modelo propuesto en el punto anterior, ¿se satisfacen los supuestos
del modelo?
4. Si se quisiera maximizar la calidad del vino de esta variedad, ¿qué valores
de dichas características debería tener?
Data Vino - Caso En este caso la variable categórica
▪ Tabla de coeficientes: multiclase es Región y tiene 3
clases.
Evaluemos si hay relación entre la
calidad del vino y la región en donde
se cosecha la uva.
¿ 𝑬𝒔 𝜷𝟔 =0?
𝑯𝟎 : 𝜷𝟔 = 𝟎
𝑯𝒂 : 𝜷𝟔 ≠ 𝟎
De las 3 clases que tiene
Data Satisfacción – Resultados la variable Región, solo se
definirían dos de ellas
La ecuación de (número total de clases -
regresión lineal 1), como variables
múltiple: categóricas binarias.
𝒚𝒊
= 𝟕. 𝟖𝟏 + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓
− 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 − 𝟏. 𝟓𝟏𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏𝟐 + 𝟎. 𝟗𝟕𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏 𝟑 + 𝝐𝒊
Si la uva proviene de la Región 1 → Región2=0 y Región3=0
𝒚𝒊 = 𝟕. 𝟖𝟏 + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊
Región tiene 3 Si la uva proviene de la Región 2 → Región3=0

clases:
𝒚𝒊 =(𝟕. 𝟖𝟏 − 𝟏. 𝟓) + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊
Si la uva proviene de la Región 3 → Región2=0

𝒚𝒊 = (𝟕. 𝟖𝟏 + 𝟎. 𝟗𝟕𝟑) + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊
SELECCIÓN DE VARIABLES Y OPTIMIZACIÓN
DE LA VARIABLE DE RESPUESTA
Selección de variables
▪ Se pueden construir diversos modelos de regresión a partir del mismo conjunto de variables.
▪ Por ejemplo, para un set de datos de una Y y tres X’s:
▪ El modelo completo sería: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖

▪ PERO, se podría también estimar los siguientes modelos
1. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖

2. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
3. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
¿Cuál de estos 7
4. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖 (completo + parciales)
conviene?
5. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
Se puede evaluar mediante
6. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
7. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
algunas técnicas cuál podría
convenir más: lo veremos en
clase.
Selección de variables
MINITAB: Estadísticas > Regresión > Regresión > Mejores subconjuntos.
Response is Tiempo de delivery (min)
C
a D
s i
R-Sq R-Sq Mallows o s
Vars R-Sq (adj) (pred) Cp S s t
1 93.0 92.7 87.3 16.9 4.1814 X
1 79.5 78.6 70.1 90.6 7.1791 X
2 96.0 95.6 92.1 3.0 3.2595 X X
▪ El “Mallow Cp” (Cp de Mallows) compara la precisión y el sesgo del modelo completo con las otras
opciones para estimar los coeficientes de regresión verdaderos y pronosticar futuras respuestas.
▪ Los modelos con falta de ajuste y sesgo tienen valores de Cp de Mallows más grandes que p.
▪ Se debe buscar modelos donde el valor del Cp de Mallows sea pequeño y esté cercano al número de
predictores del modelo más la constante (p).
Paso a paso
MINITAB: Estadísticas > Regresión > Regresión > Ajustar modelo de regresión > Paso a paso
▪ Se verá en clase.
1. Estime un modelo de regresión lineal múltiple incluyendo todas las
variables. ¿Todas son necesarias?

Optimización de la variable de respuesta
▪ Cuando el interés está en el mejorar el rendimiento del proceso o la variable que se
está midiendo, se pueden usar las superficies de respuesta.
▪ Nos interesa determinar la región de las variables que nos lleve cerca de nuestro
objetivo.
Superficie de respuesta
¿Qué pacientes son aquellos que

tienen la menor satisfacción con el
servicio?
Data Vino - Caso
▪ Se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se
dispone de valores de 5 variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad,
Región) que pueden explicar dichos valores de calidad.
1. Estimar un modelo de regresión usando todas las variables y analice los
residuos. ¿Todas las variables son necesarias?
2. ¿Cuál sería el mejor modelo de regresión? Use la opción de los mejores
subconjuntos y para ayudarlo a ver cuál sería un mejor modelo.
3. Para el modelo propuesto en el punto anterior, ¿se satisfacen los supuestos
del modelo?
4. Si se quisiera maximizar la calidad del vino de esta variedad, ¿qué valores
de dichas características debería tener?

Análisis de Regresión - 2023

Cargado por

Copyright:

Formatos disponibles

Análisis de Regresión - 2023

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Regresión - 2023

Cargado por

Copyright:

Formatos disponibles

Análisis de regresión

Prof. Valeria Quevedo

▪ Regresión lineal simple

▪ Optimización de la variable de respuesta

Children per woman 2017

• Estas relaciones pueden ser expresadas a través de ecuaciones que

8 Scatterplot of lnField vs lnLab

Children per woman 2017

• Lo primero que debemos distinguir es la diferencia entre relación

Relación funcional: Y=f(X)

Relación estadística: Y=f(X) + e

oNo es una relación perfecta.

• Tipos de recolección de datos:

dispersión podremos 2.5

entre dos variables.

Children per woman 2017

¿Hay alguna relación?

• Mide la fuerza de la relación entre dos variables.

𝛽0 y 𝛽1 se desconocen. Se pueden estimar usando el método de

¿Qué representa β0 ? ¿y β1?

¿Qué significa si β1 =0?

¿Qué le interesará saber al agrónomo?

• El 𝑦ෝ𝑖 es un estimado del “y”

Si 𝛽1 > 0, entonces ambas tienen una relación positiva.

Rechazamos la hipótesis nula si el 𝑡 > 𝑡𝑛−2,∝/2 … o si el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼

Al rechazar 𝐻0 , podemos concluir que sí existe relación entre la “x” y la “y”.

Para nuestro ejemplo:

fitlm <- lm(SO2~MANUF, data=data)

En MINITAB: Regresión > Regresión > Ajustar un modelo de regresión

𝑆𝑂2 = 17.6106 + 0.02686*Manuf +

P-valor < 0.05

El 41.57% de la variabilidad de “y” se puede explicar

nueva.data <- data.frame(MANUF = c(200))

Cuatro supuestos se deben verificar:

Esto se puede verificar gráficamente.

• Patrón de residuos ideal:

• Este gráfico nos indica que el modelo lineal no es adecuado. Quizá se

• Este gráfico muestra que la varianza de los residuos no es constante.

▪ Se usan transformaciones a las variables y o x.

▪ Estas transformaciones ayudan a hacer la varianza de los residuos más

P-valor < 0.05, se rechaza

abline(h=0) # dibuja la recta en cero

abline(h=0) # dibuja la recta en cero

▪ Con estas gráficas también

▪ También se puede evaluar la transformación Box-

boxcox(fitlm, lambda = seq(-2, 2, 0.1))

▪ Observamos que la varianza se estabiliza.

Si la relación de x y y presenta relación 𝑙𝑛(𝑦)

▪ Observamos que la varianza se estabiliza.

• Es es una extensión de la regresión lineal simple.

Se asume que los errores siguen una distribución normal con

• Regresión lineal múltiple significa que el modelo es lineal con

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 … + 𝛽𝑘 𝑥𝑖𝑘 + 𝜖𝑖

¿Qué representan los coeficientes?

0 Tiempo de delive Número de casos

Distancia (pie) 0.892 0.824

Cell Contents: Pearson correlation

Rechazamos 𝐻0 si el 𝐹 > 𝐹𝑝−1,𝑛−𝑝,∝/2

Es decir, sí existe relación lineal.