Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Análisis de Regresión - 2023

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 100

Análisis de regresión

EDA 2023

Prof. Valeria Quevedo


Ingeniería Industrial y
de Sistemas
Contenido
▪ Introducción

▪ Regresión lineal simple

▪ Análisis de residuos

▪ Transformaciones

▪ Regresión múltiple

▪ Selección de variables

▪ Optimización de la variable de respuesta


De datos a información

Children per woman 2017


6

1
6 7 8 9 10 11 12
Log de Income per capita 2017
INTRODUCCIÓN
Introducción
• El análisis de regresión estudia la relación que existe entre
variables.

• Estas relaciones pueden ser expresadas a través de ecuaciones que


describen la relación estadística entre la variable de respuesta y una
o más variables predictoras.

8 Scatterplot of lnField vs lnLab


4.5
7

4.0

Children per woman 2017


6

3.5
5

lnField
3.0
4

2.5
3

2.0
2

1 1.5
6 7 8 9 10 11 12 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Log de Income per capita 2017 lnLab
Introducción
• ¿Qué tanto los años de experiencia, de educación y el género
influyen en el sueldo de una empresa?
• ¿Cómo el consumo de energía anual en una empresa, depende del
cambio climático, área construida y/o máquinas instaladas?
• ¿Qué tanto afecta la temperatura, pH del agua, etc. en el
crecimiento de langostinos?
• ¿El gasto en marketing puede ayudarnos a predecir las ventas de
una empresa?
• ¿El tiempo de permanencia de un paciente en un hospital puede ser
estimado en base a su relación con la severidad de la operación?
• …
Relaciones entre variables
• Nos interesa ver si dos o más variables están relacionadas. Si lo
están, podremos plantear un modelo (una relación funcional) que
describa dicha relación.

• Lo primero que debemos distinguir es la diferencia entre relación


funcional y relación estadística entre dos variables.
Relaciones entre variables

Relación funcional: Y=f(X)


oY es la variable dependiente
o X es la variable
independiente.
Relaciones entre variables

Relación estadística: Y=f(X) + e

oNo es una relación perfecta.

oY es la variable de respuesta
y X la variable predictora o
explicativa.
Correlación y causalidad

Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad

Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad

Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Correlación y causalidad

Correlación no implica
causalidad, es decir, no
implica una relación
causa-efecto.
Recolección de datos

• Tipos de recolección de datos:


• Data histórica.
• Data observacional. Por ejemplo, a través de encuestas. El investigador
observa y puede decidir qué variables recolectar pero no tiene control
sobre ellas.
• Diseño de experimentos. Se tiene control sobre las variables que
intervienen en el proceso.
Data de tipo corte transversal
Data de tipo corte transversal
Porcentaje de
Temperatura Concentración impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9
Series de tiempo

Libras de vapor de
Mes Temperatura aire/1000 pie
cúbico
Ene 21 185.79
Feb 24 214.47
Mar 32 288.03
Abr 47 424.84
May 50 454.58
Jun 59 539.03
Jul 68 621.55
Ago 74 675.06
Set 62 562.03
Oct 50 452.93
Nov 41 369.95
Dic 30 273.98
Gráfico de dispersión
Scatterplot of lnField vs lnLab
4.5

4.0

3.5

Con la gráfica de

lnField
3.0

dispersión podremos 2.5

observar la relación
2.0

entre dos variables.


1.5
1.5 2.0 2.5 3.0 3.5 4.0 4.5
8
lnLab
7

Children per woman 2017


6

1
6 7 8 9 10 11 12
Log de Income per capita 2017
Gráfico de dispersión

Estadística Aplicada
Facultad de Ingeniería
2017-I
Universidad de Piura
Gráfico de dispersión

¿Hay alguna relación?


Gráfico de dispersión
Medidas de asociación
Medidas de relaciones lineales entre dos variables:
1. Covarianza

• Mide la fuerza de la relación entre dos variables.


• Puede ser positiva o negativa.
• Si no hay relación entre las variables, la covarianza será cercana a
cero.
• No se puede, sin embargo, interpretar la magnitud de la covarianza.
Medidas de asociación

2. Correlación (r)

• Medida numérica que mide la fuerza de la relación lineal entre dos variables.
• El numerador indica la asociación entre dos variables X y Y (Covarianza).
• Puede ser positiva o negativa.
• Sólo toma valores de entre -1 y 1. (-1 ≤ r ≤ 1)
Correlación

Limitación:
▪ La correlación puede solo medir la fuerza de una relación LINEAL
entre dos variables.
▪ Si son relaciones no lineales, ese valor de correlación puede ser
erróneo.
Correlación
Correlación
Correlación
Correlación
REGRESIÓN LINEAL SIMPLE
Regresión lineal simple
• Se trata de plantear un modelo matemático que mida la relación entre dos
variables: “x” y “y”.
• A la variable “x” se le llama variable explicativa o predictora. A la variable “y” se
le llama variable de respuesta.
• El modelo de regresión lineal simple es:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖

Siendo:
❑ yi el valor i-ésimo observado de y.
❑ xi el valor i-ésimo observado de x.
❑ β0 es el intercepto y β1 es la pendiente.
❑ 𝜖 i el error aleatorio.
Regresión lineal simple
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖

𝛽0 y 𝛽1 se desconocen. Se pueden estimar usando el método de


mínimos cuadrados para el cual se necesita que se cumplan los
siguientes supuestos:

❑Linealidad
❑Los errores se distribuyen normalmente, con media igual a 0 y
varianza σ2: 𝝐𝒊 ~ N(0, σ2)
❑Tienen varianza (σ2) constante.
❑𝜖𝑖 son independientes entre sí.
Regresión lineal simple

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖

¿Qué representa β0 ? ¿y β1?

¿Qué significa si β1 =0?

¿y si β1 <0 o β1>0?
Modelo de regresión simple – ejemplo 1
Establezcamos el supuesto de que la producción de soja está determinada
por el modelo:
𝑝𝑟𝑜𝑑𝑢𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑜𝑗𝑎 = 𝛽0 + 𝛽1 ∗ 𝑓𝑒𝑟𝑡𝑖𝑙𝑖𝑧𝑎𝑛𝑡𝑒 + 𝜖

¿Qué le interesará saber al agrónomo?


- El efecto de los fertilizantes sobre la producción de soja.
- Este efecto nos lo da 𝛽1 .
- El término 𝜖 contiene factores como la calidad de la tierra, la lluvia, etc.
Ajuste lineal
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝝐𝒊

𝑦ො𝑖 = 𝑏0 + 𝑏1 𝑥𝑖

• El 𝑦ෝ𝑖 es un estimado del “y”


real.
• La diferencia entre valor
observado (𝑦𝑖 ) y el estimado
(𝑦ෝ𝑖 ) se le llama residuo:
𝑒𝑖 = 𝑦𝑖 - 𝑦ො𝑖
Análisis del modelo
▪ ¿Hay relación entre la variable de respuesta y la predictora?

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖
Si 𝛽1 = 0, entonces podemos decir que 𝑦𝑖 no depende de 𝑥 .

Si 𝛽1 > 0, entonces ambas tienen una relación positiva.


Si 𝛽1 < 0, entonces ambas tienen una relación negativa.
Prueba de hipótesis de la pendiente
¿Es 𝜷𝟏 =0?
𝐻0 : 𝛽1 = 0
𝐻𝑎 : 𝛽1 ≠ 0

Rechazamos la hipótesis nula si el 𝑡 > 𝑡𝑛−2,∝/2 … o si el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼

Al rechazar 𝐻0 , podemos concluir que sí existe relación entre la “x” y la “y”.


Data Polución
▪ Medidas de calidad de aire a través del contaminante atmosférico dióxido
de azufre SO2 en 41 ciudades de U.S. (Data obtenida de “A Handbook of
Small Data Sets”, edited by D.J. Hand)
1. Primero use las gráficas de dispersión para evaluar visualmente qué
variable podría tener la mayor correlación con el SO2 .
2. Ajuste un modelo de regresión lineal entre el SO2 y la variable escogida
en 1).
3. Interprete el coeficiente de SO2.
4. ¿Qué tanta variabilidad de la variable respuesta es explicada por dicha
variable?
Ejemplo: evaluamos las correlaciones
de SO2 y el resto de variables
En R, se puede usar la función “cor()” para hallar las correlaciones entre variables o
“pairs()” para visualmente evaluar dichas correlaciones.

pairs(data[,2:8])
cor(data[,2:8])
Resultados: estimamos un modelo de
RLS
En R, se puede usar la función “lm()”:

Este objeto
debe contener
lm(Y~X, data=data) los datos.

Para nuestro ejemplo:

fitlm <- lm(SO2~MANUF, data=data)


summary(fitlm)

En MINITAB: Regresión > Regresión > Ajustar un modelo de regresión


Resultados: estimamos un modelo de
RLS
fitlm <- lm(SO2~MANUF, data=data)
summary(fitlm)

෢ = 17.6106 + 0.02686*Manuf
𝑆𝑂2

𝑆𝑂2 = 17.6106 + 0.02686*Manuf +


e
¿Es 𝛽1 =0?
¿Es 𝛽1 =0?
𝐻0 : 𝛽1 = 0 (no hay relación entre y y x)
𝐻𝑎 : 𝛽1 ≠ 0 (sí hay relación)

P-valor < 0.05


Rechazamos 𝐻0
Coeficiente de determinación (𝑅 2 )

𝑆𝑆𝑅𝑒𝑔
Coeficiente de determinación: 𝑅2 =
𝑆𝑆𝑇
• 0 < 𝑅2 < 1
• Mide qué tanto el modelo de regresión explica la variabilidad en los
datos de y.
• No mide qué tan adecuado es el modelo.
R 2

El 41.57% de la variabilidad de “y” se puede explicar


por el modelo de regresión lineal planteado.
Predicción de SO2, según el RLS
estimado
• Para este ejemplo, usando el modelo lineal simple, ¿cuál es el
estimado de SO2 para una cantidad de fábricas de 200?
෢ = 17.6106 + 0.02686 *Manuf
𝑆𝑂2
෢ = 17.6106 + 0.02686*(200)
𝑆𝑂2


𝑆𝑂2(𝑥 = 200) = 𝟐𝟐. 𝟗𝟖
▪ Se estima un 22.98 de SO2 en promedio para un estado con 200 fábricas.
▪ En R:

nueva.data <- data.frame(MANUF = c(200))


predict(fitlm, nueva.data, interval = "confidence")
ANÁLISIS DE RESIDUOS
Análisis de residuos
• Recordemos el modelo de regresión:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖

En donde Ɛi ~ N(0, σ2 )

Cuatro supuestos se deben verificar:


• La data debe seguir una tendencia lineal.
• Residuos se distribuyan normalmente con media igual a 0.
• Varianza constante.
• Independencia de los residuos.

Esto se puede verificar gráficamente.


Análisis de residuos

• Patrón de residuos ideal:

• Residuos alrededor de 0.
• No se encuentra ningún patrón.
• La variabilidad de los residuos es constante.
Análisis de residuos
• Patrón de residuos con curvatura:

• Este gráfico nos indica que el modelo lineal no es adecuado. Quizá se


necesita ajustar un modelo no-lineal, o se necesite transformar las
variables.
Análisis de residuos
• Patrón de residuos “embudo”:

• Este gráfico muestra que la varianza de los residuos no es constante.


Análisis de residuos - ejemplos

Y vs. X

Residuos vs. X
¿Qué hacer si no se cumplen los supuestos?

▪ Se usan transformaciones a las variables y o x.


▪ Las más comunes son:
▪ La transformación logarítmica.
▪ Transformación raíz cuadrada.
▪ Transformación Box-Cox de tipo yc, para c<1.

▪ Estas transformaciones ayudan a hacer la varianza de los residuos más


consistentes y los hacen más “normales” (que sigan distribución normal).
¿Qué hacer si no se cumple la varianza constante o
normalidad en la varianza?
Problema Transformación sugerida
Si la varianza crece con respecto a y. 𝑦
𝑦 𝑐 , cuando c<1
Si la varianza crece a un ritmo mayor, con 𝑙𝑛(𝑦)
respecto a y.
Analizamos residuos para el ejemplo SO2
▪ Analizamos la normalidad en R:
residuos<-fitlm$residuals
par(mfrow=c(1,2)) # divide la ventana en una fila y dos columnas

hist(residuos)
qqnorm(residuos) # gráfico de cuantiles de los residuos

qqline(residuos)
Analizamos residuos para el ejemplo SO2
▪ Analizamos la normalidad en R con Shapiro Test.

shapiro.test(residuos)

P-valor < 0.05, se rechaza


la H0.

¿Cuál es la H0 en un ajuste
de distribución?
Analizamos residuos para el ejemplo SO2
▪ Analizamos la varianza constante e independencia de residuos.
par(mfrow=c(1,2)) # divide la ventana en una fila y dos columnas

plot(fitlm$fitted.values,fitlm$residuals)

abline(h=0) # dibuja la recta en cero

plot(fitlm$residuals)

abline(h=0) # dibuja la recta en cero

▪ Con estas gráficas también


podríamos evaluar el supuesto de
Linealidad.
¿Qué podemos si se incumplen los
supuestos?
▪ Se podría evaluar alguna transformación a la data:
Por ejemplo si se quiere transformar la variable de
respuesta con la función logaritmo:
fitlm2 <- lm(log(SO2)~MANUF, data=data)

▪ También se puede evaluar la transformación Box-


Cox para evaluar la más adecuada:

library(MASS)

boxcox(fitlm, lambda = seq(-2, 2, 0.1))


Data DemandaEnergía
▪ Una planta está interesada en desarrollar un modelo relacionado a la
demanda de energía eléctrica durante la hora pico en un barrio
residencial. Para ello cuenta con el uso en kWh de sus clientes
durante el mes. Se cuenta con la data de uso de energía eléctrica en
kWh (kilowatt-hora) de 53 residentes en el mes de agosto.
▪ Inspeccione la data y vea si la relación entre las variables puede ser
lineal.
▪ Plantee el modelo de regresión simple con dicha data. ¿El modelo es
el adecuado?
▪ Si no lo es, realizar la transformación requerida y estime el modelo
lineal más adecuado.
¿Qué hacer si no se cumple la varianza constante o
normalidad en la varianza?
DATA DemandaEnergía

𝑦∗ = 𝑦

▪ Observamos que la varianza se estabiliza.


¿Qué hacer si no se cumple la linealidad?
Problema Transformación sugerida
Si la relación de x y y presenta curvatura. 𝑙𝑛(𝑦), y/o 𝑙𝑛(𝑥)

1 ∗ 1
𝑦∗ = ;𝑥 =
𝑦 𝑥

Si la relación de x y y presenta relación 𝑙𝑛(𝑦)


exponencial.
Data NIST
▪ Investigadores del National Institute of Standards and Technology (NIST)
recolectaron mediciones ultrasónicas de la profundidad de los defectos en
el campo. La profundidad de los defectos también fue medida en el
laboratorio. Estas mediciones en laboratorio son más precisas que las de
campo pero son mucho más caras y demandantes. Se quiere desarrollar
una ecuación de regresión para corregir las mediciones de campo. Para ello
se han hecho 107 mediciones en campo y laboratorio.
▪ Haga un análisis gráfico primero para observar la linealidad de las
variables.
▪ Estime un modelo de regresión lineal entre las variables.
▪ Si no los satisface, realizar la transformación requerida y estime el modelo
lineal más adecuado.
¿Qué hacer si no se cumple la varianza constante o
normalidad en la varianza?
DATA NIST

𝑦 ∗ = ln 𝑦
𝑥 ∗ = ln(𝑥)

▪ Observamos que la varianza se estabiliza.


REGRESIÓN LINEAL MÚLTIPLE
Regresión lineal múltiple

• Es es una extensión de la regresión lineal simple.


𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 … + 𝛽𝑘 𝑥𝑖𝑘 + 𝜖𝑖

Se asume que los errores siguen una distribución normal con


media igual a 0 y varianza igual a σ2 y son independientes:
𝜖𝑖 ~𝑁(0, 𝜎 2 )
Regresión lineal múltiple

• Regresión lineal múltiple significa que el modelo es lineal con


respecto a sus coeficientes.
• Por ejemplo:

3
Regresión lineal múltiple

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 … + 𝛽𝑘 𝑥𝑖𝑘 + 𝜖𝑖

¿Qué representan los coeficientes?


• Cambio esperado en la variable de respuesta por una
unidad de cambio en xi, manteniendo las otras variables
regresoras constantes.
Ejemplo
Un distribuidor de bebidas, desea analizar el servicio del llenado de las máquinas
dispensadoras en uno de los supermercado más grandes. Está interesado en
predecir el tiempo requerido por el encargado de este servicio en base a dos
variables: número de bebidas a llenar y tiempo que debe recorrer para llegar a cada
máquina dispensadora. Observación
Tiempo de
delivery (min) Número de casos Distancia (pie)
1 16.68 7 560
2 11.5 3 220
3 12.03 3 340
4 14.88 4 80
5 13.75 6 150
6 18.11 7 330
7 8 2 110
8 17.83 7 210
9 79.24 30 1460
10 21.5 5 605
11 40.33 16 688
12 21 10 215
13 13.5 4 255
14 19.75 6 462
15 24 9 448
16 29 10 776
17 15.35 6 200
18 19 7 132
19 9.5 3 36
20 35.1 17 770
21 17.9 10 140
22 52.32 26 810
23 18.75 9 450
24 19.83 8 635
Resultados
Matrix Plot of Tiempo de delive, Número de casos, Distancia (pie)
10 20 30
80

40
Tiempo de delivery (min)

0
30

20

Número de casos
10

1600

800
Distancia (pie)

0 Tiempo de delive Número de casos


0 40 80 0 800 1600
Número de casos 0.965
0.000

Distancia (pie) 0.892 0.824


0.000 0.000

Cell Contents: Pearson correlation


P-Value
Resultados
Adecuación del modelo lineal
H0: No existe alguna relación entre
𝐻0 : 𝛽1 = 𝛽2 = ⋯ 𝛽𝑝 = 0 la variable de respuesta y las
variables regresoras.
𝐻𝑎 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝛽𝑖 ≠ 0
Ha: Sí existe relación lineal

𝑀𝑆𝑅𝑒𝑔
Se calcula 𝐹 = , el que se obtiene de la tabla ANOVA.
𝑀𝑆𝑅𝑒𝑠

Rechazamos 𝐻0 si el 𝐹 > 𝐹𝑝−1,𝑛−𝑝,∝/2



… o si el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 0.05.

Es decir, sí existe relación lineal.


Adecuación del modelo lineal general
𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 = ⋯ 𝜷𝒑 = 𝟎
𝑯𝒂 : 𝒂𝒍 𝒎𝒆𝒏𝒐𝒔 𝒖𝒏𝒂 𝜷𝒊 ≠ 0

Concluimos que sí
existe relación lineal
entre la y y la(s) x’(s).
¿Es 𝛽𝑖 =0?
¿Es 𝛽𝑖 =0?
𝐻0 : 𝛽𝑖 = 0 (no hay relación entre y y 𝑥𝑖 ) P-valor < 0.05
𝐻𝑎 : 𝛽𝑖 ≠ 0 (sí hay relación) Rechazamos 𝑯𝟎
Concluimos que sí
hay relación entre el
tiempo de reparto y el
número de casos

P-valor < 0.05


Rechazamos 𝑯𝟎
Concluimos que sí
hay relación entre el
tiempo de reparto y la
distancia
R 2 ajustado
El R2 ajustado es el porcentaje de la variación en la
respuesta que es explicada por el modelo, ajustado para
el número de predictores en el modelo relativo al
número de observaciones.

El 95.59% de la variabilidad de “y” se puede explicar


por el modelo de regresión lineal planteado.
¿Es adecuado el modelo?

Se evalúa las gráficas


de residuos.
¿Es adecuado el modelo?

Después de la
transformación
MULTICOLINEALIDAD Y EL FIV (FACTOR
DE INFLACIÓN DE LA VARIANZA)
Multicolinealidad
▪ La multicolinealidad surge cuando las variables explicativas (predictoras o
independientes: “las X’s”) del modelo están altamente correlacionadas entre sí.
1. El peor caso es cuando la multicolinealidad es exacta: Cuando una variable
explicativa es combinación lineal (o función) de otra o de otras variables
explicativas. ¿Cómo resolverlo? Identificando y eliminando algún regresor(es)
colineal(es).
2. Si no es exacta, alguna variable está altamente correlacionada con otra(s). Más
difícil de detectar y de resolver. Aquí podemos usar el FIV para detectarlo.
Multicolinealidad: ¿Qué problemas puede
traer?
▪ Puede incrementar la varianza de los coeficientes de regresión, haciéndolos
inestables. Por ejemplo:
▪ Los coeficientes pueden parecer no significativos incluso cuando exista una relación significativa
entre el predictor y la respuesta.
▪ La eliminación de cualquier término muy correlacionado del modelo afectará considerablemente
los coeficientes estimados de los demás términos.
▪ Los coeficientes de los términos muy correlacionados incluso pueden tener el signo equivocado.

▪ Si existe un problema de multicolinealidad: los coeficientes no pueden interpretarse


de forma fiable, pero los valores ajustados no se ven afectados.
¿Cómo detectarlo? → FIV
▪ El Valor de inflación de la varianza (FIV) cuantifica la intensidad de la multicolinealidad.
Mide qué tanto la varianza de un coeficiente aumenta si los predictores están
correlacionados.

1
𝐹𝐼𝑉𝑗 =
1 − 𝑅𝑗2

▪ En donde 𝑅𝑗2 es el coeficiente de determinación del regresor “j” (de una de


las X) con respecto al resto de regresores (de las demás X’s).
▪ El valor mínimo es 1.
▪ Un FIV > 10 puede indicar la existencia de multicolinealidad muy alta.
▪ Se recomienda mantener un FIV < 5.
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
Variables Descripción
Satisfacción del paciente con el servicio recibido en una
Satisfacción escala de 0 a 110

Edad Edad del paciente

Severidad de la condición o dolencia medido en una escala


Severidad de 0 a 100

Si el servicio médico recibido ha sido de tipo quirúrgico (1) o


Quirúrgico/médico médico (0)

Ansiedad Ansiedad que tiene el paciente en una escala de 0 a 10

1. Estime un modelo de regresión lineal múltiple incluyendo todas las variables.


¿Todas son necesarias?
2. ¿Cuál sería el mejor modelo de regresión?
3. ¿Se satisfacen los supuestos del modelo?
Data Satisfacción – Resultados
▪ Tabla de coeficientes

Vemos que el FIV para todos los


valores es bajo. Esto nos indica
que no hay problemas de
multicolinealidad.
Data Polución
▪ Medidas de calidad de aire a través del contaminante atmosférico dióxido
de azufre SO2 en 41 ciudades de U.S. (Data obtenida de “A Handbook of
Small Data Sets”, edited by D.J. Hand)

CITY Ciudad
Dióxido de azufre en el aire en microgramos por
SO2 m^3
MANUF Número de empresasde manufactura
POP Tamaño de la población en miles
TEMP Temperatura promedio anual en °F
WIND Velocidad del viento promedio en millas/hora

PRECIP-IN Precipitación promedio anual en pulgadas


PRECIP-DAY Número de días lluviosos
Data Polución
Tabla de coeficientes:

Del análisis y resultados del FIV Podemos


ver que las variables predictoras MANUF
y POP están altamente correlacionadas.

¿Cómo lo corregimos?
Data Polución
¿Cómo lo corregimos?
Eliminando una de las variables predictoras muy correlacionadas.
Dado que esta variable a eliminar suministra información
redundante, su eliminación no suele reducir drásticamente el R2.
INTERPRETACIÓN DE UN COEFICIENTE
PARA UNA VARIABLE CATEGÓRICA BINARIA
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
Variables Descripción
Satisfacción del paciente con el servicio recibido en una
Satisfacción escala de 0 a 110

Edad Edad del paciente

Severidad de la condición o dolencia medido en una escala


Severidad de 0 a 100

Si el servicio médico recibido ha sido de tipo quirúrgico (1) o


Quirúrgico/médico médico (0)

Ansiedad Ansiedad que tiene el paciente en una escala de 0 a 10

1. Estime un modelo de regresión lineal múltiple incluyendo todas las variables.


¿Todas son necesarias?
2. ¿Cuál sería el mejor modelo de regresión?
3. ¿Se satisfacen los supuestos del modelo?
Data Satisfacción – Resultados
▪ Tabla de coeficientes

Evaluemos si hay relación entre


la satisfacción de los pacientes y
la variable “Quirúrgico/médico”.
¿ 𝑬𝒔 𝜷𝟒 =0?
𝑯𝟎 : 𝜷𝟒 = 𝟎
𝑯𝒂 : 𝜷𝟒 ≠ 𝟎
Data Satisfacción – Resultados
▪ Tabla de coeficientes ¿Cómo se
intrepreta el Si un paciente ha recibido
atención médica del tipo
coeficiente?
quirúrgico, entonces su
satisfacción aumenta en 2.23
puntos en promedio,
manteniendo el resto de las
variables constantes

¿Cuál sería le
𝒚𝒊
ecuación de = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅
regresión lineal + 𝟐. 𝟐𝟑 ∗ 𝑸𝒖𝒊𝒓ú𝒓𝒈𝒊𝒄𝒐𝒎é𝒅𝒊𝒄𝒐 + 𝝐𝒊
múltiple?
Data Satisfacción – Resultados

¿Cuál sería le ecuación de


regresión lineal múltiple?

𝒚𝒊 = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝟐. 𝟐𝟑 ∗ 𝑸𝒖𝒊𝒓ú𝒓𝒈𝒊𝒄𝒐𝒎é𝒅𝒊𝒄𝒐 + 𝝐𝒊

Al ser
“Quirúrgico/mé Si Quirúrgico/médico=1
dico” una
variable 𝒚𝒊 = (𝟏𝟒𝟎. 𝟏𝟕 + 𝟐. 𝟐𝟑) − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝝐𝒊

categórica
binaria: Si Quirúrgico/médico=0

𝒚𝒊 = 𝟏𝟒𝟎. 𝟏𝟕 − 𝟏. 𝟏𝟒𝟑 ∗ 𝑬𝑫𝑨𝑫 − 𝟎. 𝟒𝟕 ∗ 𝑺𝒆𝒗𝒆𝒓𝒊𝒅𝒂𝒅 + 𝟏. 𝟐𝟕 ∗ 𝑨𝒏𝒔𝒊𝒆𝒅𝒂𝒅 + 𝝐𝒊


INTERPRETACIÓN DE UN COEFICIENTE
PARA UNA VARIABLE CATEGÓRICA MULTI-
CLASE
Data Vino - Caso
▪ Se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se
dispone de valores de 5 variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad,
Región) que pueden explicar dichos valores de calidad.
1. Estimar un modelo de regresión usando todas las variables y analice los
residuos. ¿Todas las variables son necesarias?
2. ¿Cuál sería el mejor modelo de regresión? Use la opción de los mejores
subconjuntos y para ayudarlo a ver cuál sería un mejor modelo.
3. Para el modelo propuesto en el punto anterior, ¿se satisfacen los supuestos
del modelo?
4. Si se quisiera maximizar la calidad del vino de esta variedad, ¿qué valores
de dichas características debería tener?
Data Vino - Caso En este caso la variable categórica
▪ Tabla de coeficientes: multiclase es Región y tiene 3
clases.
Evaluemos si hay relación entre la
calidad del vino y la región en donde
se cosecha la uva.
¿ 𝑬𝒔 𝜷𝟔 =0?

𝑯𝟎 : 𝜷𝟔 = 𝟎
𝑯𝒂 : 𝜷𝟔 ≠ 𝟎
De las 3 clases que tiene
Data Satisfacción – Resultados la variable Región, solo se
definirían dos de ellas
La ecuación de (número total de clases -
regresión lineal 1), como variables
múltiple: categóricas binarias.
𝒚𝒊
= 𝟕. 𝟖𝟏 + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓
− 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 − 𝟏. 𝟓𝟏𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏𝟐 + 𝟎. 𝟗𝟕𝟑 ∗ 𝑹𝒆𝒈𝒊ó𝒏 𝟑 + 𝝐𝒊

Si la uva proviene de la Región 1 → Región2=0 y Región3=0

𝒚𝒊 = 𝟕. 𝟖𝟏 + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊

Región tiene 3 Si la uva proviene de la Región 2 → Región3=0


clases:
𝒚𝒊 =(𝟕. 𝟖𝟏 − 𝟏. 𝟓) + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊

Si la uva proviene de la Región 3 → Región2=0


𝒚𝒊 = (𝟕. 𝟖𝟏 + 𝟎. 𝟗𝟕𝟑) + 𝟎. 𝟎𝟐 ∗ 𝑪𝒍𝒂𝒓𝒊𝒕𝒚 + 𝟎. 𝟎𝟖𝟗 ∗ 𝑨𝒓𝒐𝒎𝒂 + 𝟎. 𝟎𝟖𝟎 ∗ 𝑩𝒐𝒅𝒚 + 𝟏. 𝟏𝟏𝟕 ∗ 𝑭𝒍𝒂𝒗𝒐𝒓 − 𝟎. 𝟑𝟒𝟔 ∗ 𝑶𝒂𝒌𝒊𝒏𝒆𝒔𝒔 + 𝝐𝒊
SELECCIÓN DE VARIABLES Y OPTIMIZACIÓN
DE LA VARIABLE DE RESPUESTA
Selección de variables
▪ Se pueden construir diversos modelos de regresión a partir del mismo conjunto de variables.
▪ Por ejemplo, para un set de datos de una Y y tres X’s:

▪ El modelo completo sería: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖


▪ PERO, se podría también estimar los siguientes modelos

1. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖


2. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
3. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
¿Cuál de estos 7
4. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖 (completo + parciales)
conviene?
5. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
Se puede evaluar mediante
6. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
7. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜖𝑖
algunas técnicas cuál podría
convenir más: lo veremos en
clase.
Selección de variables
MINITAB: Estadísticas > Regresión > Regresión > Mejores subconjuntos.
Response is Tiempo de delivery (min)

C
a D
s i
R-Sq R-Sq Mallows o s
Vars R-Sq (adj) (pred) Cp S s t
1 93.0 92.7 87.3 16.9 4.1814 X
1 79.5 78.6 70.1 90.6 7.1791 X
2 96.0 95.6 92.1 3.0 3.2595 X X

▪ El “Mallow Cp” (Cp de Mallows) compara la precisión y el sesgo del modelo completo con las otras
opciones para estimar los coeficientes de regresión verdaderos y pronosticar futuras respuestas.

▪ Los modelos con falta de ajuste y sesgo tienen valores de Cp de Mallows más grandes que p.

▪ Se debe buscar modelos donde el valor del Cp de Mallows sea pequeño y esté cercano al número de
predictores del modelo más la constante (p).
Paso a paso
MINITAB: Estadísticas > Regresión > Regresión > Ajustar modelo de regresión > Paso a paso

▪ Se verá en clase.
Data Satisfacción - Caso
▪ Considere la data de satisfacción de pacientes.
1. Estime un modelo de regresión lineal múltiple incluyendo todas las
variables. ¿Todas son necesarias?

2. ¿Cuál sería el mejor modelo de regresión?

3. ¿Se satisfacen los supuestos del modelo?


Optimización de la variable de respuesta
▪ Cuando el interés está en el mejorar el rendimiento del proceso o la variable que se
está midiendo, se pueden usar las superficies de respuesta.
▪ Nos interesa determinar la región de las variables que nos lleve cerca de nuestro
objetivo.
Superficie de respuesta

¿Qué pacientes son aquellos que


tienen la menor satisfacción con el
servicio?
Data Vino - Caso
▪ Se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del
juicio de varios expertos se ha medido la “Calidad” de cada vino y se
dispone de valores de 5 variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad,
Región) que pueden explicar dichos valores de calidad.
1. Estimar un modelo de regresión usando todas las variables y analice los
residuos. ¿Todas las variables son necesarias?
2. ¿Cuál sería el mejor modelo de regresión? Use la opción de los mejores
subconjuntos y para ayudarlo a ver cuál sería un mejor modelo.
3. Para el modelo propuesto en el punto anterior, ¿se satisfacen los supuestos
del modelo?
4. Si se quisiera maximizar la calidad del vino de esta variedad, ¿qué valores
de dichas características debería tener?

También podría gustarte