Capitulo 5
Capitulo 5
Capitulo 5
E (Y |X = x) = β0 + β1 x + β2 x2 (5.1.1)
β1
xM = − (5.1.2)
2β2
Una función media cuadrática también puede usarse para modelar curvas
sin necesidad de tener un valor máximo o mı́nimo en el rango del predictor.
Por ejemplo en la Figura 5.1(a) si el rango se encuentra entre las lı́neas pun-
teadas se puede observar una función media no lineal decreciente, mientras
que en la Figura 5.1(b) la función media es no lineal creciente.
La regresión cuadrática es un caso especial de la regresión polinomial. Si
se tiene un solo predictor, la función media polinomial de grado d es:
E (Y |X = x) = β0 + β1 x + β2 x2 + · · · + βd xd (5.1.3)
69
CAPÍTULO 5. REGRESIÓN POLINOMIAL Y FACTORES 70
1.0
0.8
0.8
0.6
0.6
E[Y/X]
E[Y/X]
0.4
0.4
0.2
0.2
0.0
0.0
(a) (b)
E (Y |X) = β0 + β1 X + β2 X 2
E (Y |X) = β0 + β1 X
usando una prueba t para β2 = 0. Una estrategia para escoger d con-
siste en agregar términos a la función media hasta que la prueba t para el
término de mayor grado resulte no significativa. También se puede utilizar
una estrategia de eliminación en la que se fija un valor máximo para d y se
eliminan los términos en la función media, uno a la vez empezando con el de
mayor orden, hasta obtener un término con prueba t significativa. Kennedy
y Bancroft (1971) sugieren utilizar un nivel de significación del 10 % para
este procedimiento. En la mayorı́a de las aplicaciones para regresión polino-
mial solo se consideran d = 1 o d = 2. Para valores altos de d las curvas
polinomiales estimadas tienen a sobreestimar la data modelando la variación
aleatoria en lugar de la tendencia de la variable respuesta.
Pasteles
Oehlert (2000) proporciona información para un pequeño experimento en
horneado y mezclas de pasteles. Se consideraron dos variables, X1 = tiempo
de horneado (minutos) y X2 = temperatura de horneado (°F). La variable
respuesta Y = puntaje promedio para cuatro pasteles horneados usando una
combinación particular de las variables predictoras.
La función media estimada basada en 5.1.4 para la data Pastel es:
Cada una de las gráficas mostradas en la Figura 5.2 es una curva cua-
drática ya que X12 y X22 se encuentran presentes en la función media. En la
Figura 5.2(a), el valor máximo de la variable respuesta cuando X2 = 360 es
menor que el obtenido para X2 = 340. En la Figura 5.2(b) con las curvas
para tiempos de 35 y 37 minutos se obtiene una respuesta mayor que con
33 minutos. El puntaje es sensible a cambios en la temperatura de 10 o 15
grados y tiempos de horneado de pocos minutos.
Si se estima la función media 5.1.4, pero con β12 = 0 se obtienen las
curvas de respuesta mostradas en la Figura 5.3. Sin interacción todas las
curvas tienen la misma forma y son maximizadas con un mismo valor. Por
ejemplo, para cualquier tiempo de horneado la respuesta se maximiza a una
temperatura de aproximadamente 355 grados. A pesar que esta función media
es más simple, la prueba F proporciona evidencia que esta función no estima
adecuadamente la data.
CAPÍTULO 5. REGRESIÓN POLINOMIAL Y FACTORES 73
8
X2=360
X1=37
7
7
Y
Y
6
6
X2=350
5
5
X2=340
X1=35
4
X1=33
(a) X1 (b) X2
Figura 5.2: Curvas de respuesta estimadas para la data Pastel según 5.1.5
5.2. Factores
Los factores permiten la inclusión de predictores cualitativos o categóricos
en la función media de un modelo de regresión lineal múltiple. Los factores
pueden tener dos niveles como hombre y mujer, o más de dos niveles como
color de ojos, distrito de residencia, etc.
Para incluir factores en la función media de un modelo de regresión múl-
tiple se necesita una forma de indicar que nivel particular del factor esta
presente para cada caso en la data. Para un factor con dos niveles puede
usarse una variable dummy, es decir un término que toma el valor 1 para una
de las categorı́as y 0 para la otra. La asignación de la categorı́a que toma el
valor 1 es arbitraria y no afecta el resultado del análisis.
CAPÍTULO 5. REGRESIÓN POLINOMIAL Y FACTORES 74
8
X1=37
X2=350
X2=360
7
7
X1=35
Y
Y
6
6
5
X2=340 X1=33
4
(a) X1 (b) X2
Figura 5.3: Curvas de respuesta estimadas para la data Pastel sin interacción
Si el factor tuviera tres niveles en lugar de cinco, con n = 7 tal que los
casos 1, 2 y 7 corresponden al primer nivel del factor, los casos 4 y 5 segundo
nivel y los casos 3 y 6 al tercer nivel, entonces las tres variables dummy son:
U1 U2 U3
1 0 0
1 0 0
0 0 1
0 1 0
0 1 0
0 0 1
1 0 0
E (TS|D) = β1 U1 + β2 U2 + β3 U3 + β4 U4 + β5 U5 (5.2.2)
E (TS|D) = η0 + η2 U2 + η3 U3 + η4 U4 + η5 U5 (5.2.3)
donde los parámetros están representados de manera diferente ya que
tienen significados diferentes. Las medias para los cinco grupos son ahora
η0 + ηi para los niveles j = 2, · · · , 5 de D, y η0 para D = 1. Aunque los
parámetros tengan diferentes significados en 5.2.2 y 5.2.3, ambos estiman
una media para cada nivel de D.
20
●
●
●
●
●
●
●
●
15
Y = Total horas de sueño
● ●
● ●
● ●
● ●
● ● ●
●
● ●
● ● ●
●
● ●
10
●
● ● ●
●
● ● ● ●
● ●
●
●
●
● ●
●
5
● ●
●
● ●
●
●
1 2 3 4 5
D = Indice de peligro
D1 D2 D3 D4 D5 D1:x D2:x
13.8681822 11.5089393 10.3673158 9.6408015 6.8370993 -0.4027435 -0.4266289
D3:x D4:x D5:x
-0.6414392 -0.2851411 -0.4695489
(Intercept) D2 D3 D4 D5 D1:x
13.8681822 -2.3592429 -3.5008664 -4.2273808 -7.0310829 -0.4027435
D2:x D3:x D4:x D5:x
-0.4266289 -0.6414392 -0.2851411 -0.4695489
20 1 1
1 1
1
1
2
3
2
15
2 1
3 2
3 3 2
3 1
4 12
1
TS
32
4 1
1 2 2
2 2 4
10
1 2 4 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5
5
−5 0 5 10
logb(PesoCuerpo, 2)
(Intercept) D2 D3 D4 D5 x
13.932502 -2.428716 -3.583566 -3.853468 -7.294486 -0.435749
La diferencia entre los niveles de D es la misma para todos los valores del
predictor ya que no se incluye en la función media ninguna variable dummy
CAPÍTULO 5. REGRESIÓN POLINOMIAL Y FACTORES 80
1 1
1 1
1
1
2
3
2
15
2 1
3 2
3 3 2
3 1
4 12
1
TS
32
4 1
1 2 2
2 2 4
10
1 2 4 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5
5
−5 0 5 10
logb(PesoCuerpo, 2)
ya que requiere que el número esperado de horas de sueño para una especie
cuyo peso es de 1 kg, es x = 0, es el mismo para todos los niveles de peligro,
y esto es totalmente arbitrario. La función media podrı́a cambiar si se usan
unidades diferentes como gramos o libras.
20
1 1
1 1
1
1
2
3
2
15
2 1
3 2
3 3 2
3 1
4 12
1
TS
32
4 1
1 2 2
2 2 4
10
1 2 4 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5
5
−5 0 5 10
logb(PesoCuerpo, 2)
(Intercept) x
11.4377412 -0.5497446
20
1 1
1 1
1
1
2
3
2
15
2 1
3 2
3 3 2
3 1
4 12
1
TS
32
4 1
1 2 2
2 2 4
10
1 2 4 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5
5
−5 0 5 10
logb(PesoCuerpo, 2)