Clase 11
Clase 11
Clase 11
Unidad 2
Modelos de Regresión Lineal Normal
Temas
ü Modelo de Regresión Lineal Normal (MRLN)
ü Inferencia del Modelo de Regresión Lineal Normal
ü Coeficiente de Correlación y coeficiente de Determinación
ü Intervalos de confianza
ü Pruebas de hipótesis asociadas al MRLN
ü Tabla ANOVA
ü Extrapolación Oculta en el MRLN
Clase 9
Modelo de Regresión Lineal Normal
Modelo de regresión lineal normal
ü Representación estocástica:
Método de máxima verosimilitud en el MRLN
𝛽> = 𝑋 # 𝑋 %'
𝑋# 𝑌
?" = 𝑛 − 𝑝 − 1 𝑀𝑆𝐸
𝜎
𝑛
Clase 10
Inferencia del Modelo de Regresión Lineal Normal
Distribución muestral de los parámetros
?* y 𝛽K+ , 𝐶𝑜𝑣 𝛽
ü La covarianza entre dos estimadores 𝛽 ?* ,𝛽K+ = 𝑎*+ 𝜎 "
ü𝛽 ?' X
?/ = 𝑌S − 𝛽 T.
$
∑!"# ,! " % %
2
ü Var 𝛽>/ = $1 𝜎 y Var 𝛽>' = 1
&& &&
$
?' = % ∑!"# ,! 𝜎 "
?/ ,𝛽
ü Cov 𝛽 $1 &&
Sumas cuadráticas
Se hacen inferencias del MRLN vía Análisis de Varianza (ANOVA)
S Desviación total
𝑌! − 𝑌:
S Desviación del valor ajustado en torno a la media
𝜇Y! − 𝑌:
𝑌! − 𝜇Y! : Desviación en torno al valor ajustado
Notemos que:
Para 𝑖 = 1, ⋯ , 𝑛.
𝑆𝑆𝑇𝑂 = % 𝑌! − 𝑌( %
!"#
ü SSE aumenta cuando hay mayor variabilidad de los 𝑌! alrededor del hiperplano de
regresión.
S
ü Si el hiperplano es horizontal, entonces 𝜇Y! = 𝑌,
%
𝑖 = 1: 𝑛, entonces SSR= 3
0$ − 𝑌
SS𝑅 = ∑$!"# 𝜇
Sumas cuadráticas - Propiedades
Propiedades (Tarea)
q𝑆𝑆𝑇𝑂 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
' '
q𝑆𝑆𝑇𝑂 = 𝑌 # 𝑌 − $ 𝑌# 𝐽𝑌 = 𝑌 # 𝐼$ − $ 𝐽 𝑌
q𝑆𝑆𝐸 = 𝑒 # 𝑒 = 𝑌# 𝑌 − 𝑌# 𝑋𝛽> = 𝑌# 𝐼$ − 𝐻 𝑌
' '
q𝑆𝑆𝑅 = 𝑌 # 𝑋𝛽> − $ 𝑌# 𝐽𝑌 = 𝑌 # 𝐻 − $ 𝐽 𝑌
Coeficiente de Determinación
El coeficiente de determinación representa la variabilidad de las observaciones, 𝑌! ,
explicada por el hiperplano de regresión
𝑆𝑆𝑅 𝑆𝑆𝐸
𝑅" = =1−
𝑆𝑆𝑇𝑂 𝑆𝑆𝑇𝑂
ü 𝑅" y 𝑅:" sirven como criterios de comparación y selección de modelos, tema que se
verá mas adelante.
ü El coeficiente de correlación múltiple, se define como: 𝑅 = 𝑅" . Para 𝑝 = 1, 𝑟 =
± 𝑅" se llama coeficiente de correlación simple, algunas veces representado por 𝜌.
ü 𝜌 representa una medida de asociación lineal entre 𝑋 e 𝑌. Notemos que −1 ≤ 𝜌 ≤ 1.
ü Ejemplos.
Clase 11
Intervalos de confianza asociados al MRLN
Distribución Chi- Cuadrado no-central
Una variable aleatoria 𝑇 > 0 tiene distribución chi-cuadrado no-central con 𝜈 > 0 grados
"
de libertad y parámetro de no centralidad 𝛿 ≥ 0, denotada por 𝑇 ∼ 𝜒;,= , si su función de
densidad de probabilidad está dada por:
?
𝛿 ! exp −(2𝛿 + 𝑡)/2 𝑡 $)"! /"%'
𝑓> 𝑡 = o
2 $)"! /" Γ 𝑛 + 2𝑖 /2 𝑖!
!./
Propiedades
"
Si 𝑇 ∼ 𝜒;,= , entonces
%,-
@AB
#.%-
1. M> t = '%"C //%
2. E 𝑇 = 𝜈 + 2𝛿
3. Var 𝑇 = 2(𝜈 + 4𝛿)
4. Si 𝛿=0, entonces 𝑇 ∼ 𝜒;"
Distribución Chi- Cuadrado no-central
Teorema
Suponga que 𝑌 es una variable aleatoria normal multivariada, Y ∼ N$ (𝝁, 𝜎 " 𝑰𝒏 ), entonces
"
𝑌# 𝐴𝑌 ∼ 𝜒*,= , donde 𝛿 = 𝝁# 𝐴𝝁/2𝜎 " , si y solo si, A es una matriz idempotente de rango 𝑘.
Objetivo
Hallar una distribución de probabilidad asociada a 𝑆𝑆𝐸
Observaciones:
ü 𝑆𝑆𝐸 = 𝑌 # 𝐼$ − 𝐻 𝑌 y se sabe que Y/𝜎 ∼ N$ (𝑿𝜷, 𝑰𝒏 ) y además 𝐼$ − 𝐻 es una matriz
idempotente.
11E "
Luego 2%
∼ 𝜒*,= , donde los grados de libertad son dadas por:
𝑘 = rango 𝐼$ − 𝐻 = tr 𝐼$ − 𝐻
=𝑛−𝑝−1
Distribución Chi- Cuadrado no-central
Teorema
Suponga que 𝑌 es una variable aleatoria normal multivariada, Y ∼ N$ (𝝁, 𝜎 " 𝑰𝒏 ), entonces
"
𝑌# 𝐴𝑌 ∼ 𝜒*,= , donde 𝛿 = 𝝁# 𝐴𝝁/2𝜎 " , si y solo si, A es una matriz idempotente de rango 𝑘.
11F '
𝐸 (
= 𝜎 " + ( 𝛽F# 𝑋G# 𝑋G 𝛽F
Entonces
𝛽K+ − 𝛽+
∼ 𝑡$%(%'
H
Var 𝛽K+
Intervalos de confianza
𝛽K+ − 𝛽+
∼ 𝑡$%(%'
H
Var 𝛽K+
𝜷 H
?𝒋 ± 𝒕𝒏%𝒑%𝟏,𝟏%𝜶/𝟐 𝐕𝐚𝐫 ?𝒋
𝜷
Donde 𝑗 = 0, 1, ⋯ , 𝑝.
Clase 12
Pruebas de hipótesis asociadas al MRLN
Tabla Anova
Pruebas de Hipótesis asociadas al MRLN
H/ ∶ 𝛽' = 𝛽" = ⋯ , 𝛽( = 0
‹
H: ∶ 𝛽+ ≠ 0 para al menos un 𝑗
H/ ∶ 𝛽' = 𝛽" = ⋯ , 𝛽( = 0
‹
H: ∶ 𝛽+ ≠ 0 para al menos un 𝑗
Recordemos que:
11F " ' #
2%
∼ 𝜒(,= donde 𝛿 = "2 % 𝛽F# 𝑋G# 𝑋G 𝛽F , y 𝛽F = 𝛽' , ⋯ , 𝛽( y
11E "
2%
∼ 𝜒$%(%'
Pruebas de Hipótesis asociadas al MRLN
Estadístico de prueba:
𝑆𝑆𝑅/𝑝 𝑀𝑆𝑅
𝐹/ = =
𝑆𝑆𝐸/(𝑛 − 𝑝 − 1) 𝑀𝑆𝐸
𝐹/ ∼ 𝐹(,$%(%'
Ya que 𝑆𝑆𝑅 y 𝑆𝑆𝐸 son independientes.
Pruebas de Hipótesis asociadas al MRLN
H/ ∶ 𝛽' = 𝛽" = ⋯ , 𝛽( = 0
‹
H: ∶ 𝛽+ ≠ 0 para al menos un 𝑗
Fuente de Variación SS GL MS 𝐹/
Regresión SSR 𝑝 MSR MSR/MSE
Residuales SSE 𝑛−𝑝−1 MSE
Total SSTO 𝑛−1
𝛽K+
𝑡/ = ∼ 𝑡$%(%'
H
𝑉𝑎𝑟 𝛽K+
• Description
• The table below gives data based on the famous 1885 study of Francis
Galton exploring the relationship between the heights of adult children and the
heights of their parents. Each case is an adult child, and the variables are
• Family: The family that the child belongs to, labeled from 1 to 204 and 136A
• Father: The father's height, in inches
• Mother: The mother's height, in inches
• Gender: The gender of the child, male (M) or female (F)
• Height: The height of the child, in inches
• Kids: The number of kids in the family of the child
Tomado de: https://www.randomservices.org/random/data/Galton.html
1 inches es igual a 2.54 cm.
Clase 13
Pruebas de hipótesis asociadas al MRLN
Tabla Anova
Suma de cuadrados extras
Pruebas de hipótesis
Considere la partición de 𝑿 y 𝜷 dada por:
𝜷 = 𝛽'# , 𝛽"# #
y 𝑿 = [𝑋' 𝑋" ]
H ∶𝛽 =0
¤ / "
H: ∶ 𝛽" ≠ 0
¿Cómo estimar 𝜷𝟏 ?
La suma cuadrática de la regresión para este modelo reducido es: 𝑆𝑆𝑅 𝛽' = 𝛽>'# 𝑋'# 𝑌 −
' #
$
𝑌 𝐽𝑌 con 𝑝 − 𝑟 grados de libertad.
¿Cómo determinar la contribución de algunas
variables a la regresión?
Suma extra de cuadrados
𝑿𝟏 , 𝜷𝟏 𝑿𝟐 , 𝜷𝟐
¿Cómo determinar la contribución de algunas
variables a la regresión?
Estadístico de prueba
ü Bajo la hipótesis nula H/ ∶ 𝜷𝟐 = 𝟎
H/ ∶ 𝛽+ = 0
ü Para 𝑗 = 0,1,2, ⋯ , 𝑝, las pruebas individuales ‹
H: ∶ 𝛽+ ≠ 0
Pueden probarse con un estadístico 𝐹 así:
Fuente de Variación SS GL MS 𝐹/
𝑋' 𝑆𝑆𝑅(𝛽') 1 𝑀𝑆𝑅(𝛽') 𝑆𝑆𝑅(𝛽')/MSE
𝑋"|𝑋' 𝑆𝑆𝑅(𝛽"|𝛽') 1 𝑀𝑆𝑅(𝛽"|𝛽') 𝑆𝑆𝑅(𝛽"|𝛽')/MSE
𝑋S|𝑋', 𝑋" 𝑆𝑆𝑅(𝛽S|𝛽', 𝛽") 1 𝑀𝑆𝑅(𝛽S|𝛽', 𝛽") 𝑆𝑆𝑅(𝛽S|𝛽', 𝛽")/MSE
⋮ ⋮ ⋮ ⋮ ⋮
𝑋( |𝑿%𝒑 𝑆𝑆𝑅(𝛽( |𝜷%𝒑) 1 𝑀𝑆𝑅(𝛽( |𝜷%𝒑) 𝑆𝑆𝑅(𝛽( |𝜷%𝒑)/MSE
Al pronosticar nuevas respuestas y estimar una respuesta media para un punto dado se
debe tener cuidado para no extrapolar fuera de la región que contienen las
observaciones originales, con las que se estimó el MRLN.
El modelo puede ajustar bien en la región de los datos originales, pero no fuera de ella.
Extrapolación Oculta en el MRLN
Los niveles de la variables explicativas 𝑥!' , 𝑥!" , ⋯ , 𝑥!( , 𝑖 = 1: 𝑛 definen, conjuntamente,
la región que contiene los datos.
Comparando los niveles de las variables explicativas para un nuevo punto (nueva
observación) con los intervalos originales de las 𝑋 ’s no siempre llevará a una
extrapolación oculta.
Procedimiento:
1. Definir un conjunto convexo mínimo: contiene todos los 𝑛 datos originales
𝑥!' , 𝑥!" , ⋯ , 𝑥!( , 𝑖 = 1: 𝑛
𝑅𝑉𝐻 envolvente de variables explicativas (Regressor Variable Hull)
2. Comparar el punto y determinar si es una interpolación o una extrapolación
Si 𝑥/# = 𝑥/' , 𝑥/" , ⋯ , 𝑥/( cae dentro o en la frontera de la 𝑅𝑉𝐻 entonces 𝑥/# se
denomina punto de interpolación, si 𝑥/# cae por fuera de la envolvente se denomina
punto de extrapolación.
Extrapolación Oculta en el MRLN
5. El punto con mayor ℎ!! , llamado ℎT:, , cae en la frontera de la RVH, correspondiente
a una región del espacio 𝑿 en la que la densidad de las observaciones es relativamente
baja.
7. Para el punto 𝒙#𝟎 = 𝑥/' , 𝑥/" , ⋯ , 𝑥/( , su localización con respecto a la 𝑅𝑉𝐻 está
dada por
ℎ// = 𝒙#𝟎 𝑿# 𝑿 %𝟏
𝒙𝟎
8. Los puntos para los cuales ℎ// > ℎT:, , están por fuera del elipsoide que encierra la
RVH y por lo tanto son puntos de extrapolación.
9. Si ℎ// < ℎT:, , el punto está dentro del elipsoide y posiblemente dentro del RVH, y se
considera un punto de interpolación.
10. Mientras menor sea el valor de ℎ// , mas cerca esta el punto 𝒙#𝟎 del centroide del
espacio.