GMLDiapo 01
GMLDiapo 01
GMLDiapo 01
Manuel Galea
Departamento de Estadı́stica
Pontificia Universidad Católica de Chile
Descripción
Este curso extiende la estructura del modelo lineal para permitir variables
respuestas que no se distribuyen en forma Gaussiana.
En los modelos lineales generalizados, la variable respuesta tiene una
distribucion en la familia exponencial y su media se relaciona con
covariables a través de una funcion de enlace y un predictor lineal.
El curso incluye una revision de la teoria asociada a estos modelos,
incluyendo su estimacion e inferencia.
En particular, se estudian modelos para respuestas binarias, categoricas,
respuestas positivas, modelos para datos de conteo, entre otros. La
aplicacion de estos modelos a datos reales se llevara a cabo mediante
laboratorios computacionales.
1
Programa
Objetivos
2
Programa
Contenidos
3
Programa
4
Programa
Metodologı́a
1 Clases expositivas
2 Clases de ejercicios/Laboratorios
Evaluación
1 Interrogación 1: lunes 03 de abril, 20 %
2 Interrogación 2: jueves 11 de mayo, 25 %
3 Interrogación 3: lunes 12 de junio, 25 %
4 Examen: martes 11 de julio, 30 %
5
Programa
Bibliografı́a
1 McCullagh, P., Nelder, J.A. (1989). Generalized linear models. 2nd Ed. Chapman
and Hall/CRC, New York, USA.
2 Agresti, A. (2003). An introduction to categorical data analysis. 2nd ed. John
Wiley and Sons, New York, USA
3 Agresti, A. (2002). Categorical data analysis. John Wiley and Sons, New York,
USA.
4 Christensen, R. (1997). Log-linear models and logistic regression. 2nd Edition.
Springer-Verlag, New York, USA.
5 Dobson, A.J., Barnett, A. 2008. An introduction to generalized linear models. 3rd
ed. Chapman and Hall/CRC, New York, USA.
6 Hastie, T.J., Tibshirani, R.J. (1990). Generalized additive models. Chapman and
Hall/CRC, New York, USA.
7 Le, C. (1998). Applied categorical data analysis. John Wiley and Sons, New York,
USA.
8 Stokes, M.E., Davis, C.S., Koch, G.C. (2000). Categorical data analysis using the
SAS system. 2nd Edition. SAS Publishing, USA.
9 Venables, W.N., Ripley, B.D. (1999). Modern applied statistics with S?PLUS.
Springer-Verlag, New York, USA. 6
Contenido I
1 Introducción
Modelo estadı́stico
Modelo lineal
Modelo lineal generalizado
8
Introducción
Modelo estadı́stico
Ejemplo 1.1
Poisson Suponga que y1 , · · · , yn son variables aleatorias iid Poisson con
media λ. La fdp del vector aleatorio y = (y1 , · · · , yn ) es
n
Y exp(−λ)λyi
f (y, λ) =
yi !
i=1
F = {f (y, λ) : λ ∈ Θ},
9
Introducción
Modelo lineal
Aunque esto parece ser muy restrictivo, esta suposición es razonable para
muchas aplicaciones. Además, los problemas, que al principio no muestran
una estructura de error aditivo, pueden especificarse mediante modelos con
errores aditivos después de una transformación de la variable de respuesta
y.
Para estimar los parámetros β, recopilamos datos
yn ϵn
y la matriz de diseño X,
xT1
x11 . . . x1p
. . . . . .
X= . . . . . .
= ,
. . . . . .
xn1 . . . xnp xTn
entonces las n ecuaciones en (1.2) se pueden escribir de forma compacta
como,
y = Xβ + ϵ.
Introducción
Modelo lineal
14
Introducción
Modelo lineal
17
Introducción
Modelo lineal
Definición 1.1
Modelo Lineal Clásico El modelo
y = Xβ + ϵ,
19
Introducción
Modelo lineal
donde Q(β) = (y − Xβ)T (y − Xβ) = ni=1 (yi − xTi β)2 , y las variables
P
de respuesta y1 , . . . , yn son independientes tales que yi ∼ N (xTi β, σ 2 ),
i = 1, . . . , n.
20
Introducción
Modelo lineal
Ejemplo 1.2
y
ϵT = (ϵ11 , ϵ21 , . . . , ϵn1 , ϵ12 , ϵ22 , . . . , ϵm2 )
Introducción
Modelo lineal
y la matriz de diseño,
1 0
1 0
. .
. .
. .
1 0
X= ,
0 1
0 1
. .
. .
. .
0 1
yi = β1 + β2 xi + ϵi ,
i = 1, 2, . . . , n. La matriz de diseño es
1 x1
1 x2
. .
X= . .
,
. .
1 xn
yi = β1 + β2 xi + ϵi ,
i = 1, 2, . . . , n. La matriz de diseño es
1 x1
1 x2
. .
X= . .
,
. .
1 xn
yi = β1 + β2 xi + β3 x2i + ϵi ,
i = 1, 2, . . . , n. La matriz de diseño es
1 x1 x21
1 x2 x22
. . .
X= ,
. . .
. . .
1 xn x2n
Ejercicio 1.1
Discuta si los siguientes modelos de regresión son lineales.
1) yi = β0 + β1 xi + β2 x2i + ϵi
2) yi = β0 + β1 ( x1i ) + ϵi
3) yi = β0 exp(β1 xi ) + ϵi
4) yi = β0 xβi 1 + ϵi , i = 1, 2, . . . , n
Introducción
Modelo lineal generalizado
Ejemplo 1.3
30
Introducción
Modelo lineal generalizado
33
Introducción
Modelo lineal generalizado
Motivados por este tipo de ejemplos, y para superar las limitaciones (1) y
(2) anteriores, Nelder & Wedderburn (1972) propusieron la clase de
modelos lineales generalizados. Estos modelos superan la limitación (1) al
ser aplicables cuando la variable dependiente proviene de cualquier
distribución en una amplia clase de distribuciones conocida como la familia
exponencial.
Esta familia incluye la mayorı́a de las distribuciones comúnmente
encontradas en situaciones prácticas, por lo que los modelos son
ampliamente aplicables.
La limitación (2) se supera directamente permitiendo que una función
general enlace (ligue) la media variable dependiente y el predictor lineal.
Introducción
Modelo lineal generalizado
Definición 1.2
Modelo Lineal Generalizado Sean yi , i = 1, . . . , n variables de respuesta
que satisfacen las siguientes condiciones,
(i) yi son variables aleatorias independientes con densidad f (yi , β, ϕ) que
pertenecen a la familia exponencial, i = 1, . . . , n,
(ii) Las variables explicativas proporcionan un conjunto de predictores
lineales, ηi = β1 xi1 + β2 xi2 + · · · + βp xip para i = 1, . . . , n,
(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es denominada función de enlace.
En este caso diremos
Qque el modelo estadı́stico
F = {f (y, β, ϕ) = ni=1 f (yi , β, ϕ) : θ ∈ Rp , ϕ > 0} es un Modelo Lineal
Generalizado.
35
GLM
Familia Exponencial
Definición 2.1
Una variable aleatoria y tiene una distribución perteneciente a la familia
exponencial si su función de densidad de probabilidad (o masa) f (y; θ, ϕ)
se puede escribir en forma canónica como,
[y − b′ (θ)]
Z
exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}dy = 0,
R a(ϕ)
db(θ)
donde b′ (θ) = . Ya que R no depende de θ, podemos intercambiar la
dθ
derivada con la integral.
37
GLM
Familia Exponencial
d2 b(θ)
donde b′′ (θ) = .
dθ2
38
GLM
Familia Exponencial
1 b′′ (θ)
Var(y) = ,
a2 (ϕ) a(ϕ)
es decir,
Var(y) = a(ϕ)b′′ (θ). (2.3)
Sea µ = E(y); o sea µ = b′ (θ). Además, ya que b′′ (θ) depende de µ via
b′ (θ) se puede escribir como V (µ); denominada función de varianza del
modelo.
39
GLM
Familia Exponencial
Ejemplo 2.1
Una variable aleatoria y con distribución normal con media µ y varianza
σ 2 tiene densidad
1
exp −(y − µ)2 /2σ 2
f (y) = p
(2πσ 2 )
2
2 1 2 2 2
= exp yµ − µ /2 /σ − y /σ + log 2πσ ,
2
40
GLM
Familia Exponencial
Ejemplo 2.2
42
GLM
Familia Exponencial
Ejemplo 2.3
Una variable aleatoria y con distribución Poisson con parámetro λ tiene
media µ = λ y varianza σ 2 = λ. La densidad es
λy −λ
f (y) = e
y!
= exp{y log λ − λ − log y!},
43
GLM
Ajuste del modelo
(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es una función de enlace.
Las dos extensiones del modelo de regresión lineal que caracterizan el GLM
son i) su aplicabilidad a cualquier miembro de la familia exponencial, y ii)
la existencia de una función de enlace para ligar el predictor lineal η con la
media, µ, de la variable de respuesta, y.
44
GLM
Ajuste del modelo
45
GLM
Ajuste del modelo
Ejemplo 2.4
El modelo sugerido en la segunda parte del Ejemplo 1.3 satisface los
requisitos de un modelo lineal generalizado.
Primero, la distribución binomial es un miembro de la familia exponencial.
En segundo lugar, el predictor lineal es α + βxi , donde xi es la dosis de
toxina aplicada al i−ésimo grupo de insectos.
Tercero, el modelo especificado por el parámetro binomial es
πi = Φ (α + βxi ) .
Ahora si yi es la cantidad de insectos que sobreviven a la i−ésima dosis,
entonces la media de yi es µi = ni πi .
46
GLM
Ajuste del modelo
49