ML (Pages 1 - 57)
ML (Pages 1 - 57)
ML (Pages 1 - 57)
MODELOS LINEALES
e-UMAB
Electronic-University Mathematical Books
c EDICIONS DE LA UNIVERSITAT DE BARCELONA, 2004
Copia impresa del libro electrónico con ISBN: XX-XXXX-XXX-X
D.L.: B-XX.XXX-2004
Impresión: Gráficas Rey, S.L.
Impreso en España / Printed in Spain
A la meva esposa Carme
i els nostres fills Mireia i Guillem.
Presentación
Prólogo
Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de asignaturas
que se han impartido a lo largo de algunos años en varias licenciaturas y cursos de doctorado.
En particular en la licenciatura de Matemáticas, la licenciatura de Biologı́a y la diplomatura
de Estadı́stica de la Universidad de Barcelona. Se ha intentado un cierto equilibrio entre las
explicaciones teóricas y los problemas prácticos. Sin embargo, nuestra intención siempre ha sido
fundamentar sólidamente la utilización de los modelos lineales como base de las aplicaciones
de la regresión, el análisis de la varianza y el diseño de experimentos. Por ello, en este libro la
base matemática y estadı́stica es considerable y creemos importante la correcta definición de los
conceptos y la rigurosidad de las demostraciones. Una sólida base impedirá cometer ciertos errores,
habituales cuando se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza requiere
la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas fórmulas
matriciales o simples. Para ello es absolutamente imprescindible la utilización de algún programa
de ordenador que nos facilite el trabajo. En una primera instancia es posible utilizar cualquier
programa de hojas de cálculo que resulta sumamente didáctico. También se puede utilizar un
paquete estadı́stico que seguramente estará preparado para ofrecer los resultados de cualquier
modelo lineal estándar como ocurre con el paquete SPSS. En cambio, en este libro se ha optado
por incluir algunos ejemplos con el programa R. Las razones son varias. En primer lugar, se
trata de un programa que utiliza el lenguaje S, está orientado a objetos, tiene algunos módulos
especı́ficos para los modelos lineales y es programable. R utiliza un lenguaje de instrucciones y al
principio puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos lineales,
sino en todo cálculo estadı́stico. Además, la razón más poderosa es que el proyecto R es GNU
y, por tanto, de libre distribución. De modo que los estudiantes pueden instalar en su casa el
programa R y practicar cuanto quieran sin coste económico alguno. Por otra parte, el paquete
S-PLUS es una versión comercial con el mismo conjunto de instrucciones básicas.
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro y a los
que agradezco profundamente su colaboración. También es evidente que algunas demostraciones
tienen su origen en el clásico libro de Seber [66].
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y presentado
en formato electrónico. Gracias a ello se puede actualizar con relativa facilidad. Se agradecerá la
comunicación de cualquier errata, error o sugerencia.
Índice general
1. Las condiciones 15
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2. Estimación 27
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . . . . . . 40
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4. Complementos de estimación 59
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . . . . . . 59
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
A. Matrices 251
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
Bibliografı́a 261
Las condiciones
1.1. Introducción
Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por lo
general, una variable dependiente con diversas variables independientes. El problema se reduce
entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal, etc.. Sin
embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales ha revelado
la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, etc. justifican el planteo, en términos muy
generales, de la ecuación fundamental
1.2. Un ejemplo
En el libro de Sen and Srivastava en [67, pág. 2] se explica este ejemplo que nosotros hemos
adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del tráfico. El
estudio de este problema tiene como objetivo la mejora del transporte y la reducción del tiempo
de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su correspondiente
velocidad (en km por hora).
16 CAPÍTULO 1. LAS CONDICIONES
Gráfico de dispersión
10
8
RAIZ(vel)
0
0 20 40 60 80 100
densidad
Como primera aproximación podrı́amos tomar, como modelo de ajuste, la recta que une dos
puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha recta es
y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como veremos,
el método de los mı́nimos cuadrados proporciona una recta, llamada recta de regresión, que goza
de muy buenas propiedades. Este método consiste en hallar a y b tales que se minimice la suma
de los errores al cuadrado.
n
ei = yi − ŷi
donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
1.3. EL MODELO 17
Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo en varios
aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los errores al cuadrado
n
El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio 1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la velocidad
en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de esta función
es la capacidad de la carretera.
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos asumiendo
la hipótesis de que los datos siguen un patrón lineal subyacente del tipo
y = β0 + β1 x
Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es
yi = β0 + β1 xi + i i = 1, . . . , n
18 CAPÍTULO 1. LAS CONDICIONES
donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola variable
independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo
yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n
con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regresión múltiple.
La variable cuyos datos observados son yi es la llamada variable dependiente o respuesta.
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En cuanto a
los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la evaluación del
modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan a los
valores observados de una v.a. X o de una variable controlada no aleatoria. En cualquier caso, vamos
a considerar los valores xi como constantes y no como observaciones de una variable aleatoria.
En la regresión simple
Y = φ(x) +
donde Y es aleatoria y es aleatoria con E() = 0. De manera que, para cada valor X = x, Y es una
v.a. con esperanza φ(x). Si asumimos
φ(x) = E[Y|X = x] = β0 + β1 x
podemos proceder considerando las inferencias como condicionadas a los valores observados
de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las variables
regresoras X1 , . . . , Xk como simplemente números.
La paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gauss que lo
utilizó en 1795 y lo publicó en 1809.
1.4. EL MÉTODO DE LOS MÍNIMOS CUADRADOS 19
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles valores de
los βj , el método de los mı́nimos cuadrados selecciona aquellos que minimizan
n
n
n
n
S= =
2
i (yi − β0 − β1 xi )2
i=1 i=1
βˆ0 = ȳ − βˆ1 x̄
n
sxy (yi − ȳ)(xi − x̄)
β1 =
ˆ = i=1n
sx i=1 (xi − x̄)
2 2
También se puede considerar el modelo centrado, que consiste en centrar los datos de la variable
regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n
ei = 0
i=1
de modo que los modelos que carecen de término independiente no se pueden comparar con los
que sı́ lo tienen.
20 CAPÍTULO 1. LAS CONDICIONES
Hasta aquı́, el método de los mı́nimos cuadrados es analı́tico ¿dónde está la estadı́stica?
A lo largo de los siguientes capı́tulos vamos a ver que un modelo estadı́stico y la imposición de
algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los métodos
estadı́sticos y calibrar la bondad del ajuste desde esa óptica.
Una primera pregunta es ¿qué tan bueno es el método de los mı́nimos cuadrados para estimar los
parámetros? La respuesta es que este método proporciona un buen ajuste y buenas predicciones
si se verifican las condiciones de Gauss-Markov.
En el modelo lineal que hemos definido anteriormente, se supone que los errores i son desviaciones
que se comportan como variables aleatorias. Vamos a exigir que estos errores aleatorios verifiquen
las siguientes condiciones:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i j
Veamos con detalle estas condiciones:
Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala llamada
de heterocedasticidad, en la que la var(i ) crece con xi .
El parámetro desconocido σ2 es la llamada varianza del
modelo.
Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de regresión.
Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco fiable.
Tales condiciones pueden expresarse en forma matricial como
E() = 0 var() = σ2 In
Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunque tienen
diferentes objetivos, gozan de las mismas bases teóricas.
Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance), representado
por el modelo lineal
yij = µ + αi + ij con ij ∼ N(0, σ2 ) indep.,
se resuelve de forma similar al modelo de regresión.
El Análisis de la Covarianza, que utiliza como variables independientes tanto variables cuantita-
tivas como factores, y el Análisis Multivariante de la Varianza, con varias variables dependientes,
son dos de los análisis que generalizan el estudio y aplicaciones de los modelos lineales que vamos
a investigar.
Un tı́pico problema de estadı́stica consiste en estudiar la relación que existe, si existe, entre dos
variables aleatorias X e Y. Por ejemplo, altura y peso, edad del hombre y la mujer en una pareja,
longitud y anchura de unas hojas, temperatura y presión de un determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos en un
gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma que los puntos se
hallen lo más cerca posible de la curva. No podemos esperar un ajuste perfecto porque ambas
variables están expuestas a fluctuaciones al azar debido a factores incontrolables. Incluso aunque
en algunos casos pudiera existir una relación exacta entre variables fı́sicas como temperatura y
presión, también aparecerı́an fluctuaciones debidas a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:
• Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar los
parámetros.
22 CAPÍTULO 1. LAS CONDICIONES
• Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De qué grado?
• En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesarias? ¿son
linealmente independientes las llamadas “variables independientes”?
Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos, otras
pueden quedar para una posterior profundización.
En esta sección vamos a ver como se calculan las regresiones que se han sugerido a partir del
ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.
> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)
> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")
El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al objeto
recta.ls
> recta.ls<-lsfit(dens,rvel)
Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya podemos
utilizar su resultado. Por ejemplo, podemos añadir la recta de regresión al gráfico anterior.
> abline(recta.ls)
> recta.ls$coef
Intercept X
8.08981299 -0.05662558
También se puede obtener una información más completa con la instrucción ls.print, aunque
su resultado no se explicará hasta el capı́tulo correspondiente.
1.8. EJEMPLOS CON R 23
La estimación de la desviación estándar de los errores y otros elementos de diagnosis del modelo
se obtienen con la función ls.diag como
> ls.diag(recta.ls)$std.dev
[1] 0.2689388
Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a los de la
figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma figura.
> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debemos in-
troducir los valores de la variable densidad y sus cuadrados en una matriz de datos. El resto es
idéntico al modelo de regresión simple.
> matriz.frame<-data.frame(dens,densˆ2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, minimizando
la suma de los cuadrados de los errores:
n
S= (yi − β0 − β1 xi )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimizando la
suma de los cuadrados de los errores:
n
S= (yi − β0 − β1 xi − β2 x2i )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la variable
independiente densidad y la variable dependiente raı́z cuadrada de la velocidad. Con los datos
proporcionados en la tabla 1.1 realizar el siguiente proceso:
√ √
(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12.7, 62.4) y (87.8, 12.4).
Dibujar el gráfico de los residuos con la densidad y el gráfico con las predicciones. Calcular
la suma de cuadrados de los residuos.
(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad y el
gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico de los
residuos con la densidad y el gráfico con las predicciones. Calcular la suma de cuadrados de
los residuos.
(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo = vel ×
densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidad en
atletismo en los Juegos Olı́mpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00
1.9. EJERCICIOS 25
Si tomamos como variable regresora o independiente la distancia (metros) y como variable res-
puesta o dependiente el tiempo (segundos):
(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla. Dibujar el
gráfico de los residuos con la distancia y el gráfico con las predicciones. Calcular la suma de
cuadrados de los residuos y el R2 .
(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y distancia.
(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.
2
Estimación
2.1. Introducción
Sea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto es
Y =η+
donde es el error, de forma que η puede representar el valor verdadero e Y el valor observado.
Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experimentales
según el modelo lineal
η = β 1 x 1 + · · · + βm x m
donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales ilustra
situaciones experimentales diferentes.
En general se tienen n observaciones de la variable Y. Diremos que y1 , y2 , . . . , yn observaciones
independientes de Y siguen un modelo lineal si
yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n
o en forma resumida
Y = Xβ + (2.1)
Los elementos que constituyen el modelo lineal son:
Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una variable controlable x
(no aleatoria), de modo que las observaciones de Y verifiquen
yi = β0 + β1 xi + i i = 1, . . . , n
Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea polinómica.
Consideremos el modelo
yi = β0 + β1 xi + β2 x2i + · · · + βp xpi + i = 1, . . . , n
Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́, son modelos
lineales:
2.3. SUPOSICIONES BÁSICAS DEL MODELO LINEAL 29
a) yi = β0 + β1 xi1 + β2 xi2 + i
Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y un factor B (bloque
o conjunto de parcelas homogéneas). El llamado modelo del diseño del factor en bloques aleatorizados es
yij = µ + αi + βj + ij
donde
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula
donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos
El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del cráneo.
En el modelo lineal definido en el apartado anterior, se supone que los errores i son desviaciones
que se comportan como variables aleatorias que verifican las condiciones de Gauss-Markov:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i j
30 CAPÍTULO 2. ESTIMACIÓN
E() = 0 var() = σ2 In
Y ∼ Nn (Xβ, σ2 In )
r = rango X
La estimación de los parámetros β = (β1 , . . . , βm ) se hace con el criterio de los mı́nimos cuadrados.
Se trata de hallar el conjunto de valores de los parámetros
β = (
β1 , . . . ,
βm ) que minimicen la
siguiente suma de cuadrados
La estimación
β de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática, o LS del
inglés least squares.
Teorema 2.4.1
X Xβ = X Y (2.3)
Demostración:
Si desarrollamos la suma de cuadrados tenemos
= (Y − Xβ) (Y − Xβ)
= Y Y − 2β X Y + β X Xβ
2.4. ESTIMACIÓN DE LOS PARÁMETROS 31
∂
= −2X Y + 2X Xβ
∂β
β = (X X)−1 X Y
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En estos casos,
una posibilidad (ver Apéndice A) es considerar
β = (X X)− X Y
AA− A = A
SCR = e e = (Y − X
β) (Y − X
β)
Como veremos, SCR entendido como un estadı́stico función de la muestra Y, desempeña un papel
fundamental en el Análisis de la Varianza.
El modelo lineal Y = Xβ + , bajo las hipótesis de Gauss-Markov, verifica
E(Y) = Xβ
Teorema 2.4.2
(i) E(Y) ∈ X
(ii) Si
β es ortogonal a X .
Demostración:
En efecto,
ii) X e = X (Y − X
β) = X Y − X X
β=0
32 CAPÍTULO 2. ESTIMACIÓN
Teorema 2.4.3
Para cualquier
Y β
e=Y−Y SCR = (Y − X
β) (Y − X
β)
son únicos.
Además
SCR = Y Y −
β X Y (2.4)
Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
SCR = Y Y −
β X Y − Y X
β +
β X X
β
y como X X
β = X Y, obtenemos
SCR = Y Y − 2
β X Y +
β X Y = Y Y −
β X Y
Consideremos ahora los vectores Y
1 = X
2 = X
β1 y Y β2 , donde
β1 y
1 − Y
Y
2 también. Por otra parte, observamos que
1 − Y
X (Y
2 ) = X X
β1 − X X
β2 = X Y − X Y = 0
de modo que Y
1 − Y
2 pertenece al ortogonal de X . Ası́ pues, necesariamente Y
1 − Y
2 = 0 y el
1 = Y − Y
vector de errores e = Y − Y
2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única.
Interpretación geométrica
El modelo teórico es
Y = Xβ + = θ + si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio Ω = X y
para estimar los parámetros β debemos minimizar
= Y − θ2 con θ ∈ Ω = X
Como el vector concreto de observaciones Y se puede considerar un vector de Rn , el problema
anterior se puede resolver en términos geométricos. Ası́ se sabe que cuando θ ∈ Ω, Y − θ2 es
mı́nimo para θ = Y
= PY, donde P es la matriz de la proyección ortogonal en Ω = X (ver
de Y sobre X ,
Apéndice B). La estimación MC es equivalente a hallar la proyección ortogonal Y
es mı́nima:
es decir, la norma euclı́dea de e = Y − Y
2
SCR = e e = e2 = Y − Y
Se comprende que cualquier otra proyección no ortogonal darı́a una solución menos adecuada.
Y e
Ω = X
Y
2.4. ESTIMACIÓN DE LOS PARÁMETROS 33
es ortogonal a Ω, se verifica que
Como e = Y − Y
=0
X (Y − Y) ó
= X Y
X Y
donde Y
está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las columnas
de X son linealmente independientes, forman una base y existe un único vector
= X
β tal que Y β
de manera que
= X Y ⇒ X X
X Y β = X Y
son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son depen-
dientes no podemos concretar una solución única para los parámetros β. Sin embargo todas las
soluciones deben verificar la siguiente propiedad.
Teorema 2.4.4
Demostración:
Una estimación
β de β es MC si y sólo si
(Y − X
β) (Y − X
Sea
β una estimación cualquiera de β, entonces
(Y − X
β) (Y − X
β) = (Y − PY + PY − Xβ) (Y − PY + PY − Xβ)
= (Y − PY) (Y − PY) + (Y − PY) (PY − X
β)
+ (PY − X
β) (Y − PY) + (PY − X
β) (PY − X
β)
Sin embargo
(Y − PY) (PY − X
β) = Y (I − P)PY − Y (I − P)X
β=0
ya que P es idempotente y además PX = X. De forma que
β) (Y − X
(Y − X β) = (Y − PY) (Y − PY) + (PY − X
β) (PY − X
β)
Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y1 = θ + 1
y2 = 2θ + 2
y3 = −θ + 3
34 CAPÍTULO 2. ESTIMACIÓN
es decir
6θ = y1 + 2y2 − y3
y la estimación MC de θ es
SCR = Y Y −
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son β1 , β2 y β3 . Se dispone de una balanza
de platillos con un error de pesada que podemos considerar con distribución N(0, σ). Un artificio para
mejorar la precisión y ahorrar pesadas consiste en repartir los objetos en uno o en los dos platillos y anotar
las sumas o diferencias de pesos:
x 1 β1 + x 2 β2 + x 3 β3 = y
β1 + β2 + β3 = 5.53
β1 − β2 + β3 = 1.72
β1 + β2 − β3 = 0.64
β1 + β2 + β3 = 5.48
β1 − β2 + β3 = 1.70
β1 = 1.175
β2 = 1.898
β3 = 2.433
β1 +
SCR = (5.53 − (
β2 +
β3 ))2 + · · · = 0.00145
2.5. ESTIMACIÓN DE LA VARIANZA 35
σ2 = var(i ) = var(yi ) i = 1, . . . , n
Teorema 2.5.1
Sea Y = Xβ + el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces el
estadı́stico1
σ2 = ECM = SCR/(n − r)
es un estimador insesgado de la varianza σ2 . En este estadı́stico SCR es la suma de cuadrados
residual, n el número total de observaciones y r el rango del diseño.
Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión r que
escribimos
X = x(1) , . . . , x(m)
Sea ahora V una matriz ortogonal, es decir, tal que VV = V V = In , cuyas columnas v(1) , . . . ,
v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de modo que las r
primeras columnas generen el subespacio X
X = v(1) , . . . , v(r)
h=1
(i)
0 si i > r
Y = X
β + (Y − X
β) = X
β+e
donde obviamente X
β ∈ X y como sabemos e ∈ X ⊥ , de manera que la transformación ortogonal
V aplicada sobre e proporciona
V e = (0, . . . , 0, zr+1 , . . . , zn )
n
Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo incorrelacio-
nadas y de varianza σ2 . Ası́ pues
01. En muchos de los libros clásicos escritos en inglés este estadı́stico se llama MSE, siglas de mean square error.
36 CAPÍTULO 2. ESTIMACIÓN
y por lo tanto
n
La expresión
SCR = z2r+1 + · · · + z2n (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las hipótesis de
Gauss-Markov.
Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada en el
Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas var(Y) = V,
se tiene que
E(Y AY) = tr(AV) + µ Aµ
donde A es una matriz constante.
En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ2 I, de forma que
Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de rango
máximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condición de Gauss-Markov,
entonces
β es un estimador insesgado de β
E(
Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es decir
var() = σ2 I, resulta que
var(Y) = var(Y − Xβ) = var() = σ2 I
ya que Xβ no es aleatorio y en consecuencia
var(
Teorema 2.6.1
ii)
β − β) X X(
iii) (
β − β)/σ2 ∼ χ2m
iv)
β es independiente de SCR
v) SCR/σ2 ∼ χ2n−m
Demostración:
i) La función de verosimilitud es
√
1
L(Y; β, σ ) = ( 2πσ ) exp − 2 (Y − Xβ) (Y − Xβ)
2 2 −n
2σ
de modo que el mı́nimo de (Y − Xβ) (Y − Xβ) es el máximo de L.
Ya hemos visto que
β es insesgado y además, cada
βi es un estimador lineal de varianza
mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente. Se llegará a
la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por
σ2MV = SCR/n
ii) Como
β = [(X X)−1 X ]Y,
(X X)−1 σ2
iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior ya que
β − β) X X(
(
β − β)/σ2 = (
β − β) var(
β)−1 (
β − β) ∼ χ2m
β i Y − X
β tenemos
cov(
β, Y − X
β es independiente de (Y − X
β), ya que la incorrelación
entre normales multivariantes implica su independencia.
Este resultado se ampliará en el Teorema 3.4.1.
38 CAPÍTULO 2. ESTIMACIÓN
Ejemplo 2.6.1
√
La distribución de
E(
SCR = (y1 −
θ)2 + (y2 − 2
θ)2 + (y3 +
θ)2
Ejemplo 2.6.2
La estimación de la varianza del error σ2 en el ejemplo 2.4.2 es
Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a mayor si pesáramos
cada objeto individualmente.
Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones experi-
mentales. Para estas observaciones, el modelo que liga yi con las β es el mismo, lo que se traduce
en que las filas de la matriz de diseño correspondientes están repetidas. Para evitar la redundancia
que esto supone nos será muy útil, a efectos teóricos y de cálculo, introducir el concepto de matriz
de diseño reducida.
Definición 2.7.1
Dado el modelo lineal Y = Xβ + , llamaremos matriz de diseño reducida XR a la matriz k × m obtenida
tomando las k filas distintas de la matriz de diseño original X. Diremos entonces que k es el número de
condiciones experimentales.
Las matrices de diseño original o ampliada y reducida las indicaremos por X y XR respectivamente,
cuando convenga distinguir una de otra.
Si la fila i-ésima de XR está repetida ni veces en X, significa que se han obtenido ni réplicas de
la variable observable bajo la i-ésima condición experimental. Si estos números de réplicas son
n1 , n2 , . . . , nk , entonces
n = n1 + n2 + · · · + nk
Además de la matriz reducida XR , utilizaremos también la matriz diagonal
D = diag(n1 , n2 , . . . , nk )
y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )
donde cada yi es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones experi-
mentales distintas (caso de una sola observación por casilla), entonces
XR = X Ȳ = Y D=I ni = 1
Como veremos más adelante (ver sección 11.7), la utilización de XR , D e Ȳ nos permitirá abordar
diseños no balanceados y el caso de observaciones faltantes.
2.7. MATRIZ DE DISEÑO REDUCIDA 39
Teorema 2.7.1
β XR DȲ
Demostración:
Sea M una matriz n × k de forma que cada columna i es
Se verifica
Ejemplo 2.7.1
donde n1 = n2 = 2, n3 = 1, k = 3.
⎛ ⎞ ⎛ ⎞
⎜⎜⎜ (5.53 + 5.48)/2 ⎟⎟⎟ ⎜⎜⎜ 5.505 ⎟⎟⎟
⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟
Ȳ = ⎜⎜⎜⎜ (1.72 + 1.70)/2 ⎟⎟⎠ = ⎜⎜⎝ 1.710 ⎟⎟⎟⎟⎠
⎝
0.64 0.640
La matriz M es ⎛ ⎞
⎜⎜⎜ 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 0 0 ⎟⎟⎟
M = ⎜⎜⎜⎜⎜ 0 1 0 ⎟⎟⎟
⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎝ 0 1 0 ⎟⎠
0 0 1
40 CAPÍTULO 2. ESTIMACIÓN
Ejemplo 2.7.2
Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los números de réplicas
son
n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4
Cuando el modelo lineal corresponde al análisis de los datos de un diseño experimental, la matriz
X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a ser linealmente
dependientes. Ya sabemos que en este caso es posible hallar el estimador MC de θ = Xβ pero,
por desgracia, hay múltiples estimaciones de los parámetros β que más bien podemos considerar
como soluciones
β de las ecuaciones normales. En todo caso y como veremos en el próximo
capı́tulo estamos interesados en concretar una estimación de los parámetros β aunque no sea
única. A continuación se comentan algunos métodos para hallar una solución
β o para hallar la
SCR directamente.
α X1 Y
donde
α = (X1 X1 )−1 X1 Y es la solución del modelo Y = X1 α + de rango máximo.
Podemos asumir, sin pérdida de generalidad, que X1 está formada por las r primeras filas de X de
manera que X = (X1 , X2 ). Entonces X2 = X1 F ya que las columnas de X2 son linealmente depen-
dientes de las de X1 y, por tanto, X = X1 (Ir , F). Ası́, éste es un caso especial de una factorización
más general del tipo
X = KL
donde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribir
Xβ = KLβ = Kα
y estimar α.
2.9. EJERCICIOS 41
Este método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 para evitar la
indeterminación de β. Las restricciones apropiadas, llamadas identificables, son aquellas que, para
cada θ ∈ Ω = X , existe un único β que satisface θ = Xβ y 0 = Hβ, es decir, que satisface
θ X
= β = Gβ
0 H
cuya solución es
θ = X
β = PY, que P = X(G G)−1 X ya
que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [66, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces
E(
β) = (G G)−1 X Xβ
= (G G)−1 (X X + H H)β = β
de modo que
β es un estimador insesgado de β.
Este método es particularmente útil en los modelos de análisis de la varianza para los que H se
halla con mucha facilidad.
Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles
yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni
entonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de los parámetros resulta
indeterminada.
Sin embargo, si añadimos la restricción αi = 0, es decir, si hacemos H = (0, 1, 1, 1), el sistema conjunto
es de rango 4 y podemos determinar una solución o calcular la suma de cuadrados residual.
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores x1 , x2 y
x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su caso, la matriz de
diseño para x1 = 1, x2 = 2 y x3 = 3.
a) yi = β0 + β1 xi + β2 (x2i − 1) + i
b) yi = β0 + β1 xi + β2 exi + i
c) yi = β1 xi (β2 tang(xi )) + i
42 CAPÍTULO 2. ESTIMACIÓN
Ejercicio 2.2
Dado el modelo lineal
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.
Ejercicio 2.3
Si
(Y − Xβ) (Y − Xβ) = (Y − X
β) (Y − X
β) + (
β − β) X X(
β − β)
Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza de platillos
de acuerdo con el siguiente esquema:
β1 β2 β3 β4 peso
1 1 1 1 9.2
1 −1 1 1 8.3
1 0 0 1 5.4
1 0 0 −1 −1.6
1 0 1 1 8.7
1 1 −1 1 3.5
Ejercicio 2.5
Sea
= X
P2 = P (I − P)2 = I − P
Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟
⎜ ⎟
XR = ⎜⎜⎜⎜ 1 0 1 ⎟⎟⎟⎟
⎝ ⎠
0 1 0
y1 = 10 y2 = 12 y3 = 17 n1 = n2 = n3 = 10
1
s21 = (yi1 − y1 )2 = 2.8 s22 = 4.2 s23 = 4.0
n1
Se pide:
Ejercicio 2.7
Consideremos el modelo lineal
yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n
β0 ,
Sean
β1 , . . . ,
yi =
β0 +
β1 xi1 + · · · +
βm xim i = 1, . . . , n
Probar que
n
n
(yi −
yi ) = ei = 0
i=1 i=1
3
Funciones paramétricas
estimables
3.1. Introducción
Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros
ψ = a1 β 1 + · · · + a m β m = a β
ψ) = ψ
es decir,
Teorema 3.1.1
Sea ψ = a β una función paramétrica estimable asociada al modelo lineal Y = Xβ + . Se verifica:
Demostración:
ψ = b Y tal que E(
i) Sea
ψ) = ψ. Entonces
a β = E(b Y) = b E(Y) = b Xβ
lo que nos dice que a es combinación lineal de las filas de la matriz de diseño X.
Recı́procamente, si suponemos que b X = a , entonces basta tomar
ψ = b Y como estimador
lineal insesgado de ψ.
Observaciones:
1) Si rango X = m, entonces todos los parámetros βi y todas las funciones paramétricas ψ son
estimables, pues el subespacio generado por las filas de X coincide con Rm .
a (X X)− X X = a
S = X X S− = (X X)− H = S− S
H2 = H SH = S
luego
X = XH
Entonces, si ψ = a β es estimable, a = b X y
a H = b XH = b X = a
Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo y, por tanto,
la estimación MC de los parámetros no es única, la estimación de cualquier función paramétrica
estimable utilizando cualquiera de los estimadores MC sı́ es única.
3.2. TEOREMA DE GAUSS-MARKOV 47
Teorema 3.2.1
Si ψ = a β una función paramétrica estimable y
ψ = a β de ψ es único.
Demostración:
Si ψ es una función paramétrica estimable, tiene un estimador lineal insesgado b Y, donde b es
un vector n × 1. Consideremos el subespacio Ω = X de Rn generado por las columnas de X. El
vector b se puede descomponer de forma única
b=
b+c
b∈Ω c⊥Ω
luego
(
∗
b − b )X = 0
lo que quiere decir que (
b −b ) es ortogonal a Ω. Como también pertenece a Ω, debe ser
∗ ∗
b−b = 0,
es decir,
∗
b=b.
Por último, sabemos que para cualquier estimador MC de β e = Y − X
β es ortogonal a Ω, de
manera que
0=be= bY− b X
β
y ası́
bY= β. Además, por 3.1 sabemos que
b X
b X = b X = a , luego
b Y = a
para cualquier
β.
A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.
β es un estimador MC de β, entonces
ψ = a
β es
el estimador de varianza mı́nima en la clase de los estimadores lineales insesgados de ψ.
1
Demostración:
Con la notación
b2 = b21 + · · · + b2n
tenemos que
var(b Y) = b21 σ2 + · · · + b2n σ2 = b2 σ2
1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de normalidad.
ψ = a (X X)− X Y
3) Como la varianza de b Y es b bσ2 , resulta que la varianza mı́nima es
ψ) = var(a
var(
β) = σ2 a (X X)− a
var(
ψ) = σ2 a (XR DXR )− a
ψ = c1 Ȳ1 + · · · + ck Ȳk = c Ȳ
donde c = (c1 , . . . , ck ) es
c = DXR (XR DXR )− a
Entonces ⎛ k ⎞
⎜⎜⎜ 2 ⎟⎟⎟ 2
ψ) = ⎜⎜⎝ ci /ni ⎟⎟⎠ σ = δ2 σ2
var(
i=1
ψ = b Y de ψ = a β se descompone como hemos
visto en
bY=
b Y + c Y
Diremos que b Y (donde b es único) pertenece al espacio estimación y que c Y pertenece al espacio
error.
Más explı́citamente, la descomposición de b es
b = b P + b (I − P)
siendo P = X(X X)− X la matriz del operador que proyecta b en Ω = X (ver Apéndice B). El
vector proyectado es
b = b P. Asimismo, I − P es otro operador que proyecta b en el espacio
ortogonal a Ω. La proyección es c = b (I − P). Como
b c = 0, se verifica
cov(
b Y, c Y) = 0
Ası́ pues, todo estimador lineal insesgado b Y se descompone en
b Y = b PY + b (I − P)Y
3.2. TEOREMA DE GAUSS-MARKOV 49
donde b PY es el estimador de Gauss-Markov, mientras que b (I − P)Y tiene esperanza cero y
provoca un aumento de la varianza mı́nima del mejor estimador
ψ = b PY.
Finalmente, observemos que
β=
(3.2)
= b XH
β = a
β
Siendo H = (X X)− X X, que verifica XH = X, y siendo a = b X.
El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espacio muestral Rn
al que pertenece el vector de observaciones Y, se descompone en
Rn = Ω + Ω⊥
donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresión está ligada
a Ω. Toda estimación de la varianza del modelo está ligada al espacio error Ω⊥ . Ambos espacios
son ortogonales y bajo el modelo lineal normal, como veremos más adelante, ambas clases de
estimaciones son estocásticamente independientes.
Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N(µ, σ). El modelo lineal asociado
es ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ µ +
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
yn 1
El estimador MC de µ es
µ = (1/n) yi que también es de Gauss-Markov (centrado y de varianza
mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo
Ω = (1, . . . , 1)
Ω⊥ = {(x1 , . . . , xn ) | xi = 0}
Sea a Y = ai yi otro estimador centrado de µ. Entonces E(a Y) = µ implica ai = 1. Luego se verifica
a =a + b, es decir, ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟ ⎜⎜⎜ 1/n ⎟⎟⎟ ⎜⎜⎜ a1 − 1/n ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ + ⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
an 1/n an − 1/n
con
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que
a b = 0. Además
ai yi = (1/n) yi + (ai − 1/n)yi
El primer término es estimador centrado y de varianza mı́nima σ2 /n. El segundo término verifica
E( (ai − 1/n)yi ) = 0
cov(1/n yi , (ai − 1/n)yi ) = 0
a P = (1/n, . . . , 1/n)
a (I − P) = (a1 − 1/n, . . . , an − 1/n)
Ejemplo 3.2.2
Teorema 3.3.1
a ∈ X = X X
Demostración:
Como sabemos, la función paramétrica a β es estimable si y sólo si a es combinación lineal de las
filas de X, es decir, cuando a ∈ X . De modo que sólo queda probar que
X = X X
Pero X Xc = X d para d = Xc, de forma que X X ⊂ X . Además, las dimensiones de ambos
subespacios son iguales ya que rg X = rg X X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [66, pág. 385].
En el apartado anterior hemos demostrado que para una función paramétrica estimable a β, su
estimador MC a
β es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
Supongamos que X X tiene como valores propios λ1 , . . . , λr todos positivos no nulos asociados a
los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir
X Xvi = λi vi i = 1, . . . , r
a= ci vi
i=1
Entonces
⎛ ⎞
⎜⎜⎜ ⎟⎟⎟
= c var(vi
2
i β)
i
= σ2 c2i λ−1
i
i
3.4. SISTEMAS DE FUNCIONES PARAMÉTRICAS ESTIMABLES 51
ya que
cov(vi
β, vj
β) = λ−1
Silvey[68] concluyó que es posible una estimación relativamente precisa en las direcciones de los
vectores propios de X X correspondientes a los mayores valores propios, mientras que se obtienen
unas estimaciones relativamente imprecisas (poco eficientes) en las direcciones correspondientes
a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser linealmente
dependientes. Entonces X X está cerca de ser singular (no inversible), en el sentido que uno o
varios de sus valores propios no nulos son excesivamente pequeños, casi despreciables, y por lo
que hemos visto las estimaciones en algunas direcciones serán muy imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Econometrı́a
con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando la matriz de datos
X no tiene rango máximo. Este grave problema debe ser detectado previamente a la estimación y
se puede corregir de varias formas (ver sección 8.5).
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, mediante
la incorporación de nuevas observaciones en las direcciones de los vectores propios con valores
propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ + y resulta
Y X
= β +
Yn+1 xn+1 n+1
= X∗ β + ∗
donde xn+1 = cv, donde v es un vector propio normalizado de X X correspondiente a un valor
propio λ. Entonces se puede probar que v es también un vector propio de X∗ X∗ correspondiente al
valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para la elección de las direcciones en
las que es conveniente elegir nuevas observaciones para mejorar la precisión de las estimaciones
de un a β particular.
β i = 1, . . . , q
que podemos condensar matricialmente en la forma
ψq ) = A
ψ1 , . . . ,
ψ = (
β
donde ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟
⎜⎜ .. ⎟⎟⎟
A = ⎜⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠
aq
52 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES
Teorema 3.4.1
ψ = A
i)
ψ ∼ Nq (ψ, Σψ )
Σψ = σ2 A(X X)− A
es la matriz de varianzas-covarianzas.
ii) La estimación MC de toda función paramétrica estimable es estocásticamente independiente
de la suma de cuadrados residual
β) (Y − X
SCR = (Y − X
β)
ψ = A
En particular,
β es estocásticamente independiente de SCR.
Demostración:
i) Es consecuencia de que
luego si
A(X X)− X = C
sabemos que E(
ψ) = ψ y la matriz de covarianzas de CY es Σ = σ2 CC , de manera que
Σψ = σ2 CC = σ2 A(X X)− X X(X X)− A = σ2 A(X X)− A
z1 , . . . , zr
puesto que pertenece al espacio estimación. Sin embargo, la suma de cuadrados residual es
ψi = ai
3.5. INTERVALOS DE CONFIANZA 53
Teorema 3.4.2
β − Aβ) (σ2 A(X X)− A )−1 (A
La distribución de U = (A
β − Aβ) es una χ2q .
Además, U es estocásticamente independiente de SCR/σ2 cuya distribución es χ2n−r .
Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teoremas 2.5.1
y 3.4.1.
Dos resultados importantes que se deducen de los teoremas anteriores son:
(A
β − Aβ)/q
F= (3.3)
SCR/(n − r)
es una F con q y n−r grados de libertad, ya que se trata de un cociente de dos χ2 independientes
divididas por sus grados de libertad respectivos. Observemos la desaparición del parámetro
σ2 desconocido.
b) En el caso q = 1, si
ψ ∼ N(ψ, σ
ψ ), siendo
σ
2ψ = a (X X)− a σ2 = δ2 σ2
luego la distribución de
ψ−ψ √
t= √ n−r (3.4)
δ2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede establecer
directamente o a partir de 3.3 ya que F1,n−r = t2n−r .
ψ = a
ψ−ψ √ ⎟⎟
P ⎜⎝−tα < √ n − r < tα ⎟⎟⎠ = 1 − α
δ2 SCR
y despejando obtenemos
⎛ ⎞
⎜⎜⎜ δ 2
SCR δ 2
SCR ⎟⎟⎟
P ⎜⎝
⎜ ψ − tα <ψ<
ψ + tα ⎟⎟ = 1 − α
n−r n−r ⎠
Por lo tanto
δ2 SCR δ2 SCR
ψ − tα <ψ<
ψ + tα
n−r n−r
es decir
a
σ2 ]1/2 (3.5)
es un intervalo de confianza para la función paramétrica estimable ψ = a β, con coeficiente de
confianza 1 − α.
54 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES
3.6. Ejercicios
Ejercicio 3.1
Sea ψ una función paramétrica estimable y
ψ1 ,
2 2
ψ1 ,
ψ2 cuya varianza es
mı́nima y además es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
⎛ ⎞
⎜⎜⎜ 1 1 1 1 1 ⎟⎟⎟
⎜⎜⎜ 1 0 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 1 1 0 0 ⎟⎟⎟
⎜⎝ ⎟⎠
1 0 1 1 1
Ejercicio 3.3
Probar que
ψ=bY E(
ψ) = ψ = a β
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal de las filas
de X.
Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también función
paramétrica estimable y que r = rg X es el número máximo de funciones linealmente indepen-
dientes.
Ejercicio 3.5
Si
ψ = c1 ȳ1 + · · · + ck ȳk
Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 0 1 ⎟⎟⎟
⎜ ⎟
X = ⎜⎜⎜⎜ 1 1 0 ⎟⎟⎟⎟
⎝ ⎠
0 −1 1
s1 = (1/n1 )
2
(yi − ȳ1 )2 = 4.5
i=1
Se pide
2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación 0.05)
ψ = β1 + β3
ψ es máximo.
Ejercicio 3.7
Consideremos el modelo lineal
y1 = β1 + β2 + 1
y2 = β1 + β3 + 2
y3 = β1 + β2 + 3
Se pide:
ψ = a1 β1 + a 2 β2 + a 3 β3
es estimable si y sólo si a1 = a2 + a3 .
56 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES
Ejercicio 3.8
Consideremos el modelo lineal
y1 = µ + α1 + β1 + 1
y2 = µ + α1 + β2 + 2
y3 = µ + α2 + β1 + 3
y4 = µ + α2 + β2 + 4
y5 = µ + α3 + β1 + 5
y6 = µ + α3 + β2 + 6
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas β1 − β2
y α1 − α2 , si éstas son estimables.
Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reunidos pesan
y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B y D se ponen en el plato
derecho, un peso de y2 gramos es necesario en el plato derecho para equilibrar la balanza. Con A y
B en el plato izquierdo y C, D en el plato derecho, y3 gramos son necesarios en el plato derecho y,
finalmente, con A, D en el plato izquierdo y B, C en el plato derecho, y4 gramos son necesarios en
la derecha para equilibrar. Si las observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados
y con varianza común σ2 , obtener la estimación BLUE del peso total de los cuatro objetos y su
varianza.
Ejercicio 3.10
Un transportista realiza diversos trayectos entre tres poblaciones A, B y C. En cuatro dias conse-
cutivos ha hecho los recorridos que muestra la siguiente tabla:
trayecto km
A→B→A→C 533
C→A→C→B 583
B→C→A→C→A→B→A 1111
A→B→A→C→A→B→A 1069
(a) Proponer un modelo lineal, con la matriz de diseño y las hipótesis necesarias, para estimar
las distancias kilométricas entre las tres poblaciones.
Con los datos proporcionados, ¿es posible estimar las distancias entre las tres poblaciones?
¿Cuales son las distancias o funciones paramétricas estimables (fpe) en este modelo?
3.6. EJERCICIOS 57
(b) ¿Se puede estimar el kilometraje del trayecto MBC → B → A → C → MAC , donde MIJ es
el punto medio entre dos poblaciones? ¿Es una buena estimación? ¿Cual es el error de esta
estimación?
Ejercicio 3.11
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8
(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo de todas
ellas.
(d) Hallar cuatro estimadores insesgados diferentes de θ1 − θ2 y calcular sus varianzas. Compa-
rarlas con la varianza del estimador MC.
Ejercicio 3.12
Diremos que el estimador lineal b Y pertenece al espacio error si E(b Y) = 0. Probar que la
covarianza entre b Y y todo estimador de Gauss-Markov
ψ = a β es siempre cero.
Ejercicio 3.13
Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V una descom-
posición en valores singulares de X. Se pide: