Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

ML (Pages 1 - 57)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 57

e-UMAB

MODELOS LINEALES

Francesc Carmona Pontaque

Electronic-University Mathematical Books


Consejo editor:
T. Aluja
M.J. Bayarri
F. Carmona
C.M. Cuadras (coordinador)
F.R. Fernández
J. Fortiana
G. Gómez
W. González-Manteiga
M.J. Greenacre
J.M. Oller
J. Puerto
A. Satorra

e-UMAB
Electronic-University Mathematical Books
c EDICIONS DE LA UNIVERSITAT DE BARCELONA, 2004
Copia impresa del libro electrónico con ISBN: XX-XXXX-XXX-X
D.L.: B-XX.XXX-2004
Impresión: Gráficas Rey, S.L.
Impreso en España / Printed in Spain
A la meva esposa Carme
i els nostres fills Mireia i Guillem.

“Soñemos con un mundo unido


sin ninguna otra soberanı́a
que la del pueblo universal.
No hacer daño nunca, nunca, a nadie.”

José Marı́a de Llanos (Padre Llanos)


0

Presentación

La teorı́a y aplicaciones de los modelos lineales ocupan un papel fundamental en la Estadı́stica.


Tales modelos engloban la regresión simple, múltiple y polinómica, el análisis de la varianza, el
diseño de experimentos, el estudio de curvas de crecimiento, los modelos log-lineales, y algunos
contrastes sobre medias como caso particular. Basta consultar revistas especializadas como Biome-
trics, para comprobar que muchos problemas de estadı́stica aplicada se pueden enfocar linealmente,
siguiendo la omnipresente ecuación: Observación = Modelo + Error.
Algunos han creı́do que por el hecho de ser el modelo “lineal”, su tratamiento era más bien fácil.
En realidad es todo lo contrario. Este tipo de modelo, que se adecua tan bien a la naturaleza,
exige un estudio riguroso y posee múltiples facetas que por sı́ sólo constituye una especialidad en
Estadı́stica.
La obra de mi compañero y amigo Francesc Carmona, que hace más de veinticinco años fue
un destacado alumno mı́o, nace precisamente de las clases que sobre el mismo tema impartı́ en
la Facultad de Matemáticas de la Universidad de Barcelona, y que él continuó, ampliando y
mejorando la materia. Diversos profesores editamos entonces unos apuntes, que luego ampliamos
y publicamos dentro de la colección Publicaciones de Bioestadı́stica y Biomatemática, editada por
el Departamento de Estadı́stica. Hacı́a falta convertir estos apuntes en un libro de verdad, una
labor que ha sido llevada a cabo con entusiasmo por Francesc Carmona, consiguiendo una visión
ampliada, moderna y mejorada del anterior material didáctico.
Me complace enormemente presentar el libro Modelos Lineales, editado en la colección e-UMAB
de EUB, por estar muy bien escrito y documentado y ser muy completo. En efecto, además de
contener los temas clásicos, incluye los modelos no paramétricos, el análisis de residuos, numerosos
ejemplos ilustrativos, instrucciones en el lenguaje de programación R y adecuados hipervı́nculos.
Esta obra es una contribución didáctica de alto nivel, que será de gran utilidad para investigadores,
profesores y alumnos de Estadı́stica.

Dr. Carles M. Cuadras


ccuadras@ub.edu
0

Prólogo

Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de asignaturas
que se han impartido a lo largo de algunos años en varias licenciaturas y cursos de doctorado.
En particular en la licenciatura de Matemáticas, la licenciatura de Biologı́a y la diplomatura
de Estadı́stica de la Universidad de Barcelona. Se ha intentado un cierto equilibrio entre las
explicaciones teóricas y los problemas prácticos. Sin embargo, nuestra intención siempre ha sido
fundamentar sólidamente la utilización de los modelos lineales como base de las aplicaciones
de la regresión, el análisis de la varianza y el diseño de experimentos. Por ello, en este libro la
base matemática y estadı́stica es considerable y creemos importante la correcta definición de los
conceptos y la rigurosidad de las demostraciones. Una sólida base impedirá cometer ciertos errores,
habituales cuando se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza requiere
la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas fórmulas
matriciales o simples. Para ello es absolutamente imprescindible la utilización de algún programa
de ordenador que nos facilite el trabajo. En una primera instancia es posible utilizar cualquier
programa de hojas de cálculo que resulta sumamente didáctico. También se puede utilizar un
paquete estadı́stico que seguramente estará preparado para ofrecer los resultados de cualquier
modelo lineal estándar como ocurre con el paquete SPSS. En cambio, en este libro se ha optado
por incluir algunos ejemplos con el programa R. Las razones son varias. En primer lugar, se
trata de un programa que utiliza el lenguaje S, está orientado a objetos, tiene algunos módulos
especı́ficos para los modelos lineales y es programable. R utiliza un lenguaje de instrucciones y al
principio puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos lineales,
sino en todo cálculo estadı́stico. Además, la razón más poderosa es que el proyecto R es GNU
y, por tanto, de libre distribución. De modo que los estudiantes pueden instalar en su casa el
programa R y practicar cuanto quieran sin coste económico alguno. Por otra parte, el paquete
S-PLUS es una versión comercial con el mismo conjunto de instrucciones básicas.
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro y a los
que agradezco profundamente su colaboración. También es evidente que algunas demostraciones
tienen su origen en el clásico libro de Seber [66].
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y presentado
en formato electrónico. Gracias a ello se puede actualizar con relativa facilidad. Se agradecerá la
comunicación de cualquier errata, error o sugerencia.

Barcelona, 6 de mayo de 2004. Dr. Francesc Carmona


fcarmona@ub.edu
0

Índice general

1. Las condiciones 15
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2. Estimación 27
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . . . . . . 40
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3. Funciones paramétricas estimables 45


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3. Varianza de la estimación y multicolinealidad . . . . . . . . . . . . . . . . . . . . . 50
3.4. Sistemas de funciones paramétricas estimables . . . . . . . . . . . . . . . . . . . . 51
3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
10 ÍNDICE GENERAL

4. Complementos de estimación 59
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . . . . . . 59
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5. Contraste de hipótesis lineales 69


5.1. Hipótesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2. El modelo lineal de la hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3. Teorema fundamental del Análisis de la Varianza . . . . . . . . . . . . . . . . . . . 73
5.3.1. Un contraste más general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3.2. Test de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4. Cuando el test es significativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5. Contraste de hipótesis sobre funciones paramétricas estimables . . . . . . . . . . . 81
5.6. Elección entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.7. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6. Regresión lineal simple 91


6.1. Estimación de los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . 91
6.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.3. Inferencia sobre los parámetros de regresión . . . . . . . . . . . . . . . . . . . . . . 96
6.3.1. Hipótesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3.2. Hipótesis sobre el punto de intercepción . . . . . . . . . . . . . . . . . . . 97
6.3.3. Intervalos de confianza para los parámetros . . . . . . . . . . . . . . . . . . 97
6.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . . . . . . 98
6.3.5. Predicción de nuevas observaciones . . . . . . . . . . . . . . . . . . . . . . 98
6.3.6. Región de confianza y intervalos de confianza simultáneos . . . . . . . . . 99
6.4. Regresión pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.5. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.6. Carácter lineal de la regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.7. Comparación de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . . . . . . 111
6.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.9. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
ÍNDICE GENERAL 11

7. Una recta resistente 121


7.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.1.1. Formación de los tres grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.1.2. Pendiente e intercepción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.4. Mejora del método de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2. Métodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . . . . . . 127
7.3. Métodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

8. Regresión lineal múltiple 133


8.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.3. Inferencia sobre los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . 136
8.4. Coeficientes de regresión estandarizados . . . . . . . . . . . . . . . . . . . . . . . . 141
8.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8.6. Regresión polinómica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.6.2. Elección del grado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8.7. Comparación de curvas experimentales . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7.1. Comparación global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

9. Diagnosis del modelo 161


9.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.1.1. Estandarización interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.1.2. Estandarización externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.3. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
9.2. Diagnóstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2.2. Influencia en los coeficientes de regresión . . . . . . . . . . . . . . . . . . . 167
9.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.3. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.3.1. Coeficiente de determinación ajustado . . . . . . . . . . . . . . . . . . . . 169
9.3.2. Criterio CP de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.3.3. Selección paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
9.4. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

10.Regresión robusta 175


10.1. Minimizar una función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
10.1.1. Funciones objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
10.2. Regresión robusta mı́nimo-cuadrada recortada . . . . . . . . . . . . . . . . . . . . 178
12 ÍNDICE GENERAL

10.3. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179


10.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

11.Análisis de la Varianza 185


11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.2.1. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.2.2. Un modelo equivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
11.3. Diseño de dos factores sin interacción . . . . . . . . . . . . . . . . . . . . . . . . . 192
11.4. Diseño de dos factores con interacción . . . . . . . . . . . . . . . . . . . . . . . . . 198
11.5. Descomposición ortogonal de la variabilidad . . . . . . . . . . . . . . . . . . . . . 203
11.5.1. Descomposición de la variabilidad en algunos diseños . . . . . . . . . . . . 205
11.5.2. Estimación de parámetros y cálculo del residuo . . . . . . . . . . . . . . . . 207
11.6. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
11.7. Diseños no balanceados y observaciones faltantes . . . . . . . . . . . . . . . . . . 212
11.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
11.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

12.Análisis de Componentes de la Varianza 223


12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
12.2.1. Los test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.2.2. Estimación de los componentes de la varianza . . . . . . . . . . . . . . . . 227
12.3. Los modelos más sencillos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
12.3.1. Diseño de un factor con efectos fijos . . . . . . . . . . . . . . . . . . . . . . 228
12.3.2. Diseño de un factor con efectos aleatorios . . . . . . . . . . . . . . . . . . . 231
12.3.3. Diseño de dos factores sin interacción con efectos fijos . . . . . . . . . . . 235
12.3.4. Diseño de dos factores sin interacción con efectos aleatorios . . . . . . . . 238
12.3.5. Diseño de dos factores aleatorios con interacción . . . . . . . . . . . . . . . 240
12.3.6. Diseño de tres factores aleatorios y réplicas . . . . . . . . . . . . . . . . . . 241
12.3.7. Diseño anidado de dos factores aleatorios . . . . . . . . . . . . . . . . . . . 242
12.3.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
12.4. Correlación intraclásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
12.5. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
12.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

A. Matrices 251
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

B. Proyecciones ortogonales 255


B.1. Descomposición ortogonal de vectores . . . . . . . . . . . . . . . . . . . . . . . . . 255
B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
ÍNDICE GENERAL 13

C. Estadı́stica multivariante 259


C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

Bibliografı́a 261

Índice alfabético 265


1

Las condiciones

1.1. Introducción

Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por lo
general, una variable dependiente con diversas variables independientes. El problema se reduce
entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal, etc.. Sin
embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales ha revelado
la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, etc. justifican el planteo, en términos muy
generales, de la ecuación fundamental

“observación” = “modelo” + “error aleatorio”

El experimentador puede, fijando las condiciones de su experimento, especificar la estructura del


modelo, pero siempre debe tener en cuenta el error aleatorio o desviación entre lo que observa y
lo que espera observar según el modelo.
Los modelos de regresión utilizan la ecuación anterior fijando el modelo como una función lineal
de unos parámetros. El objetivo consiste, casi siempre, en la predicción de valores mediante el
modelo ajustado.
El Análisis de la Varianza es un método estadı́stico introducido por R.A. Fisher de gran utilidad en
las Ciencias Experimentales, que permite controlar diferentes variables cualitativas y cuantitativas
(llamadas factores), a través de un modelo lineal, suponiendo normalidad para el error aleatorio.
Fisher(1938) definió este método como “la separación de la varianza atribuible a un grupo de
la varianza atribuible a otros grupos”. Como veremos, los tests en Análisis de la Varianza se
construyen mediante estimaciones independientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teorı́a común: los modelos lineales.
Iniciaremos este capı́tulo con un ejemplo de modelización de un problema y su aplicación práctica.
A continuación explicaremos en qué consiste esencialmente el método de los mı́nimos cuadrados y
estableceremos las condiciones para que este método sea válido para su utilización en Estadı́stica.

1.2. Un ejemplo

En el libro de Sen and Srivastava en [67, pág. 2] se explica este ejemplo que nosotros hemos
adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del tráfico. El
estudio de este problema tiene como objetivo la mejora del transporte y la reducción del tiempo
de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su correspondiente
velocidad (en km por hora).
16 CAPÍTULO 1. LAS CONDICIONES

Dato Densidad Velocidad Dato Densidad Velocidad


1 12,7 62,4 13 18,3 51,2
2 17,0 50,7 14 19,1 50,8
3 66,0 17,1 15 16,5 54,7
4 50,0 25,9 16 22,2 46,5
5 87,8 12,4 17 18,6 46,3
6 81,4 13,4 18 66,0 16,9
7 75,6 13,7 19 60,3 19,8
8 66,2 17,9 20 56,0 21,2
9 81,1 13,8 21 66,3 18,3
10 62,8 17,9 22 61,7 18,0
11 77,0 15,8 23 66,6 16,6
12 89,6 12,6 24 67,8 18,3

Tabla 1.1: Datos del problema de tráfico

Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto de la


densidad en la velocidad. Por razones que explicaremos más adelante (ver ejercicio 9.2), tomaremos
como variable dependiente la raı́z cuadrada de la velocidad.
El gráfico 1.1 presenta la nube de puntos o diagrama de dispersión (scatter plot) con la variable
independiente (densidad) en el eje horizontal y la variable dependiente (raı́z cuadrada de la
velocidad) en el eje vertical.

Gráfico de dispersión
10

8
RAIZ(vel)

0
0 20 40 60 80 100
densidad

Figura 1.1: Nube de puntos del problema de tráfico

Como primera aproximación podrı́amos tomar, como modelo  de ajuste, la recta que une dos
puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha recta es
y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como veremos,
el método de los mı́nimos cuadrados proporciona una recta, llamada recta de regresión, que goza
de muy buenas propiedades. Este método consiste en hallar a y b tales que se minimice la suma
de los errores al cuadrado.
n

(yi − (a + bxi ))2


i=1

En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.


Para estudiar la bondad del ajuste se utilizan los residuos

ei = yi − ŷi

donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
1.3. EL MODELO 17

Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo en varios
aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los errores al cuadrado

n

(yi − (a + bxi + cx2i ))2


i=1

El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio 1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la velocidad
en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de esta función
es la capacidad de la carretera.

0,6 0,6

0,4 0,4

0,2 0,2
residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.2: Gráficos de los residuos del modelo recta de regresión.

0,6 0,6

0,4 0,4

0,2 0,2
residuo
residuo

0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2

-0,4 -0,4

-0,6 -0,6
densidad predicción

Figura 1.3: Gráficos de los residuos del modelo parabólico.

1.3. El modelo

Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos asumiendo
la hipótesis de que los datos siguen un patrón lineal subyacente del tipo
y = β0 + β1 x
Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es
yi = β0 + β1 xi + i i = 1, . . . , n
18 CAPÍTULO 1. LAS CONDICIONES

donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola variable
independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo

yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n

que continúa siendo un modelo lineal.


Un modelo es lineal si lo es para los parámetros. Por ejemplo, el modelo ln yi = β0 + β1 ln (xi )+
+i es lineal, mientras que yi = β0 exp ( − β1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor fijo η más una
desviación aleatoria 
Y =η+
η representa la verdadera medida de la variable, es decir, la parte determinista de un experimento,
que depende de ciertos factores cualitativos y variables cuantitativas que son controlables por el
experimentador.
El término  representa el error. Es la parte del modelo no controlable por el experimentador debido
a múltiples causas aleatorias, inevitables en los datos que proceden de la Biologı́a, Psicologı́a,
Economı́a, Medicina,. . . El error  convierte la relación matemática Y = η en la relación estadı́stica
Y = η + , obligando a tratar el modelo desde la perspectiva del análisis estadı́stico.
En particular, los modelos de la forma

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regresión múltiple.
La variable cuyos datos observados son yi es la llamada variable dependiente o respuesta.
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En cuanto a
los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la evaluación del
modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan a los
valores observados de una v.a. X o de una variable controlada no aleatoria. En cualquier caso, vamos
a considerar los valores xi como constantes y no como observaciones de una variable aleatoria.
En la regresión simple
Y = φ(x) + 
donde Y es aleatoria y  es aleatoria con E() = 0. De manera que, para cada valor X = x, Y es una
v.a. con esperanza φ(x). Si asumimos

φ(x) = E[Y|X = x] = β0 + β1 x

podemos proceder considerando las inferencias como condicionadas a los valores observados
de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las variables
regresoras X1 , . . . , Xk como simplemente números.

1.4. El método de los mı́nimos cuadrados

La paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gauss que lo
utilizó en 1795 y lo publicó en 1809.
1.4. EL MÉTODO DE LOS MÍNIMOS CUADRADOS 19

Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles valores de
los βj , el método de los mı́nimos cuadrados selecciona aquellos que minimizan


n 
n

S= i2 = (yi − (β0 + β1 xi1 + · · · + βk xik ))2


i=1 i=1

En el caso de la regresión lineal simple


n 
n

S=  =
2
i (yi − β0 − β1 xi )2
i=1 i=1

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-cuadráticos)


ó LS (least squares)

βˆ0 = ȳ − βˆ1 x̄
n
sxy (yi − ȳ)(xi − x̄)
β1 =
ˆ = i=1n
sx i=1 (xi − x̄)
2 2

También se puede considerar el modelo centrado, que consiste en centrar los datos de la variable
regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n

La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄. De modo


que γˆ0 = ȳ y la estimación de β1 es la misma que en el modelo anterior.
Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷi y residuos ei

ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)


ei = yi − ŷi = yi − ȳ − βˆ1 (xi − x̄)

Como consecuencia resulta que



n

ei = 0
i=1

lo que no ocurre en un modelo sin β0 .


Finalmente, si queremos una medida del ajuste de la regresión podemos pensar en la suma de

cuadrados ni=1 e2i , pero es una medida que depende de las unidades de yi al cuadrado. Si β0  0, la
medida que se utiliza es el coeficiente de determinación
n
e2i
R = 1 − n
2 i=1

i=1 (yi − ȳ)


2

Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.


En el caso β0 = 0, el coeficiente de determinación es
n 2
e
R2 = 1 − ni=1 i2
i=1 yi

de modo que los modelos que carecen de término independiente no se pueden comparar con los
que sı́ lo tienen.
20 CAPÍTULO 1. LAS CONDICIONES

1.5. Las condiciones de Gauss-Markov

Hasta aquı́, el método de los mı́nimos cuadrados es analı́tico ¿dónde está la estadı́stica?
A lo largo de los siguientes capı́tulos vamos a ver que un modelo estadı́stico y la imposición de
algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los métodos
estadı́sticos y calibrar la bondad del ajuste desde esa óptica.
Una primera pregunta es ¿qué tan bueno es el método de los mı́nimos cuadrados para estimar los
parámetros? La respuesta es que este método proporciona un buen ajuste y buenas predicciones
si se verifican las condiciones de Gauss-Markov.
En el modelo lineal que hemos definido anteriormente, se supone que los errores i son desviaciones
que se comportan como variables aleatorias. Vamos a exigir que estos errores aleatorios verifiquen
las siguientes condiciones:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i  j
Veamos con detalle estas condiciones:

Primera condición E(i ) = 0 i = 1, . . . , n

Se trata de una condición natural sobre un error.


De este modo nos aseguramos que E(yi ) = β0 + β1 xi , el
modelo lineal es correcto y la situación que representa el
gráfico no se puede dar.

Segunda condición var(i ) = E(i2 ) = σ2 constante i = 1, . . . , n

Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala llamada
de heterocedasticidad, en la que la var(i ) crece con xi .
El parámetro desconocido σ2 es la llamada varianza del
modelo.

Otras situaciones extrañas, que también se pretende prevenir, son:

El punto I del gráfico representa un punto influyente y


atı́pico (outlier). En general es un punto a estudiar, un error
o incluso una violación de la primera condición.
1.6. OTROS TIPOS DE MODELOS LINEALES 21

El punto I del gráfico es claramente influyente, aunque no


es atı́pico (outlier), ya que proporciona un residuo pequeño.

Tercera condición E(i j ) = 0 ∀i  j

Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de regresión.
Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco fiable.
Tales condiciones pueden expresarse en forma matricial como

E() = 0 var() = σ2 In

donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas de  =


(1 , . . . , n ) .
Como demostraremos en los siguientes capı́tulos, la adopción de estas condiciones evitará teóri-
camente las situaciones anómalas que aquı́ hemos esquematizado.

1.6. Otros tipos de modelos lineales

Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunque tienen
diferentes objetivos, gozan de las mismas bases teóricas.
Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance), representado
por el modelo lineal
yij = µ + αi + ij con ij ∼ N(0, σ2 ) indep.,
se resuelve de forma similar al modelo de regresión.
El Análisis de la Covarianza, que utiliza como variables independientes tanto variables cuantita-
tivas como factores, y el Análisis Multivariante de la Varianza, con varias variables dependientes,
son dos de los análisis que generalizan el estudio y aplicaciones de los modelos lineales que vamos
a investigar.

1.7. Algunas preguntas

Un tı́pico problema de estadı́stica consiste en estudiar la relación que existe, si existe, entre dos
variables aleatorias X e Y. Por ejemplo, altura y peso, edad del hombre y la mujer en una pareja,
longitud y anchura de unas hojas, temperatura y presión de un determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos en un
gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma que los puntos se
hallen lo más cerca posible de la curva. No podemos esperar un ajuste perfecto porque ambas
variables están expuestas a fluctuaciones al azar debido a factores incontrolables. Incluso aunque
en algunos casos pudiera existir una relación exacta entre variables fı́sicas como temperatura y
presión, también aparecerı́an fluctuaciones debidas a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:

• Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar los
parámetros.
22 CAPÍTULO 1. LAS CONDICIONES

• Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal. Por


ejemplo:
PV γ = c log P = log c − γ log V

• Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De qué grado?

• En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesarias? ¿son
linealmente independientes las llamadas “variables independientes”?

• ¿Se verifican realmente las condiciones de Gauss-Markov?

• ¿Qué ocurre si las variables predictoras son discretas?

• ¿Qué ocurre si la variable dependiente es discreta o una proporción?

• ¿Y si faltan algunos datos?

• ¿Qué hacemos con los puntos atı́picos y los puntos influyentes?

Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos, otras
pueden quedar para una posterior profundización.

1.8. Ejemplos con R

En esta sección vamos a ver como se calculan las regresiones que se han sugerido a partir del
ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.

> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)

Las siguientes instrucciones generan el gráfico de puntos para estos datos.

> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")

El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al objeto
recta.ls

> recta.ls<-lsfit(dens,rvel)

Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya podemos
utilizar su resultado. Por ejemplo, podemos añadir la recta de regresión al gráfico anterior.

> abline(recta.ls)

Los coeficientes de la recta son:

> recta.ls$coef
Intercept X
8.08981299 -0.05662558

También se puede obtener una información más completa con la instrucción ls.print, aunque
su resultado no se explicará hasta el capı́tulo correspondiente.
1.8. EJEMPLOS CON R 23

> ls.print(recta.ls, digits=4, print.it=T)


Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0

Estimate Std.Err t-value Pr(>|t|)


Intercept 8.0898 0.1306 61.9295 0
X -0.0566 0.0022 -26.0076 0

La estimación de la desviación estándar de los errores y otros elementos de diagnosis del modelo
se obtienen con la función ls.diag como

> ls.diag(recta.ls)$std.dev
[1] 0.2689388

Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a los de la
figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma figura.

> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debemos in-
troducir los valores de la variable densidad y sus cuadrados en una matriz de datos. El resto es
idéntico al modelo de regresión simple.

> matriz.frame<-data.frame(dens,densˆ2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)

Los gráficos serán muy similares a los de la figura 1.3.


En los siguientes capı́tulos veremos otras instrucciones de R, en especial la función lm, que
permiten ajustar un modelo de regresión a unos datos.
24 CAPÍTULO 1. LAS CONDICIONES

1.9. Ejercicios

Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, minimizando
la suma de los cuadrados de los errores:

n

S= (yi − β0 − β1 xi )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .

Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimizando la
suma de los cuadrados de los errores:

n

S= (yi − β0 − β1 xi − β2 x2i )2
i=1

Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .

Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la variable
independiente densidad y la variable dependiente raı́z cuadrada de la velocidad. Con los datos
proporcionados en la tabla 1.1 realizar el siguiente proceso:
√ √
(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12.7, 62.4) y (87.8, 12.4).
Dibujar el gráfico de los residuos con la densidad y el gráfico con las predicciones. Calcular
la suma de cuadrados de los residuos.

(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad y el
gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.

(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico de los
residuos con la densidad y el gráfico con las predicciones. Calcular la suma de cuadrados de
los residuos.

(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo = vel ×
densidad.

Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidad en
atletismo en los Juegos Olı́mpicos de Atlanta:

hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00
1.9. EJERCICIOS 25

Si tomamos como variable regresora o independiente la distancia (metros) y como variable res-
puesta o dependiente el tiempo (segundos):

(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla. Dibujar el
gráfico de los residuos con la distancia y el gráfico con las predicciones. Calcular la suma de
cuadrados de los residuos y el R2 .

(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y distancia.

(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.
2

Estimación

2.1. Introducción

En primer lugar concretaremos la definición general de un modelo lineal y hallaremos la estimación


por mı́nimos cuadrados de los parámetros del modelo.
Veremos que la estimación será única si la matriz de diseño es de rango máximo. En caso con-
trario, resulta importante definir el concepto de función paramétrica estimable y probar, para
estas funciones, la unicidad del estimador mı́nimo-cuadrático, como estudiaremos en el siguiente
capı́tulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema de Gauss-
Markov que demuestra que los estimadores mı́nimo-cuadráticos son los mejores, en el sentido de
que son insesgados y de mı́nima varianza.
Además, con la introducción de la hipótesis de normalidad de los errores, podremos estudiar las
distribuciones de los estimadores y de otros estadı́sticos, ası́ como la relación con los estimadores
de máxima verosimilitud.
Más adelante, trabajaremos la generalización del método de los mı́nimos cuadrados cuando la
matriz de varianzas-covarianzas de los errores no es σ2 I. Por otra parte, también profundizaremos
el caso de matrices de diseño de rango no máximo.

2.2. El modelo lineal

Sea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto es

Y =η+

donde  es el error, de forma que η puede representar el valor verdadero e Y el valor observado.
Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experimentales
según el modelo lineal
η = β 1 x 1 + · · · + βm x m

donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales ilustra
situaciones experimentales diferentes.
En general se tienen n observaciones de la variable Y. Diremos que y1 , y2 , . . . , yn observaciones
independientes de Y siguen un modelo lineal si

yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n

Estas observaciones de Y se pueden considerar variables aleatorias independientes y distribuidas


como Y (son copias) o también realizaciones concretas (valores numéricos) para los cálculos.
28 CAPÍTULO 2. ESTIMACIÓN

La expresión del modelo lineal en forma matricial es


⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ x11 x12 . . . x1m ⎟⎟⎟ ⎜⎜⎜ β1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ y ⎟⎟⎟ ⎜⎜⎜ x ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 2 ⎟⎟⎟ ⎜⎜⎜ 21 x22 . . . x2m ⎟⎟⎟ ⎜⎜⎜ β2 ⎟⎟⎟ ⎜⎜⎜ 2 ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. .. . . . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟ + ⎜⎜⎜ .. ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . . . .. ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟
⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠
yn xn1 xn2 . . . xnm βm n

o en forma resumida
Y = Xβ +  (2.1)
Los elementos que constituyen el modelo lineal son:

1. El vector de observaciones Y = (y1 , y2 , . . . , yn ) .

2. El vector de parámetros β = (β1 , β2 , · · · , βm ) .

3. La matriz del modelo ⎛ ⎞


⎜⎜⎜ x11 x12 . . . x1m ⎟⎟⎟
⎜⎜⎜ x21 x22 . . . x2m ⎟⎟⎟
⎜ ⎟⎟⎟
X = ⎜⎜⎜⎜⎜ .. .. . . . ⎟⎟⎟
⎜⎜⎜ . . . .. ⎟⎟⎟
⎝ ⎠
xn1 xn2 . . . xnm
cuyos elementos son conocidos.
En problemas de regresión, X es la matriz de regresión. En los llamados diseños factoriales
del Análisis de la Varianza, X recibe el nombre de matriz de diseño.

4. El vector de errores o desviaciones aleatorias  = (1 , 2 , . . . , n ) , donde i es la desviación


aleatoria de yi .

Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una variable controlable x
(no aleatoria), de modo que las observaciones de Y verifiquen

yi = β0 + β1 xi + i i = 1, . . . , n

Se dice que Y es la variable de predicción o dependiente y x es la variable predictora, por ejemplo Y es la


respuesta de un fármaco a una dosis x. Hallar β0 y β1 es el clásico problema de regresión lineal simple.

Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea polinómica.
Consideremos el modelo

yi = β0 + β1 xi + β2 x2i + · · · + βp xpi +  i = 1, . . . , n

Observemos que es lineal en los parámetros βi . La matriz de diseño es


⎛ p ⎞
⎜⎜⎜ 1 x1 . . . x1 ⎟⎟⎟
⎜⎜⎜ 1 x . . . xp ⎟⎟⎟
⎜⎜⎜ 2 2 ⎟ ⎟
⎜⎜⎜⎜ .. .. . . .. ⎟⎟⎟⎟
⎜⎜⎝ . . . . ⎟⎟⎟

1 xn . . . xpn

Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́, son modelos
lineales:
2.3. SUPOSICIONES BÁSICAS DEL MODELO LINEAL 29

a) yi = β0 + β1 xi1 + β2 xi2 + i

b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i

c) yi = β0 + β1 xi1 + β2 cos (xi2 ) + β3 sen(xi2 ) + i

Sin embargo, no es modelo lineal


β
yi = β0 + β1 log (β2 xi1 ) + β3 xi24 + i

Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y un factor B (bloque
o conjunto de parcelas homogéneas). El llamado modelo del diseño del factor en bloques aleatorizados es

yij = µ + αi + βj + ij

donde

µ es una constante (media general)


αi el efecto del fertilizante
βj el efecto del bloque

Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situaciones experimentales y la


siguiente matriz de diseño:
µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.

Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula

C = αLβ1 Aβ2 Hβ3

donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos

log C = log α + β1 log L + β2 log A + β3 log H

El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del cráneo.

2.3. Suposiciones básicas del modelo lineal

En el modelo lineal definido en el apartado anterior, se supone que los errores i son desviaciones
que se comportan como variables aleatorias que verifican las condiciones de Gauss-Markov:

1. E(i ) = 0 i = 1, . . . , n

2. var(i ) = σ2 i = 1, . . . , n

3. E(i · j ) = 0 ∀i  j
30 CAPÍTULO 2. ESTIMACIÓN

Como sabemos, la condición (2) es la llamada condición de homocedasticidad del modelo y el


parámetro desconocido σ2 es la llamada varianza del modelo. La condición (3) significa que las n
desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como

E() = 0 var() = σ2 In

donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas de  =


(1 , . . . , n ) .
Si además suponemos que cada i es N(0, σ) y que 1 , . . . , n son estocásticamente independientes,
entonces diremos que el modelo definido es un modelo lineal normal. Ası́ tendremos que

Y ∼ Nn (Xβ, σ2 In )

es decir, Y sigue la distribución normal multivariante de vector de medias Xβ y matriz de cova-


rianzas σ2 In .
Se llama rango del diseño al rango de la matriz X

r = rango X

y es un elemento muy importante en la discusión de los modelos. Evidentemente r ≤ m. El valor


de r es el número efectivo de parámetros del diseño, en el sentido de que si r < m es posible
reparametrizar el modelo para que r sea igual al número de parámetros. En muchos casos el diseño
verifica directamente que r = m y entonces se dice que es de rango máximo.
El modelo lineal que verifique las condiciones aquı́ expuestas, salvo la normalidad, diremos que
está bajo las condiciones de Gauss-Markov ordinarias.

2.4. Estimación de los parámetros

La estimación de los parámetros β = (β1 , . . . , βm ) se hace con el criterio de los mı́nimos cuadrados.
Se trata de hallar el conjunto de valores de los parámetros
β = (
β1 , . . . ,

βm ) que minimicen la
siguiente suma de cuadrados

   = (Y − Xβ) (Y − Xβ) (2.2)


n

= (yi − xi1 β1 − · · · − xim βm )2


i=1

La estimación
β de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática, o LS del
inglés least squares.

Teorema 2.4.1

Toda estimación MC de β es solución de la ecuación

X Xβ = X Y (2.3)

Demostración:
Si desarrollamos la suma de cuadrados    tenemos

   = (Y − Xβ) (Y − Xβ)
= Y Y − 2β X Y + β X Xβ
2.4. ESTIMACIÓN DE LOS PARÁMETROS 31

y si derivamos matricialmente respecto a β resulta

∂  
= −2X Y + 2X Xβ
∂β

De modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema. 

Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.


Si el rango es máximo y r = m, entonces X X tiene inversa y la única solución de las ecuaciones
normales es

β = (X X)−1 X Y
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En estos casos,
una posibilidad (ver Apéndice A) es considerar

β = (X X)− X Y

donde A− = (X X)− es una g-inversa de A = X X, es decir, A− verifica

AA− A = A

Entonces se puede demostrar que la solución general es

β = (X X)− X Y + (I − A− A)z

siendo z un vector paramétrico.


Ahora podemos definir la suma de cuadrados residual como

SCR = e e = (Y − X

β) (Y − X

β)

Como veremos, SCR entendido como un estadı́stico función de la muestra Y, desempeña un papel
fundamental en el Análisis de la Varianza.
El modelo lineal Y = Xβ + , bajo las hipótesis de Gauss-Markov, verifica

E(Y) = Xβ

Teorema 2.4.2

Sea Ω = X ⊂ Rn el subespacio vectorial generado por las columnas de X de dimensión dimX =


r = rango X.
Entonces se verifica:

(i) E(Y) ∈ X

(ii) Si

β es una estimación MC, el vector de residuos e = Y − X

β es ortogonal a X .

Demostración:
En efecto,

i) Si x(1) , . . . , x(m) son las columnas de X, entonces

E(Y) = x(1) β1 + · · · + x(m) βm ∈ X

ii) X e = X (Y − X

β) = X Y − X X

β=0 
32 CAPÍTULO 2. ESTIMACIÓN

Teorema 2.4.3
Para cualquier

β solución MC de 2.3 se verifica que



= X

Y β

e=Y−Y SCR = (Y − X

β) (Y − X

β)
son únicos.
Además
SCR = Y Y −

β X Y (2.4)

Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
SCR = Y Y −

β X Y − Y X

β +

β X X

β
y como X X

β = X Y, obtenemos
SCR = Y Y − 2

β X Y +

β X Y = Y Y −

β X  Y
Consideremos ahora los vectores Y
1 = X

2 = X

β1 y Y β2 , donde

β1 y

β2 son dos soluciones MC.


Entonces Y
2 pertenecen al subespacio X generado por las columnas de X y su diferencia

1 y Y

1 − Y
Y
2 también. Por otra parte, observamos que

1 − Y
X (Y
2 ) = X X

β1 − X X

β2 = X Y − X Y = 0
de modo que Y
1 − Y
2 pertenece al ortogonal de X . Ası́ pues, necesariamente Y

1 − Y

2 = 0 y el

1 = Y − Y
vector de errores e = Y − Y
2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única. 

Interpretación geométrica

El modelo teórico es
Y = Xβ +  = θ +  si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio Ω = X y
para estimar los parámetros β debemos minimizar
   = Y − θ 2 con θ ∈ Ω = X
Como el vector concreto de observaciones Y se puede considerar un vector de Rn , el problema
anterior se puede resolver en términos geométricos. Ası́ se sabe que cuando θ ∈ Ω, Y − θ 2 es
mı́nimo para θ = Y
= PY, donde P es la matriz de la proyección ortogonal en Ω = X (ver

de Y sobre X ,
Apéndice B). La estimación MC es equivalente a hallar la proyección ortogonal Y

es mı́nima:
es decir, la norma euclı́dea de e = Y − Y

2
SCR = e e = e 2 = Y − Y
Se comprende que cualquier otra proyección no ortogonal darı́a una solución menos adecuada.

Y e

Ω = X

Y
2.4. ESTIMACIÓN DE LOS PARÁMETROS 33


es ortogonal a Ω, se verifica que
Como e = Y − Y

=0
X (Y − Y) ó
= X Y
X Y

donde Y
está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las columnas
de X son linealmente independientes, forman una base y existe un único vector

= X

β tal que Y β
de manera que

= X Y ⇒ X X

X Y β = X Y
son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son depen-
dientes no podemos concretar una solución única para los parámetros β. Sin embargo todas las
soluciones deben verificar la siguiente propiedad.

Teorema 2.4.4

β es una estimación MC de β si y sólo si X

β = PY, donde P es la proyección ortogonal en Ω = X

Demostración:
Una estimación

β de β es MC si y sólo si

(Y − X

β) (Y − X

β) = mı́n (Y − Xβ) (Y − Xβ)


β

Sea
β una estimación cualquiera de β, entonces

(Y − X
β) (Y − X
β) = (Y − PY + PY − X β) (Y − PY + PY − X β)
= (Y − PY) (Y − PY) + (Y − PY) (PY − X
β)
+ (PY − X
β) (Y − PY) + (PY − X
β) (PY − X
β)

Sin embargo
(Y − PY) (PY − X
β) = Y (I − P)PY − Y (I − P)X
β=0
ya que P es idempotente y además PX = X. De forma que

β) (Y − X
(Y − X β) = (Y − PY) (Y − PY) + (PY − X
β) (PY − X
β)

donde ambos términos son positivos, el primero no depende de


β y el segundo se minimiza si es

cero, luego PY = Xβ. 


En resumen y como ya hemos visto, la solución del problema se basa en la proyección ortogonal

= PY y por ende del
sobre el subespacio Ω que garantiza la unicidad del vector de predicciones Y

y de la suma de cuadrados de los residuos
vector de residuos e = Y − Y

SCR = e e = (Y − PY) (Y − PY) = Y (I − P)Y

ya que I − P es idempotente (ver Apéndice B).


La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuación Xβ = PY
y sólo es única cuando el rango de la matriz X es máximo.

Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1

y1 = θ + 1
y2 = 2θ + 2
y3 = −θ + 3
34 CAPÍTULO 2. ESTIMACIÓN

que en expresión matricial escribimos


⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜⎜⎝ y2 ⎟⎟⎟⎟⎠ = ⎜⎜⎜⎝⎜ 2 ⎟⎟⎟⎟⎠ θ + ⎜⎜⎜⎜⎝ 2 ⎟⎟⎟⎟⎠
y3 −1 3

de modo que X = (1, 2, −1).


Las ecuaciones normales son
⎛ ⎞ ⎛ ⎞
⎜⎜⎜⎜ 1 ⎟⎟⎟⎟ ⎜⎜⎜⎜ y1 ⎟⎟⎟
⎟⎟⎟
1 2 −1 ⎜⎜⎜⎜ 2 ⎟⎟⎟⎟ θ = 1 2 −1 ⎜⎜⎜⎜ y2 ⎟⎟⎠
⎝ ⎠ ⎝
−1 y3

es decir
6θ = y1 + 2y2 − y3

y la estimación MC de θ es

θ = (y1 + 2y2 − y3 )/6.


La suma de cuadrados residual es

SCR = Y Y −

θ X Y = y21 + y22 + y23 − (y1 + 2y2 − y3 )2 /6

Ejemplo 2.4.2

Supongamos que se desea pesar tres objetos cuyos pesos exactos son β1 , β2 y β3 . Se dispone de una balanza
de platillos con un error de pesada que podemos considerar con distribución N(0, σ). Un artificio para
mejorar la precisión y ahorrar pesadas consiste en repartir los objetos en uno o en los dos platillos y anotar
las sumas o diferencias de pesos:
x 1 β1 + x 2 β2 + x 3 β3 = y

donde y es el peso observado y xi = 0, 1, −1.


Consideremos las siguientes pesadas:

β1 + β2 + β3 = 5.53
β1 − β2 + β3 = 1.72
β1 + β2 − β3 = 0.64
β1 + β2 + β3 = 5.48
β1 − β2 + β3 = 1.70

A partir de estos datos, las ecuaciones normales son





⎪ 5β1 + β2 + 3β3 = 15.07


⎪ β1 + 5β2 − β3 = 8.23

⎩ 3β − β + 5β = 13.79
1 2 3

La estimación de los parámetros proporciona

β1 = 1.175

β2 = 1.898

β3 = 2.433

y la suma de cuadrados residual es

β1 +

SCR = (5.53 − (
β2 +

β3 ))2 + · · · = 0.00145
2.5. ESTIMACIÓN DE LA VARIANZA 35

2.5. Estimación de la varianza

La varianza de los errores del modelo lineal

σ2 = var(i ) = var(yi ) i = 1, . . . , n

es otro parámetro que debe ser estimado a partir de las observaciones de y1 , . . . , yn .

Teorema 2.5.1
Sea Y = Xβ +  el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces el
estadı́stico1

σ2 = ECM = SCR/(n − r)
es un estimador insesgado de la varianza σ2 . En este estadı́stico SCR es la suma de cuadrados
residual, n el número total de observaciones y r el rango del diseño.

Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión r que
escribimos
X = x(1) , . . . , x(m)
 
Sea ahora V una matriz ortogonal, es decir, tal que VV = V V = In , cuyas columnas v(1) , . . . ,
v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de modo que las r
primeras columnas generen el subespacio X

X = v(1) , . . . , v(r)

Por otra parte, Y = (y1 , . . . , yn ) es un vector aleatorio de Rn que, mediante V, transformamos en



Z = (z1 , . . . , zn ) = V Y
zi = v1i y1 + · · · + vni yn i = 1, . . . , n
Para las variables transformadas se verifica que

n 
ηi si i ≤ r
E(zi ) = vhi E(yh ) = v Xβ =


h=1
(i)
0 si i > r

pues Xβ ∈ X que es ortogonal a v(i) para i > r.


Sea

β una estimación MC. Entonces

Y = X

β + (Y − X

β) = X

β+e

donde obviamente X
β ∈ X y como sabemos e ∈ X ⊥ , de manera que la transformación ortogonal

V aplicada sobre e proporciona

V e = (0, . . . , 0, zr+1 , . . . , zn )

Luego, en función de las variables zi tenemos

 

n

SCR = e e = (V e) V e = z2i


i=r+1

Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo incorrelacio-
nadas y de varianza σ2 . Ası́ pues

E(zi ) = 0 E(z2i ) = var(zi ) = var(yi ) = σ2

01. En muchos de los libros clásicos escritos en inglés este estadı́stico se llama MSE, siglas de mean square error.
36 CAPÍTULO 2. ESTIMACIÓN

y por lo tanto

n

E(SCR) = E(z2i ) = (n − r)σ2


i=r+1

La expresión
SCR = z2r+1 + · · · + z2n (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las hipótesis de
Gauss-Markov. 

Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada en el
Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas var(Y) = V,
se tiene que
E(Y AY) = tr(AV) + µ Aµ
donde A es una matriz constante.
En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ2 I, de forma que

E(SCR) = E(Y (I − P)Y) = tr(σ2 (I − P)) + β X (I − P)Xβ


= σ2 tr(I − P)
= σ2 rg(I − P) = σ2 (n − r)

gracias a las propiedades de la matriz I − P. 

2.6. Distribuciones de los estimadores

Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de rango
máximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condición de Gauss-Markov,
entonces

β es un estimador insesgado de β

E(

β) = (X X)−1 X E(Y) = (X X)−1 X Xβ = β

Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es decir
var() = σ2 I, resulta que
var(Y) = var(Y − Xβ) = var() = σ2 I
ya que Xβ no es aleatorio y en consecuencia

var(

β) = var((X X)−1 X Y) = (X X)−1 X var(Y)X(X X)−1


= σ2 (X X)−1 (X X)(X X)−1 = σ2 (X X)−1

Veamos a continuación algunos resultados acerca de la distribución de

β y SCR bajo las hipótesis


del modelo lineal normal en el caso de rango máximo.

Teorema 2.6.1

Sea Y ∼ N(Xβ, σ2 In ) con rango X = m. Entonces se verifican las siguientes propiedades:

i) La estimación MC de β coincide con la estimación de la máxima verosimilitud. Además es


insesgada y de mı́nima varianza.
2.6. DISTRIBUCIONES DE LOS ESTIMADORES 37

ii)

β ∼ N(β, σ2 (X X)−1 )

β − β) X X(

iii) (
β − β)/σ2 ∼ χ2m

iv)

β es independiente de SCR

v) SCR/σ2 ∼ χ2n−m

Demostración:

i) La función de verosimilitud es
√  
1
L(Y; β, σ ) = ( 2πσ ) exp − 2 (Y − Xβ) (Y − Xβ)
2 2 −n 


de modo que el mı́nimo de (Y − Xβ) (Y − Xβ) es el máximo de L.
Ya hemos visto que
β es insesgado y además, cada
βi es un estimador lineal de varianza
mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente. Se llegará a
la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por

β en la función de verosimilitud y derivamos respecto a


σ2 resulta que el el estimador de máxima verosimilitud de la varianza es

σ2MV = SCR/n

Este estimador es sesgado y en la práctica no se utiliza, ya que disponemos del estimador


insesgado propuesto en el apartado anterior. Además, bajo ciertas condiciones generales se
puede probar que

σ2 = SCR/(n − m) es un estimador de varianza mı́nima de σ2 (véase Seber


[66, pág. 52]).

ii) Como
β = [(X X)−1 X ]Y,

β es combinación lineal de una normal y, por tanto, tiene distribu-


ción normal multivariante con matriz de varianzas-covarianzas

(X X)−1 σ2

iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior ya que

β − β) X X(

(
β − β)/σ2 = (

β − β) var(

β)−1 (

β − β) ∼ χ2m

iv) Si calculamos la matriz de covarianzas entre

β i Y − X

β tenemos

cov(

β, Y − X

β) = cov((X X)−1 X Y, (I − P)Y)


= (X X)−1 X var(Y)(I − P)
= σ2 (X X)−1 X (I − P) = 0

de modo que efectivamente


β) (Y − X

β es independiente de (Y − X
β), ya que la incorrelación
entre normales multivariantes implica su independencia.
Este resultado se ampliará en el Teorema 3.4.1.

v) Aplicando la ecuación 2.5

SCR/σ2 = (zm+1 /σ)2 + · · · + (zn /σ)2

obtenemos una suma de cuadrados de n − m variables normales independientes, es decir, una


distribución χ2n−m .


38 CAPÍTULO 2. ESTIMACIÓN

Ejemplo 2.6.1

La distribución de

θ del ejemplo 2.4.1 es N(θ, σ/ 6)

E(

θ) = E((y1 + 2y2 − y3 )/6) = (1/6)(θ + 4θ + θ) = θ


var(

θ) = (σ2 + 4σ2 + σ2 )/62 = σ2 /6

La distribución de SCR/σ2 es χ22 , siendo

SCR = (y1 −

θ)2 + (y2 − 2

θ)2 + (y3 +

θ)2

Ejemplo 2.6.2
La estimación de la varianza del error σ2 en el ejemplo 2.4.2 es

σ2 = 0.00145/(5 − 3) = 0.725 × 10−3

Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a mayor si pesáramos
cada objeto individualmente.

2.7. Matriz de diseño reducida

Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones experi-
mentales. Para estas observaciones, el modelo que liga yi con las β es el mismo, lo que se traduce
en que las filas de la matriz de diseño correspondientes están repetidas. Para evitar la redundancia
que esto supone nos será muy útil, a efectos teóricos y de cálculo, introducir el concepto de matriz
de diseño reducida.

Definición 2.7.1
Dado el modelo lineal Y = Xβ + , llamaremos matriz de diseño reducida XR a la matriz k × m obtenida
tomando las k filas distintas de la matriz de diseño original X. Diremos entonces que k es el número de
condiciones experimentales.

Las matrices de diseño original o ampliada y reducida las indicaremos por X y XR respectivamente,
cuando convenga distinguir una de otra.
Si la fila i-ésima de XR está repetida ni veces en X, significa que se han obtenido ni réplicas de
la variable observable bajo la i-ésima condición experimental. Si estos números de réplicas son
n1 , n2 , . . . , nk , entonces
n = n1 + n2 + · · · + nk
Además de la matriz reducida XR , utilizaremos también la matriz diagonal

D = diag(n1 , n2 , . . . , nk )

y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )
donde cada yi es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones experi-
mentales distintas (caso de una sola observación por casilla), entonces

XR = X Ȳ = Y D=I ni = 1

Como veremos más adelante (ver sección 11.7), la utilización de XR , D e Ȳ nos permitirá abordar
diseños no balanceados y el caso de observaciones faltantes.
2.7. MATRIZ DE DISEÑO REDUCIDA 39

Teorema 2.7.1

La solución de las ecuaciones normales y la suma de cuadrados residual en términos de la matriz


de diseño reducida XR , de D e Ȳ es

β = (XR DXR )−1 XR DȲ



SCR = Y Y −

β XR DȲ

Demostración:
Sea M una matriz n × k de forma que cada columna i es

(0, . . . , 0n , 1, . . . , 1ni , 0, . . . , 0n )


  

donde k es el número de condiciones experimentales (número de filas distintas de X), ni el número


de réplicas bajo la condición i, y además

n = n1 + · · · + ni−1 n = ni+1 + · · · + nk

Se verifica

M Y = DȲ MXR = X M M = D X Y = XR M Y = XR DȲ

de donde se siguen inmediatamente las fórmulas del teorema. 

Ejemplo 2.7.1

Con los datos del ejemplo 2.4.2


⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟ ⎜⎜⎜ 5.53 ⎟
⎜⎜⎜ ⎟ ⎜⎜⎜ ⎟⎟⎟⎟⎟
⎜⎜⎜ 1 −1 1 ⎟⎟⎟⎟ ⎜⎜⎜ 1.72 ⎟⎟⎟

X = ⎜⎜⎜⎜⎜ 1 1 −1 ⎟⎟⎟⎟⎟ Y = ⎜⎜⎜⎜⎜ 0.64 ⎟⎟⎟
⎟⎟⎟
⎜⎜⎜ ⎟ ⎜⎜⎜
⎜⎜⎝ 1 1 1 ⎟⎟⎟⎟ ⎜⎜⎝ 5.48 ⎟⎟⎟
⎟⎠

1 −1 1 1.70

Agrupando las filas 1, 4 y 2, 5 obtenemos


⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟ ⎜⎜⎜ 2 0 0 ⎟⎟⎟
⎜ ⎟⎟⎟ ⎜ ⎟
XR = ⎜⎜⎜⎜ 1 −1 1 ⎟⎟⎠ D = ⎜⎜⎜⎜ 0 2 0 ⎟⎟⎟⎟
⎝ ⎝ ⎠
1 1 −1 0 0 1

donde n1 = n2 = 2, n3 = 1, k = 3.
⎛ ⎞ ⎛ ⎞
⎜⎜⎜ (5.53 + 5.48)/2 ⎟⎟⎟ ⎜⎜⎜ 5.505 ⎟⎟⎟
⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟
Ȳ = ⎜⎜⎜⎜ (1.72 + 1.70)/2 ⎟⎟⎠ = ⎜⎜⎝ 1.710 ⎟⎟⎟⎟⎠

0.64 0.640

La matriz M es ⎛ ⎞
⎜⎜⎜ 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 0 0 ⎟⎟⎟
M = ⎜⎜⎜⎜⎜ 0 1 0 ⎟⎟⎟
⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎝ 0 1 0 ⎟⎠
0 0 1
40 CAPÍTULO 2. ESTIMACIÓN

Ejemplo 2.7.2

Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los números de réplicas
son
n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4

La matriz de diseño reducida es


µ α1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1

Sin embargo, la matriz de diseño ampliada tiene 6 columnas y nij = 18 filas.

2.8. Matrices de diseño de rango no máximo

Cuando el modelo lineal corresponde al análisis de los datos de un diseño experimental, la matriz
X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a ser linealmente
dependientes. Ya sabemos que en este caso es posible hallar el estimador MC de θ = Xβ pero,
por desgracia, hay múltiples estimaciones de los parámetros β que más bien podemos considerar
como soluciones
β de las ecuaciones normales. En todo caso y como veremos en el próximo
capı́tulo estamos interesados en concretar una estimación de los parámetros β aunque no sea
única. A continuación se comentan algunos métodos para hallar una solución
β o para hallar la
SCR directamente.

2.8.1. Reducción a un modelo de rango máximo

Sea X1 la matriz n × r con las r = rg X columnas linealmente independientes de la matriz de diseño


X, entonces P = X1 (X1 X1 )−1 X1 de forma que

SCR = Y (I − P)Y = Y Y −

α X1 Y

donde
α = (X1 X1 )−1 X1 Y es la solución del modelo Y = X1 α +  de rango máximo.
Podemos asumir, sin pérdida de generalidad, que X1 está formada por las r primeras filas de X de
manera que X = (X1 , X2 ). Entonces X2 = X1 F ya que las columnas de X2 son linealmente depen-
dientes de las de X1 y, por tanto, X = X1 (Ir , F). Ası́, éste es un caso especial de una factorización
más general del tipo
X = KL
donde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribir

Xβ = KLβ = Kα

y estimar α.
2.9. EJERCICIOS 41

2.8.2. Imposición de restricciones

Este método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 para evitar la
indeterminación de β. Las restricciones apropiadas, llamadas identificables, son aquellas que, para
cada θ ∈ Ω = X , existe un único β que satisface θ = Xβ y 0 = Hβ, es decir, que satisface
   
θ X
= β = Gβ
0 H

La solución es simple. Debemos elegir como filas de H un conjunto de m − r vectores de longitud


m linealmente independientes que sean también linealmente independientes de las filas de X.

Entonces la matriz G de orden (n + m − r) × m tendrá rango m de modo que G G = X X + H H es
m × m de rango m y en consecuencia tiene inversa. Luego hemos salvado la deficiencia en el rango
de X X introduciendo la matriz H H.
Ası́ pues, si añadimos H Hβ = 0 a las ecuaciones normales tenemos

G Gβ = X Y

cuya solución es
θ = X

β = (G G)−1 X Y. Se puede ver, a partir de

 
β = PY, que P = X(G G)−1 X ya
que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [66, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces

E(


β) = (G G)−1 X Xβ

= (G G)−1 (X X + H H)β = β

de modo que
β es un estimador insesgado de β.
Este método es particularmente útil en los modelos de análisis de la varianza para los que H se
halla con mucha facilidad.

Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles

yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni

entonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de los parámetros resulta
indeterminada.

Sin embargo, si añadimos la restricción αi = 0, es decir, si hacemos H = (0, 1, 1, 1), el sistema conjunto
es de rango 4 y podemos determinar una solución o calcular la suma de cuadrados residual.

2.9. Ejercicios

Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores x1 , x2 y
x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su caso, la matriz de
diseño para x1 = 1, x2 = 2 y x3 = 3.

a) yi = β0 + β1 xi + β2 (x2i − 1) + i

b) yi = β0 + β1 xi + β2 exi + i

c) yi = β1 xi (β2 tang(xi )) + i
42 CAPÍTULO 2. ESTIMACIÓN

Ejercicio 2.2
Dado el modelo lineal      
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.

Ejercicio 2.3
Si

β es una estimación MC, probar que

(Y − Xβ) (Y − Xβ) = (Y − X

β) (Y − X

β) + (

β − β) X X(

β − β)

Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza de platillos
de acuerdo con el siguiente esquema:

β1 β2 β3 β4 peso
1 1 1 1 9.2
1 −1 1 1 8.3
1 0 0 1 5.4
1 0 0 −1 −1.6
1 0 1 1 8.7
1 1 −1 1 3.5

Hallar las estimaciones de cada βi y de la varianza del error.

Ejercicio 2.5
Sea

= X

β la estimación MC de β. Si Y β = PY, probar que la matriz P verifica

P2 = P (I − P)2 = I − P

Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟
⎜ ⎟
XR = ⎜⎜⎜⎜ 1 0 1 ⎟⎟⎟⎟
⎝ ⎠
0 1 0

Se sabe además que

y1 = 10 y2 = 12 y3 = 17 n1 = n2 = n3 = 10

1 
s21 = (yi1 − y1 )2 = 2.8 s22 = 4.2 s23 = 4.0
n1
Se pide:

a) Hallar la expresión general de las estimaciones MC de los parámetros β.

b) Calcular SCR. Estimar la varianza del diseño σ2 .

c) Estudiar si la hipótesis nula H0 : σ2 = 3 puede ser aceptada.


2.9. EJERCICIOS 43

Ejercicio 2.7
Consideremos el modelo lineal

yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n

β0 ,

Sean
β1 , . . . ,

βm las estimaciones MC de los parámetros y sea

yi =


β0 +

β1 xi1 + · · · +

βm xim i = 1, . . . , n

Probar que

n 
n

(yi −

yi ) = ei = 0
i=1 i=1
3

Funciones paramétricas
estimables

3.1. Introducción

En los modelos lineales, además de la estimación de los parámetros βi y de σ2 , interesa tam-


bién la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver, esto es
especialmente necesario cuando los parámetros carecen de una estimación única.

Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros

ψ = a1 β 1 + · · · + a m β m = a  β

y diremos que una función paramétrica ψ es estimable si existe un estadı́stico

ψ, combinación lineal de las


observaciones y1 , . . . , yn


ψ = b1 y1 + · · · + bn yn = b Y
tal que
E(

ψ) = ψ
es decir,

ψ es estimador lineal insesgado de ψ.

Estas funciones paramétricas tienen la siguiente caracterización

Teorema 3.1.1
Sea ψ = a β una función paramétrica estimable asociada al modelo lineal Y = Xβ + . Se verifica:

i) ψ es estimable si y sólo si el vector fila a es combinación lineal de las filas de X.

ii) Si ψ1 , . . . , ψq son funciones paramétricas estimables, entonces la combinación lineal ψ =


c1 ψ1 + · · · + cq ψq es también función paramétrica estimable.

iii) El número máximo de funciones paramétricas estimables linealmente independientes es


r = rango(X).

Demostración:

ψ = b Y tal que E(

i) Sea


ψ) = ψ. Entonces
  
a β = E(b Y) = b E(Y) = b Xβ

cualquiera que sea β, luego



a = b X
46 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

lo que nos dice que a es combinación lineal de las filas de la matriz de diseño X.
Recı́procamente, si suponemos que b X = a , entonces basta tomar

 
ψ = b Y como estimador
lineal insesgado de ψ.

ii) y iii) para el lector (ver ejercicio 3.4) 

Observaciones:

1) Si rango X = m, entonces todos los parámetros βi y todas las funciones paramétricas ψ son
estimables, pues el subespacio generado por las filas de X coincide con Rm .

2) Si rango X < m, pueden construirse funciones paramétricas que no son estimables.

3) Una caracterización algebraica de que ψ = a β es estimable viene dada por la identidad

a (X X)− X X = a

donde (X X)− representa una g-inversa de X X.


En efecto, consideremos las matrices

S = X X S− = (X X)− H = S− S

entonces se comprueba fácilmente que

H2 = H SH = S

Puesto que H es idempotente

rango H = traza H = rango S = rango X = r

Por otra parte tenemos

0 = S − SH = (Im − H) (S − SH) = (Im − H) (X X − X XH)


= (Im − H) (X (X − XH)) = (X − XH) (X − XH)

luego
X = XH

Entonces, si ψ = a β es estimable, a = b X y
 
a H = b XH = b X = a

Recı́procamente, si a H = a , resulta que



a = a S− S = (a S− X )X = b X

siendo b = a S− X .

3.2. Teorema de Gauss-Markov

Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo y, por tanto,
la estimación MC de los parámetros no es única, la estimación de cualquier función paramétrica
estimable utilizando cualquiera de los estimadores MC sı́ es única.
3.2. TEOREMA DE GAUSS-MARKOV 47

Teorema 3.2.1
Si ψ = a β una función paramétrica estimable y

β es un estimador MC de β, entonces el estimador

ψ = a β de ψ es único.

Demostración:

Si ψ es una función paramétrica estimable, tiene un estimador lineal insesgado b Y, donde b es
un vector n × 1. Consideremos el subespacio Ω = X de Rn generado por las columnas de X. El
vector b se puede descomponer de forma única

b=
b+c
b∈Ω c⊥Ω

de modo que c es ortogonal a todo vector de Ω.



Consideremos ahora el estimador lineal
b Y y veamos que es insesgado y que su valor es único.

Sabemos que b Y es insesgado
  
ψ = a β = E(b Y) = E(
b Y) + E(c Y) = E(
b Y) =

b Xβ (3.1)

luego E(
b Y) = a β, pues
E(c Y) = c E(Y) = c Xβ = 0β = 0
∗ ∗
Supongamos que b Y es otro estimador insesgado para ψ y b ∈ Ω. Entonces
 
b Y) − E(b Y) = (
0 = E(
∗ ∗
b − b )Xβ

luego

(
∗
b − b )X = 0

lo que quiere decir que (
b −b ) es ortogonal a Ω. Como también pertenece a Ω, debe ser
∗ ∗
b−b = 0,
es decir,

b=b.
Por último, sabemos que para cualquier estimador MC de β e = Y − X
β es ortogonal a Ω, de
manera que
  
0= be= bY− b X
β
  
y ası́
bY= β. Además, por 3.1 sabemos que
b X


b X = b X = a , luego


b Y = a

para cualquier

β. 
A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.

Teorema 3.2.2 (Gauss-Markov)


Si ψ = a β una función paramétrica estimable y

β es un estimador MC de β, entonces
ψ = a

β es
el estimador de varianza mı́nima en la clase de los estimadores lineales insesgados de ψ.
1

Demostración:
Con la notación
b 2 = b21 + · · · + b2n
tenemos que

var(b Y) = b21 σ2 + · · · + b2n σ2 = b 2 σ2

01. BLUE: best linear unbiased estimate


48 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemos utilizado en


el teorema anterior y dado que
b 2 =
b 2 + c 2
resulta 
var(a
b Y) =
β) = var( b 2 σ2 ≤ (

b 2 + c 2 )σ2 = var(b Y)

Observaciones:

1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de normalidad.

2) La estimación con varianza mı́nima es


ψ = a (X X)− X Y

 
3) Como la varianza de b Y es b bσ2 , resulta que la varianza mı́nima es

ψ) = var(a

var(
β) = σ2 a (X X)− a

4) Utilizando la matriz de diseño reducida tenemos


ψ = a (XR DXR )− XR DȲ

var(

ψ) = σ2 a (XR DXR )− a

De aquı́ deducimos que

ψ es combinación lineal de las medias de las k condiciones experi-


mentales

ψ = c1 Ȳ1 + · · · + ck Ȳk = c Ȳ
donde c = (c1 , . . . , ck ) es
c = DXR (XR DXR )− a
Entonces ⎛ k ⎞
⎜⎜⎜ 2 ⎟⎟⎟ 2
ψ) = ⎜⎜⎝ ci /ni ⎟⎟⎠ σ = δ2 σ2
var(

i=1

Por otra parte, todo estimador lineal insesgado


ψ = b Y de ψ = a β se descompone como hemos
visto en 
bY=

b Y + c Y

Diremos que b Y (donde b es único) pertenece al espacio estimación y que c Y pertenece al espacio
error.

Más explı́citamente, la descomposición de b es
  
b = b P + b (I − P)

siendo P = X(X X)− X la matriz del operador que proyecta b en Ω = X (ver Apéndice B). El

vector proyectado es

b = b P. Asimismo, I − P es otro operador que proyecta b en el espacio

ortogonal a Ω. La proyección es c = b (I − P). Como

b c = 0, se verifica

cov(
b Y, c Y) = 0

Ası́ pues, todo estimador lineal insesgado b Y se descompone en
  
b Y = b PY + b (I − P)Y
3.2. TEOREMA DE GAUSS-MARKOV 49

 
donde b PY es el estimador de Gauss-Markov, mientras que b (I − P)Y tiene esperanza cero y
provoca un aumento de la varianza mı́nima del mejor estimador


ψ = b PY.
Finalmente, observemos que

ψ = b PY = b X(X X)− X Y = b X(X X)− X X


  
β=
(3.2)
= b XH
β = a


β

Siendo H = (X X)− X X, que verifica XH = X, y siendo a = b X.
El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espacio muestral Rn
al que pertenece el vector de observaciones Y, se descompone en

Rn = Ω + Ω⊥

donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresión está ligada
a Ω. Toda estimación de la varianza del modelo está ligada al espacio error Ω⊥ . Ambos espacios
son ortogonales y bajo el modelo lineal normal, como veremos más adelante, ambas clases de
estimaciones son estocásticamente independientes.

Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N(µ, σ). El modelo lineal asociado
es ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ µ + 
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
yn 1

El estimador MC de µ es
µ = (1/n) yi que también es de Gauss-Markov (centrado y de varianza
mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo

Ω = (1, . . . , 1) 
Ω⊥ = {(x1 , . . . , xn ) | xi = 0}
 
Sea a Y = ai yi otro estimador centrado de µ. Entonces E(a Y) = µ implica ai = 1. Luego se verifica
a = a + b, es decir, ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟ ⎜⎜⎜ 1/n ⎟⎟⎟ ⎜⎜⎜ a1 − 1/n ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ + ⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
an 1/n an − 1/n

con
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que
a b = 0. Además
  
ai yi = (1/n) yi + (ai − 1/n)yi

El primer término es estimador centrado y de varianza mı́nima σ2 /n. El segundo término verifica

E( (ai − 1/n)yi ) = 0
 
cov(1/n yi , (ai − 1/n)yi ) = 0

La matriz del operador que proyecta a en Ω es


⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ 1/n . . . 1/n ⎟⎟⎟
⎜⎜ .. ⎟⎟⎟ ⎜⎜⎜ . .. .. ⎟⎟⎟⎟
P = 1/n ⎜⎜⎜⎜ . ⎟⎟⎟ (1, . . . , 1) = ⎜⎜⎜ .. . . ⎟⎟⎟
⎜⎝ ⎟⎠ ⎜⎝ ⎠
1 1/n . . . 1/n
50 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

siendo fácil ver que

a P = (1/n, . . . , 1/n)
a (I − P) = (a1 − 1/n, . . . , an − 1/n)

Ejemplo 3.2.2

Ver especialmente el final del ejemplo 5.3.2.

3.3. Varianza de la estimación y multicolinealidad



Sabemos que a β se dice estimable si tiene un estimador lineal insesgado b Y o, equivalentemente,
cuando a = X b. Es decir, cuando a es combinación lineal de las filas de la matriz X.

Teorema 3.3.1

La función paramétrica a β es estimable si y sólo si

a ∈ X = X X

Demostración:
Como sabemos, la función paramétrica a β es estimable si y sólo si a es combinación lineal de las
filas de X, es decir, cuando a ∈ X . De modo que sólo queda probar que

X = X X

Pero X Xc = X d para d = Xc, de forma que X X ⊂ X . Además, las dimensiones de ambos
subespacios son iguales ya que rg X = rg X X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [66, pág. 385]. 

En el apartado anterior hemos demostrado que para una función paramétrica estimable a β, su
estimador MC a
β es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
Supongamos que X X tiene como valores propios λ1 , . . . , λr todos positivos no nulos asociados a
los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir

X Xvi = λi vi i = 1, . . . , r

y tales que vi vj = δij .


Si a β es estimable, entonces a ∈ X X y este subespacio está generado por los vectores propios.
Ası́ pues, a se puede expresar en la forma

r

a= ci vi
i=1

Entonces
⎛ ⎞
⎜⎜⎜  ⎟⎟⎟

var(a β) = var ⎜⎝ ci vi β⎟⎟⎠


 ⎜
 i

= c var(vi

2
i β)
i

= σ2 c2i λ−1
i
i
3.4. SISTEMAS DE FUNCIONES PARAMÉTRICAS ESTIMABLES 51

ya que
cov(vi

β, vj

β) = λ−1  
 

i λj cov(vi X Xβ, vj X Xβ)


−1

= (λi λj )−1 cov(vi X Y, vj X Y)


= (λi λj )−1 σ2 vi X Xvj
= (λi λj )−1 σ2 λj vi vj
= σ2 λ−1
i δij

Silvey[68] concluyó que es posible una estimación relativamente precisa en las direcciones de los
vectores propios de X X correspondientes a los mayores valores propios, mientras que se obtienen
unas estimaciones relativamente imprecisas (poco eficientes) en las direcciones correspondientes
a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser linealmente
dependientes. Entonces X X está cerca de ser singular (no inversible), en el sentido que uno o
varios de sus valores propios no nulos son excesivamente pequeños, casi despreciables, y por lo
que hemos visto las estimaciones en algunas direcciones serán muy imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Econometrı́a
con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando la matriz de datos
X no tiene rango máximo. Este grave problema debe ser detectado previamente a la estimación y
se puede corregir de varias formas (ver sección 8.5).
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, mediante
la incorporación de nuevas observaciones en las direcciones de los vectores propios con valores
propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ +  y resulta
     
Y X 
= β +
Yn+1 xn+1 n+1
= X∗ β +  ∗
donde xn+1 = cv, donde v es un vector propio normalizado de X X correspondiente a un valor
propio λ. Entonces se puede probar que v es también un vector propio de X∗ X∗ correspondiente al
valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para la elección de las direcciones en
las que es conveniente elegir nuevas observaciones para mejorar la precisión de las estimaciones
de un a β particular.

3.4. Sistemas de funciones paramétricas estimables

Consideremos un sistema de funciones paramétricas estimables


ψ1 = a1 β, . . . , ψq = aq β
sobre el mismo modelo lineal normal y donde los vectores a1 , . . . , aq (q ≤ r = rango X) son
linealmente independientes. Para cada una, tenemos las correspondientes estimaciones de Gauss-
Markov
ψi = ai


β i = 1, . . . , q
que podemos condensar matricialmente en la forma

ψq ) = A

ψ1 , . . . ,

ψ = (
β
donde ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟
⎜⎜ .. ⎟⎟⎟
A = ⎜⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠
aq
52 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

Con esta matriz,

ψ es el conjunto de estimadores MC del sistema de funciones paramétricas


ψ = Aβ.

Teorema 3.4.1
ψ = A

Bajo el modelo lineal normal, el conjunto de estimadores


β del sistema de funciones
paramétricas ψ = Aβ verifica:

i)

ψ sigue la distribución normal multivariante


ψ ∼ Nq (ψ, Σψ )

donde ψ = Aβ es el vector de medias y

Σψ = σ2 A(X X)− A

es la matriz de varianzas-covarianzas.
ii) La estimación MC de toda función paramétrica estimable es estocásticamente independiente
de la suma de cuadrados residual

β) (Y − X

SCR = (Y − X
β)

ψ = A

En particular,
β es estocásticamente independiente de SCR.

Demostración:

i) Es consecuencia de que

ψ es una combinación lineal de variables normales independientes:


ψi = ai (X X)− X Y

luego si
A(X X)− X = C
sabemos que E(


ψ) = ψ y la matriz de covarianzas de CY es Σ = σ2 CC , de manera que

Σψ = σ2 CC = σ2 A(X X)− X X(X X)− A = σ2 A(X X)− A

ii) Como en el teorema 2.5.1, consideremos la transformación ortogonal



Z=VY

donde las primeras r columnas de la matriz ortogonal V generan el subespacio Ω = X .


Entonces las variables z1 , . . . , zn son normales e independientes, y toda estimación de Gauss-
Markov es una combinación lineal de

z1 , . . . , zr

puesto que pertenece al espacio estimación. Sin embargo, la suma de cuadrados residual es

SCR = z2r+1 + · · · + z2n

ψi = ai

y, por tanto, será estocásticamente independiente de cualquier estimación


β.
Esto mismo se puede deducir de la expresión 3.2 ya que
ψ = BPY, mientras que

SCR = Y (I − P)Y = ((I − P)Y) (I − P)Y

donde (I − P)Y pertenece al espacio ortogonal de Ω.


3.5. INTERVALOS DE CONFIANZA 53

Teorema 3.4.2
β − Aβ) (σ2 A(X X)− A )−1 (A

La distribución de U = (A
β − Aβ) es una χ2q .
Además, U es estocásticamente independiente de SCR/σ2 cuya distribución es χ2n−r .

Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teoremas 2.5.1
y 3.4.1. 
Dos resultados importantes que se deducen de los teoremas anteriores son:

a) Para el modelo lineal normal y el sistema de q funciones paramétricas estimables ψ = Aβ se


verifica que la distribución de

β − Aβ) (A(X X)− A )−1 (A

(A
β − Aβ)/q
F= (3.3)
SCR/(n − r)
es una F con q y n−r grados de libertad, ya que se trata de un cociente de dos χ2 independientes
divididas por sus grados de libertad respectivos. Observemos la desaparición del parámetro
σ2 desconocido.

b) En el caso q = 1, si

ψ es la estimación de Gauss-Markov de ψ, entonces

ψ ∼ N(ψ, σ
ψ ), siendo

σ
2ψ = a (X X)− a σ2 = δ2 σ2

luego la distribución de

ψ−ψ √
t= √ n−r (3.4)
δ2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede establecer
directamente o a partir de 3.3 ya que F1,n−r = t2n−r .

3.5. Intervalos de confianza

ψ = a

Consideremos una función paramétrica estimable ψ = a β, su estimación MC


β y sea tα tal
que
P( − tα < t < tα ) = 1 − α
para una distribución t de Student con n − r grados de libertad. Entonces, de la distribución 3.4
deducimos que
⎛ ⎞
⎜⎜⎜

ψ−ψ √ ⎟⎟
P ⎜⎝−tα < √ n − r < tα ⎟⎟⎠ = 1 − α
δ2 SCR
y despejando obtenemos
⎛   ⎞
⎜⎜⎜ δ 2
SCR δ 2
SCR ⎟⎟⎟
P ⎜⎝
⎜ ψ − tα <ψ<
ψ + tα ⎟⎟ = 1 − α
n−r n−r ⎠

Por lo tanto  

δ2 SCR δ2 SCR
ψ − tα <ψ<

ψ + tα
n−r n−r
es decir
a

β ± tα [a (X X)− a

σ2 ]1/2 (3.5)
es un intervalo de confianza para la función paramétrica estimable ψ = a β, con coeficiente de
confianza 1 − α.
54 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

Por otra parte, como SCR/σ2 sigue una χ2n−r tenemos

P(a < SCR/σ2 < b) = 1 − α

donde a y b son tales que

P(χ2n−r ≤ a) = α/2 P(χ2n−r > b) = α/2

Deducimos entonces que


 
SCR SCR
P <σ <
2
=1−α (3.6)
b a
define un intervalo de confianza para la varianza σ2 del modelo lineal normal, con coeficiente de
confianza 1 − α.

3.6. Ejercicios

Ejercicio 3.1
Sea ψ una función paramétrica estimable y

ψ1 ,

ψ2 dos estimadores insesgados, estocásticamente


independientes, de varianzas σ1 y σ2 . Hallar la combinación lineal de

2 2
ψ1 ,

ψ2 cuya varianza es
mı́nima y además es insesgado.

Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
⎛ ⎞
⎜⎜⎜ 1 1 1 1 1 ⎟⎟⎟
⎜⎜⎜ 1 0 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 1 1 0 0 ⎟⎟⎟
⎜⎝ ⎟⎠
1 0 1 1 1

Hallar la expresión general de las funciones paramétricas estimables.

Ejercicio 3.3
Probar que


ψ=bY E(

ψ) = ψ = a β
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal de las filas
de X.

Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también función
paramétrica estimable y que r = rg X es el número máximo de funciones linealmente indepen-
dientes.

Ejercicio 3.5
Si

ψ es la estimación de Gauss-Markov, probar que la expresión

ψ = c1 ȳ1 + · · · + ck ȳk

función de las medias de las condiciones experimentales, es única.


3.6. EJERCICIOS 55

Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 0 1 ⎟⎟⎟
⎜ ⎟
X = ⎜⎜⎜⎜ 1 1 0 ⎟⎟⎟⎟
⎝ ⎠
0 −1 1

Se sabe además que

ȳ1 = 11 ȳ2 = 10 ȳ3 = 15


n1 = n2 = n3 = 10

n1

s1 = (1/n1 )
2
(yi − ȳ1 )2 = 4.5
i=1

s22 = 6.0 s23 = 4.3

Se pide

1) Hallar la expresión general de las estimaciones MC de β.

2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación 0.05)

3) Dada la función paramétrica estimable

ψ = β1 + β3

contrastar la hipótesis H0 : ψ = 3 en los casos:

a) σ2 varianza del diseño desconocida


b) σ2 = 5 varianza del diseño conocida

(nivel de significación 0.05)

4) Hallar la función paramétrica estimable ψ tal que


ψ = c1 ȳ1 + c2 ȳ2 + c3 ȳ3

verifica c21 + c22 + c23 = 1 y además

ψ es máximo.

Ejercicio 3.7
Consideremos el modelo lineal

y1 = β1 + β2 + 1
y2 = β1 + β3 + 2
y3 = β1 + β2 + 3

Se pide:

1) ¿Es la función paramétrica


ψ = β1 + β 2 + β 3
estimable?

2) Probar que toda función paramétrica

ψ = a1 β1 + a 2 β2 + a 3 β3

es estimable si y sólo si a1 = a2 + a3 .
56 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES

Ejercicio 3.8
Consideremos el modelo lineal
y1 = µ + α1 + β1 + 1
y2 = µ + α1 + β2 + 2
y3 = µ + α2 + β1 + 3
y4 = µ + α2 + β2 + 4
y5 = µ + α3 + β1 + 5
y6 = µ + α3 + β2 + 6

(a) ¿Cuando es λ0 µ + λ1 α1 + λ2 α2 + λ3 α3 + λ4 β1 + λ5 β2 estimable?

(b) ¿Es α1 + α2 estimable?

(c) ¿Es β1 − β2 estimable?

(d) ¿Es µ + α1 estimable?

(e) ¿Es 6µ + 2α1 + 2α2 + 2α3 + 3β1 + 3β2 estimable?

(f) ¿Es α1 − 2α2 + α3 estimable?

(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas β1 − β2
y α1 − α2 , si éstas son estimables.

(h) Hallar la dimensión del espacio paramétrico.

(i) Obtener una expresión del espacio de los errores.

Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reunidos pesan
y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B y D se ponen en el plato
derecho, un peso de y2 gramos es necesario en el plato derecho para equilibrar la balanza. Con A y
B en el plato izquierdo y C, D en el plato derecho, y3 gramos son necesarios en el plato derecho y,
finalmente, con A, D en el plato izquierdo y B, C en el plato derecho, y4 gramos son necesarios en
la derecha para equilibrar. Si las observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados
y con varianza común σ2 , obtener la estimación BLUE del peso total de los cuatro objetos y su
varianza.

Ejercicio 3.10
Un transportista realiza diversos trayectos entre tres poblaciones A, B y C. En cuatro dias conse-
cutivos ha hecho los recorridos que muestra la siguiente tabla:

trayecto km
A→B→A→C 533
C→A→C→B 583
B→C→A→C→A→B→A 1111
A→B→A→C→A→B→A 1069

donde el kilometraje es, por diversas causas, aproximado.

(a) Proponer un modelo lineal, con la matriz de diseño y las hipótesis necesarias, para estimar
las distancias kilométricas entre las tres poblaciones.
Con los datos proporcionados, ¿es posible estimar las distancias entre las tres poblaciones?
¿Cuales son las distancias o funciones paramétricas estimables (fpe) en este modelo?
3.6. EJERCICIOS 57

(b) ¿Se puede estimar el kilometraje del trayecto MBC → B → A → C → MAC , donde MIJ es
el punto medio entre dos poblaciones? ¿Es una buena estimación? ¿Cual es el error de esta
estimación?

Ejercicio 3.11
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8

contestar las siguientes preguntas:

(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo de todas
ellas.

(b) Probar que θ1 − θ2 es estimable. Calcular su estimador lineal MC y su varianza.

(c) Probar que θ1 + θ2 no es estimable.

(d) Hallar cuatro estimadores insesgados diferentes de θ1 − θ2 y calcular sus varianzas. Compa-
rarlas con la varianza del estimador MC.

(e) Hallar un estimador insesgado de la varianza de los errores σ2 .

Ejercicio 3.12
 
Diremos que el estimador lineal b Y pertenece al espacio error si E(b Y) = 0. Probar que la
covarianza entre b Y y todo estimador de Gauss-Markov


ψ = a β es siempre cero.

Ejercicio 3.13

Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V una descom-
posición en valores singulares de X. Se pide:

1) Expresar la estimación MC de β en términos de U, ∆, V y Y.

2) Sea ψ = a β una función paramétrica. Probar que ψ es estimable si y sólo si se verifica


 
a = b V

para algún vector b.

También podría gustarte