ML (Pages 1 - 57)

e-UMAB
MODELOS LINEALES
Francesc Carmona Pontaque
Electronic-University Mathematical Books

Consejo editor:
T. Aluja
M.J. Bayarri
F. Carmona
C.M. Cuadras (coordinador)
F.R. Fernández
J. Fortiana
G. Gómez
W. González-Manteiga
M.J. Greenacre
J.M. Oller
J. Puerto
A. Satorra
e-UMAB
Electronic-University Mathematical Books
c EDICIONS DE LA UNIVERSITAT DE BARCELONA, 2004
Copia impresa del libro electrónico con ISBN: XX-XXXX-XXX-X
D.L.: B-XX.XXX-2004
Impresión: Gráficas Rey, S.L.
Impreso en España / Printed in Spain
A la meva esposa Carme
i els nostres fills Mireia i Guillem.
“Soñemos con un mundo unido

sin ninguna otra soberanı́a
que la del pueblo universal.
No hacer daño nunca, nunca, a nadie.”
José Marı́a de Llanos (Padre Llanos)

0
Presentación
La teorı́a y aplicaciones de los modelos lineales ocupan un papel fundamental en la Estadı́stica.

Tales modelos engloban la regresión simple, múltiple y polinómica, el análisis de la varianza, el
diseño de experimentos, el estudio de curvas de crecimiento, los modelos log-lineales, y algunos
contrastes sobre medias como caso particular. Basta consultar revistas especializadas como Biome-
trics, para comprobar que muchos problemas de estadı́stica aplicada se pueden enfocar linealmente,
siguiendo la omnipresente ecuación: Observación = Modelo + Error.
Algunos han creı́do que por el hecho de ser el modelo “lineal”, su tratamiento era más bien fácil.
En realidad es todo lo contrario. Este tipo de modelo, que se adecua tan bien a la naturaleza,
exige un estudio riguroso y posee múltiples facetas que por sı́ sólo constituye una especialidad en
Estadı́stica.
La obra de mi compañero y amigo Francesc Carmona, que hace más de veinticinco años fue
un destacado alumno mı́o, nace precisamente de las clases que sobre el mismo tema impartı́ en
la Facultad de Matemáticas de la Universidad de Barcelona, y que él continuó, ampliando y
mejorando la materia. Diversos profesores editamos entonces unos apuntes, que luego ampliamos
y publicamos dentro de la colección Publicaciones de Bioestadı́stica y Biomatemática, editada por
el Departamento de Estadı́stica. Hacı́a falta convertir estos apuntes en un libro de verdad, una
labor que ha sido llevada a cabo con entusiasmo por Francesc Carmona, consiguiendo una visión
ampliada, moderna y mejorada del anterior material didáctico.
Me complace enormemente presentar el libro Modelos Lineales, editado en la colección e-UMAB
de EUB, por estar muy bien escrito y documentado y ser muy completo. En efecto, además de
contener los temas clásicos, incluye los modelos no paramétricos, el análisis de residuos, numerosos
ejemplos ilustrativos, instrucciones en el lenguaje de programación R y adecuados hipervı́nculos.
Esta obra es una contribución didáctica de alto nivel, que será de gran utilidad para investigadores,
profesores y alumnos de Estadı́stica.
Dr. Carles M. Cuadras

ccuadras@ub.edu
0
Prólogo
Las páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas de asignaturas
que se han impartido a lo largo de algunos años en varias licenciaturas y cursos de doctorado.
En particular en la licenciatura de Matemáticas, la licenciatura de Biologı́a y la diplomatura
de Estadı́stica de la Universidad de Barcelona. Se ha intentado un cierto equilibrio entre las
explicaciones teóricas y los problemas prácticos. Sin embargo, nuestra intención siempre ha sido
fundamentar sólidamente la utilización de los modelos lineales como base de las aplicaciones
de la regresión, el análisis de la varianza y el diseño de experimentos. Por ello, en este libro la
base matemática y estadı́stica es considerable y creemos importante la correcta definición de los
conceptos y la rigurosidad de las demostraciones. Una sólida base impedirá cometer ciertos errores,
habituales cuando se aplican los procedimientos ciegamente.
Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianza requiere
la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunas fórmulas
matriciales o simples. Para ello es absolutamente imprescindible la utilización de algún programa
de ordenador que nos facilite el trabajo. En una primera instancia es posible utilizar cualquier
programa de hojas de cálculo que resulta sumamente didáctico. También se puede utilizar un
paquete estadı́stico que seguramente estará preparado para ofrecer los resultados de cualquier
modelo lineal estándar como ocurre con el paquete SPSS. En cambio, en este libro se ha optado
por incluir algunos ejemplos con el programa R. Las razones son varias. En primer lugar, se
trata de un programa que utiliza el lenguaje S, está orientado a objetos, tiene algunos módulos
especı́ficos para los modelos lineales y es programable. R utiliza un lenguaje de instrucciones y al
principio puede resultar un poco duro en su aprendizaje, sin embargo superada la primera etapa de
adaptación, su utilización abre todo un mundo de posibilidades, no sólo en los modelos lineales,
sino en todo cálculo estadı́stico. Además, la razón más poderosa es que el proyecto R es GNU
y, por tanto, de libre distribución. De modo que los estudiantes pueden instalar en su casa el
programa R y practicar cuanto quieran sin coste económico alguno. Por otra parte, el paquete
S-PLUS es una versión comercial con el mismo conjunto de instrucciones básicas.
El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro
Sánchez Algarra (1996) que amablemente han cedido para su actualización en este libro y a los
que agradezco profundamente su colaboración. También es evidente que algunas demostraciones
tienen su origen en el clásico libro de Seber [66].
Por último, este libro ha sido escrito mediante el procesador de textos cientı́fico LATEX y presentado
en formato electrónico. Gracias a ello se puede actualizar con relativa facilidad. Se agradecerá la
comunicación de cualquier errata, error o sugerencia.
Barcelona, 6 de mayo de 2004. Dr. Francesc Carmona

fcarmona@ub.edu
0
Índice general
1. Las condiciones 15
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. El método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2. Estimación 27
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . . . . . . 40
2.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3. Funciones paramétricas estimables 45

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3. Varianza de la estimación y multicolinealidad . . . . . . . . . . . . . . . . . . . . . 50
3.4. Sistemas de funciones paramétricas estimables . . . . . . . . . . . . . . . . . . . . 51
3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
10 ÍNDICE GENERAL
4. Complementos de estimación 59
4.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . . . . . . 59
4.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. Mı́nimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5. Contraste de hipótesis lineales 69

5.1. Hipótesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2. El modelo lineal de la hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3. Teorema fundamental del Análisis de la Varianza . . . . . . . . . . . . . . . . . . . 73
5.3.1. Un contraste más general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3.2. Test de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4. Cuando el test es significativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5. Contraste de hipótesis sobre funciones paramétricas estimables . . . . . . . . . . . 81
5.6. Elección entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.7. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6. Regresión lineal simple 91

6.1. Estimación de los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . 91
6.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.3. Inferencia sobre los parámetros de regresión . . . . . . . . . . . . . . . . . . . . . . 96
6.3.1. Hipótesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3.2. Hipótesis sobre el punto de intercepción . . . . . . . . . . . . . . . . . . . 97
6.3.3. Intervalos de confianza para los parámetros . . . . . . . . . . . . . . . . . . 97
6.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . . . . . . 98
6.3.5. Predicción de nuevas observaciones . . . . . . . . . . . . . . . . . . . . . . 98
6.3.6. Región de confianza y intervalos de confianza simultáneos . . . . . . . . . 99
6.4. Regresión pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.5. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.6. Carácter lineal de la regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.7. Comparación de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . . . . . . 111
6.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.9. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
ÍNDICE GENERAL 11
7. Una recta resistente 121

7.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.1.1. Formación de los tres grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.1.2. Pendiente e intercepción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.4. Mejora del método de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2. Métodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . . . . . . 127
7.3. Métodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
8. Regresión lineal múltiple 133

8.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.3. Inferencia sobre los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . 136
8.4. Coeficientes de regresión estandarizados . . . . . . . . . . . . . . . . . . . . . . . . 141
8.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8.6. Regresión polinómica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.6.2. Elección del grado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8.7. Comparación de curvas experimentales . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7.1. Comparación global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
8.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9. Diagnosis del modelo 161

9.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.1.1. Estandarización interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.1.2. Estandarización externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.1.3. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
9.2. Diagnóstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
9.2.2. Influencia en los coeficientes de regresión . . . . . . . . . . . . . . . . . . . 167
9.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.3. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.3.1. Coeficiente de determinación ajustado . . . . . . . . . . . . . . . . . . . . 169
9.3.2. Criterio CP de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.3.3. Selección paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
9.4. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
9.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
10.Regresión robusta 175

10.1. Minimizar una función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
10.1.1. Funciones objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
10.2. Regresión robusta mı́nimo-cuadrada recortada . . . . . . . . . . . . . . . . . . . . 178
12 ÍNDICE GENERAL
10.3. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

10.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
11.Análisis de la Varianza 185

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.2.1. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.2.2. Un modelo equivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
11.3. Diseño de dos factores sin interacción . . . . . . . . . . . . . . . . . . . . . . . . . 192
11.4. Diseño de dos factores con interacción . . . . . . . . . . . . . . . . . . . . . . . . . 198
11.5. Descomposición ortogonal de la variabilidad . . . . . . . . . . . . . . . . . . . . . 203
11.5.1. Descomposición de la variabilidad en algunos diseños . . . . . . . . . . . . 205
11.5.2. Estimación de parámetros y cálculo del residuo . . . . . . . . . . . . . . . . 207
11.6. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
11.7. Diseños no balanceados y observaciones faltantes . . . . . . . . . . . . . . . . . . 212
11.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
11.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
12.Análisis de Componentes de la Varianza 223

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
12.2.1. Los test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.2.2. Estimación de los componentes de la varianza . . . . . . . . . . . . . . . . 227
12.3. Los modelos más sencillos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
12.3.1. Diseño de un factor con efectos fijos . . . . . . . . . . . . . . . . . . . . . . 228
12.3.2. Diseño de un factor con efectos aleatorios . . . . . . . . . . . . . . . . . . . 231
12.3.3. Diseño de dos factores sin interacción con efectos fijos . . . . . . . . . . . 235
12.3.4. Diseño de dos factores sin interacción con efectos aleatorios . . . . . . . . 238
12.3.5. Diseño de dos factores aleatorios con interacción . . . . . . . . . . . . . . . 240
12.3.6. Diseño de tres factores aleatorios y réplicas . . . . . . . . . . . . . . . . . . 241
12.3.7. Diseño anidado de dos factores aleatorios . . . . . . . . . . . . . . . . . . . 242
12.3.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
12.4. Correlación intraclásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
12.5. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
12.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
A. Matrices 251
A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
B. Proyecciones ortogonales 255

B.1. Descomposición ortogonal de vectores . . . . . . . . . . . . . . . . . . . . . . . . . 255
B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
ÍNDICE GENERAL 13
C. Estadı́stica multivariante 259

C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
Bibliografı́a 261
Índice alfabético 265

1
Las condiciones
1.1. Introducción
Los métodos de la Matemática que estudian los fenómenos deterministas relacionan, por lo
general, una variable dependiente con diversas variables independientes. El problema se reduce
entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal, etc.. Sin
embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentales ha revelado
la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, etc. justifican el planteo, en términos muy
generales, de la ecuación fundamental
“observación” = “modelo” + “error aleatorio”
El experimentador puede, fijando las condiciones de su experimento, especificar la estructura del

modelo, pero siempre debe tener en cuenta el error aleatorio o desviación entre lo que observa y
lo que espera observar según el modelo.
Los modelos de regresión utilizan la ecuación anterior fijando el modelo como una función lineal
de unos parámetros. El objetivo consiste, casi siempre, en la predicción de valores mediante el
modelo ajustado.
El Análisis de la Varianza es un método estadı́stico introducido por R.A. Fisher de gran utilidad en
las Ciencias Experimentales, que permite controlar diferentes variables cualitativas y cuantitativas
(llamadas factores), a través de un modelo lineal, suponiendo normalidad para el error aleatorio.
Fisher(1938) definió este método como “la separación de la varianza atribuible a un grupo de
la varianza atribuible a otros grupos”. Como veremos, los tests en Análisis de la Varianza se
construyen mediante estimaciones independientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teorı́a común: los modelos lineales.
Iniciaremos este capı́tulo con un ejemplo de modelización de un problema y su aplicación práctica.
A continuación explicaremos en qué consiste esencialmente el método de los mı́nimos cuadrados y
estableceremos las condiciones para que este método sea válido para su utilización en Estadı́stica.
1.2. Un ejemplo
En el libro de Sen and Srivastava en [67, pág. 2] se explica este ejemplo que nosotros hemos
adaptado a las medidas europeas.
Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad del tráfico. El
estudio de este problema tiene como objetivo la mejora del transporte y la reducción del tiempo
de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehı́culos por km) y su correspondiente
velocidad (en km por hora).
16 CAPÍTULO 1. LAS CONDICIONES
Dato Densidad Velocidad Dato Densidad Velocidad

1 12,7 62,4 13 18,3 51,2
2 17,0 50,7 14 19,1 50,8
3 66,0 17,1 15 16,5 54,7
4 50,0 25,9 16 22,2 46,5
5 87,8 12,4 17 18,6 46,3
6 81,4 13,4 18 66,0 16,9
7 75,6 13,7 19 60,3 19,8
8 66,2 17,9 20 56,0 21,2
9 81,1 13,8 21 66,3 18,3
10 62,8 17,9 22 61,7 18,0
11 77,0 15,8 23 66,6 16,6
12 89,6 12,6 24 67,8 18,3
Tabla 1.1: Datos del problema de tráfico
Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto de la

densidad en la velocidad. Por razones que explicaremos más adelante (ver ejercicio 9.2), tomaremos
como variable dependiente la raı́z cuadrada de la velocidad.
El gráfico 1.1 presenta la nube de puntos o diagrama de dispersión (scatter plot) con la variable
independiente (densidad) en el eje horizontal y la variable dependiente (raı́z cuadrada de la
velocidad) en el eje vertical.
Gráfico de dispersión
10
8
RAIZ(vel)
0
0 20 40 60 80 100
densidad
Figura 1.1: Nube de puntos del problema de tráfico
Como primera aproximación podrı́amos tomar, como modelo de ajuste, la recta que une dos
puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha recta es
y = 8, 6397 − 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Como veremos,
el método de los mı́nimos cuadrados proporciona una recta, llamada recta de regresión, que goza
de muy buenas propiedades. Este método consiste en hallar a y b tales que se minimice la suma
de los errores al cuadrado.
n
(yi − (a + bxi ))2

i=1
En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.

Para estudiar la bondad del ajuste se utilizan los residuos
ei = yi − ŷi
donde ŷi = 8, 0898 − 0, 0566xi . Los gráficos de la figura 1.2 nos muestran estos residuos.
1.3. EL MODELO 17
Para mejorar el modelo podemos añadir el término cuadrático y considerar el modelo parabólico
yi = a + bxi + cx2i
También aquı́, el método de los mı́nimos cuadrados proporciona un ajuste que es óptimo en varios
aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de los errores al cuadrado

n
(yi − (a + bxi + cx2i ))2

i=1
El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio 1.3).
La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la velocidad
en la ecuación
flujo = velocidad × densidad
de modo que el flujo queda en función de la densidad. Por último, el máximo valor de esta función
es la capacidad de la carretera.
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
Figura 1.2: Gráficos de los residuos del modelo recta de regresión.
0,6 0,6
0,4 0,4
0,2 0,2
residuo
residuo
0 0
0 20 40 60 80 100 2 3 4 5 6 7 8
-0,2 -0,2
-0,4 -0,4
-0,6 -0,6
densidad predicción
Figura 1.3: Gráficos de los residuos del modelo parabólico.
1.3. El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implı́citamente estamos asumiendo
la hipótesis de que los datos siguen un patrón lineal subyacente del tipo
y = β0 + β1 x
Pero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo es
yi = β0 + β1 xi + i i = 1, . . . , n
donde i son los errores aleatorios. Éste es el modelo de regresión simple o con una sola variable
independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo
yi = β0 + β1 xi + β2 x2i + i i = 1, . . . , n
que continúa siendo un modelo lineal.

Un modelo es lineal si lo es para los parámetros. Por ejemplo, el modelo ln yi = β0 + β1 ln (xi )+
+i es lineal, mientras que yi = β0 exp ( − β1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor fijo η más una
desviación aleatoria
Y =η+
η representa la verdadera medida de la variable, es decir, la parte determinista de un experimento,
que depende de ciertos factores cualitativos y variables cuantitativas que son controlables por el
experimentador.
El término representa el error. Es la parte del modelo no controlable por el experimentador debido
a múltiples causas aleatorias, inevitables en los datos que proceden de la Biologı́a, Psicologı́a,
Economı́a, Medicina,. . . El error convierte la relación matemática Y = η en la relación estadı́stica
Y = η + , obligando a tratar el modelo desde la perspectiva del análisis estadı́stico.
En particular, los modelos de la forma
yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n
con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regresión múltiple.
La variable cuyos datos observados son yi es la llamada variable dependiente o respuesta.
Los parámetros βj son desconocidos y nuestro objetivo principal es su estimación. En cuanto a
los errores i , su cálculo explı́cito nos permitirá, como veremos extensamente, la evaluación del
modelo.
Observación:
En el modelo de regresión simple puede suceder que los datos xi i = 1, . . . , n correspondan a los
valores observados de una v.a. X o de una variable controlada no aleatoria. En cualquier caso, vamos
a considerar los valores xi como constantes y no como observaciones de una variable aleatoria.
En la regresión simple
Y = φ(x) +
donde Y es aleatoria y es aleatoria con E() = 0. De manera que, para cada valor X = x, Y es una
v.a. con esperanza φ(x). Si asumimos
φ(x) = E[Y|X = x] = β0 + β1 x
podemos proceder considerando las inferencias como condicionadas a los valores observados
de X.
En cualquier caso, también en regresión múltiple, vamos a considerar los valores de las variables
regresoras X1 , . . . , Xk como simplemente números.
1.4. El método de los mı́nimos cuadrados
La paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gauss que lo
utilizó en 1795 y lo publicó en 1809.
1.4. EL MÉTODO DE LOS MÍNIMOS CUADRADOS 19
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles valores de
los βj , el método de los mı́nimos cuadrados selecciona aquellos que minimizan

n
n
S= i2 = (yi − (β0 + β1 xi1 + · · · + βk xik ))2

i=1 i=1
En el caso de la regresión lineal simple

n
n
S= =
2
i (yi − β0 − β1 xi )2
i=1 i=1
de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-cuadráticos)

ó LS (least squares)
βˆ0 = ȳ − βˆ1 x̄
n
sxy (yi − ȳ)(xi − x̄)
β1 =
ˆ = i=1n
sx i=1 (xi − x̄)
2 2
También se puede considerar el modelo centrado, que consiste en centrar los datos de la variable
regresora
yi = γ0 + β1 (xi − x̄) + i i = 1, . . . , n
La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄. De modo

que γˆ0 = ȳ y la estimación de β1 es la misma que en el modelo anterior.
Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷi y residuos ei
ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)

ei = yi − ŷi = yi − ȳ − βˆ1 (xi − x̄)
Como consecuencia resulta que

n
ei = 0
i=1
lo que no ocurre en un modelo sin β0 .

Finalmente, si queremos una medida del ajuste de la regresión podemos pensar en la suma de

cuadrados ni=1 e2i , pero es una medida que depende de las unidades de yi al cuadrado. Si β0 0, la
medida que se utiliza es el coeficiente de determinación
n
e2i
R = 1 − n
2 i=1
i=1 (yi − ȳ)

2
Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.

En el caso β0 = 0, el coeficiente de determinación es
n 2
e
R2 = 1 − ni=1 i2
i=1 yi
de modo que los modelos que carecen de término independiente no se pueden comparar con los
que sı́ lo tienen.
1.5. Las condiciones de Gauss-Markov
Hasta aquı́, el método de los mı́nimos cuadrados es analı́tico ¿dónde está la estadı́stica?
A lo largo de los siguientes capı́tulos vamos a ver que un modelo estadı́stico y la imposición de
algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los métodos
estadı́sticos y calibrar la bondad del ajuste desde esa óptica.
Una primera pregunta es ¿qué tan bueno es el método de los mı́nimos cuadrados para estimar los
parámetros? La respuesta es que este método proporciona un buen ajuste y buenas predicciones
si se verifican las condiciones de Gauss-Markov.
En el modelo lineal que hemos definido anteriormente, se supone que los errores i son desviaciones
que se comportan como variables aleatorias. Vamos a exigir que estos errores aleatorios verifiquen
las siguientes condiciones:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i j
Veamos con detalle estas condiciones:
Primera condición E(i ) = 0 i = 1, . . . , n
Se trata de una condición natural sobre un error.

De este modo nos aseguramos que E(yi ) = β0 + β1 xi , el
modelo lineal es correcto y la situación que representa el
gráfico no se puede dar.
Segunda condición var(i ) = E(i2 ) = σ2 constante i = 1, . . . , n
Es la propiedad de homocedasticidad.
En el gráfico se representa una situación anómala llamada
de heterocedasticidad, en la que la var(i ) crece con xi .
El parámetro desconocido σ2 es la llamada varianza del
modelo.
Otras situaciones extrañas, que también se pretende prevenir, son:
El punto I del gráfico representa un punto influyente y

atı́pico (outlier). En general es un punto a estudiar, un error
o incluso una violación de la primera condición.
1.6. OTROS TIPOS DE MODELOS LINEALES 21
El punto I del gráfico es claramente influyente, aunque no

es atı́pico (outlier), ya que proporciona un residuo pequeño.
Tercera condición E(i j ) = 0 ∀i j
Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de regresión.
Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco fiable.
Tales condiciones pueden expresarse en forma matricial como
E() = 0 var() = σ2 In
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas de =

(1 , . . . , n ) .
Como demostraremos en los siguientes capı́tulos, la adopción de estas condiciones evitará teóri-
camente las situaciones anómalas que aquı́ hemos esquematizado.
1.6. Otros tipos de modelos lineales
Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunque tienen
diferentes objetivos, gozan de las mismas bases teóricas.
Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance), representado
por el modelo lineal
yij = µ + αi + ij con ij ∼ N(0, σ2 ) indep.,
se resuelve de forma similar al modelo de regresión.
El Análisis de la Covarianza, que utiliza como variables independientes tanto variables cuantita-
tivas como factores, y el Análisis Multivariante de la Varianza, con varias variables dependientes,
son dos de los análisis que generalizan el estudio y aplicaciones de los modelos lineales que vamos
a investigar.
1.7. Algunas preguntas
Un tı́pico problema de estadı́stica consiste en estudiar la relación que existe, si existe, entre dos
variables aleatorias X e Y. Por ejemplo, altura y peso, edad del hombre y la mujer en una pareja,
longitud y anchura de unas hojas, temperatura y presión de un determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos en un
gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma que los puntos se
hallen lo más cerca posible de la curva. No podemos esperar un ajuste perfecto porque ambas
variables están expuestas a fluctuaciones al azar debido a factores incontrolables. Incluso aunque
en algunos casos pudiera existir una relación exacta entre variables fı́sicas como temperatura y
presión, también aparecerı́an fluctuaciones debidas a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:
• Si existe un modelo fı́sico teórico y lineal, podemos utilizar la regresión para estimar los
parámetros.
• Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal. Por

ejemplo:
PV γ = c log P = log c − γ log V
• Si no es una recta, se puede estudiar un modelo de regresión polinómico. ¿De qué grado?
• En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesarias? ¿son
linealmente independientes las llamadas “variables independientes”?
• ¿Se verifican realmente las condiciones de Gauss-Markov?
• ¿Qué ocurre si las variables predictoras son discretas?
• ¿Qué ocurre si la variable dependiente es discreta o una proporción?
• ¿Y si faltan algunos datos?
• ¿Qué hacemos con los puntos atı́picos y los puntos influyentes?
Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capı́tulos, otras
pueden quedar para una posterior profundización.
1.8. Ejemplos con R
En esta sección vamos a ver como se calculan las regresiones que se han sugerido a partir del
ejemplo inicial con los datos de la tabla 1.1.
En primer lugar procedemos a introducir los datos en los vectores correspondientes.
> dens<-c(12.7,17.0,66.0,50.0,87.8,81.4,75.6,66.2,81.1,62.8,77.0,89.6,
+ 18.3,19.1,16.5,22.2,18.6,66.0,60.3,56.0,66.3,61.7,66.6,67.8)
> vel<-c(62.4,50.7,17.1,25.9,12.4,13.4,13.7,17.9,13.8,17.9,15.8,12.6,
+ 51.2,50.8,54.7,46.5,46.3,16.9,19.8,21.2,18.3,18.0,16.6,18.3)
> rvel<-sqrt(vel)
Las siguientes instrucciones generan el gráfico de puntos para estos datos.
> par(pty="m")
> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")
El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos al objeto
recta.ls
> recta.ls<-lsfit(dens,rvel)
Aunque esta última instrucción no muestra ninguna información en pantalla, ahora ya podemos
utilizar su resultado. Por ejemplo, podemos añadir la recta de regresión al gráfico anterior.
> abline(recta.ls)
Los coeficientes de la recta son:
> recta.ls$coef
Intercept X
8.08981299 -0.05662558
También se puede obtener una información más completa con la instrucción ls.print, aunque
su resultado no se explicará hasta el capı́tulo correspondiente.
1.8. EJEMPLOS CON R 23
> ls.print(recta.ls, digits=4, print.it=T)

Residual Standard Error=0.2689
R-Square=0.9685
F-statistic (df=1, 22)=676.3944
p-value=0
Estimate Std.Err t-value Pr(>|t|)

Intercept 8.0898 0.1306 61.9295 0
X -0.0566 0.0022 -26.0076 0
La estimación de la desviación estándar de los errores y otros elementos de diagnosis del modelo
se obtienen con la función ls.diag como
> ls.diag(recta.ls)$std.dev
[1] 0.2689388
Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares a los de la
figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la misma figura.
> e<-recta.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debemos in-
troducir los valores de la variable densidad y sus cuadrados en una matriz de datos. El resto es
idéntico al modelo de regresión simple.
> matriz.frame<-data.frame(dens,densˆ2)
> parabola.ls<-lsfit(matriz.frame,rvel)
> parabola.ls$coef
Intercept dens dens.2
8.8814208199 -0.1035152795 0.0004892585
> round(parabola.ls$coef,5)
Intercept dens dens.2
8.88142 -0.10352 0.00049
> e<-parabola.ls$residuals
> par(mfrow=c(1,2))
> par(pty="s")
> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
> pred<-rvel-e
> plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))
> abline(h=0)
Los gráficos serán muy similares a los de la figura 1.3.

En los siguientes capı́tulos veremos otras instrucciones de R, en especial la función lm, que
permiten ajustar un modelo de regresión a unos datos.
1.9. Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, minimizando
la suma de los cuadrados de los errores:

n
S= (yi − β0 − β1 xi )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.2
Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimizando la
suma de los cuadrados de los errores:

n
S= (yi − β0 − β1 xi − β2 x2i )2
i=1
Hallar una expresión para las predicciones ŷi y los residuos ei = yi − ŷi .
Ejercicio 1.3
Consideremos el problema de tráfico planteado en el apartado 1.2 de este capı́tulo, con la variable
independiente densidad y la variable dependiente raı́z cuadrada de la velocidad. Con los datos
proporcionados en la tabla 1.1 realizar el siguiente proceso:
√ √
(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12.7, 62.4) y (87.8, 12.4).
Dibujar el gráfico de los residuos con la densidad y el gráfico con las predicciones. Calcular
la suma de cuadrados de los residuos.
(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidad y el
gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráfico de los
residuos con la densidad y el gráfico con las predicciones. Calcular la suma de cuadrados de
los residuos.
(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo = vel ×
densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidad en
atletismo en los Juegos Olı́mpicos de Atlanta:
hombres mujeres
distancia tiempo
100 9,84 10,94
200 19,32 22,12
400 43,19 48,25
800 102,58 117,73
1500 215,78 240,83
5000 787,96 899,88
10000 1627,34 1861,63
42192 7956,00 8765,00
1.9. EJERCICIOS 25
Si tomamos como variable regresora o independiente la distancia (metros) y como variable res-
puesta o dependiente el tiempo (segundos):
(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla. Dibujar el
gráfico de los residuos con la distancia y el gráfico con las predicciones. Calcular la suma de
cuadrados de los residuos y el R2 .
(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y distancia.
(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.
2
Estimación
2.1. Introducción
En primer lugar concretaremos la definición general de un modelo lineal y hallaremos la estimación

por mı́nimos cuadrados de los parámetros del modelo.
Veremos que la estimación será única si la matriz de diseño es de rango máximo. En caso con-
trario, resulta importante definir el concepto de función paramétrica estimable y probar, para
estas funciones, la unicidad del estimador mı́nimo-cuadrático, como estudiaremos en el siguiente
capı́tulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema de Gauss-
Markov que demuestra que los estimadores mı́nimo-cuadráticos son los mejores, en el sentido de
que son insesgados y de mı́nima varianza.
Además, con la introducción de la hipótesis de normalidad de los errores, podremos estudiar las
distribuciones de los estimadores y de otros estadı́sticos, ası́ como la relación con los estimadores
de máxima verosimilitud.
Más adelante, trabajaremos la generalización del método de los mı́nimos cuadrados cuando la
matriz de varianzas-covarianzas de los errores no es σ2 I. Por otra parte, también profundizaremos
el caso de matrices de diseño de rango no máximo.
2.2. El modelo lineal
Sea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto es
Y =η+
donde es el error, de forma que η puede representar el valor verdadero e Y el valor observado.
Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experimentales
según el modelo lineal
η = β 1 x 1 + · · · + βm x m
donde βi son parámetros desconocidos y xi son valores conocidos, cada uno de los cuales ilustra
situaciones experimentales diferentes.
En general se tienen n observaciones de la variable Y. Diremos que y1 , y2 , . . . , yn observaciones
independientes de Y siguen un modelo lineal si
yi = xi1 β1 + · · · + xim βm + i i = 1, . . . , n
Estas observaciones de Y se pueden considerar variables aleatorias independientes y distribuidas

como Y (son copias) o también realizaciones concretas (valores numéricos) para los cálculos.
28 CAPÍTULO 2. ESTIMACIÓN
La expresión del modelo lineal en forma matricial es

⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ x11 x12 . . . x1m ⎟⎟⎟ ⎜⎜⎜ β1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ y ⎟⎟⎟ ⎜⎜⎜ x ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 2 ⎟⎟⎟ ⎜⎜⎜ 21 x22 . . . x2m ⎟⎟⎟ ⎜⎜⎜ β2 ⎟⎟⎟ ⎜⎜⎜ 2 ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. .. . . . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟ + ⎜⎜⎜ .. ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . . . .. ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟
⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠
yn xn1 xn2 . . . xnm βm n
o en forma resumida
Y = Xβ + (2.1)
Los elementos que constituyen el modelo lineal son:
1. El vector de observaciones Y = (y1 , y2 , . . . , yn ) .
2. El vector de parámetros β = (β1 , β2 , · · · , βm ) .
3. La matriz del modelo ⎛ ⎞

⎜⎜⎜ x11 x12 . . . x1m ⎟⎟⎟
⎜⎜⎜ x21 x22 . . . x2m ⎟⎟⎟
⎜ ⎟⎟⎟
X = ⎜⎜⎜⎜⎜ .. .. . . . ⎟⎟⎟
⎜⎜⎜ . . . .. ⎟⎟⎟
⎝ ⎠
xn1 xn2 . . . xnm
cuyos elementos son conocidos.
En problemas de regresión, X es la matriz de regresión. En los llamados diseños factoriales
del Análisis de la Varianza, X recibe el nombre de matriz de diseño.
4. El vector de errores o desviaciones aleatorias = (1 , 2 , . . . , n ) , donde i es la desviación

aleatoria de yi .
Ejemplo 2.2.1
El modelo lineal más simple consiste en relacionar una variable aleatoria Y con una variable controlable x
(no aleatoria), de modo que las observaciones de Y verifiquen
yi = β0 + β1 xi + i i = 1, . . . , n
Se dice que Y es la variable de predicción o dependiente y x es la variable predictora, por ejemplo Y es la

respuesta de un fármaco a una dosis x. Hallar β0 y β1 es el clásico problema de regresión lineal simple.
Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relación sea polinómica.
Consideremos el modelo
yi = β0 + β1 xi + β2 x2i + · · · + βp xpi + i = 1, . . . , n
Observemos que es lineal en los parámetros βi . La matriz de diseño es

⎛ p ⎞
⎜⎜⎜ 1 x1 . . . x1 ⎟⎟⎟
⎜⎜⎜ 1 x . . . xp ⎟⎟⎟
⎜⎜⎜ 2 2 ⎟ ⎟
⎜⎜⎜⎜ .. .. . . .. ⎟⎟⎟⎟
⎜⎜⎝ . . . . ⎟⎟⎟
⎠
1 xn . . . xpn
Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o más variables control. Ası́, son modelos
lineales:
2.3. SUPOSICIONES BÁSICAS DEL MODELO LINEAL 29
a) yi = β0 + β1 xi1 + β2 xi2 + i
b) yi = β0 + β1 xi1 + β2 xi2 + β3 xi1 xi2 + β4 x2i1 + β5 x2i2 + i
c) yi = β0 + β1 xi1 + β2 cos (xi2 ) + β3 sen(xi2 ) + i
Sin embargo, no es modelo lineal

β
yi = β0 + β1 log (β2 xi1 ) + β3 xi24 + i
Ejemplo 2.2.4
Supongamos que la producción Y de una planta depende de un factor F (fertilizante) y un factor B (bloque
o conjunto de parcelas homogéneas). El llamado modelo del diseño del factor en bloques aleatorizados es
yij = µ + αi + βj + ij
donde
µ es una constante (media general)

αi el efecto del fertilizante
βj el efecto del bloque
Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situaciones experimentales y la

siguiente matriz de diseño:
µ α 1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologı́a se utiliza la fórmula
C = αLβ1 Aβ2 Hβ3
donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.
La fórmula anterior se convierte en un modelo lineal tomando logaritmos
log C = log α + β1 log L + β2 log A + β3 log H
El parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma del cráneo.
2.3. Suposiciones básicas del modelo lineal
En el modelo lineal definido en el apartado anterior, se supone que los errores i son desviaciones
que se comportan como variables aleatorias que verifican las condiciones de Gauss-Markov:
1. E(i ) = 0 i = 1, . . . , n
2. var(i ) = σ2 i = 1, . . . , n
3. E(i · j ) = 0 ∀i j
Como sabemos, la condición (2) es la llamada condición de homocedasticidad del modelo y el

parámetro desconocido σ2 es la llamada varianza del modelo. La condición (3) significa que las n
desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como
E() = 0 var() = σ2 In
donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas de =

(1 , . . . , n ) .
Si además suponemos que cada i es N(0, σ) y que 1 , . . . , n son estocásticamente independientes,
entonces diremos que el modelo definido es un modelo lineal normal. Ası́ tendremos que
Y ∼ Nn (Xβ, σ2 In )
es decir, Y sigue la distribución normal multivariante de vector de medias Xβ y matriz de cova-

rianzas σ2 In .
Se llama rango del diseño al rango de la matriz X
r = rango X
y es un elemento muy importante en la discusión de los modelos. Evidentemente r ≤ m. El valor

de r es el número efectivo de parámetros del diseño, en el sentido de que si r < m es posible
reparametrizar el modelo para que r sea igual al número de parámetros. En muchos casos el diseño
verifica directamente que r = m y entonces se dice que es de rango máximo.
El modelo lineal que verifique las condiciones aquı́ expuestas, salvo la normalidad, diremos que
está bajo las condiciones de Gauss-Markov ordinarias.
2.4. Estimación de los parámetros
La estimación de los parámetros β = (β1 , . . . , βm ) se hace con el criterio de los mı́nimos cuadrados.
Se trata de hallar el conjunto de valores de los parámetros
β = (
β1 , . . . ,
βm ) que minimicen la
siguiente suma de cuadrados
= (Y − Xβ) (Y − Xβ) (2.2)

n
= (yi − xi1 β1 − · · · − xim βm )2

i=1
La estimación
β de β la llamaremos estimación MC, abreviación de mı́nimo-cuadrática, o LS del
inglés least squares.
Teorema 2.4.1
Toda estimación MC de β es solución de la ecuación
X Xβ = X Y (2.3)
Demostración:
Si desarrollamos la suma de cuadrados tenemos
= (Y − Xβ) (Y − Xβ)
= Y Y − 2β X Y + β X Xβ
2.4. ESTIMACIÓN DE LOS PARÁMETROS 31
y si derivamos matricialmente respecto a β resulta
∂
= −2X Y + 2X Xβ
∂β
De modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema.
Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.

Si el rango es máximo y r = m, entonces X X tiene inversa y la única solución de las ecuaciones
normales es

β = (X X)−1 X Y
Si r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. En estos casos,
una posibilidad (ver Apéndice A) es considerar
β = (X X)− X Y
donde A− = (X X)− es una g-inversa de A = X X, es decir, A− verifica
AA− A = A
Entonces se puede demostrar que la solución general es
β = (X X)− X Y + (I − A− A)z
siendo z un vector paramétrico.

Ahora podemos definir la suma de cuadrados residual como
SCR = e e = (Y − X
β) (Y − X
β)
Como veremos, SCR entendido como un estadı́stico función de la muestra Y, desempeña un papel
fundamental en el Análisis de la Varianza.
El modelo lineal Y = Xβ + , bajo las hipótesis de Gauss-Markov, verifica
E(Y) = Xβ
Teorema 2.4.2
Sea Ω = X ⊂ Rn el subespacio vectorial generado por las columnas de X de dimensión dimX =

r = rango X.
Entonces se verifica:
(i) E(Y) ∈ X
(ii) Si
β es una estimación MC, el vector de residuos e = Y − X
β es ortogonal a X .
Demostración:
En efecto,
i) Si x(1) , . . . , x(m) son las columnas de X, entonces
E(Y) = x(1) β1 + · · · + x(m) βm ∈ X
ii) X e = X (Y − X
β) = X Y − X X
β=0
Teorema 2.4.3
Para cualquier
β solución MC de 2.3 se verifica que

= X
Y β
e=Y−Y SCR = (Y − X
β) (Y − X
β)
son únicos.
Además
SCR = Y Y −
β X Y (2.4)
Demostración:
Si desarrollamos la suma de cuadrados residual SCR resulta
SCR = Y Y −
β X Y − Y X
β +
β X X
β
y como X X
β = X Y, obtenemos
SCR = Y Y − 2
β X Y +
β X Y = Y Y −
β X Y
Consideremos ahora los vectores Y
1 = X

2 = X
β1 y Y β2 , donde
β1 y
β2 son dos soluciones MC.

Entonces Y
2 pertenecen al subespacio X generado por las columnas de X y su diferencia

1 y Y
1 − Y
Y
2 también. Por otra parte, observamos que

1 − Y
X (Y
2 ) = X X
β1 − X X
β2 = X Y − X Y = 0
de modo que Y
1 − Y
2 pertenece al ortogonal de X . Ası́ pues, necesariamente Y

1 − Y

2 = 0 y el

1 = Y − Y
vector de errores e = Y − Y
2 es único.
En consecuencia, la suma de cuadrados de los errores SCR también es única.
Interpretación geométrica
El modelo teórico es
Y = Xβ + = θ + si θ = Xβ
Entonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacio Ω = X y
para estimar los parámetros β debemos minimizar
= Y − θ2 con θ ∈ Ω = X
Como el vector concreto de observaciones Y se puede considerar un vector de Rn , el problema
anterior se puede resolver en términos geométricos. Ası́ se sabe que cuando θ ∈ Ω, Y − θ2 es
mı́nimo para θ = Y
= PY, donde P es la matriz de la proyección ortogonal en Ω = X (ver

de Y sobre X ,
Apéndice B). La estimación MC es equivalente a hallar la proyección ortogonal Y

es mı́nima:
es decir, la norma euclı́dea de e = Y − Y

2
SCR = e e = e2 = Y − Y
Se comprende que cualquier otra proyección no ortogonal darı́a una solución menos adecuada.
Y e
Ω = X
Y
2.4. ESTIMACIÓN DE LOS PARÁMETROS 33

es ortogonal a Ω, se verifica que
Como e = Y − Y

=0
X (Y − Y) ó
= X Y
X Y
donde Y
está determinada por ser la única proyección ortogonal de Y en Ω. Cuando las columnas
de X son linealmente independientes, forman una base y existe un único vector

= X
β tal que Y β
de manera que

= X Y ⇒ X X
X Y β = X Y
son las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son depen-
dientes no podemos concretar una solución única para los parámetros β. Sin embargo todas las
soluciones deben verificar la siguiente propiedad.
Teorema 2.4.4
β es una estimación MC de β si y sólo si X
β = PY, donde P es la proyección ortogonal en Ω = X
Demostración:
Una estimación
β de β es MC si y sólo si
(Y − X
β) (Y − X
β) = mı́n (Y − Xβ) (Y − Xβ)

β
Sea
β una estimación cualquiera de β, entonces
(Y − X
β) (Y − X
β) = (Y − PY + PY − Xβ) (Y − PY + PY − Xβ)
= (Y − PY) (Y − PY) + (Y − PY) (PY − X
β)
+ (PY − X
β) (Y − PY) + (PY − X
β) (PY − X
β)
Sin embargo
(Y − PY) (PY − X
β) = Y (I − P)PY − Y (I − P)X
β=0
ya que P es idempotente y además PX = X. De forma que
β) (Y − X
(Y − X β) = (Y − PY) (Y − PY) + (PY − X
β) (PY − X
β)
donde ambos términos son positivos, el primero no depende de

β y el segundo se minimiza si es

cero, luego PY = Xβ.

En resumen y como ya hemos visto, la solución del problema se basa en la proyección ortogonal

= PY y por ende del
sobre el subespacio Ω que garantiza la unicidad del vector de predicciones Y

y de la suma de cuadrados de los residuos
vector de residuos e = Y − Y
SCR = e e = (Y − PY) (Y − PY) = Y (I − P)Y
ya que I − P es idempotente (ver Apéndice B).

La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuación Xβ = PY
y sólo es única cuando el rango de la matriz X es máximo.
Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y1 = θ + 1
y2 = 2θ + 2
y3 = −θ + 3
que en expresión matricial escribimos

⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜⎜⎝ y2 ⎟⎟⎟⎟⎠ = ⎜⎜⎜⎝⎜ 2 ⎟⎟⎟⎟⎠ θ + ⎜⎜⎜⎜⎝ 2 ⎟⎟⎟⎟⎠
y3 −1 3
de modo que X = (1, 2, −1).

Las ecuaciones normales son
⎛ ⎞ ⎛ ⎞
⎜⎜⎜⎜ 1 ⎟⎟⎟⎟ ⎜⎜⎜⎜ y1 ⎟⎟⎟
⎟⎟⎟
1 2 −1 ⎜⎜⎜⎜ 2 ⎟⎟⎟⎟ θ = 1 2 −1 ⎜⎜⎜⎜ y2 ⎟⎟⎠
⎝ ⎠ ⎝
−1 y3
es decir
6θ = y1 + 2y2 − y3
y la estimación MC de θ es
θ = (y1 + 2y2 − y3 )/6.

La suma de cuadrados residual es
SCR = Y Y −
θ X Y = y21 + y22 + y23 − (y1 + 2y2 − y3 )2 /6
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son β1 , β2 y β3 . Se dispone de una balanza
de platillos con un error de pesada que podemos considerar con distribución N(0, σ). Un artificio para
mejorar la precisión y ahorrar pesadas consiste en repartir los objetos en uno o en los dos platillos y anotar
las sumas o diferencias de pesos:
x 1 β1 + x 2 β2 + x 3 β3 = y
donde y es el peso observado y xi = 0, 1, −1.

Consideremos las siguientes pesadas:
β1 + β2 + β3 = 5.53
β1 − β2 + β3 = 1.72
β1 + β2 − β3 = 0.64
β1 + β2 + β3 = 5.48
β1 − β2 + β3 = 1.70
A partir de estos datos, las ecuaciones normales son

⎧
⎪
⎪
⎪ 5β1 + β2 + 3β3 = 15.07
⎨
⎪
⎪ β1 + 5β2 − β3 = 8.23
⎪
⎩ 3β − β + 5β = 13.79
1 2 3
La estimación de los parámetros proporciona
β1 = 1.175
β2 = 1.898
β3 = 2.433
y la suma de cuadrados residual es
β1 +
SCR = (5.53 − (
β2 +
β3 ))2 + · · · = 0.00145
2.5. ESTIMACIÓN DE LA VARIANZA 35
2.5. Estimación de la varianza
La varianza de los errores del modelo lineal
σ2 = var(i ) = var(yi ) i = 1, . . . , n
es otro parámetro que debe ser estimado a partir de las observaciones de y1 , . . . , yn .
Teorema 2.5.1
Sea Y = Xβ + el modelo lineal con las hipótesis impuestas en la sección 2.3. Entonces el
estadı́stico1

σ2 = ECM = SCR/(n − r)
es un estimador insesgado de la varianza σ2 . En este estadı́stico SCR es la suma de cuadrados
residual, n el número total de observaciones y r el rango del diseño.
Demostración 1:
Las columnas x(1) , . . . , x(m) de la matriz de diseño X generan el subespacio de dimensión r que
escribimos
X = x(1) , . . . , x(m)

Sea ahora V una matriz ortogonal, es decir, tal que VV = V V = In , cuyas columnas v(1) , . . . ,
v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de modo que las r
primeras columnas generen el subespacio X
X = v(1) , . . . , v(r)
Por otra parte, Y = (y1 , . . . , yn ) es un vector aleatorio de Rn que, mediante V, transformamos en

Z = (z1 , . . . , zn ) = V Y
zi = v1i y1 + · · · + vni yn i = 1, . . . , n
Para las variables transformadas se verifica que

n
ηi si i ≤ r
E(zi ) = vhi E(yh ) = v Xβ =

h=1
(i)
0 si i > r
pues Xβ ∈ X que es ortogonal a v(i) para i > r.

Sea
β una estimación MC. Entonces
Y = X
β + (Y − X
β) = X
β+e
donde obviamente X
β ∈ X y como sabemos e ∈ X ⊥ , de manera que la transformación ortogonal

V aplicada sobre e proporciona

V e = (0, . . . , 0, zr+1 , . . . , zn )
Luego, en función de las variables zi tenemos

n
SCR = e e = (V e) V e = z2i

i=r+1
Además, por ser una transformación ortogonal, las variables z1 , . . . , zn siguen siendo incorrelacio-
nadas y de varianza σ2 . Ası́ pues
E(zi ) = 0 E(z2i ) = var(zi ) = var(yi ) = σ2
01. En muchos de los libros clásicos escritos en inglés este estadı́stico se llama MSE, siglas de mean square error.
y por lo tanto

n
E(SCR) = E(z2i ) = (n − r)σ2

i=r+1
La expresión
SCR = z2r+1 + · · · + z2n (2.5)
se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo las hipótesis de
Gauss-Markov.
Demostración 2:
Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicada en el
Apéndice C1 de Estadı́stica Multivariante:
Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzas var(Y) = V,
se tiene que
E(Y AY) = tr(AV) + µ Aµ
donde A es una matriz constante.
En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ2 I, de forma que
E(SCR) = E(Y (I − P)Y) = tr(σ2 (I − P)) + β X (I − P)Xβ

= σ2 tr(I − P)
= σ2 rg(I − P) = σ2 (n − r)
gracias a las propiedades de la matriz I − P.
2.6. Distribuciones de los estimadores
Vamos ahora a establecer algunas propiedades de los estimadores MC para un modelo de rango
máximo.
Si asumimos que los errores son insesgados E() = 0, que es la primera condición de Gauss-Markov,
entonces
β es un estimador insesgado de β
E(
β) = (X X)−1 X E(Y) = (X X)−1 X Xβ = β
Si asumimos además que los errores i son incorrelacionados y con la misma varianza, es decir
var() = σ2 I, resulta que
var(Y) = var(Y − Xβ) = var() = σ2 I
ya que Xβ no es aleatorio y en consecuencia
var(
β) = var((X X)−1 X Y) = (X X)−1 X var(Y)X(X X)−1

= σ2 (X X)−1 (X X)(X X)−1 = σ2 (X X)−1
Veamos a continuación algunos resultados acerca de la distribución de
β y SCR bajo las hipótesis

del modelo lineal normal en el caso de rango máximo.
Teorema 2.6.1
Sea Y ∼ N(Xβ, σ2 In ) con rango X = m. Entonces se verifican las siguientes propiedades:
i) La estimación MC de β coincide con la estimación de la máxima verosimilitud. Además es

insesgada y de mı́nima varianza.
2.6. DISTRIBUCIONES DE LOS ESTIMADORES 37
ii)
β ∼ N(β, σ2 (X X)−1 )
β − β) X X(
iii) (
β − β)/σ2 ∼ χ2m
iv)
β es independiente de SCR
v) SCR/σ2 ∼ χ2n−m
Demostración:
i) La función de verosimilitud es
√
1
L(Y; β, σ ) = ( 2πσ ) exp − 2 (Y − Xβ) (Y − Xβ)
2 2 −n
2σ
de modo que el mı́nimo de (Y − Xβ) (Y − Xβ) es el máximo de L.
Ya hemos visto que
β es insesgado y además, cada
βi es un estimador lineal de varianza
mı́nima de βi , ya que es centrado y de máxima verosimilitud, luego suficiente. Se llegará a
la misma conclusión como consecuencia del Teorema 3.2.1.
Por otra parte, si sustituimos β por
β en la función de verosimilitud y derivamos respecto a

σ2 resulta que el el estimador de máxima verosimilitud de la varianza es
σ2MV = SCR/n
Este estimador es sesgado y en la práctica no se utiliza, ya que disponemos del estimador

insesgado propuesto en el apartado anterior. Además, bajo ciertas condiciones generales se
puede probar que
σ2 = SCR/(n − m) es un estimador de varianza mı́nima de σ2 (véase Seber

[66, pág. 52]).
ii) Como
β = [(X X)−1 X ]Y,
β es combinación lineal de una normal y, por tanto, tiene distribu-

ción normal multivariante con matriz de varianzas-covarianzas
(X X)−1 σ2
iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior ya que
β − β) X X(
(
β − β)/σ2 = (
β − β) var(
β)−1 (
β − β) ∼ χ2m
iv) Si calculamos la matriz de covarianzas entre
β i Y − X
β tenemos
cov(
β, Y − X
β) = cov((X X)−1 X Y, (I − P)Y)

= (X X)−1 X var(Y)(I − P)
= σ2 (X X)−1 X (I − P) = 0
de modo que efectivamente

β) (Y − X
β es independiente de (Y − X
β), ya que la incorrelación
entre normales multivariantes implica su independencia.
Este resultado se ampliará en el Teorema 3.4.1.
v) Aplicando la ecuación 2.5
SCR/σ2 = (zm+1 /σ)2 + · · · + (zn /σ)2
obtenemos una suma de cuadrados de n − m variables normales independientes, es decir, una

distribución χ2n−m .

Ejemplo 2.6.1
√
La distribución de
θ del ejemplo 2.4.1 es N(θ, σ/ 6)
E(
θ) = E((y1 + 2y2 − y3 )/6) = (1/6)(θ + 4θ + θ) = θ

var(
θ) = (σ2 + 4σ2 + σ2 )/62 = σ2 /6
La distribución de SCR/σ2 es χ22 , siendo
SCR = (y1 −
θ)2 + (y2 − 2
θ)2 + (y3 +
θ)2
Ejemplo 2.6.2
La estimación de la varianza del error σ2 en el ejemplo 2.4.2 es
σ2 = 0.00145/(5 − 3) = 0.725 × 10−3
Observemos que el número de pesadas necesarias para obtener la misma precisión serı́a mayor si pesáramos
cada objeto individualmente.
2.7. Matriz de diseño reducida
Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones experi-
mentales. Para estas observaciones, el modelo que liga yi con las β es el mismo, lo que se traduce
en que las filas de la matriz de diseño correspondientes están repetidas. Para evitar la redundancia
que esto supone nos será muy útil, a efectos teóricos y de cálculo, introducir el concepto de matriz
de diseño reducida.
Definición 2.7.1
Dado el modelo lineal Y = Xβ + , llamaremos matriz de diseño reducida XR a la matriz k × m obtenida
tomando las k filas distintas de la matriz de diseño original X. Diremos entonces que k es el número de
condiciones experimentales.
Las matrices de diseño original o ampliada y reducida las indicaremos por X y XR respectivamente,
cuando convenga distinguir una de otra.
Si la fila i-ésima de XR está repetida ni veces en X, significa que se han obtenido ni réplicas de
la variable observable bajo la i-ésima condición experimental. Si estos números de réplicas son
n1 , n2 , . . . , nk , entonces
n = n1 + n2 + · · · + nk
Además de la matriz reducida XR , utilizaremos también la matriz diagonal
D = diag(n1 , n2 , . . . , nk )
y el vector de medias
Ȳ = (ȳ1 , ȳ2 , . . . , ȳk )
donde cada yi es la media de las réplicas bajo la condición experimental i.
En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones experi-
mentales distintas (caso de una sola observación por casilla), entonces
XR = X Ȳ = Y D=I ni = 1
Como veremos más adelante (ver sección 11.7), la utilización de XR , D e Ȳ nos permitirá abordar
diseños no balanceados y el caso de observaciones faltantes.
2.7. MATRIZ DE DISEÑO REDUCIDA 39
Teorema 2.7.1
La solución de las ecuaciones normales y la suma de cuadrados residual en términos de la matriz

de diseño reducida XR , de D e Ȳ es
β = (XR DXR )−1 XR DȲ

SCR = Y Y −
β XR DȲ
Demostración:
Sea M una matriz n × k de forma que cada columna i es
(0, . . . , 0n , 1, . . . , 1ni , 0, . . . , 0n )

donde k es el número de condiciones experimentales (número de filas distintas de X), ni el número

de réplicas bajo la condición i, y además
n = n1 + · · · + ni−1 n = ni+1 + · · · + nk
Se verifica
M Y = DȲ MXR = X M M = D X Y = XR M Y = XR DȲ
de donde se siguen inmediatamente las fórmulas del teorema.
Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2

⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟ ⎜⎜⎜ 5.53 ⎟
⎜⎜⎜ ⎟ ⎜⎜⎜ ⎟⎟⎟⎟⎟
⎜⎜⎜ 1 −1 1 ⎟⎟⎟⎟ ⎜⎜⎜ 1.72 ⎟⎟⎟
⎟
X = ⎜⎜⎜⎜⎜ 1 1 −1 ⎟⎟⎟⎟⎟ Y = ⎜⎜⎜⎜⎜ 0.64 ⎟⎟⎟
⎟⎟⎟
⎜⎜⎜ ⎟ ⎜⎜⎜
⎜⎜⎝ 1 1 1 ⎟⎟⎟⎟ ⎜⎜⎝ 5.48 ⎟⎟⎟
⎟⎠
⎠
1 −1 1 1.70
Agrupando las filas 1, 4 y 2, 5 obtenemos

⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟ ⎜⎜⎜ 2 0 0 ⎟⎟⎟
⎜ ⎟⎟⎟ ⎜ ⎟
XR = ⎜⎜⎜⎜ 1 −1 1 ⎟⎟⎠ D = ⎜⎜⎜⎜ 0 2 0 ⎟⎟⎟⎟
⎝ ⎝ ⎠
1 1 −1 0 0 1
donde n1 = n2 = 2, n3 = 1, k = 3.
⎛ ⎞ ⎛ ⎞
⎜⎜⎜ (5.53 + 5.48)/2 ⎟⎟⎟ ⎜⎜⎜ 5.505 ⎟⎟⎟
⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟
Ȳ = ⎜⎜⎜⎜ (1.72 + 1.70)/2 ⎟⎟⎠ = ⎜⎜⎝ 1.710 ⎟⎟⎟⎟⎠
⎝
0.64 0.640
La matriz M es ⎛ ⎞
⎜⎜⎜ 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 0 0 ⎟⎟⎟
M = ⎜⎜⎜⎜⎜ 0 1 0 ⎟⎟⎟
⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎝ 0 1 0 ⎟⎠
0 0 1
Ejemplo 2.7.2
Consideremos el modelo
yij = µ + αi + βj + ij
correspondiente al diseño de dos factores sin interacción.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los números de réplicas
son
n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4
La matriz de diseño reducida es

µ α1 α2 β1 β2 β3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1

Sin embargo, la matriz de diseño ampliada tiene 6 columnas y nij = 18 filas.
2.8. Matrices de diseño de rango no máximo
Cuando el modelo lineal corresponde al análisis de los datos de un diseño experimental, la matriz
X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a ser linealmente
dependientes. Ya sabemos que en este caso es posible hallar el estimador MC de θ = Xβ pero,
por desgracia, hay múltiples estimaciones de los parámetros β que más bien podemos considerar
como soluciones
β de las ecuaciones normales. En todo caso y como veremos en el próximo
capı́tulo estamos interesados en concretar una estimación de los parámetros β aunque no sea
única. A continuación se comentan algunos métodos para hallar una solución
β o para hallar la
SCR directamente.
2.8.1. Reducción a un modelo de rango máximo
Sea X1 la matriz n × r con las r = rg X columnas linealmente independientes de la matriz de diseño

X, entonces P = X1 (X1 X1 )−1 X1 de forma que

SCR = Y (I − P)Y = Y Y −
α X1 Y
donde
α = (X1 X1 )−1 X1 Y es la solución del modelo Y = X1 α + de rango máximo.
Podemos asumir, sin pérdida de generalidad, que X1 está formada por las r primeras filas de X de
manera que X = (X1 , X2 ). Entonces X2 = X1 F ya que las columnas de X2 son linealmente depen-
dientes de las de X1 y, por tanto, X = X1 (Ir , F). Ası́, éste es un caso especial de una factorización
más general del tipo
X = KL
donde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribir
Xβ = KLβ = Kα
y estimar α.
2.9. EJERCICIOS 41
2.8.2. Imposición de restricciones
Este método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 para evitar la
indeterminación de β. Las restricciones apropiadas, llamadas identificables, son aquellas que, para
cada θ ∈ Ω = X , existe un único β que satisface θ = Xβ y 0 = Hβ, es decir, que satisface

θ X
= β = Gβ
0 H
La solución es simple. Debemos elegir como filas de H un conjunto de m − r vectores de longitud

m linealmente independientes que sean también linealmente independientes de las filas de X.

Entonces la matriz G de orden (n + m − r) × m tendrá rango m de modo que G G = X X + H H es
m × m de rango m y en consecuencia tiene inversa. Luego hemos salvado la deficiencia en el rango
de X X introduciendo la matriz H H.
Ası́ pues, si añadimos H Hβ = 0 a las ecuaciones normales tenemos

G Gβ = X Y
cuya solución es
θ = X
β = (G G)−1 X Y. Se puede ver, a partir de

β = PY, que P = X(G G)−1 X ya
que P es única.
La demostración de todos los detalles aquı́ expuestos puede verse en Seber [66, pág. 74].
Es interesante comprobar que, si Hβ = 0, entonces
E(

β) = (G G)−1 X Xβ

= (G G)−1 (X X + H H)β = β
de modo que
β es un estimador insesgado de β.
Este método es particularmente útil en los modelos de análisis de la varianza para los que H se
halla con mucha facilidad.
Ejemplo 2.8.1
Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 niveles
yij = µ + αi + ij i = 1, 2, 3 j = 1, . . . , ni
entonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de los parámetros resulta
indeterminada.

Sin embargo, si añadimos la restricción αi = 0, es decir, si hacemos H = (0, 1, 1, 1), el sistema conjunto
es de rango 4 y podemos determinar una solución o calcular la suma de cuadrados residual.
2.9. Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en función de otra variable X con los valores x1 , x2 y
x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su caso, la matriz de
diseño para x1 = 1, x2 = 2 y x3 = 3.
a) yi = β0 + β1 xi + β2 (x2i − 1) + i
b) yi = β0 + β1 xi + β2 exi + i
c) yi = β1 xi (β2 tang(xi )) + i
Ejercicio 2.2
Dado el modelo lineal
y1 2 1
= θ+
y2 1 2
hallar la estimación MC de θ y la suma de cuadrados residual.
Ejercicio 2.3
Si
β es una estimación MC, probar que
(Y − Xβ) (Y − Xβ) = (Y − X
β) (Y − X
β) + (
β − β) X X(
β − β)
Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son β1 , β2 , β3 y β4 han sido pesados en una balanza de platillos
de acuerdo con el siguiente esquema:
β1 β2 β3 β4 peso
1 1 1 1 9.2
1 −1 1 1 8.3
1 0 0 1 5.4
1 0 0 −1 −1.6
1 0 1 1 8.7
1 1 −1 1 3.5
Hallar las estimaciones de cada βi y de la varianza del error.
Ejercicio 2.5
Sea

= X
β la estimación MC de β. Si Y β = PY, probar que la matriz P verifica
P2 = P (I − P)2 = I − P
Ejercicio 2.6
La matriz de diseño reducida de un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 1 1 ⎟⎟⎟
⎜ ⎟
XR = ⎜⎜⎜⎜ 1 0 1 ⎟⎟⎟⎟
⎝ ⎠
0 1 0
Se sabe además que
y1 = 10 y2 = 12 y3 = 17 n1 = n2 = n3 = 10
1
s21 = (yi1 − y1 )2 = 2.8 s22 = 4.2 s23 = 4.0
n1
Se pide:
a) Hallar la expresión general de las estimaciones MC de los parámetros β.
b) Calcular SCR. Estimar la varianza del diseño σ2 .
c) Estudiar si la hipótesis nula H0 : σ2 = 3 puede ser aceptada.

2.9. EJERCICIOS 43
Ejercicio 2.7
Consideremos el modelo lineal
yi = β0 + β1 xi1 + · · · + βm xim + i i = 1, . . . , n
β0 ,
Sean
β1 , . . . ,
βm las estimaciones MC de los parámetros y sea
yi =

β0 +
β1 xi1 + · · · +
βm xim i = 1, . . . , n
Probar que

n
n
(yi −
yi ) = ei = 0
i=1 i=1
3
Funciones paramétricas
estimables
3.1. Introducción
En los modelos lineales, además de la estimación de los parámetros βi y de σ2 , interesa tam-

bién la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver, esto es
especialmente necesario cuando los parámetros carecen de una estimación única.
Definición 3.1.1
Llamaremos función paramétrica a toda función lineal ψ de los parámetros
ψ = a1 β 1 + · · · + a m β m = a β
y diremos que una función paramétrica ψ es estimable si existe un estadı́stico
ψ, combinación lineal de las

observaciones y1 , . . . , yn

ψ = b1 y1 + · · · + bn yn = b Y
tal que
E(
ψ) = ψ
es decir,
ψ es estimador lineal insesgado de ψ.
Estas funciones paramétricas tienen la siguiente caracterización
Teorema 3.1.1
Sea ψ = a β una función paramétrica estimable asociada al modelo lineal Y = Xβ + . Se verifica:
i) ψ es estimable si y sólo si el vector fila a es combinación lineal de las filas de X.
ii) Si ψ1 , . . . , ψq son funciones paramétricas estimables, entonces la combinación lineal ψ =

c1 ψ1 + · · · + cq ψq es también función paramétrica estimable.
iii) El número máximo de funciones paramétricas estimables linealmente independientes es

r = rango(X).
Demostración:
ψ = b Y tal que E(
i) Sea

ψ) = ψ. Entonces

a β = E(b Y) = b E(Y) = b Xβ
cualquiera que sea β, luego

a = b X
46 CAPÍTULO 3. FUNCIONES PARAMÉTRICAS ESTIMABLES
lo que nos dice que a es combinación lineal de las filas de la matriz de diseño X.
Recı́procamente, si suponemos que b X = a , entonces basta tomar

ψ = b Y como estimador
lineal insesgado de ψ.
ii) y iii) para el lector (ver ejercicio 3.4)
Observaciones:
1) Si rango X = m, entonces todos los parámetros βi y todas las funciones paramétricas ψ son
estimables, pues el subespacio generado por las filas de X coincide con Rm .
2) Si rango X < m, pueden construirse funciones paramétricas que no son estimables.
3) Una caracterización algebraica de que ψ = a β es estimable viene dada por la identidad
a (X X)− X X = a
donde (X X)− representa una g-inversa de X X.

En efecto, consideremos las matrices
S = X X S− = (X X)− H = S− S
entonces se comprueba fácilmente que
H2 = H SH = S
Puesto que H es idempotente
rango H = traza H = rango S = rango X = r
Por otra parte tenemos
0 = S − SH = (Im − H) (S − SH) = (Im − H) (X X − X XH)

= (Im − H) (X (X − XH)) = (X − XH) (X − XH)
luego
X = XH

Entonces, si ψ = a β es estimable, a = b X y

a H = b XH = b X = a
Recı́procamente, si a H = a , resulta que

a = a S− S = (a S− X )X = b X

siendo b = a S− X .
3.2. Teorema de Gauss-Markov
Vamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximo y, por tanto,
la estimación MC de los parámetros no es única, la estimación de cualquier función paramétrica
estimable utilizando cualquiera de los estimadores MC sı́ es única.
3.2. TEOREMA DE GAUSS-MARKOV 47
Teorema 3.2.1
Si ψ = a β una función paramétrica estimable y
β es un estimador MC de β, entonces el estimador
ψ = a β de ψ es único.
Demostración:

Si ψ es una función paramétrica estimable, tiene un estimador lineal insesgado b Y, donde b es
un vector n × 1. Consideremos el subespacio Ω = X de Rn generado por las columnas de X. El
vector b se puede descomponer de forma única
b=
b+c
b∈Ω c⊥Ω
de modo que c es ortogonal a todo vector de Ω.

Consideremos ahora el estimador lineal
b Y y veamos que es insesgado y que su valor es único.

Sabemos que b Y es insesgado

ψ = a β = E(b Y) = E(
b Y) + E(c Y) = E(
b Y) =

b Xβ (3.1)

luego E(
b Y) = a β, pues
E(c Y) = c E(Y) = c Xβ = 0β = 0
∗ ∗
Supongamos que b Y es otro estimador insesgado para ψ y b ∈ Ω. Entonces

b Y) − E(b Y) = (
0 = E(
∗ ∗
b − b )Xβ
luego

(
∗
b − b )X = 0

lo que quiere decir que (
b −b ) es ortogonal a Ω. Como también pertenece a Ω, debe ser
∗ ∗
b−b = 0,
es decir,
∗
b=b.
Por último, sabemos que para cualquier estimador MC de β e = Y − X
β es ortogonal a Ω, de
manera que

0=be= bY− b X
β

y ası́
bY= β. Además, por 3.1 sabemos que
b X

b X = b X = a , luego

b Y = a
para cualquier
β.
A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.
Teorema 3.2.2 (Gauss-Markov)

Si ψ = a β una función paramétrica estimable y
β es un estimador MC de β, entonces
ψ = a
β es
el estimador de varianza mı́nima en la clase de los estimadores lineales insesgados de ψ.
1
Demostración:
Con la notación
b2 = b21 + · · · + b2n
tenemos que

var(b Y) = b21 σ2 + · · · + b2n σ2 = b2 σ2
01. BLUE: best linear unbiased estimate

Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemos utilizado en

el teorema anterior y dado que
b2 =
b2 + c2
resulta
var(a
b Y) =
β) = var( b2 σ2 ≤ (

b2 + c2 )σ2 = var(b Y)

Observaciones:
1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de normalidad.
2) La estimación con varianza mı́nima es

ψ = a (X X)− X Y

3) Como la varianza de b Y es b bσ2 , resulta que la varianza mı́nima es
ψ) = var(a
var(
β) = σ2 a (X X)− a
4) Utilizando la matriz de diseño reducida tenemos

ψ = a (XR DXR )− XR DȲ
var(
ψ) = σ2 a (XR DXR )− a
De aquı́ deducimos que
ψ es combinación lineal de las medias de las k condiciones experi-

mentales

ψ = c1 Ȳ1 + · · · + ck Ȳk = c Ȳ
donde c = (c1 , . . . , ck ) es
c = DXR (XR DXR )− a
Entonces ⎛ k ⎞
⎜⎜⎜ 2 ⎟⎟⎟ 2
ψ) = ⎜⎜⎝ ci /ni ⎟⎟⎠ σ = δ2 σ2
var(
i=1
Por otra parte, todo estimador lineal insesgado

ψ = b Y de ψ = a β se descompone como hemos
visto en
bY=

b Y + c Y

Diremos que b Y (donde b es único) pertenece al espacio estimación y que c Y pertenece al espacio
error.

Más explı́citamente, la descomposición de b es

b = b P + b (I − P)
siendo P = X(X X)− X la matriz del operador que proyecta b en Ω = X (ver Apéndice B). El

vector proyectado es

b = b P. Asimismo, I − P es otro operador que proyecta b en el espacio

ortogonal a Ω. La proyección es c = b (I − P). Como

b c = 0, se verifica

cov(
b Y, c Y) = 0

Ası́ pues, todo estimador lineal insesgado b Y se descompone en

b Y = b PY + b (I − P)Y
3.2. TEOREMA DE GAUSS-MARKOV 49

donde b PY es el estimador de Gauss-Markov, mientras que b (I − P)Y tiene esperanza cero y
provoca un aumento de la varianza mı́nima del mejor estimador

ψ = b PY.
Finalmente, observemos que
ψ = b PY = b X(X X)− X Y = b X(X X)− X X

β=
(3.2)
= b XH
β = a

β

Siendo H = (X X)− X X, que verifica XH = X, y siendo a = b X.
El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espacio muestral Rn
al que pertenece el vector de observaciones Y, se descompone en
Rn = Ω + Ω⊥
donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresión está ligada
a Ω. Toda estimación de la varianza del modelo está ligada al espacio error Ω⊥ . Ambos espacios
son ortogonales y bajo el modelo lineal normal, como veremos más adelante, ambas clases de
estimaciones son estocásticamente independientes.
Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una población N(µ, σ). El modelo lineal asociado
es ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ y1 ⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ µ +
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
yn 1

El estimador MC de µ es
µ = (1/n) yi que también es de Gauss-Markov (centrado y de varianza
mı́nima).
En este caso Rn = Ω + Ω⊥ , siendo
Ω = (1, . . . , 1)
Ω⊥ = {(x1 , . . . , xn ) | xi = 0}

Sea a Y = ai yi otro estimador centrado de µ. Entonces E(a Y) = µ implica ai = 1. Luego se verifica
a =a + b, es decir, ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟ ⎜⎜⎜ 1/n ⎟⎟⎟ ⎜⎜⎜ a1 − 1/n ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟
⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ + ⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠ ⎜⎝ ⎟⎠
an 1/n an − 1/n

con
a ∈ Ω, b ∈ Ω⊥ . Es fácil ver que
a b = 0. Además

ai yi = (1/n) yi + (ai − 1/n)yi
El primer término es estimador centrado y de varianza mı́nima σ2 /n. El segundo término verifica

E( (ai − 1/n)yi ) = 0

cov(1/n yi , (ai − 1/n)yi ) = 0
La matriz del operador que proyecta a en Ω es

⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ 1/n . . . 1/n ⎟⎟⎟
⎜⎜ .. ⎟⎟⎟ ⎜⎜⎜ . .. .. ⎟⎟⎟⎟
P = 1/n ⎜⎜⎜⎜ . ⎟⎟⎟ (1, . . . , 1) = ⎜⎜⎜ .. . . ⎟⎟⎟
⎜⎝ ⎟⎠ ⎜⎝ ⎠
1 1/n . . . 1/n
siendo fácil ver que
a P = (1/n, . . . , 1/n)
a (I − P) = (a1 − 1/n, . . . , an − 1/n)
Ejemplo 3.2.2
Ver especialmente el final del ejemplo 5.3.2.
3.3. Varianza de la estimación y multicolinealidad

Sabemos que a β se dice estimable si tiene un estimador lineal insesgado b Y o, equivalentemente,
cuando a = X b. Es decir, cuando a es combinación lineal de las filas de la matriz X.
Teorema 3.3.1
La función paramétrica a β es estimable si y sólo si
a ∈ X = X X
Demostración:
Como sabemos, la función paramétrica a β es estimable si y sólo si a es combinación lineal de las
filas de X, es decir, cuando a ∈ X . De modo que sólo queda probar que
X = X X
Pero X Xc = X d para d = Xc, de forma que X X ⊂ X . Además, las dimensiones de ambos
subespacios son iguales ya que rg X = rg X X, de donde se deduce la igualdad.
Los detalles pueden verse en Seber [66, pág. 385].
En el apartado anterior hemos demostrado que para una función paramétrica estimable a β, su
estimador MC a
β es el de mı́nima varianza. Pero, ¿cuanto vale esta varianza?
Supongamos que X X tiene como valores propios λ1 , . . . , λr todos positivos no nulos asociados a
los correspondientes vectores propios ortonormales v1 , . . . , vr , es decir
X Xvi = λi vi i = 1, . . . , r
y tales que vi vj = δij .

Si a β es estimable, entonces a ∈ X X y este subespacio está generado por los vectores propios.
Ası́ pues, a se puede expresar en la forma

r
a= ci vi
i=1
Entonces
⎛ ⎞
⎜⎜⎜ ⎟⎟⎟

var(a β) = var ⎜⎝ ci vi β⎟⎟⎠

⎜
i
= c var(vi
2
i β)
i

= σ2 c2i λ−1
i
i
3.4. SISTEMAS DE FUNCIONES PARAMÉTRICAS ESTIMABLES 51
ya que
cov(vi
β, vj
β) = λ−1

i λj cov(vi X Xβ, vj X Xβ)

−1
= (λi λj )−1 cov(vi X Y, vj X Y)

= (λi λj )−1 σ2 vi X Xvj
= (λi λj )−1 σ2 λj vi vj
= σ2 λ−1
i δij
Silvey[68] concluyó que es posible una estimación relativamente precisa en las direcciones de los
vectores propios de X X correspondientes a los mayores valores propios, mientras que se obtienen
unas estimaciones relativamente imprecisas (poco eficientes) en las direcciones correspondientes
a los valores propios más pequeños.
Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser linealmente
dependientes. Entonces X X está cerca de ser singular (no inversible), en el sentido que uno o
varios de sus valores propios no nulos son excesivamente pequeños, casi despreciables, y por lo
que hemos visto las estimaciones en algunas direcciones serán muy imprecisas.
La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Econometrı́a
con el nombre de multicolinealidad, cuya forma más extrema se presenta cuando la matriz de datos
X no tiene rango máximo. Este grave problema debe ser detectado previamente a la estimación y
se puede corregir de varias formas (ver sección 8.5).
Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, mediante
la incorporación de nuevas observaciones en las direcciones de los vectores propios con valores
propios demasiado pequeños (o cero).
Supongamos que una nueva observación se añade al modelo Y = Xβ + y resulta

Y X
= β +
Yn+1 xn+1 n+1
= X∗ β + ∗
donde xn+1 = cv, donde v es un vector propio normalizado de X X correspondiente a un valor
propio λ. Entonces se puede probar que v es también un vector propio de X∗ X∗ correspondiente al
valor propio λ + c2 . Y de esta forma Sylvey propuso un análisis para la elección de las direcciones en
las que es conveniente elegir nuevas observaciones para mejorar la precisión de las estimaciones
de un a β particular.
3.4. Sistemas de funciones paramétricas estimables
Consideremos un sistema de funciones paramétricas estimables

ψ1 = a1 β, . . . , ψq = aq β
sobre el mismo modelo lineal normal y donde los vectores a1 , . . . , aq (q ≤ r = rango X) son
linealmente independientes. Para cada una, tenemos las correspondientes estimaciones de Gauss-
Markov
ψi = ai

β i = 1, . . . , q
que podemos condensar matricialmente en la forma

ψq ) = A
ψ1 , . . . ,
ψ = (
β
donde ⎛ ⎞
⎜⎜⎜ a1 ⎟⎟⎟
⎜⎜ .. ⎟⎟⎟
A = ⎜⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠
aq
Con esta matriz,
ψ es el conjunto de estimadores MC del sistema de funciones paramétricas

ψ = Aβ.
Teorema 3.4.1
ψ = A
Bajo el modelo lineal normal, el conjunto de estimadores

β del sistema de funciones
paramétricas ψ = Aβ verifica:
i)
ψ sigue la distribución normal multivariante

ψ ∼ Nq (ψ, Σψ )
donde ψ = Aβ es el vector de medias y
Σψ = σ2 A(X X)− A
es la matriz de varianzas-covarianzas.
ii) La estimación MC de toda función paramétrica estimable es estocásticamente independiente
de la suma de cuadrados residual
β) (Y − X
SCR = (Y − X
β)
ψ = A
En particular,
β es estocásticamente independiente de SCR.
Demostración:
i) Es consecuencia de que
ψ es una combinación lineal de variables normales independientes:

ψi = ai (X X)− X Y
luego si
A(X X)− X = C
sabemos que E(

ψ) = ψ y la matriz de covarianzas de CY es Σ = σ2 CC , de manera que

Σψ = σ2 CC = σ2 A(X X)− X X(X X)− A = σ2 A(X X)− A
ii) Como en el teorema 2.5.1, consideremos la transformación ortogonal

Z=VY
donde las primeras r columnas de la matriz ortogonal V generan el subespacio Ω = X .

Entonces las variables z1 , . . . , zn son normales e independientes, y toda estimación de Gauss-
Markov es una combinación lineal de
z1 , . . . , zr
puesto que pertenece al espacio estimación. Sin embargo, la suma de cuadrados residual es
SCR = z2r+1 + · · · + z2n
ψi = ai
y, por tanto, será estocásticamente independiente de cualquier estimación

β.
Esto mismo se puede deducir de la expresión 3.2 ya que
ψ = BPY, mientras que
SCR = Y (I − P)Y = ((I − P)Y) (I − P)Y
donde (I − P)Y pertenece al espacio ortogonal de Ω.

3.5. INTERVALOS DE CONFIANZA 53
Teorema 3.4.2
β − Aβ) (σ2 A(X X)− A )−1 (A
La distribución de U = (A
β − Aβ) es una χ2q .
Además, U es estocásticamente independiente de SCR/σ2 cuya distribución es χ2n−r .
Demostración:
Es consecuencia de las propiedades de la distribución normal multivariante y de los teoremas 2.5.1
y 3.4.1.
Dos resultados importantes que se deducen de los teoremas anteriores son:
a) Para el modelo lineal normal y el sistema de q funciones paramétricas estimables ψ = Aβ se

verifica que la distribución de
β − Aβ) (A(X X)− A )−1 (A
(A
β − Aβ)/q
F= (3.3)
SCR/(n − r)
es una F con q y n−r grados de libertad, ya que se trata de un cociente de dos χ2 independientes
divididas por sus grados de libertad respectivos. Observemos la desaparición del parámetro
σ2 desconocido.
b) En el caso q = 1, si
ψ es la estimación de Gauss-Markov de ψ, entonces
ψ ∼ N(ψ, σ
ψ ), siendo
σ
2ψ = a (X X)− a σ2 = δ2 σ2
luego la distribución de

ψ−ψ √
t= √ n−r (3.4)
δ2 SCR
es la de una t de Student con n − r grados de libertad. Este resultado se puede establecer
directamente o a partir de 3.3 ya que F1,n−r = t2n−r .
3.5. Intervalos de confianza
ψ = a
Consideremos una función paramétrica estimable ψ = a β, su estimación MC

β y sea tα tal
que
P( − tα < t < tα ) = 1 − α
para una distribución t de Student con n − r grados de libertad. Entonces, de la distribución 3.4
deducimos que
⎛ ⎞
⎜⎜⎜
ψ−ψ √ ⎟⎟
P ⎜⎝−tα < √ n − r < tα ⎟⎟⎠ = 1 − α
δ2 SCR
y despejando obtenemos
⎛ ⎞
⎜⎜⎜ δ 2
SCR δ 2
SCR ⎟⎟⎟
P ⎜⎝
⎜ ψ − tα <ψ<
ψ + tα ⎟⎟ = 1 − α
n−r n−r ⎠
Por lo tanto

δ2 SCR δ2 SCR
ψ − tα <ψ<
ψ + tα
n−r n−r
es decir
a
β ± tα [a (X X)− a
σ2 ]1/2 (3.5)
es un intervalo de confianza para la función paramétrica estimable ψ = a β, con coeficiente de
confianza 1 − α.
Por otra parte, como SCR/σ2 sigue una χ2n−r tenemos
P(a < SCR/σ2 < b) = 1 − α
donde a y b son tales que
P(χ2n−r ≤ a) = α/2 P(χ2n−r > b) = α/2
Deducimos entonces que

SCR SCR
P <σ <
2
=1−α (3.6)
b a
define un intervalo de confianza para la varianza σ2 del modelo lineal normal, con coeficiente de
confianza 1 − α.
3.6. Ejercicios
Ejercicio 3.1
Sea ψ una función paramétrica estimable y
ψ1 ,
ψ2 dos estimadores insesgados, estocásticamente

independientes, de varianzas σ1 y σ2 . Hallar la combinación lineal de
2 2
ψ1 ,
ψ2 cuya varianza es
mı́nima y además es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de diseño es
⎛ ⎞
⎜⎜⎜ 1 1 1 1 1 ⎟⎟⎟
⎜⎜⎜ 1 0 1 0 0 ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ 1 1 1 0 0 ⎟⎟⎟
⎜⎝ ⎟⎠
1 0 1 1 1
Hallar la expresión general de las funciones paramétricas estimables.
Ejercicio 3.3
Probar que

ψ=bY E(
ψ) = ψ = a β
siendo b combinación lineal de las columnas de X, implica que a es combinación lineal de las filas
de X.
Ejercicio 3.4
Probar que toda combinación lineal de funciones paramétricas estimables es también función
paramétrica estimable y que r = rg X es el número máximo de funciones linealmente indepen-
dientes.
Ejercicio 3.5
Si
ψ es la estimación de Gauss-Markov, probar que la expresión
ψ = c1 ȳ1 + · · · + ck ȳk
función de las medias de las condiciones experimentales, es única.

3.6. EJERCICIOS 55
Ejercicio 3.6
La matriz de diseño reducida correspondiente a un modelo lineal normal es
⎛ ⎞
⎜⎜⎜ 1 0 1 ⎟⎟⎟
⎜ ⎟
X = ⎜⎜⎜⎜ 1 1 0 ⎟⎟⎟⎟
⎝ ⎠
0 −1 1
Se sabe además que
ȳ1 = 11 ȳ2 = 10 ȳ3 = 15

n1 = n2 = n3 = 10

n1
s1 = (1/n1 )
2
(yi − ȳ1 )2 = 4.5
i=1
s22 = 6.0 s23 = 4.3
Se pide
1) Hallar la expresión general de las estimaciones MC de β.
2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación 0.05)
3) Dada la función paramétrica estimable
ψ = β1 + β3
contrastar la hipótesis H0 : ψ = 3 en los casos:
a) σ2 varianza del diseño desconocida

b) σ2 = 5 varianza del diseño conocida
(nivel de significación 0.05)
4) Hallar la función paramétrica estimable ψ tal que

ψ = c1 ȳ1 + c2 ȳ2 + c3 ȳ3
verifica c21 + c22 + c23 = 1 y además
ψ es máximo.
Ejercicio 3.7
y1 = β1 + β2 + 1
y2 = β1 + β3 + 2
y3 = β1 + β2 + 3
Se pide:
1) ¿Es la función paramétrica

ψ = β1 + β 2 + β 3
estimable?
2) Probar que toda función paramétrica
ψ = a1 β1 + a 2 β2 + a 3 β3
es estimable si y sólo si a1 = a2 + a3 .
Ejercicio 3.8
y1 = µ + α1 + β1 + 1
y2 = µ + α1 + β2 + 2
y3 = µ + α2 + β1 + 3
y4 = µ + α2 + β2 + 4
y5 = µ + α3 + β1 + 5
y6 = µ + α3 + β2 + 6
(a) ¿Cuando es λ0 µ + λ1 α1 + λ2 α2 + λ3 α3 + λ4 β1 + λ5 β2 estimable?
(b) ¿Es α1 + α2 estimable?
(c) ¿Es β1 − β2 estimable?
(d) ¿Es µ + α1 estimable?
(e) ¿Es 6µ + 2α1 + 2α2 + 2α3 + 3β1 + 3β2 estimable?
(f) ¿Es α1 − 2α2 + α3 estimable?
(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricas β1 − β2
y α1 − α2 , si éstas son estimables.
(h) Hallar la dimensión del espacio paramétrico.
(i) Obtener una expresión del espacio de los errores.
Ejercicio 3.9
Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reunidos pesan
y1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y B y D se ponen en el plato
derecho, un peso de y2 gramos es necesario en el plato derecho para equilibrar la balanza. Con A y
B en el plato izquierdo y C, D en el plato derecho, y3 gramos son necesarios en el plato derecho y,
finalmente, con A, D en el plato izquierdo y B, C en el plato derecho, y4 gramos son necesarios en
la derecha para equilibrar. Si las observaciones y1 , y2 , y3 , y4 son todas con errores incorrelacionados
y con varianza común σ2 , obtener la estimación BLUE del peso total de los cuatro objetos y su
varianza.
Ejercicio 3.10
Un transportista realiza diversos trayectos entre tres poblaciones A, B y C. En cuatro dias conse-
cutivos ha hecho los recorridos que muestra la siguiente tabla:
trayecto km
A→B→A→C 533
C→A→C→B 583
B→C→A→C→A→B→A 1111
A→B→A→C→A→B→A 1069
donde el kilometraje es, por diversas causas, aproximado.
(a) Proponer un modelo lineal, con la matriz de diseño y las hipótesis necesarias, para estimar
las distancias kilométricas entre las tres poblaciones.
Con los datos proporcionados, ¿es posible estimar las distancias entre las tres poblaciones?
¿Cuales son las distancias o funciones paramétricas estimables (fpe) en este modelo?
3.6. EJERCICIOS 57
(b) ¿Se puede estimar el kilometraje del trayecto MBC → B → A → C → MAC , donde MIJ es
el punto medio entre dos poblaciones? ¿Es una buena estimación? ¿Cual es el error de esta
estimación?
Ejercicio 3.11
Con el modelo lineal
y1 = θ1 + θ5 + 1
y2 = θ2 + θ5 + 2
y3 = θ3 + θ6 + 3
y4 = θ4 + θ6 + 4
y5 = θ1 + θ7 + 5
y6 = θ3 + θ7 + 6
y7 = θ2 + θ8 + 7
y8 = θ4 + θ8 + 8
contestar las siguientes preguntas:
(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo de todas
ellas.
(b) Probar que θ1 − θ2 es estimable. Calcular su estimador lineal MC y su varianza.
(c) Probar que θ1 + θ2 no es estimable.
(d) Hallar cuatro estimadores insesgados diferentes de θ1 − θ2 y calcular sus varianzas. Compa-
rarlas con la varianza del estimador MC.
(e) Hallar un estimador insesgado de la varianza de los errores σ2 .
Ejercicio 3.12

Diremos que el estimador lineal b Y pertenece al espacio error si E(b Y) = 0. Probar que la
covarianza entre b Y y todo estimador de Gauss-Markov

ψ = a β es siempre cero.
Ejercicio 3.13

Consideremos el modelo lineal normal Y = Xβ + , siendo rg X = r. Sea X = U∆V una descom-
posición en valores singulares de X. Se pide:
1) Expresar la estimación MC de β en términos de U, ∆, V y Y.
2) Sea ψ = a β una función paramétrica. Probar que ψ es estimable si y sólo si se verifica

a = b V
para algún vector b.

ML (Pages 1 - 57)

Cargado por

Copyright:

Formatos disponibles

ML (Pages 1 - 57)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ML (Pages 1 - 57)

Cargado por

Copyright:

Formatos disponibles

e-UMAB

Francesc Carmona Pontaque

Electronic-University Mathematical Books

“Soñemos con un mundo unido

José Marı́a de Llanos (Padre Llanos)

La teorı́a y aplicaciones de los modelos lineales ocupan un papel fundamental en la Estadı́stica.

Dr. Carles M. Cuadras

Barcelona, 6 de mayo de 2004. Dr. Francesc Carmona

3. Funciones paramétricas estimables 45

5. Contraste de hipótesis lineales 69

6. Regresión lineal simple 91

7. Una recta resistente 121

8. Regresión lineal múltiple 133

9. Diagnosis del modelo 161

10.Regresión robusta 175

10.3. Ejemplos con S-PLUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

11.Análisis de la Varianza 185

12.Análisis de Componentes de la Varianza 223

B. Proyecciones ortogonales 255

C. Estadı́stica multivariante 259

Índice alfabético 265

“observación” = “modelo” + “error aleatorio”

El experimentador puede, fijando las condiciones de su experimento, especificar la estructura del

Dato Densidad Velocidad Dato Densidad Velocidad

Tabla 1.1: Datos del problema de tráfico

Como la congestión afecta a la velocidad, estamos interesados en determinar el efecto de la

Figura 1.1: Nube de puntos del problema de tráfico

(yi − (a + bxi ))2

En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.

(yi − (a + bxi + cx2i ))2

Figura 1.2: Gráficos de los residuos del modelo recta de regresión.

Figura 1.3: Gráficos de los residuos del modelo parabólico.

que continúa siendo un modelo lineal.

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + i i = 1, . . . , n

1.4. El método de los mı́nimos cuadrados

S= i2 = (yi − (β0 + β1 xi1 + · · · + βk xik ))2

En el caso de la regresión lineal simple

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mı́nimo-cuadráticos)

La estimación MC de γ0 , β1 es equivalente a la estimación de β0 , β1 , ya que γ0 = β0 + β1 x̄. De modo

ŷi = βˆ0 + βˆ1 xi = ȳ + βˆ1 (xi − x̄)

Como consecuencia resulta que

lo que no ocurre en un modelo sin β0 .

i=1 (yi − ȳ)

Sabemos que 0 ≤ R2 ≤ 1 y cuando R2 ≈ 1 el ajuste es bueno.

1.5. Las condiciones de Gauss-Markov

Primera condición E(i ) = 0 i = 1, . . . , n

Se trata de una condición natural sobre un error.

Segunda condición var(i ) = E(i2 ) = σ2 constante i = 1, . . . , n

Otras situaciones extrañas, que también se pretende prevenir, son:

El punto I del gráfico representa un punto influyente y

El punto I del gráfico es claramente influyente, aunque no

Tercera condición E(i j ) = 0 ∀i j

donde E() es el vector de esperanzas matemáticas y var() es la matriz de covarianzas de =

1.6. Otros tipos de modelos lineales

1.7. Algunas preguntas

• Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal. Por

• ¿Se verifican realmente las condiciones de Gauss-Markov?

• ¿Qué ocurre si las variables predictoras son discretas?

• ¿Qué ocurre si la variable dependiente es discreta o una proporción?

1. El vector de observaciones Y = (y1 , y2 , . . . , yn ) .

2. El vector de parámetros β = (β1 , β2 , · · · , βm ) .

4. El vector de errores o desviaciones aleatorias = (1 , 2 , . . . , n ) , donde i es la desviación

= (Y − Xβ) (Y − Xβ) (2.2)

donde A− = (X X)− es una g-inversa de A = X X, es decir, A− verifica

β = (X X)− X Y + (I − A− A)z

Sea Ω = X ⊂ Rn el subespacio vectorial generado por las columnas de X de dimensión dimX =

E(Y) = x(1) β1 + · · · + x(m) βm ∈ X

β = PY, donde P es la proyección ortogonal en Ω = X

β) = mı́n (Y − Xβ) (Y − Xβ)

SCR = e e = (Y − PY) (Y − PY) = Y (I − P)Y

de modo que X = (1, 2, −1).

θ X Y = y21 + y22 + y23 − (y1 + 2y2 − y3 )2 /6

Por otra parte, Y = (y1 , . . . , yn ) es un vector aleatorio de Rn que, mediante V, transformamos en

pues Xβ ∈ X que es ortogonal a v(i) para i > r.

SCR = e e = (V e) V e = z2i