Regresion Lineal
Regresion Lineal
Regresion Lineal
REGRESIÓN LINEAL
APUNTES DE CLASES
Horacio Gilabert
La regresión lineal es un método o una técnica que sirve para obtener una relación matemática entre
una variable dependiente (respuesta) y un conjunto de variables independientes (predictoras). La
relación involucra la determinación de una serie de parámetros desconocidos i, que relacionan el valor
de la variable dependiente Y con el valor de la(s) variables independientes (Xi). En general este tipo de
funciones se utilizan para predecir o estimar el valor de la variable dependiente a partir de una serie (1 o
más) de variables independientes. La expresión general del modelo es:
Y 0 1 X 1 2 X 2 ... p X p
Este es el modelo de regresión lineal múltiple (RLM) que contempla más de una variable independiente
que en el caso del modelo RLS es una sola. La relación matemática es lineal en los parámetros
desconocidos i) — y por esto se habla de un modelo de regresión lineal — pero no necesariamente en
las variables. Por ejemplo es posible tener un modelo con las siguientes variables:
Y 0 1 X 1
1. La mayoría de los problemas industriales pueden ser aproximados por un modelo lineal
(dentro de un rango de variación debidamente acotado). Por ejemplo, si el costo de producción de
un proceso que cambia de tecnología según el nivel de producción corresponde a Y = (x)*X,
entonces es posible aproximar el comportamiento del sistema por Y = 1*X*I1 + , ..., + n*X*I n
donde Ii = 1 si X {Ai} y 0 de lo contrario. Por lo tanto, un problema no lineal puede ser
modelado como una serie de modelos lineales tal como se ve en la figura 1.
1
Partes de este capitulo contienen material escrito originalmente por el Ingeniero Forestal (Ph.D) André Laroze para
el curso Análisis de Regresión de la FAIF-PUC.
gran cantidad de datos (bajo las condiciones del modelo lineal). Un claro ejemplo es la solución
de sistemas de ecuaciones lineales.
X
A1 A2 A3
Figura 1. Aproximación de una relación no lineal mediante aproximaciones lineales
En último término los objetivos del análisis de regresión lineal son tres:
1. Estimar los parámetros desconocidos del modelo en base a los datos disponibles y ciertos
supuestos acerca del comportamiento del sistema.
2. Determinar como afectan los cambios en una variable independiente el valor de la variable
dependiente.
3. Determinar la calidad predictiva del modelo y validar los supuestos utilizados para su generación
(y si no se cumplen analizar en que medida la violación de los supuestos afecta la capacidad
explicativa del modelo)
Antes de pasar a la sección en la que se define el modelo RLS es necesario hacer una distinción que aclara
lo que denominamos relación matemática entre dos variables. En este contexto se pueden distinguir
dos tipos de relaciones entre dos variables X e Y, relaciones funcionales y relaciones estadísticas. Una
relación funcional se expresa mediante una fórmula como la siguiente:
Y f X
60
49
50
40 36
Y
30 25
20 16
9
10
4
1
0
0 1 2 3 4 5 6 7 8
En este gráfico la relación entre X e Y es determinística. Esto quiere decir que el valor de X determina
inequívocamente cuál es el valor de Y, y por esto todos los puntos caen en una sola curva, definida por la
función Y=f(X).
Finalmente este tipo de relaciones son aquellas en las que estamos interesados ya que en presencia de más
de un valor potencial u observado para la variable dependiente en función de la o las variables
independientes resulta lógico tratar de estimar el valor más probable de entre los valores posibles para Y.
La regresión lineal es en último término un instrumento (matemático) de predicción.
25
20
Altura total, m
15
10
0
0 10 20 30 40 50
dap s/c,cm
Esta parte del curso esta estructurada en 5 secciones que pretenden introducir los conceptos básicos del
análisis de regresión en forma gradual y en creciente grado de complejidad. La primera sección presenta
el modelo de regresión lineal simple con sus supuestos y que constituye la forma más simple de análisis
usando regresión lineal. La sección siguiente trata el problema de inferencia (prueba de hipótesis e
intervalos de confianza) y se introduce para esto el supuesto de normalidad de los errores aleatorios i. En
esta sección se introduce además el análisis de varianza para el análisis de regresión simple, concepto que
es aplicable también al caso de regresión múltiple que constituye la sección siguiente a la de inferencia.
En la sección del modelo de regresión múltiple (RLM) se introducen los conceptos básicos de este
modelo y se presenta la notación matricial con la que habitualmente es presentado. De la misma forma
que para el modelo RLS, la sección siguiente es de inferencia en el modelo RLM y se introduce el
concepto de suma de cuadrados extra. La ultima sección se concentra en los supuestos del modelo RLM y
propone herramientas de diagnostico de violaciones a estos supuesto y medidas de corrección.
valor de Y varía sistemáticamente con el valor de X, pero no lo contrario. Por ejemplo, en la relación
entre presión sanguínea y edad se puede asumir que la variable independiente es la edad y la dependiente
es la presión. Si bien se puede pensar que la presión sanguínea de una persona puede ser una función de la
edad, no es razonable asumir que la edad puede ser determinada por la presión. Esta distinción es básica.
El modelo RLS considera sólo una variable independiente y tiene las siguientes características
(Netter et al., 1996):
La figura 5 resume la mayor parte de las propiedades del modelo RLS. En general al valor E(Yi) se le
llama valor predicho o estimado de Yi que se puede simbolizar de ahora en adelante como Yˆi (Yi gorro).
Yi
i
E(Yi)
Yi=0+1Xi
X
Xi
Los parámetros 0 y 1 son llamados coeficientes de regresión y tienen una interpretación geométrica.
El coeficiente 1 es la pendiente de la recta de regresión y representa la tasa de cambio de la media de la
distribución de probabilidad de los Y por unidad de incremento de X. El coeficiente 0 es llamado
intercepto y representa la media condicional de Y cuando X=0, donde este sea un valor incluido en el
rango de valores de X. La siguiente figura muestra los datos y la curva de regresión ajustada entre la edad
como variable independiente y la altura total como variable independiente para 23 individuos de Pino
Oregón creciendo en un bosque natural de Idaho, USA.
45
40
35
30
Altura
25
20
15 A
10
1=A/B
5 B
0
0
0 20 40 60 80 100 120 140
Edad
El modelo ajustado es Altura 2.6884 0.3008 Edad y la figura indica los valores en el gráfico. El
intercepto representa la altura de un árbol cuando la Edad es cero y la pendiente (1) representa el
incremento en altura por año.
2.3 Estimación de los parámetros del modelo RLS: Método de Mínimos Cuadrados Ordinarios
(MCO)
En la sección introductoria mencionamos que una de las ventajas más notables de trabajar con modelos
lineales es que existen métodos matemáticos para manipular gran cantidad de datos y que existen métodos
eficientes para estimar los parámetros del modelo. Asimismo se cuenta con criterios objetivos para juzgar
la calidad del modelo y validar su capacidad de predicción. El método de mínimos cuadrados ordinarios
es el más conocido de los métodos para estimar el valor de los parámetros 0 y 1 en el contexto del
modelo RLS. Además utiliza un argumento teóricamente robusto e intuitivo que es fácil de interpretar. El
Yi 0 1 X i i
Existen distintos criterios para estimar el valor de los parámetros desconocidos 0 y 1, varios métodos
de estimación que generan distintos estimadores. Así, el método de máxima verosimilitud (MV) genera
los estimadores de MV. En el caso de los estimadores MCO el criterio es minimizar la suma del
cuadrado de los errores de estimación i para toda la información disponible. Es decir, se buscan los
valores de 0 y 1 que minimicen la suma S de los cuadrados de los errores i para los n pares de
observaciones (Xi,Yi):
2 i 1 Yi 0 1 X i
n n 2
Minimizar: S i 1 i
Este es un problema de optimización no acotada que se puede resolver usando métodos numéricos o bien
derivando S con respecto a los parámetros, igualando a cero y despejando 0 y 1.
Veamos un ejemplo. La siguiente tabla contiene los datos de edad y altura de los 23 árboles que se
observan en la figura 6.
X 1629 X 2
138143
Y 551.8 Y 2
15668.22
XY 45934.18 n 23
Entonces,
b1= (45934.18 – (1629*551.8)/23) / (138143-(16292)/23) = 0.3008
b0 = (551.8)/23 – 0.3008*(1629/23) = 2.687
Las diferencias con los valores estimados en la sección anterior se deben a las aproximaciones en los
términos intermedios.
Este modelo permite obtener entonces estimadores de los valores poblacionales 0, 1, y i:
ˆ 0 b0
ˆ1 b1
ˆi ei Yi Yˆi Yi b0 b1X i
n 2
e
ˆ 2
i 1 i
n2
(recuerda que el “gorro” significa “estimado”)
1. e 0
i
2. e es mínimo
2
i
3. Y Yˆ
i i
4. X e Yˆ e 0
i i i i
1. La diferencia del valor observado (Yi) con respecto la valor estimado ( Yˆi ), Yi- Yˆi = ei
2. La diferencia del valor estimado ( Yˆi ) con respecto al promedio ( Y ), Yˆi Y
La siguiente relación se cumple para todo i, y se puede observar en la figura 7 (donde E(Yi) se asimila al
Y estimado o Yˆi e Yp se asimila al Y promedio o Y ) :
Yi Y Yi Yˆi Yˆi Y
Yi
i
E(Yi)
E(Yi)-Yp Yi=0+1Xi
Yp
X
Xi
Y
n
i 1 i Y Y Yˆ Yˆ Y
2 n
i 1 i i
2 n
i 1 i
2
Por consiguiente, la suma del cuadrado de las desviaciones del valor observado con respecto al promedio
(suma de cuadrados corregida) es igual a la suma del cuadrado de las desviaciones del valor estimado con
respecto a la media (suma de cuadrados debida a la regresión o variación explicada) más la suma del
cuadrado de las desviaciones del valor observado con respecto al valor estimado (suma de cuadrados
residuales o variación no-explicada).
Una forma de evaluar la capacidad predictiva del modelo es determinar que proporción de la variación de
las observaciones con respecto al promedio es explicada por la regresión evaluada a través del índice R2:
Y Yˆ
n 2
i 1 i i
Coeficiente de determinación: R 2
Y Y
n 2
i 1 i
Mientras mayor es el valor de R2 ( 1) mejor es el modelo ya que explica una mayor proporción de la
variabilidad de los valores observados Yi. Este coeficiente — y su interpretación— será descrito en más
detalle en las secciones siguientes de esta parte del curso.
Sin embargo para calcular intervalos de confianza y hacer pruebas de hipótesis en este modelo es
necesario hacer algún supuesto respecto de la forma de la distribución de los errores aleatorios i. El
supuesto estándar es que los errores tienen distribución normal, supuesto que es justificable en gran
parte de las situaciones donde se aplica análisis de regresión y que simplifica enormemente la teoría de
regresión, incluyendo la de inferencia. Recordemos que se ha asumido hasta ahora del modelo RLS.
El modelo es:
Yi 0 1 X i i
a. E(i)=0
b. Var(i)=2
c. Cov(i,j)=0 para todo i ≠ j, i=1,…..,n
En este momento (y de ahora en adelante) se reemplazan los supuestos a,b y c de los errores por el
siguiente:
Los i son variables aleatorias (v.a.) independientes N(0, 2), es decir los errores son variables
aleatorias independientes y se distribuyen normalmente con media cero y varianza sigma cuadrado.
El modelo definido de esta manera se denomina modelo de RLS con errores normales. Nótese que:
Dado que se asume que los errores son normales, el supuesto inicial de no correlación entre
errores se convierte en el de independencia en este modelo,
Este ultimo supuesto implica que los valores observados Yi son v.a. normales independientes con
media (esperanza) igual a 0+1Xi y varianza 2,
El supuesto de normalidad para i se justifica en muchas situaciones porque este termino de error
representa los efectos de los factores omitidos en el modelo y que pueden afectar el valor de la
variable dependiente (Y), y que varían aleatoriamente sin relacionarse con el valor de X.
Bajo el supuesto adicional de normalidad de los errores, es posible proponer intervalos de confianza y
pruebas de hipótesis para 0, 1 y las observaciones Yi.
H0: 1 = 0 y Ha: 1 0
Para esto, es necesario conocer la distribución del estimador b1 bajo H 0. En la sección anterior se muestra
que b1 es un estimador obtenido como una combinación lineal de los Yi, es decir como una combinación
de v.a. independientes que se distribuyen ~ N(0+1Xi, 2).
Dado que la combinación lineal de n v.a. normales independientes también se distribuye normalmente
tenemos que b1 se distribuye normalmente. Es decir:
b1 ~ N 1,
2
, donde S xx i 1 X i X
n
2
S xx
2 b1 1
Entonces dado que b1 ~ N 1, , tenemos que ~ N (0,1) . Sin embargo, la varianza 2 es
S xx 2
S xx
n 2
e
un parámetro desconocido que es estimado por la expresión ˆ 2
i 1 i
, que veremos mas adelante se
n2
llama cuadrado medio del error, CME.
b1 1
De esta manera tenemos que finalmente la expresión ~ t (n 2) , donde SE b1 CME
SE b1 S xx
Es decir la expresión anterior tiene una distribución t-Student con (n-2) grados de libertad.
b1 1
1. ~ t (n 2) . Esto implica que
SE b1
b1 1
2. P t / 2; n 2 t 1 / 2; n 2 1
SE b1
3. Usando la simetría de la distribución t-Student tenemos que t(/2; n-2)=-t(1-/2; n-2) y por lo
tanto los limites confidenciales 1- para 1 son:
b1 t 1 / 2; n 2 SE b1
b0 Y b1 X
Por el mismo argumento con cuál se derivaron los estimadores de la esperanza y varianza de b1
(combinación lineal de las v.a. normales independientes Yi), se encuentra que:
X
2
2 1
b0 ~ N 0,
n S xx
Entonces, sabiendo que el estimador de 2 es CME se tiene que el intervalo de confianza al nivel de
confianza (1-) para 0 es:
1 X 2
b0 t 1 / 2, n 2 SEb0 , donde SE b0 CME
n S xx
3.5 Intervalos de confianza para E(Y) = 0 + 1X
Yˆ b0 b1X
Los estimadores de b0 y b1 son combinaciones lineales de los valores observados Yi. Entonces b0+b1*Xi
es también una combinación lineal de Yi y tiene por lo tanto una distribución normal. De esta manera se
pueden derivar la esperanza y la varianza de Y gorro:
E Yˆ E b0 b1X E 0 1X
Var Yˆ 2
1
X X 2
n S xx
SEYˆ 2 1 X X
CME
2
n S xx
Entonces el intervalo de confianza (1-) es:
Yˆ t 1 / 2, n 2 SE Yˆ
Un estadístico de test para H 0 : E Yˆ YˆA vs H a : E Yˆ YˆA es:
Yˆ YˆA
T ~ t n 2
SE Yˆ
Donde:
o Regla de decisión (al nivel de significancia )
Si T t(1-; n-2), no se puede rechazar H0,
Muchas veces hay confusión cuando se usa la palabra predicción. Obviamente el estadístico
Yˆ b0 b1X 0 — un punto en la línea de regresión en X=X 0 — sirve el doble propósito como estimador
de la respuesta esperada (E[Y] en X = X0) y del valor predicho para X= X0. Sin embargo, este valor no es
apropiado para establecer cualquier forma de inferencia en una observación individual de Y (a diferencia
de E[Y]). El contraste es importante ya que E(Y) se refiere a un valor esperado para el nivel de X= X 0 y
en este caso estamos preguntando por un valor individual de Y en X=X 0. Este valor puede ser un valor
particular de interés o un valor futuro de Y para un X no observado. Llamemos a este valor individual Yˆ0 .
Dado que el valor real observado de Y varía alrededor de su esperanza con varianza igual a 2, el valor
predicho de una observación individual sigue siendo igual a b0+b1*X, pero su varianza está dada por:
1 X X
1
2 2
n S xx
Que estimada por la expresión
1 X X
CME 1
2
SE Yˆ 2
n S xx 0
T
E Yˆ0 Yˆ0
~ t n 2 , donde E Yˆ0 b0 b1 X 0
SE Yˆ 0
El ANDEVA está basado en la partición de la suma de cuadrados y los grados de libertad asociados a
la variable de respuesta Y. En cualquier regresión se observa variación en las respuestas Y, y en este
caso pondremos especial atención en la variación de Yˆ e Yi. Recordando la descomposición de la
variación de Yi en torno a su promedio derivada en la sección de Precisión del modelo de regresión se
tiene que:
Y Y Y Yˆ Yˆ Y
n 2 n 2 n 2
i 1 i i 1 i i i 1 i
Es decir, la variación de los valores observados Yi en torno a su promedio se puede descomponer en dos
fuentes distintas de variación. La primera es la variación de los valores observados en torno a los
valores estimados por el modelo de regresión (representada por el primer término a la derecha del signo
=) diferencias que conocemos como los errores ei. Expresado de otra manera, la variabilidad de los
valores observados en torno a su esperanza (b0+b1X). El segundo término corresponde a la variación de
los valores estimados (Y gorro) en torno al promedio de los valores observados Y .
Y Y
n 2
SCTO = Suma de cuadrados totales = i 1 i
Si todas las observaciones son iguales se tiene que SCTO = 0, y entonces mientras mayor sea la variación
de los Yi en torno a su promedio mayor será el valor de esta suma de cuadrados. Entonces, SCTO es una
medida de la incertidumbre asociada a Yi cuando no se toma en cuenta su relación con la variable
independiente X. Cuando se utiliza la variable independiente X, la variación que refleja la incertidumbre
de los valores reales Yi está expresada por la variación de los valores observados Yi en torno a la línea o
curva de regresión y que se expresa por las diferencias entre los valores estimados y los valores
observados (SCE). En el extremo si todos los valores observados caen sobre la línea de regresión, SCTO
es igual a SCR ya que SCE es igual a cero y la variación de los valores observados Yi puede explicarse
completamente usando la variable independiente X. Lo que denominamos SCR puede ser considerado
como una medida de la variación de los Yi que está asociada con la línea de regresión.
Esta partición de las sumas de cuadrados es presentada bajo la forma de una tabla de ANDEVA:
SCE = Y Yˆ
Error n 2 n-2 CME = SCE / (n-2)
i 1 i i
SCTO = Y Y
Total n 2 n-1
i 1 i
Donde cuadrado medio corresponde a la definición estándar de una suma de cuadrados dividido por
los grados de libertad asociados.
Utilizando las esperanzas de los cuadrados medios CMR y CME — que se derivan a partir de sus
distribuciones muestrales — es posible hacer inferencias usando el ANDEVA.
E CME 2
E CMR 2 12 i 1 X i X
n
2
Este resultado sugiere que la comparación de CMR y CME resultaría útil para probar si 1=0. Si CMR y
CME son del mismo orden de magnitud, esto indicaría que 1=0 y por el contrario si CMR es
X
2
sustancialmente mayor que CME se sugiere que 1≠0 ya que el término 12
n
i 1 i X tendería a
ser positivo. Esta es la idea básica detrás del ANDEVA.
H 0 : 1 0
H a : 1 0
2 1 2 n 2
F* ~
1 n2
Es decir, F* tiene una distribución F(1,n-2). Intuitivamente valores altos de F* indicaría que H a es correcta
y valores cercanos a 1, que H0 es correcta. La regla de decisión para el nivel de confianza (1-) es la que
sigue:
Una derivación más formal y detallada — y muy clara — del ANDEVA para el análisis de regresión se
puede encontrar en Neter et al., Applied Linear Statistical Models, sección 2.7, páginas 69-78, 4ª edición.
1996.
Los siguientes cuadros presentan el resultado entregado por Excel® al invocar el módulo de análisis de
regresión (HerramientasAnálisis de datosRegresión). En esta ventana se definen los rangos de datos
X e Y, y algunas otras opciones que tienen relación con el tipo y ubicación (otra planilla, otro archivo) de
los resultados que se quieren.
El primer elemento del output es una serie de estadísticos del ajuste del modelo. Este resumen incluye el
R-cuadrado (coeficiente de determinación), el R-múltiple — que corresponde a la raíz cuadrada del R-
cuadrado, y que se conoce también como coeficiente de correlación — el R-cuadrado ajustado que
corresponde a una expresión de R-cuadrado ajustada por los grados de libertad de las correspondientes
sumas de cuadrados y el error estándar o típico de la regresión que es simplemente la raíz del CME.
Donde
2
Y Yˆ
n
i 1 i i
2
SCR
1
SCE
Y Y
R n 2
SCTO SCTO
i 1 i
0 R2 1
SCE /( n 2)
R 2 ajustado 1
SCTO /( n 1)
Se puede interpretar R2 como la reducción proporcional de la variación total asociada con el uso de la
variable independiente X. Mientras el valor de R2 este más cerca de 1 mayor es el grado de asociación
lineal entre X e Y. En el extremo, si todas las observaciones caen sobre la línea de regresión, se tiene que
SCTO = SCR y por lo tanto R2=1. Si bien el R2 es una medida muy intuitiva de la calidad de un modelo
de regresión también es necesario aclarar sus limitaciones. Existen dos errores muy frecuentes. En primer
lugar un valor alto de R2 no implica un buen ajuste. En aquellos casos donde la relación entre X e Y es
curvilínea, es posible tener un valor alto para R2 ajustando una línea recta, cuando conceptualmente es
correcto ajustar una relación curvilínea. La figura 8 ilustra este caso, la relación XY es claramente
curvilínea y sin embargo la recta de regresión tiene un R 2 de 0.72. El otro error es pensar que cuando se
tiene un R 2 cercano a cero no existe relación entre X e Y. De hecho la relación entre X e Y puede ser casi
perfecta y aún así tener valores de R2= 0. La figura 9 ilustra esta afirmación, la relación entre X e Y es
muy cercana a Y = X2, pero el R2 de la regresión es 0.014. Estos errores son inducidos porque el R 2 mide
el grado de asociación lineal entre X e Y, y no resulta adecuado para relaciones no lineales.
Los listados siguientes a las estadísticas de ajuste presentan el ANDEVA y una tabla con los coeficientes
(estimadores) b0 y b1, sus errores estándar, el valor t-Student calculado para la hipótesis nula de que el
parámetro correspondiente es igual a cero (bi/SE[bi]) y el valor de probabilidad asociado con este valor t
calculado bajo H0:i=0. Asimismo se entrega un intervalo de confianza del 95% para el valor de los
coeficientes. Al observar la tabla de ANDEVA en este ejemplo se observa que se entrega el valor de
probabilidad asociado con el estadístico F* calculado (Significance F). Los valores de probabilidad
calculados tanto en la tabla de ANDEVA como en la de los coeficientes, entregan la probabilidad del
valor observado bajo H 0, es decir la pregunta que se responde es cuál es la probabilidad de un valor tal
como el que se calculó bajo el supuesto que la hipótesis nula es la correcta, es decir bajo el supuesto que
— por ejemplo — 1=0. La hipótesis nula es por lo general una hipótesis de no-relación entre X e Y, y la
probabilidad reportada entrega una medida de esta relación para el modelo RLS.
En este caso el resultado es que se puede afirmar con confianza que existe una relación entre X e Y (es
decir 1≠0) ya que de acuerdo al ANDEVA, la probabilidad de encontrar sólo por azar (H 0 verdadera), un
valor observado de F* = 117.83 es de 0.00000000045 (aproximadamente 1 en 2200 millones), es decir
muy pero muy baja. Este resultado coincide con lo que se puede observar en la tabla de los coeficientes,
ya que el estadístico t calculado para 1 es 10.8549, lo que entrega una probabilidad igual a la anterior (de
1 en 2200 millones).
14
12
10
8
Y
0
0 2 4 6 8 10
X
Y Pronóstico para Y
18
16
14
12
10
Y
8
6
4
2
0
0 2 4 6 8 10 12
X
Y Pronóstico para Y
El modelo de regresión lineal múltiple considera más de una variable independiente X para explicar el
comportamiento o la variabilidad en una variable dependiente o respuesta Y. Hay numerosos
ejemplos en los que el uso de más de una variable resulta lógico dado el carácter de la variable
dependiente y de las relaciones que se establecen con otras variables. El uso de una sola variable
independiente muchas veces determina una descripción inadecuada del comportamiento de Y, ya que
frecuentemente existen varios factores que influencian las respuestas y la variabilidad de Y,
especialmente en ambientes naturales.
Así por ejemplo, las dimensiones de un determinado árbol dentro de un bosque — su altura por ejemplo
— no dependen sólo de su edad sino que de una serie de otras variables como especie, estado sanitario,
características de su copa o las dimensiones de árboles vecinos. La biomasa de un arbusto de Quillay
puede ser predicha usando por ejemplo el diámetro de su copa, pero factores como el número de varas, el
diámetro de esas varas y su largo son factores que establecen diferencias entre la biomasa de individuos
con aproximadamente los mismos radios de copa e incorporar estas variables en un modelo de regresión
permite explicar en mejor forma las variaciones en biomasa. La figura 10 muestra las variaciones en
volumen total (vtt) para árboles de distinto diámetro a 1.3 mts desde el suelo (dcc). Si bien el uso de dcc
como variable independiente para explicar el comportamiento del volumen total resulta adecuado ya que
se observa una tendencia muy clara en el gráfico, persiste el hecho que árboles con el mismo dcc tienen
volúmenes muy distintos. Esta variación en volumen NO está explicada entonces por las diferencias en
dcc sino que por otros factores, que pueden o no incluirse en el modelo de regresión.
En estos casos, tratar de explicar la variación en la variable respuesta mediante una sola variable
predictora implica un bajo grado de precisión (mayores errores de estimación). Para describir
adecuadamente el comportamiento de la variable dependiente se debe utilizar una relación funcional
(modelo) que considere múltiples variables independientes, cada una de las cuales contribuye a explicar
parte de la variación observada en la variable estimada: modelos más complejos (completos) generan
estimaciones más precisas.
En el modelo de RLM existen (p-1) variables independientes X1, X2, ...., Xp-1, y que junto con la variable
dependiente Y, se observan en i individuos o unidades. Entonces, la formulación del modelo de RLM es:
Yi 0 1 X i ,1 2 X i ,2 ..... p 1 X i , p 1 i
donde
Este es el modelo RLM con errores normales y que representa a una familia de modelos que incluyen:
2. Modelos polinomiales: donde las Xi son potencias de una o más variables independientes.
3. Modelos con predictores cualitativos: donde algunas de las variables son cualitativas como sexo
(M o F), estado sanitario (atacado, no atacado) o fertilización (si, no). Estas clases se representan
mediante variables binarias 0/1 (dummy variables). De esta manera se pueden formular modelos
con pendientes (i) y/o interceptos (0) distintos para distintas clases de observaciones. Las clases
están determinadas por las variables cualitativas. Por ejemplo, supongamos que se desea usar un
modelo de regresión para estimar el volumen por hectárea en una región donde se pueden
distinguir tres tipos forestales (A, B y C). Sea Yi alguna expresión de volumen por hectárea y sea
X1 el número de árboles por hectárea en el bosque. Un modelo posible es:
Yi 0 1 X 1 2 X 2 3 X 3 i
Donde
X2=1 si el bosque es del tipo forestal A, y X2= 0 de lo contrario
X3=1 si el bosque es del tipo forestal B, y X3= 0 de lo contrario
Nótese que se necesitan dos variables para tres clases (en general c-1 variables para c clases).
Entonces la predicción del volumen para un bosque del tipo forestal A con Xi,1 árb./ha es:
5. Modelos con interacciones: en algunos casos se asume que los efectos de alguna variable
independiente sobre la variable Y no son aditivos y que los efectos dependen en parte de los
niveles de otras variables. Estos modelos tienen términos de interacción. Por ejemplo, asumamos
que se quiere estimar el rendimiento de un determinado cultivo y se piensa que existen tres
factores determinantes, X 1 = control de maleza, X 2 = densidad inicial del cultivo, y X 3 =
disponibilidad de agua (no nos preocupemos ahora de las unidades). El modelo más obvio es:
Yi 0 1 X i ,1 2 X i , 2 3 X i ,3 i
Yi 0 1 X i ,1 2 X i , 2 3 X i ,3 4 X i , 4 i
Así, las variables Xi no necesitan representar diferentes variables y no necesitan ser continuas, pueden ser
transformaciones de las variables originales, interacciones, potencias o valores 0/1.
Los casos especiales presentados anteriormente permiten concluir que el concepto de regresión lineal se
aplica a modelos que son lineales en los parámetros pero no necesariamente en las variables. Esto
implica que un modelo RLM determinado puede tener una superficie de respuesta que sea distinto de un
hiperplano o un plano sí hablamos de 2 variables independientes. Los siguientes gráficos ilustran distintos
tipos de superficies de respuestas que pueden ser modeladas mediante regresión lineal múltiple.
0.0012
0.001
0.0008
0.0006
0.0004
0.0002
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
En el modelo RLM el significado de los coeficientes de regresión parcial i sigue siendo esencialmente
el mismo. El valor de 0 representa el valor donde la superficie de respuesta (plano, hiperplano u otro)
intercepta el eje de Yi cuando todas las variables independientes toman el valor cero, es decir el valor de
E(Yi) cuando todas las Xi son cero. El valor de cada coeficiente i representa la tasa de cambio de la
variable dependiente por unidad de cambio de Xi, cuando todas las otras variables independientes (i≠j )
permanecen constantes, es decir, Yi cambia en i unidades cuando Xi cambia en una unidad y todo el
resto de las Xi permanece constante.
Por ejemplo, la regresión de la altura de los 23 árboles de la figura 6, pero usando en este caso la Edad y
el dap como variables independientes arroja el siguiente modelo ajustado:
Esto implica que — de acuerdo al modelo postulado y ajustado — un árbol con dap=0 y edad=0 tiene una
altura de 2.17 (metros en este caso), y que por cada centímetro de aumento en dap — para una edad fija—
la esperanza de la altura aumenta en 0.31 metros. El modelo ajustado se puede observar en la figura 13.
80
70
60
50
altura
40
30
20
10
Las sumas de cuadrados del ANDEVA también se pueden expresar mediante notación matricial:
1
SCTO Y T Y Y T JY
n
1
SCR bT X T Y Y T JY
n
SCE Y Y b X T Y
T T
1 1 ... 1
1 1 ... 1
Donde J es una matriz con todos sus elementos igual a 1, J ij=1 para todo i,j.
nxn ... ... ... ...
1 1 ... 1
n
El ajuste de los coeficientes del vector b se puede hacer en Excel® usando el módulo de análisis de datos
o simplemente utilizando las funciones de inversión y multiplicación de matrices de la planilla. La ventaja
de utilizar el módulo de análisis de datos (HerramientasAnálisis de DatosRegresión) es que provee
una serie de resultados muy útiles para inferencia y comprobación de los supuestos del modelo RLM
normal. La siguiente figura muestra los datos de volumen total por hectárea para 1564 rodales de pino
radiata.
1000
900
800
700
Volumen total, m3/há
600
500
400
300
200
100
0
0 5 10 15 20 25 30
Edad
Figura 14. Volumen por hectárea para 1564 rodales de pino radiata
El modelo ajustado por Excel® es reportado en las siguientes tablas (p=5, n=1564):
Regression Statistics
Multiple R 0.9848
R Square 0.9699
Adjusted R Square 0.9698
Standard Error 30.84
Observations 1564
ANOVA
df SS MS F Significance F
Regression 4 47718264.68 11929566.17 12546.5241 0
Residual 1559 1482338.339 950.8264
Total 1563 49200603.02
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -162.1234 5.1208 -31.6599 0.0000000 -172.1677 -152.0790
NHA -0.0110 0.0030 -3.6593 0.0002613 -0.0169 -0.0051
EDAD 8.6138 0.5471 15.7452 0.0000000 7.5408 9.6869
GHA 8.1056 0.0993 81.6074 0.0000000 7.9107 8.3004
HPA 1.6312 0.4158 3.9235 0.0000911 0.8157 2.4468
Respecto del cálculo con matrices las matrices básicas del modelo son:
XTX
Variable n x1=nha x2=edad x3=gha x4=hpa
n 1564.0 1519480.5 21319.0 53324.3 29606.1
x1=nha 1519480.5 1983340034 19411154 59657606.73 26432704.51
x2=edad 21319.0 19411154 316423 784598.3 442591.5
x3=gha 53324.3 59657606.73 784598.3 2349401.45 1106479.47
x4=hpa 29606.1 26432704.51 442591.5 1106479.47 627718.67
XTY
Variable X'Y
y 393862.9
y*x1 425696994.3
y*x2 6137134.2
y*x3 18304482.77
y*x4 8714089.29
(XTX)-1
0.027578582 -1.3567E-05 -0.000783449 0.000374314 -0.000836845
-1.3567E-05 9.5242E-09 -3.00826E-08 -2.72832E-07 7.40958E-07
-0.000783449 -3.00826E-08 0.000314773 -2.85842E-07 -0.000183218
0.000374314 -2.72832E-07 -2.85842E-07 1.03754E-05 -2.42528E-05
-0.000836845 7.40958E-07 -0.000183218 -2.42528E-05 0.000181795
b = (XTX)-1XTY
-162.1233602
-0.01101201
8.613844448
8.105552839
1.631247888
Todas estas operaciones son posibles usando las funciones incorporadas en Excel® (MMULT,
MINVERSA, SUMAPRODUCTO, SUMA.CUADRADOS y SUMA). En este caso Excel® no puede
desplegar las matrices H y s.e.2(e) ya que ambas tienen dimensión (n x n), (1564x1564) en este caso.
Como se puede observar las estimaciones para b son las mismas. En todo caso es recomendable utilizar el
módulo de análisis de datos por la cantidad de información adicional que proporciona.
La hipótesis nula del ANDEVA para el modelo establece que no hay relación de regresión entre la
variable dependiente y el conjunto de variables independientes contenidas en la matriz X. Esto es:
H 0 : 1 2 3 .... p1 0
H a : i 0 , para algún i = (1, 2, …, p-1)
La hipótesis alternativa establece que al menos existe un coeficiente estimado bi que es significativo, no
establece cuál ni cuantos. En este sentido es sólo una indicación preliminar de la calidad del modelo de
regresión. El estadístico de prueba es el mismo que para el modelo RLS, F* = (CMR/CME) y se compara
con el valor tabulado de la distribución F para un determinado nivel de confianza . La regla de decisión
es exactamente la misma que para RLS:
En este caso el valor calculado para F* es de 12546.5241 que es mucho mayor que los valores tabulados
de F(1-, 4, 1559) para =0.05 (F=2.3776) y =0.01 (F=3.3311) que son los niveles de confianza más
frecuentes. La conclusión es que existe al menos un i (i = 1, 2, 3, 4) que es significativamente distinto de
cero con un nivel de confianza del 99%.
El estimador MCO de b tiene una matriz de varianza-covarianza que contiene las varianzas necesarias
para hacer pruebas de hipótesis y calcular intervalos de confianza sobre los i. El listado entregado por
Excel® entrega estos errores estándar. La matriz de varianza-covarianza se define como:
pxp
Esta matriz es calculada por 2 b 2 X T X 1
y que tiene como estimador a s2(b):
s b p 1 , b0 s b p 1 , b1 ... s 2 b p 1
Para la regresión del volumen por hectárea presentada anteriormente se tiene que CME = 950.8264 y X TX
se puede observar en la sección anterior. Entonces:
s2(b)
26.222443 -0.012900 -0.744924 0.355907 -0.795694
-0.012900 0.00000906 -0.000029 -0.000259 0.000705
-0.744924 -0.000029 0.299294 -0.000272 -0.174209
0.355907 -0.000259 -0.000272 0.009865 -0.023060
-0.795694 0.000705 -0.174209 -0.023060 0.172856
Desde donde se pueden extraer los errores estándar para los coeficientes b 0 a b4 desde la diagonal:
s.e.(b0) 5.120785
s.e.(b1) 0.003009
s.e(b2) 0.547078
s.e.(b3) 0.099324
s.e.(b4) 0.415759
bi i
En el modelo con errores normales se tiene que ~ t (n p) . Por lo tanto un intervalo de
SE bi
confianza para i con un nivel de confianza (1-) es bi t 1 / 2; n p SE bi
H 0 : i 0 vs. H a : i 0
bi
El estadístico de prueba es: T , y la regla de decisión es:
SE bi
Supongamos que deseamos probar la hipótesis nula 2 =0, es decir que la edad no tiene una relación
significativa con el volumen. El estadístico es T=8.6138/0.5471=15.74. Este valor se compara con el
valor tabulado para un 95% de confianza (=0.05, /2=0.025) y 1559 grados de libertad, t(0.975,1559) ≈
1.9615. Como el valor calculado de T es mayor que el valor crítico se concluye que se rechaza H 0, y por
lo tanto se puede decir que la edad tiene una relación lineal significativa con el volumen. Esta relación se
denomina relación o asociación lineal estadística.
Este resultado puede ser rápidamente extraído del listado que entrega Excel®. El listado entrega los
coeficientes bi, sus errores estándar s.e.(bi), el estadístico T (t Stat) para la prueba de la hipótesis nula
H0:i=0, y la probabilidad asociada al valor del estadístico T calculado (P-value). Este valor P es en
términos simples la probabilidad de que en un valor del estadístico T con un valor igual al calculado haya
sido generado puramente por azar bajo el supuesto de que la hipótesis nula es verdadera. Entonces,
valores pequeños de probabilidad estarán asociados al rechazo de la hipótesis nula y valores altos al no
rechazo de H0. De hecho, basta comparar el valor P asociado al correspondiente coeficiente con el nivel
de la prueba de hipótesis que se esta haciendo. Si P> entonces no se puede rechazar H0, si P< entonces
se puede rechazar H0. Estos resultados se aplican solamente para H0: i=0 vs. Ha i≠0. Las dos últimas
columnas del listado entregan los límites inferior y superior del intervalo de confianza del 95% para el
correspondiente coeficiente i. El intervalo de confianza al nivel (1- ) para el parámetro 2 es:
Que es igual al reportado por Excel®. Las diferencias se deben solo a aproximaciones. Este resultado
viene a confirmar lo expresado por la prueba de hipótesis de que el coeficiente 2 es distinto de cero ya
que el intervalo de confianza no incluye al cero.
Para una combinación particular de valores en las variables X1,X2, …. ,Xp-1 que llamaremos
Xh,1,Xh,2,….,Xh,p-1, la respuesta esperada es E Yh Yˆh . Definamos el vector Xh como:
X h ,1
X
h,2
X h X h ,3
px1
...
X h , p 1
El estimador de E(Yh) es entonces X hT b , que tiene varianza 2 Yˆh 2 X hT X T X
Xh . 1
Esta varianza puede ser expresada como una función de la matriz de varianza-covarianza de los
coeficientes de regresión estimados:
2 Yˆh X hT 2 bX h
s 2 Yˆh CME X hT X T X X h X hT s 2 b X h
1
Yˆh t 1 / 2; n p s Yˆh
5.3.2 Predicción de una nueva observación en Y, Yh(n)
La predicción de una nueva observación Yh(n) en el nivel Xh de las variables independientes tiene la
misma esperanza que E(Y), es decir igual a X hT b . El intervalo de confianza (1-) para Yh(n) en este caso
es:
Yˆh t 1 / 2; n p sYh( n) , donde
s 2 Yh( n ) CME s 2 Yˆh CME 1 X hT X T X
1
Xh
Por ejemplo supongamos que se desea un intervalo de confianza para el valor esperado del volumen por
hectárea de un rodal que tiene 28 años (Edad=28), 750 árboles por hectárea (Nha=750), un área basal de
55 m2/ha (Gha=55) y una altura promedio de 25 metros (Hpa=25). Entonces:
1
750
X h 28
55
25
De donde E Yh Yˆh X hT b
= b0*1+ b1*Nha+b2*Edad+b3*Gha+b4*Hpa
= -162.1235*1-0.0110*750+8.6138*28+8.1056*55+1.6312*25 = 557.4 m3/ha.
La varianza de E(Yh) es igual a 37.811. Esto implica que el error estándar de E(Yh), s 2 Yˆh = 6.15. El
intervalo de confianza del 95% (=0.05) para E(Yh) es:
Este índice mide en este caso la reducción proporcional de la variación total de Y asociada con el uso
del conjunto de variables X 1 a Xp-1, y tal como en el caso del modelo RLS varía entre 0 y 1. Este
coeficiente es igual a 1 cuando todas las observaciones caen exactamente sobre la superficie de respuesta
y toma el valor 0 cuando todos los bk (k=1,…, p-1) son iguales a cero. Remitiéndose al modelo RLS la
siguiente figura ejemplifica los patrones esperados en los valores de R2 cuando se observan los datos y la
línea de regresión ajustada.
A. B.
C. D.
El de R2 siempre se incrementa cuando se agrega una nueva variable independiente a la regresión lo que
no implica que el modelo sea mejor o mejore. Como una manera de ajustar el valor de R2 por el número
de variables X del modelo es que se ha propuesto el llamado R2-ajustado que es calculado como:
SCE
n p n 1 SCE
Ra2 1 1
SCTO n p SCTO
n 1
Este coeficiente ajusta el índice por el número de variables en el modelo usando los grados de
libertad de las sumas de cuadrado totales y del error. Tiene la misma interpretación que el R 2original
pero tiene la ventaja que puede disminuir cuando se agrega una variable al modelo. Esto pasa cuando la
disminución en la SCE no es compensada por la perdida del grado de libertad en el denominador (n-p).
Y consideremos ahora una secuencia de modelos en los que se agregan las variables b, c y d. El primer
modelo modelos es vtt=b0+b1*d2cc tiene el siguiente ANDEVA (extraído desde ARC):
Source df SS MS F p-value
Regression 1 11.2509 11.2509 2846.71 0.0000
Residual 238 0.940636 0.00395225
Source df SS MS F p-value
Regression 2 11.4897 5.74487 1940.06 0.0000
Residual 237 0.7018 0.00296118
Source df SS MS F p-value
Regression 3 11.9964 3.9988 4835.98 0.0000
Residual 236 0.195145 0.000826885
Si definimos
SCTO: Suma de cuadrados debido a la variación de las observaciones de la variable respuesta Y1,….Yn.
Se tiene que por definición SCTO = SCR + SCE
SCE(X1, …,Xh):
Suma de cuadrados residuales cuando el modelo considera las variables independientes X 1, … Xh
SCR(X1,…,Xh):
Suma de cuadrados de la regresión cuando el modelo considera las variables independientes X1, ... Xh.
SCR(Xh+1 | X1,……,Xh):
Incremento marginal en la suma de cuadrados de la regresión al agregar la variable Xh+1 a un modelo que
incluye las variables predictoras X1, …,Xh.
Por consiguiente:
SCR(Xh+1 | X1,…Xh)
Reducción en la suma de cuadrados residuales al agregar la variable Xh+1 a un modelo que incluye las
variables predictoras X1,…,Xh.
Por ejemplo:
Lo interesante de esta derivación teórica es que se pueden construir tablas de análisis de varianza
descomponiendo la suma de cuadrados debido a la regresión en suma de cuadrados extra como se muestra
en la siguiente tabla y el ejemplo correspondiente.
La suma de cuadrados extra es de interés porque se utiliza para pruebas de hipótesis relacionadas con
los coeficientes de regresión. En particular, para determinar si es conveniente eliminar determinadas
variables del modelo.
Se puede utilizar la partición de sumas de cuadrados para comprobar si vale la pena eliminar una
variable de un modelo de RLM. Consideremos el modelo vtt=b0+b1*d2cc+b2*alt+b3*d26 que se usó
en la sección anterior. Designemos como SCE(F) a la suma de cuadrados del error para el modelo
completo (del inglés Full). En este caso SCE(F)=0.195145 que tiene (n-4) = 236 grados de libertad. Si se
desea probar que el diámetro a 6 metros de altura al cuadrado (d26) es una variable que debe salir del
modelo, la prueba apropiada es:
H 0 : 3 0
H a : 3 0
Para la prueba de hipótesis se define el modelo reducido vtt=b0+b1*d2cc+b2*alt que tiene una suma de
cuadrados del error SCE(R)=0.7018, que tiene (n-3)=237 grados de libertad. Este modelo reducido es el
modelo “adecuado” si H0 es verdadera.
SCE R SCE F
F* gl R gl F
SCE F
gl F
Que para el ejemplo es:
SCEd 2cc, alt SCE d 2cc, alt , d 26 SCRd 26 | d 2cc, alt
Entonces,
Lo que se observa es que la prueba de hipótesis b3=0 es una prueba condicionada (marginal) al hecho
que d2cc y alt ya están incluidas en el modelo. Esta prueba tal como está planteada aquí se denomina test
F parcial.
H0 : k 0
Ha : k 0
El estadístico de prueba es:
SCE X 1 , X 2 ,.........., X p 1
F* 1
n p
Cuando se ajusta un modelo de RLM (Ver: Problemas en el ajuste de un modelo RLM) es importante
verificar de alguna manera que los supuestos establecidos para su derivación sean cumplidos y
eventualmente en que grado son violados en aquellos casos donde no se cumplan. Este ejercicio es
importante por varias razones. En primer lugar es necesario determinar si el modelo es apropiado para los
datos a los que se está ajustando de manera de considerar eventualmente otro tipo de modelos (no
lineales, logístico). Es necesario saber además que supuesto no se cumple y en que grado para tomar
medidas de corrección. Asimismo es necesario verificar que el modelo es estadísticamente correcto antes
de hacer inferencias o recomendaciones basadas en sus predicciones. En este caso estadísticamente
correcto implica que los supuestos relativos a los errores (y por ende a los valores estimados Y gorro) se
cumplen. Por último todo modelo es perfectible y un buen análisis de supuestos puede derivar en un
mejor modelo.
La mayor parte de las pruebas de diagnóstico establecidas para verificar estos supuestos son gráficos de
los errores (o residuos) o de sus transformaciones. Asimismo, el análisis de los datos básicos (los X´s y
los Y´s), tal como se describe en la clase de Análisis Exploratorio de Datos de este curso, forma parte
del análisis que es necesario hacer sobre un modelo y sus predicciones antes de ajustarlo. Así,
herramientas como los boxplots, matrices de gráficos, histogramas, normal-plots, lag-plots gráficos XY y
gráficos de medias móviles deberían ser aplicados a los datos Y e Xi,j como medidas de diagnóstico de
problemas en el modelo y en los datos.
La herramienta básica en estos casos es el gráfico de los errores calculados ei ( ei Yi Yˆi ˆi ) contra:
Asimismo, otros tipos de gráficos permiten detectar problemas. Entre los más útiles están:
Los supuestos del modelo RLM con respecto a los errores establecen que estos son variables aleatorias
normales, independientes y de varianza única. Entonces, cuando se hace un gráfico de residuos como
los mencionados en 1, 2 ó 3 se espera que la nube de puntos se distribuya aleatoriamente en torno al cero
(media teórica) sin ninguna tendencia evidente. Las figuras 16.A y 16.B ilustran el resultado esperado
cuando se cumplen los supuestos respecto de los errores
A. ei vs Xi ó Yest
0.0
Xi, Yest
B. Normal-plot de ei
Así, cuando los errores se distribuyen aleatoriamente en torno al cero y se tiene un normal-plot
razonablemente recto se puede asumir que los supuestos de varianza homogénea, independencia y
normalidad se cumplen. Violaciones al supuesto de normalidad son detectadas rápidamente mediante
dos herramientas gráficas, un histograma de frecuencias y el normal-plot.
Cuando los gráficos de error tienen alguna tendencia, es posible inferir que existe un problema en el
ajuste del modelo. La figura 17 muestra algunos patrones característicos de gráficos de residuos (como
son conocidos estos gráficos) y que se asocian a problemas muy frecuentes.
El ejemplo 17.A muestra un patrón que está asociado a errores con varianza heterogénea
(heterocedasticidad) y que indica que la dispersión de los errores aumenta con el nivel de la variable
graficada en el eje X. Este problema es muy común en datos que contemplan la observación o medición
de una misma y única respuesta (Y) y una serie de variables explicatorios (X) para unidades de
observación muy distintas. Un ejemplo es la biomasa de árboles o plantas de distinto tamaño, pero que
son medidos usando parámetros como diámetro, altura o número de tallos. Entre individuos descritos por
parámetros como estos, existe la tendencia a observar diferencias en la variación de la variable respuesta
en la medida que son más grandes. En términos más simples lo que pasa es que la variabilidad de la
biomasa es mayor en los individuos grandes que en los individuos pequeños. La figura 18 ilustra esta
tendencia. En esta figura se puede observar que el volumen total por unidad de superficies en un rodal de
pino (vt) tiende a ser más variable cuando los árboles son en promedio más grandes (hpa es la altura
promedio aritmética de los árboles en el rodal). Esto tiene implicancias en el ajuste del modelo. En la
misma figura se observa el gráfico de los residuos (eje Y) versus hpa (eje X) para la regresión
vt=b0+b1*hpa. En esta figura se ve una marcada tendencia a que los errores sean mayores mientras
mayor es el valor de la variable independiente usada en el modelo. Las figuras 10 y 14 ilustran esta misma
tendencia al aumento de variabilidad con el tamaño.
Los patrones observados en 17.B y 17.C corresponden a tendencias lineales (B) y cuadráticas (C) en los
residuos del modelo. Estas tendencias — que pueden y deben ser removidas del modelo— se presentan
cuando existen variables importantes que han sido omitidas (la graficada en el eje X), cuando existen
problemas de correlación entre los errores (su correlación es distinta de cero), cuando existen “clases” de
observaciones para las cuáles los errores son en su mayoría negativos o positivos (comportamiento
sistemático o sesgo local) o cuando la forma funcional elegida para el modelo es inapropiada (lineal en
lugar de curvilínea por ejemplo). El patrón de 17.D indica una correlación temporal en los residuos y en
este caso el tipo de correlación no es cíclica, como podría indicar un gráfico como el 17.C si la variable
del eje X fuera el tiempo. Evidentemente existen muchos otros patrones de dispersión posible para los
errores, pero en general resultan de la combinación de algunos de estos patrones básicos ya que están
asociados por lo general a los mismos problemas.
A. B.
C. D.
Tiempo
Figura 17. Gráficos de errores: Tendencias indeseables.
En el caso de la heterocedasticidad (gráficos 17.A y 18) la detección del problema se puede formalizar
usando las pruebas de Parker (1966. R.E. Park, Econométrica 34(4):p.888) o de Glejser (1969. H.Glejser,
JASA 64: pp316-323) que permiten decidir en caso donde se sospecha la existencia de varianzas
heterogéneas pero no es tan evidente.
Mediante el análisis de regresión múltiple es posible estudiar el tipo y significancia de las relaciones
entre las variables independientes y la variable respuesta. Los aspectos más relevantes a estudiar son:
La respuesta a estas preguntas es relativamente simple cuando las variables independientes incluidas en el
modelo no están correlacionadas entre sí, ni con otras variables predictoras que están relacionadas con la
variable dependiente pero que no están consideradas en el modelo. El problema, sin embargo, es que en
muchos estudios no experimentales — también llamados estudios observacionales — las variables
independientes tienden a estar correlacionadas entre sí y con otras variables predictoras no
incluidas en el modelo. Por ejemplo, en un modelo de regresión del volumen de un bosque con respecto
al número, altura y diámetro promedio de los árboles, las variables independientes están inter-
correlacionadas y también están ligadas con otras variables predictoras importantes que no participan en
el modelo (como productividad y manejo del bosque). Cuando los niveles de intercorrelación son muy
altos se produce la multicolinealidad.
Cuando en una regresión de Y contra dos variables dependientes X1 y X2 se tiene que las variables Xi
tienen poca correlación lineal, el efecto de cada variable independiente (coeficiente de regresión, cambio
en la SCE) no se altera por la presencia/ausencia de las demás variables predictoras (una consecuencia
natural de que las variables no estén asociadas ni tengan interacción). Asimismo, producto de la no
correlación de las variables predictoras se tiene que SCR(Xk/X1,…, Xp) = SCR(Xk). Por consiguiente, la
contribución marginal de cada variable a la capacidad explicativa del modelo (reducción de las sumas de
cuadrados residuales) es independiente de las otras variables consideradas en la formula.
Cuando las variables independientes están perfectamente correlacionadas (por ejemplo X2 = a + bX1, a
y b constantes), se tiene que en el modelo:
Y 0 1 X 1 2 X 2
Se puede escribir como:
Y 0 1 X 1 2 a bX 1
Y 0 a 2 1 b 2 X 1
Y 0* 1* X 1
Entonces se tiene que los parámetros (*) están completamente determinados pero existen infinitas
combinaciones de 0, 1 y 2 que determinan el valor de los parámetros (*). El problema no es que los
parámetros 0, 1 y 2 no existan, sino que hay infinitos valores para ellos que permiten estimar los
mismos (o casi los mismos) valores de Y gorro, los valores estimados de la variable dependiente. En el
caso extremo de multicolinealidad, una de las columnas de la matriz X es una combinación lineal de otras
columnas. En este caso la matriz X’X es singular (su determinante es igual a cero) y por lo tanto (X’X) -1
no existe y por lo tanto 0, 1 y 2 no pueden ser calculados de la manera usual.
Cuando dos variables independientes —X1 y X2 — están muy correlacionadas ocurre que SCR(X2| X1) es
muy pequeña comparado con SCR(X1) ya que X2 tiene casi la misma información (respecto de Y) que X 1,
y la contribución marginal de X 1 en reducir la SCE es pequeña cuando X2 ya está en el modelo de
regresión.
En la práctica es muy difícil encontrar conjuntos de variables predictoras que sean totalmente
independientes (generalmente están ligadas a un mismo proceso) o que estén perfectamente
correlacionadas (siempre hay un componente aleatorio en las observaciones). Por consiguiente, las
situaciones reales están dentro de las dos categorías presentadas anteriormente. En tales casos, la
multicolinealidad tiene las siguientes implicancias:
3. Como es posible generar distintas funciones con calidad predictiva similar se tiene sólo
información imprecisa acerca de los “verdaderos” coeficientes de regresión (no es posible
interpretar ningún set particular de parámetros como los que reflejan el “verdadero” efecto de las
variables independientes). De hecho, cada uno de los coeficientes de regresión puede no ser
estadísticamente significativo en forma individual aun cuando existe una clara relación entre la
variable respuesta el conjunto de variables predictoras.
4. Pierde sentido la interpretación de los coeficientes de regresión como la medida del cambio
esperado en el valor de la variable dependiente al incrementar en una unidad el valor de la
correspondiente variable independiente y manteniendo constante las otras variables predictoras.
Aún cuando puede ser conceptualmente correcto variar un factor dejando los otros
constantes, en la práctica es poco probable que esto ocurra en situaciones no-experimentales
dada la interpretación entre las variables predictoras. Además, esto implicaría salirse del espacio
muestral de las observaciones utilizadas para ajustar el modelo.
Cuando las variables independientes están correlacionadas, el valor del coeficiente de regresión
correspondiente a una variable en particular depende de cuáles variables están incluidas en el modelo. Por
consiguiente, el coeficiente de regresión no refleja el efecto “puro” que la variable predictora tiene en la
variable respuesta sino que refleja un efecto parcial (marginal) dada la formulación específica del
modelo.
Efectos en s {bk}
Cuando el modelo de regresión no se ajusta a los datos se tienen dos opciones básicas:
1. Cambiar el modelo por uno más complejo. Esta opción tiene la potencial ventaja de proveer un
mejor entendimiento del proceso pero su desventaja es que puede crear problemas para el ajuste
de los parámetros (especialmente por falta de información y multicolinealidad).
2. Transformar los datos de tal forma que el modelo de regresión se ajuste a los datos
transformados. Esta opción tiene la ventaja de utilizar un modelo más simple (menor número de
parámetros), lo que tiene especial relevancia cuando la muestra es pequeña. Sin embargo, tiene la
potencial desventaja de confundir la relación entre las variables (especialmente cuando la
transformación se realiza para corregir problemas de distribución de los residuales).
En este caso, corresponde utilizar un modelo diferente. Los típicos modelos alternativos a probar son las
funciones polinomiales, logarítmicas, exponenciales o con factores de interacción. Generalmente,
graficar una función lineal junto con la distribución de los puntos muestrales permite determinar el tipo de
modelo alternativo que se debe evaluar.
Si los errores de estimación presentan un comportamiento sistemático es posible utilizar el método de los
mínimos cuadrados ponderados. Este método de ajuste considera la mayor variabilidad en ciertos
segmentos de la población dándole una menor ponderación (Wi) a los residuales correspondientes a tales
clases. Se asume que una mayor dispersión genera información muestral menos precisa y por
consiguiente sus errores de estimación asociados deben tener menor influencia.
wi i2 i 1 wi Yi X i b
n n
Minimizar S
2
i 1
Un método alternativo consiste en utilizar una transformación de la variable dependiente que reduzca la
dispersión de los datos (por ejemplo: raíz cuadrada o transformación logarítmica). Para otros tipos de
transformaciones vea la sección de transformaciones en el capítulo de Análisis Exploratorio de Datos.
En este caso, una solución que da buenos resultados es utilizar un modelo de regresión diseñado para
ecuaciones de diferencia. En este modelo las variables originales son transformadas por “diferencias”. Es
decir una o más Xi son transformadas en Xi’, donde Xi’ = Xt-1, y los Yi son transformados en Yi’, donde
Yi’ = Yt – Yt-1.
Cuando se ha definido un modelo de regresión que se ajusta bien a los datos pero los residuales presentan
heterocedasticidad, una alternativa eficiente —a la transformación de la variable dependiente Y — para
estimar los parámetros del modelo es utilizar el método de los mínimos cuadrados ponderados.
w1 0 0 ... 0
0 w2 0 ... 0
W 0 0 w3 ... 0
nxn
... ... ... ... ...
0 0 0 ... wn
Donde MSEw
n
i 1 i i
w Y Yˆi 2
En general, los valores de σi2 (poblaciones) no son conocidos por lo que es necesario determinar tales
parámetros antes de usar el método de mínimos cuadrados ponderados. A continuación se presentan dos
alternativas para determinar que ponderaciones corresponde utilizar.
A. Si σi2 presenta un comportamiento sistemático con respecto a la variable independiente del tipo σi2
= σ Xi, σi2 = σ 2Xi2 ó σi2 = σ2 √ Xi .Entonces la ponderación que corresponde es del tipo Wi = 1/Xi , Wi =
2
A lo largo de esta sección se asume que los i son conocidos, pero de hecho no se conocen
explícitamente. Existen algunas alternativas para calcular los pesos o los i:
1. A partir de una variable independiente. Asumamos que se calcula una regresión usando MCO
y se hace un gráfico de los residuos estimados contra Xi, que se ve como el gráfico 17.A, es decir
con el característico patrón de embudo. Entonces podemos asumir que:
Donde y son estimados haciendo la regresión de ê con Xi. La selección de cuál potencia utilizar
debe hacerse por prueba y error, ajustando con cada peso y observando los gráficos de residuos.
Aquel peso que genere gráficos de residuos que se vean de acuerdo a lo esperado — sin tendencias
evidentes — es el indicado.