Regresion y Correlacion Multiple
Regresion y Correlacion Multiple
Regresion y Correlacion Multiple
REGRESIÓN MÚLTIPLE.
El análisis de regresión múltiple estudia la relación de una variable dependiente y dos o más
variables independientes. En términos generales, suele utilizarse p para denotar el número de
estas últimas.
A la ecuación que describe cómo está relacionada la variable dependiente y con las variables
independientes 𝑥1 , 𝑥2 , … . , 𝑥𝑝 y un término de error se le conoce como modelo de regresión
múltiple. Se inicia con el supuesto de que este modelo toma la forma siguiente:
𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑 +∈
Donde:
β0 , β1 , β2 ,…, βp son los parámetros del modelo, y ϵ (la letra griega épsilon) es una variable
aleatoria denominada término del error. Este último corresponde a la variabilidad en y que
no puede ser explicada por el efecto lineal de las p variables independientes.
1
Para la regresión lineal simple se proporcionaron las fórmulas para calcular los estimadores
b0 y b1 que se necesitan en la ecuación de regresión lineal simple estimada, empleando el
método de mínimos cuadrados. Con conjuntos de datos relativamente pequeños fue posible
usar esas fórmulas para obtener b0 y b1 mediante cálculos manuales. En la regresión
múltiple, en cambio, las fórmulas para los coeficientes de regresión b0, b1, b2, . . . , bp
utilizan álgebra matricial y quedan fuera del alcance de este documento. Por esta razón,
el estudio de la regresión múltiple centrará la atención en el uso de software para obtener
la ecuación de regresión estimada y alguna otra información. Se hará énfasis en la
interpretación de los resultados que proporciona este software y no en cómo efectuar los
cálculos para la regresión múltiple.
donde:
Dado lo complejo de los cálculos de estas tres sumas de cuadrados, es necesario emplear un
software para realizarlos.
Siempre que se añade una variable independiente al modelo, R2 aumenta, por tanto, muchos
analistas prefieren ajustarlo al número de variables independientes para evitar sobreestimar
2
el efecto que tiene agregar una variable independiente sobre la cantidad de la variabilidad
explicada por la ecuación de regresión estimada. Siendo n el número de observaciones y p el
número de variables independientes, el coeficiente de determinación múltiple ajustado se
calcula como sigue:
𝒏−𝟏
𝑹𝟐𝒂 = 𝟏 − (𝟏 − 𝒓𝟐 )
𝒏−𝒑−𝟏
Los supuestos acerca del término del error ϵ en el modelo de regresión múltiple son similares
a los supuestos en el modelo de regresión lineal simple.
3
Prueba de significancia del modelo.
4
Prueba de significancia de cada uno de los parámetros.
El error cuadrado medio (ECM) proporciona una estimación de σ2. La raíz cuadrada del
CME es la estimación de la desviación del término del error. Como se definió en la regresión
lineal simple, esta desviación es el error estándar de estimación que se denota s. En el
estadístico de prueba, sbi es la estimación de la desviación estándar de bi. El software
proporciona el valor de sbi. El error estándar de estimación múltiple se calcula de la siguiente
manera:
También utilizando la información de la tabla ANOVA, se puede usar para calcular el error
estándar de estimación múltiple, utilizando la fórmula:
𝒔𝒀.𝟏𝟐𝟑…𝑲 = √𝑪𝑴𝑬
5
Suponiendo que se desarrolló un modelo de regresión múltiple para pronosticar una variable
dependiente referente a un costo (dólares), ¿Cómo interpretar el error estándar de estimación
si su valor fuera de 51.05? Recuerde que es el “error” típico o estándar cuando se emplea la
ecuación para predecir el costo. Primero, las unidades son las mismas que en la variable
dependiente, por lo cual el error estándar es en dólares ($51.05). Segundo, se espera que los
residuos sean aproximados a una distribución más o menos normal, por lo que alrededor de
68% de ellos estará dentro de ±$51.05 y cerca de 95% dentro de ±2(51.05) = ±$102.10; En
fin, un error estándar múltiple indica una mejor ecuación de predicción o más eficiente.
Multicolinealidad.
En resumen, en las pruebas t para la significancia de cada uno de los parámetros, la dificultad
ocasionada por la multicolinealidad lleva a concluir que ninguno de los parámetros es
significativamente distinto de cero, cuando la prueba F sobre la ecuación de regresión
múltiple general indica que hay una relación significativa. Este problema se evita cuando
existe poca correlación entre las variables independientes.
En conclusión, siempre que sea posible, debe evitarse incluir variables independientes
fuertemente correlacionadas.
En caso de que se necesite trabajar con una variable independiente cualitativa en el análisis
de regresión, entonces si esta tiene dos categorías se deben codificar con cero y uno, creando
lo que se conoce como una variable ficticia (variable en la que sólo existen dos resultados
posibles). Si la variable independiente cualitativa tiene más de dos categorías, entonces habrá
que tener cuidado tanto al definir como al interpretar las variables ficticias que deberán ser
creadas, utilizando como regla general que si una variable cualitativa tiene k niveles, se
necesitan k - 1 variables ficticias, cada una de las cuales tomará el valor 0 o 1.
6
Suponga, por ejemplo, que un fabricante de fotocopiadoras divide un estado en tres regiones
de ventas: A, B y C. Sus gerentes desean aplicar el análisis de regresión para predecir las
ventas semanales. Utilizando como variable dependiente el número de fotocopiadoras
vendidas, están considerando diversas variables independientes (número de vendedores,
gastos en publicidad, etc.). Suponga que los gerentes piensan que la región de ventas puede
ser también un factor importante en la predicción del número de unidades vendidas. Como
región es una variable cualitativa que tiene tres niveles, A, B y C, para representar la región
de ventas se necesitarán 3 - 1 = 2 variables ficticias, cada una de las cuales tomará los valores
0 ó 1.
7
ANÁLISIS DE CORRELACIÓN MÚLTIPLE.
Si hay tres variables, habrá tres correlaciones simples entre ellas, ρ12, ρ13 y ρ23. Estos
coeficientes miden la relación lineal que existen entre estas variables, dos a dos, sin tener en
cuenta la posible influencia de la tercera.
Este coeficiente tiene una desventaja, su valor se incrementa cuando se introducen nuevas
variables independientes en el modelo, por tanto, resulta engañoso para el análisis.
Donde:
r(1,2) = la correlación simple entre la variable dependiente y la 1era variable independiente.
r(1,3) = la correlación simple entre la variable dependiente y la 2da variable independiente.
r(2,3) = la correlación simple entre la 1era variable independiente y la 2da variable independiente.
El valor de un coeficiente de correlación múltiple (R), se encuentra entre cero y uno. Cuanto
más se acerque a uno, mayor es el grado de asociación entre las variables. Y cuanto más se
acerca a 0, la relación lineal es peor.
8
Ejemplo de la regresión lineal múltiple.
Supongamos que tenemos los siguientes datos en un estudio de la relación sobre la
inteligencia y la motivación, como predictores de la calificación final obtenida en el
bachillerato, en una muestra aleatoria de 12 sujetos. Utilizar un nivel de significancia del 0.05
Primer paso: se empieza por desarrollar una matriz de correlación que mostrará la relación
entre las variables independientes y la variable dependiente. Esto ayudará a identificar las
variables independientes que se relacionan más con la variable dependiente. La matriz de
correlación revelará también aquellas variables independientes que están altamente
relacionadas y que son posiblemente redundantes. La matriz de correlación se muestra a
continuación:
Correlación de Pearson
Podemos notar que la calificación esta fuertemente relacionada con la motivación y en menor
medida está relacionada con la inteligencia, pues en ambos casos el valor p < (α = 0.05), lo
que significa que ambos coeficientes de correlación son significativos y que la correlación
calculada no se debe a la casualidad.
9
Análisis de regresión lineal utilizando INFOSTAT.
El R2 ajustado indica que las dos variables independientes explican el 82% de la varianza de
las calificaciones, es decir, que el 82% de la variabilidad de las calificaciones, se explica por
las variables independientes o predictoras contempladas en el modelo. El ajuste del modelo
puede considerarse según este dato bastante alto. La ecuación de regresión estimada es:
Lo cual refleja que por un punto más en la variable inteligencia, se incrementa la calificación
en 0.02 puntos. Respecto a la motivación, la calificación sube 0.11 puntos por cada unidad
más puntuada en esta última variable. Por último, la calificación prevista en ausencia de
motivación y de inteligencia alguna, es de 1.74 puntos.
El factor de inflación de la varianza (VIF) es de 1.32 en ambos casos y por tanto, es menor
que el límite superior de la prueba que es 10, lo que indica que las variables independientes
no están muy correlacionadas.
𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝛽𝑖 𝑛𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜.
10
Cuarto paso: evaluar los coeficientes individuales de regresión para determinar si no todos
ellos resultan igualmente relevantes. Si es así, quizás sea conveniente llevar a cabo una
depuración del modelo de regresión múltiple eliminando aquellos regresores que por sus
poderes predictivos –no significativos- no expliquen mucho más sobre y, que lo que ya
explican aquellos que sí lo son. Veamos a continuación cómo puede llevarse a cabo esta
tarea.
𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0
El valor p del coeficiente de regresión de la motivación (0.0009) es menor que 0.05, por
tanto, se concluye que este coeficiente de regresión es diferente de 0 y es un factor de
predicción significativo de la calificación. En el caso de la inteligencia, el valor P (0.0597)
es mayor que 0.05, así que no rechazamos la hipótesis nula y se concluye que el coeficiente
de regresión de esta variable no difiere de cero, es decir, que la inteligencia no es un factor
de predicción eficaz de la calificación y por tanto, esta variable se podría retirar del modelo,
para tener un modelo más sencillo y fácil de interpretar.
Quinto paso: retirar una variable independiente a la vez (en caso de existir varias que no sean
significativas) y rehacer el análisis para evaluar el efecto general de quitar dicha variable.
Se observa que los valores R2 y R2 ajustado han disminuido, pero sólo ligeramente.
Utilizando las dos variables independientes, el valor R2 fue de 0.85, mientras que el R2
ajustado fue de 0.82. Al quitar la variable no significativa, los valores R2 y R2 ajustado son
0.77 y 0.75 respectivamente. Preferimos tener la ecuación con el menor número de variables
independientes, porque es más fácil de interpretar.
11
El valor p del modelo de regresión es 0.0002. Como el valor p es menor al nivel de
significancia (α=0.05), rechazamos la hipótesis nula y concluimos que al menos uno de los
coeficientes de regresión no es igual a cero. Esto indica que el modelo se muestra claramente
valido para representar los datos y que la calificación está afectada significativamente por la
variable motivación.
El valor p del coeficiente de regresión de la motivación (0.0002) es menor que 0.05, por
tanto, se concluye que este coeficiente de regresión es diferente de 0 y es un factor de
predicción significativo de la calificación.
ŷ = 𝟑. 𝟐𝟗 + (𝟎. 𝟏𝟑 ∗ 𝒎𝒐𝒕𝒊𝒗𝒂𝒄𝒊ó𝒏)
Esta ecuación explica 75% de la variabilidad de las calificaciones y nos indica que, a cada
valor de la motivación, le corresponde un pronostico de calificaciones basado en un
incremento constante de 3.29 puntos, más 0.13 veces el valor de la variable motivación.
Shapiro-Wilks (modificado)
Variable N R² R² Aj CV
RABS Calif 12 0.62 0.17 58.16
12
H0: La varianza de ϵ (término del error), es la misma para todos los valores de x.
H1: Al menos dos varianzas son distintas.
Se puede apreciar en la prueba de Levene para el modelo de regresión, que (p=0.3749) >
(α=0.05) para los grupos, por tanto, no hay evidencias para rechazar el supuesto de igualdad
de varianzas, por lo que se acepta la hipótesis nula y se sostiene la idea de que las varianzas
de ϵ (término del error) son homogéneas.
Según Di Rienzo (Manual de INFOSTAT, 2011, p.36): “si el modelo está bien ajustado y los
supuestos del modelo (normalidad, homoscedasticidad e independencia se cumplen), el 95%
de los residuos estudentizados estarán entre -2 y 2”.
13
Ejemplo del cálculo del coeficiente de correlación múltiple en el ejercicio anterior.
Correlación de Pearson
Vemos que se obtiene el mismo resultado si también se le calcula la raíz cuadrada al R 2 del
modelo de regresión múltiple dado anteriormente, es decir, √0.85 = 0.92 e indica que el
grado de asociación entre las variables predictoras (motivación y inteligencia) y la variable
dependiente (calificación) es muy fuerte.
14