Correlación y Regresión Lineal
Correlación y Regresión Lineal
Correlación y Regresión Lineal
ESTADÍSTICA INFERENCIAL
REGRESIÓN
Suponga que usted es la persona encargada del departamento de recursos humanos de una gran
empresa y podrías estar muy interesada(o) en saber si existe alguna relación entre las calificaciones
obtenidas en la universidad por lo empleados y el éxito de éstos en la compañía. Si verdaderamente
existe una relación fuerte entre estas dos variables, entonces las calificaciones obtenidas en la
universidad se podrían usar para predecir el éxito en la empresa y, por lo tanto, serían muy útiles a la
hora de seleccionar a los futuros empleados.
En estadística este es uno de los temas de mayor practicidad y utilidad en el campo profesional
porque generalmente siempre estamos tratando de hacer comparaciones entre dos o más variables y
mirar si tienen alguna relación entre sí con el fin de hacer predicciones. Así que nos podríamos hacer
la siguiente pregunta.
De la primera parte podemos decir que la correlación y la regresión están relacionadas
entre sí. Ambas implican la relación entre dos o más variables. La correlación sirve
principalmente para averiguar si existe una relación (lineal) y para determinar su
magnitud y dirección, mientras que la regresión se refiere principalmente al hecho de
utilizar la relación para hacer predicciones.
Una relación lineal entre dos variables es la que puede representarse con mayor
exactitud por medio de una línea recta.
Relación lineal negativa: Si existe una relación lineal negativa entre las variables X y Y,
entonces al aumentar los valores de X los valores de Y tienden disminuir y viceversa.
Relación Imperfecta: Una relación lineal imperfecta es aquella en la cual existe una relación
positiva negativa, pero no todos los puntos caen sobre la recta.
La magnitud de la relación o grado de relación entre las variables se refiere a la fuerza de la relación que existe
entre las variables. Se trata de expresar cuantitativamente el grado de relación que existe entre las variables de
estudio.
COEFICIENTE DE CORRELACIÓN
#$%
!= , donde:
#$$ #%%
∑ (/ ∑ ) / ∑ (/ 2
'() = ∑ +, -, − '(( = ∑ +,1 −
0 0
∑ -, 1
')) = 3 -,1 −
4
Tanto '(( como ')) no pueden ser negativas, '() si puede ser positiva o negativa.
El signo del coeficiente de correlación indica si la relación entre las variables es positiva o
negativa.
El valor numérico del coeficiente de correlación varia entre -1 y 1 y ésta describe la magnitud de la relación
entre las variables.
Ejemplo 1: Los datos siguientes son estaturas y pesos de nadadoras. Halle el coeficiente de
correlación de Pearson y concluya cual es la relación entre estas variables
! (Estatura) 68 64 62 65 66
Solución:
Se llena la siguiente tabla para calcular el coeficiente de correlación de Pearson
100
∑ #* 6 2426
S## = ∑ y'1 − = 69101 − = 656 80
+ 2
60
<=> ??@ 40
Donde ; = = = 0,96
<== <>> 1@3A2A 20
0
61 62 63 64 65 66 67 68 69
Del resultado de r podemos concluir que la correlación entre los Coeficiente Intelectuales y las calificaciones
en una prueba de conocimiento de los estudiantes es positiva fuerte.
ANÁLISIS DE REGRESIÓN
Con frecuencia nos encontramos en economía con modelos en los que el comportamiento de una variable Y, se
puede explicar a través de una variable x, lo que representamos así:
! = #(%)
Si consideramos que la relación f, que liga y con x, es lineal, entonces se puede escribir así:
,. y -
ESTIMACIÓN DE LOS PARÁMETROS - ,/
∑ 23 43 5 62̅ 48
&
') = ∑ 9
23 5 62̅ 9
Para ello, se obtuvieron los siguientes datos procedentes de otros establecimientos similares
acerca del número de cajas registradoras (variable X) y del 5empo medio de espera (variable
Y).
Solución: Se llena la siguiente tabla para calcular los datos
& !" = () & #" = %*% & ! $ # = *%+) & !% = +,%) & #% = +))*)
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN:
∑& ( ) ,
*+&( ./#0 )(23#43.5,27)
β! # = ∑ ' - ' = = −3,8614
&' ) *+&- #9/0)(23#4- )
GI + H
FE = H GK L M = NO, PNK + (−Q, ROKS 3 TU )
Si el número de cajas registradora es igual a cero, se espera que el tiempo para que atiendan un
cliente es de 96,591 minutos. Si se aumenta el número de cajas en una unidad se espera que el
tiempo de espera del cliente disminuya 3,8614 minuto.
!" #" !$# !% #% &
# ' '%
SUMA DE CUADRADOS
GRADOS DE LIBERTAD
Grados de libertad de regresión:
45 !", = 1
Grados de libertad del error:
45 !"# = 6 − 2 = 6 − 2 = 4
Grados de libertad total:
45 !"- = 6 − 1 = 6 − 1 = 5
SUMAS DE CUADRADOS MEDIOS: Es el cociente entre las sumas de cuadrados y los grados de
libertad.
#$% 1041,42
!= = = 232,615
#$& 4,477
PRUEBA DE HIPÓTESIS
01 = El modelo no es significativo
02 = El modelo es significativo
SUMA DE
FUENTE DE SUMA DE GRADOS DE
CUADRADOS RAZÓN F
VARIACIÓN CUADRADOS LIBERTAD
MEDIO
1041,42
!=
Regresión 1041,42 1 1041,42 4,477
= 232,615
1. G.C Canavos. Probabilidad y Estadística – Aplicaciones y Métodos. Mc. Graw Hill. México.
2. J. E. Freund, I Miller & M. Miller. Estadística Matemática Con Aplicaciones. Pearson Prentice Hall, Mexico