Correlación y Regresión
Correlación y Regresión
Correlación y Regresión
Figura 4.2.
1 - 18
Si nos fijamos en la figura 4.2 aparentemente el peso aumenta 10Kg por cada 10 cm
de altura... es decir, el peso aumenta en una unidad por cada unidad de altura.
El diagrama de dispersin se obtiene representando cada observacin (xi, yi) como un
punto en el plano cartesiano XY.
4.2 CORRELACIN
La finalidad de la correlacin es examinar la direccin y la fuerza de la asociacin
entre dos variables cuantitativas. As conoceremos la intensidad de la relacin entre
ellas y si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra
variable.
Para valorar la asociacin entre dos variables, la primera aproximacin suele hacerse
mediante un diagrama de dispersin.
Figura 4.3.
En el diagrama de dispersin de la figura 4.3 parece existir una relacin lineal entre el
peso y el ndice de masa corporal de los pacientes. Adems, si nos fijamos parece que
existe un dato atpico que se aleja de la nube de puntos.
Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos
variables, pero si queremos cuantificar esta asociacin debemos calcular un
coeficiente de correlacin.
04. Correlacin y Regresin lineal
2 - 18
S xy
SxS y
Covarianza
El numerador del coeficiente de correlacin es la covarianza muestral SXY entre X e
Y, que nos indica si la posible relacin entre dos variables es directa o inversa. Es
una medida que nos habla de la variabilidad conjunta de dos variables cuantitativas.
S xy
1
( xi x )( yi y )
n i
As, si valores altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y,
el producto de las desviaciones tender a ser positivo y la covarianza ser positiva.
Por el contrario, si valores altos de una variable se relacionan con valores bajos de la
otra variable, el producto de las desviaciones tender a ser negativo y la covarianza
ser negativa.
3 - 18
Si SXY >0 las dos variables crecen o decrecen a la vez (nube de puntos
creciente).
Si SXY <0 cuando una variable crece, la otra tiene tendencia a decrecer (nube
de puntos decreciente).
Si los puntos se reparten con igual densidad alrededor del centro de gravedad
x, y , SXY =0 (no hay relacin lineal).
Cuando r0, puede afirmarse que no existe relacin lineal entre ambas
variables. Se dice en este caso que las variables son incorreladas.
4 - 18
Figura 4.5.
En la figura 4.5 vemos que r = 1 es lo mismo que decir que las observaciones de
ambas variables estn perfectamente alineadas. El signo de r, es el mismo que el
de SXY, por tanto nos indica el crecimiento o decrecimiento de la recta. La
relacin lineal es tanto ms perfecta cuanto r est cercano a 1.
En la correlacin no se distingue la variable dependiente de la independiente, la
correlacin de X con respecto a Y es la misma que la correlacin de Y con respecto a
X.
Aunque la interpretacin de la magnitud del coeficiente de correlacin depende del
contexto particular de aplicacin, en trminos generales se considera que una
correlacin es baja por debajo de 0,30 en valor absoluto, que existe una asociacin
moderada entre 0,30 y 0,70, y alta por encima de 0,70.
Condiciones de aplicacin de la correlacin:
5 - 18
Ejemplo 4.1
En la Figura 4.6 se presenta el diagrama de dispersin entre el ndice de masa
corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por la
altura en metros al cuadrado, y el colesterol HDL en un estudio realizado a 533
individuos.
Figura 4.6.
A simple vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice de
masa corporal. Esta apreciacin visual se confirma mediante el clculo del coeficiente
de correlacin muestral de Pearson que indica una asociacin lineal negativa
moderada entre el ndice de masa corporal y el colesterol HDL.
6 - 18
Los residuos o errores ei son la diferencia entre los valores observados (verdadero
valor de Y) y los valores pronosticados por el modelo: ei =Y-. Recogen la parte de
la variable Y que no es explicada por el modelo de regresin.
A partir de la definicin de residuo, podemos escribir Y = f(X) + error.
El trmino que hemos denominado error debe ser tan pequeo como sea posible. El
objetivo ser buscar la funcin (modelo de regresin) = f(X) que lo minimice.
7 - 18
SC Re s e ( yi y i ) 2
i 1
2
i
i 1
Figura 4.7.
8 - 18
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de
regresin:
S XY
S X2
a y bx
Ejemplo 4.2
En el estudio de la relacin entre el ndice de masa corporal y el colesterol HDL,
resulta natural considerar el ndice de masa corporal como variable independiente X y
el colesterol HDL como variable dependiente Y. El objetivo es, estimar los cambios en
el nivel medio del colesterol HDL conforme aumenta el ndice de masa corporal
utilizando un modelo de regresin lineal simple.
S XY
-0,023
S X2
a y bx 1,69
La constante a 1,69 mmol/l es una estimacin del valor esperado del colesterol HDL
para un sujeto con un imc igual a 0 kg/m2, extrapolacin que carece de sentido
biolgico.
9 - 18
y 1,69 0,023x
Figura 4.8.
Esta recta de regresin puede utilizarse para estimar o predecir el valor esperado del
colesterol HDL en funcin del ndice de masa corporal.
Por ejemplo, para un ndice de masa corporal de 25 kg/m2, el modelo estima un nivel
medio de colesterol HDL de
Ejemplo 4.3
A partir de la recta de regresin que relaciona los pesos y las alturas de una muestra
de 10 personas, podemos estar interesados en conocer el peso de una persona de
altura de 1,60 m
10 - 18
Figura 4.9.
11 - 18
Se2
R 1 2
SY
2
Cuando un ajuste es malo, R2 ser cercano a cero (la recta no explica nada, no
existe asociacin entre X e Y)
Para entender mejor cmo se mide la bondad de un ajuste de un modelo de regresin, os aconsejo que
veis con detenimiento la presentacin disponible en material de apoyo
12 - 18
Puesto que R2 nos explica la proporcin de variabilidad de los datos que queda
explicada por el modelo de regresin, cuanto ms cercano a la unidad est, mejor es
el ajuste.
Volviendo al ejemplo 4.3 de las alturas y los pesos, hemos obtenido un coeficiente de
determinacin R2 = 0,5617 que nos informa de que la altura slo nos explica el 56,17%
de la variabilidad del peso.
Relacin entre R2 y r
Es muy importante tener clara la diferencia entre el coeficiente de correlacin y el
coeficiente de determinacin:
13 - 18
14 - 18
15 - 18
peso
imc
tas
tad
bqcol
bqldl
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
1,000
.
1024
,759**
imc
tas
tad
bqcol
bqldl
,759**
,163**
,230**
,044
,022
,000
1024
,000
1024
,000
1024
,155
1023
,481
1007
,270**
,313**
,060
,015
,000
1024
,000
1024
,055
1023
,633
1007
,744**
,089**
,065*
,000
1024
,004
1023
,039
1007
,099**
,081*
,002
1023
,010
1007
1,000
,000
1024
.
1024
,163**
,270**
,000
1024
,000
1024
.
1024
,230**
,313**
,744**
,000
1024
,000
1024
,000
1024
.
1024
,044
,060
,089**
,099**
,155
1023
,055
1023
,004
1023
,002
1023
.
1023
,022
,015
,065*
,081*
,930**
,481
1007
,633
1007
,039
1007
,010
1007
,000
1007
1,000
1,000
1,000
,930**
,000
1007
1,000
.
1007
Interpretacin: Observa que existe una fuerte correlacin positiva entre el PESO y el
IMC, entre las variables TAS y TAD y entre el valor total del colesterol BQCOL y
BQLDL. Entre el resto de las variables la correlacin es dbil.
Una vez elegida la funcin a ajustar, se estiman los valores de los parmetros, se
calcula la bondad del ajuste y se analizan los residuos con la opcin ANALIZAR>
REGRESIN>LINEAL.
16 - 18
Interpretacin:
b
Variables i ntroducidas/eliminadas
Modelo
1
Variables
introducidas
peso a
Variables
eliminadas
.
Mtodo
Introducir
R
,810a
R cuadrado
,657
R cuadrado
corregida
,657
Error tp. de la
estimacin
1,82745
DurbinWat son
1,608
Regresin
Residual
Total
Suma de
cuadrados
6533,998
3413,041
9947,039
gl
1
1022
1023
Media
cuadrtica
6533,998
3,340
F
1956,539
Sig.
,000a
Este contraste lo entenderis mejor una vez que estudiemos los temas correspondientes a inferencia
estadstica
17 - 18
Coeficientesa
Modelo
1
(Constante)
peso
Coef icientes no
estandarizados
B
Error tp.
7,175
,469
,257
,006
Coef icientes
estandarizad
os
Beta
,810
t
15,301
44,233
Sig.
,000
,000
18 - 18