M2T04
M2T04
M2T04
4.1 INTRODUCCIÓN
Pretendemos estudiar una situación muy usual y por tanto de gran interés en la
práctica: Si Y es una variable definida sobre la misma población que X, ¿será posible
determinar si existe alguna relación entre las modalidades de X y de Y?
Figura 4.2.
4.2 CORRELACIÓN
Para valorar la asociación entre dos variables, la primera aproximación suele hacerse
mediante un diagrama de dispersión.
Figura 4.3.
En el diagrama de dispersión de la figura 4.3 parece existir una relación lineal entre el
peso y el índice de masa corporal de los pacientes. Además, si nos fijamos parece
que existe un dato atípico que se aleja de la nube de puntos.
Con la nube de puntos podemos apreciar si existe o no una tendencia entre las dos
variables, pero si queremos cuantificar esta asociación debemos calcular un
coeficiente de correlación.
Hay dos coeficientes de correlación que se usan frecuentemente: el de Pearson
(paramétrico) y el de Spearman (no paramétrico, se utiliza en aquellos casos donde
las variables examinadas no cumplen criterios de normalidad o cuando las variables
son ordinales).
El estimador muestral más utilizado para evaluar la asociación lineal entre dos
variables X e Y es el coeficiente de correlación de Pearson (r). Se trata de un índice
que mide si los puntos tienen tendencia a disponerse en una línea recta. Puede tomar
valores entre -1 y +1.
Es un método estadístico paramétrico, ya que utiliza la media, la varianza,…y por
tanto, requiere criterios de normalidad para las variables analizadas.
Covarianza
Así, si valores altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y,
el producto de las desviaciones tenderá a ser positivo y la covarianza será positiva.
Por el contrario, si valores altos de una variable se relacionan con valores bajos de la
otra variable, el producto de las desviaciones tenderá a ser negativo y la covarianza
será negativa.
De tal modo que:
Si SXY >0 las dos variables crecen o decrecen a la vez (nube de puntos
creciente).
Si SXY <0 cuando una variable crece, la otra tiene tendencia a decrecer (nube
de puntos decreciente).
Si los puntos se reparten con igual densidad alrededor del centro de gravedad
x, , SXY =0 (no hay relación lineal).
y
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de relación entre las variables.
Cuando r≈0, puede afirmarse que no existe relación lineal entre ambas
variables. Se dice en este caso que las variables son incorreladas.
Para entenderlo mejor, veamos los siguientes diagramas de dispersión:
Figura 4.5.
En la figura 4.5 vemos que r = ±1 es lo mismo que decir que las observaciones de
ambas variables están perfectamente alineadas. El signo de r, es el mismo que el
de SXY, por tanto nos indica el crecimiento o decrecimiento de la recta. La
relación lineal es tanto más perfecta cuanto r está cercano a ±1.
Ejemplo 4.1
Figura 4.6.
La regresión supone que hay una variable fija, controlada por el investigador (es la
variable independiente o predictora), y otra que no está controlada (variable respuesta
o dependiente). La correlación supone que ninguna es fija: las dos variables están
fuera del control de investigador.
Una vez que hemos hecho el diagrama de dispersión y después de observar una
posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación
de la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de
regresión.
Si sobre un grupo de personas observamos los valores que toman las variables
X = altura medida en centímetros, Y=altura medida en metros, sabemos que la
relación que hay entre ambas es: Y = X/100.
Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo
grupo de personas es X = altura medida en centímetros e Y= peso en kilogramos.
La razón es que no es cierto que conocida la altura xi de un individuo, podamos
determinar de modo exacto su peso yi (dos personas que miden 1, 70m pueden tener
pesos de 60 y 65 kilos). Sin embargo, alguna relación entre ellas debe existir, ya que
parece más probable pensar que un individuo de 2m pese más que otro que mida
1,20m.
Mediante las técnicas de regresión inventamos una variable Ŷ como función de otra
variable X (o viceversa).
El criterio para construir esta función es que la diferencia entre Y e Ŷ, denominada
error o residuo, sea pequeña.
Los residuos o errores ei son la diferencia entre los valores observados (verdadero
valor de Y) y los valores pronosticados por el modelo: ei =Y-Ŷ. Recogen la parte de
la variable Y que no es explicada por el modelo de regresión.
El término que hemos denominado error debe ser tan pequeño como sea posible. El
objetivo será buscar la función (modelo de regresión) Ŷ= f(X) que lo minimice.
4.3.1 Ajuste de una recta por mínimos cuadrados
Para cada observación podemos definir el error o residuo como la distancia vertical
entre el punto (xi, yi) y la recta, es decir: yi – (a + bxi)
Por cada recta que consideremos, tendremos una colección diferente de residuos.
Se trata de buscar la recta que dé lugar a los residuos más pequeños, es decir la
recta que hace mínima la suma de cuadrados de las distancias verticales entre cada
punto y la recta, de tal manera que se minimice la suma de los errores al cuadrado.
N N
SC Re s ei 2 ( yi y ) 2
i
i1 i1
Figura 4.7.
1
No entramos en el desarrollo matemático del método
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de
regresión:
b S XY
a y bx
S X2
Ejemplo 4.2
S XY
b a y bx 1,69
S X2 -0,023
La constante a 1,69 mmol/l es una estimación del valor esperado del colesterol HDL
para un sujeto con un imc igual a 0 kg/m2, extrapolación que carece de sentido
biológico.
La pendiente b= -0,023 estima que, por cada incremento de 1kg/m2 en el índice de
masa corporal, el nivel medio de colesterol HDL disminuye en 0,023 mmol/l.
La recta de regresión (figura 4.8) estimada del colesterol HDL sobre el índice
de masa corporal es:
y 1,69 0,023x
Figura 4.8.
Esta recta de regresión puede utilizarse para estimar o predecir el valor esperado
del colesterol HDL en función del índice de masa corporal.
Por ejemplo, para un índice de masa corporal de 25 kg/m2, el modelo estima un nivel
medio de colesterol HDL de
y(25) 1,69 0,023 25 1,11mmol / l
Interpolación y extrapolación:
Ejemplo 4.3
A partir de la recta de regresión que relaciona los pesos y las alturas de una
muestra de 10 personas, podemos estar interesados en conocer el peso de una
persona de altura de 1,60 m
y 96,11 0,979x 96,11 0,979 160 60,53
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg.
Figura 4.9.
El coeficiente de determinación, R2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos encontrado
a partir de un conjunto de observaciones explica las variaciones que se producen en la
variable dependiente de éstas.
Cuanto menos dispersos sean los residuos (recordad que lo residuos o errores son la
diferencia entre los valores observados y los valores estimados por la recta de
regresión), mejor será la bondad del ajuste2.
2 S2
R 1 e
SY2
Cuando un ajuste es malo, R2 será cercano a cero (la recta no explica nada, no
existe asociación entre X e Y)
2
Para entender mejor cómo se mide la bondad de un ajuste de un modelo de regresión, os aconsejo que
veáis con detenimiento la presentación disponible en material de apoyo
Puesto que R2 nos explica la proporción de variabilidad de los datos que queda
explicada por el modelo de regresión, cuanto más cercano a la unidad esté, mejor es
el ajuste.
Volviendo al ejemplo 4.3 de las alturas y los pesos, hemos obtenido un coeficiente de
determinación R2 = 0,5617 que nos informa de que la altura sólo nos explica el 56,17%
de la variabilidad del peso.
Relación entre R2 y r
Esta relación nos ayuda a comprender por qué antes considerábamos que un valor de
r = 0,5 era débil. Este valor representará un R2 = 0,25, es decir, el modelo de regresión
sólo nos explica un 25% de la variabilidad total de las observaciones.
Una correlación puede parecer impresionante, por ejemplo r = 0,7, y sin embargo el
modelo lineal explicaría menos del 50% de lo observado (R2=0,49).
El primer paso debe ser siempre pedir a SPSS un gráfico de dispersión para apreciar
visualmente si se puede asumir un modelo lineal entre ambas variables.
Como hemos visto el diagrama de dispersión o nube de puntos permite obtener
información sobre el tipo de relación existente entre dos variables y sirve para detectar
posibles datos atípicos o valores extremos.
Correlaciones
peso imc tas ta bqcol bqldl
d
Rho de Spearman pes Coeficiente de * * *
o 1,000 , , , ,044 ,022
correlación
759* 163* 230*
Sig. (bilateral) . ,155 ,481
N 102 ,000 ,000 ,000 1023 1007
4 * 1024 1024 * 1024 *
imc Coeficiente de
, 1,000 , , ,060 ,015
correlación
759* 270* 313*
Sig. (bilateral) . ,055 ,633
N ,000 * 102 * ,000 ,000 * 1023 * 1007
1024 4 1024 1024
ta Coeficiente de
s , , 1,000 , , ,065*
correlación
163* 270* 744* 089*
Sig. (bilateral) . ,039
N ,000 ,000 102 ,000 ,004 1007
1024 1024 4 1024 1023
tad Coeficiente de
, , , 1,000 , ,081*
correlación
230* 313* 744* 099*
Sig. (bilateral) . ,010
N ,000 * ,000 * ,000 * 102 ,002 * 1007
1024 1024 1024 4 1023
bqco Coeficiente de
l ,044 ,060 , , 1,000 ,930**
correlación
089* 099*
Sig. (bilateral) ,155 ,055 * * . ,000
N 1023 1023 ,004 ,002 102 1007
1023 1023 3
bqldl Coeficiente de
,022 ,015 , , , 1,000
correlación
065* 081* 930* *
Sig. (bilateral) ,481 ,633 .
N 1007 1007 ,039 ,010 ,000 1007
1007 1007 1007
**. La correlación es signif icativ a al niv el 0,01 (bilateral).
*. La correlación es signif icativ a al niv el 0,05 (bilateral).
Interpretación: Observa que existe una fuerte correlación positiva entre el PESO y
el IMC, entre las variables TAS y TAD y entre el valor total del colesterol BQCOL y
BQLDL. Entre el resto de las variables la correlación es débil.
Una vez elegida la función a ajustar, se estiman los valores de los parámetros, se
calcula la bondad del ajuste y se analizan los residuos con la opción ANALIZAR>
REGRESIÓN>LINEAL.
Interpretación:
Variables i ntroducidas/eliminadabs
Variables Variables
Modelo introducidas eliminadas Método
1 pesoa . Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: imc
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6533,998 1 6533,998 1956,539 ,000a
Residual 3413,041 1022 3,340
Total 9947,039 1023
a. Variables predictoras: (Constante), peso
b. Variable dependiente: imc
3
Este contraste lo entenderéis mejor una vez que estudiemos los temas correspondientes a inferencia
estadística
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 7,175 ,469 15,301 ,000
peso ,257 ,006 ,810 44,233 ,000
a. Variable dependiente: imc
IMC=7,175+ 0,257·PESO