Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Correlación y Regresión Simple

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 22

Correlación y regresión lineal

simple

Dra. Yaneth Rincón

Universidad del Zulia


Núcleo COL
Estudio conjunto de dos variables
 A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
 En cada fila tenemos los datos de un individuo en cm. en Kg.
162 61
154 60
 Cada columna representa los valores que toma una 180 78
variable sobre los mismos.
158 62
171 66
 Las individuos no se muestran en ningún orden 169 60
particular. 166 54
176 84
 Dichas observaciones pueden ser representadas en un
163 68
diagrama de dispersión (‘scatterplot’). En ellos, cada
individuos es un punto cuyas coordenadas son los valores ... ...
de las variables.

 Nuestro objetivo será intentar reconocer a partir del mismo


si hay relación entre las variables, de qué tipo, y si es
posible predecir el valor de una de ellas en función de la
otra.
Diagramas de dispersión o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de


dispersión.

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Relación entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

100
ur a
alt
90 l a
con
80 nt a
m e
u
70
es oa
el p
60
que
ece
50 r
Pa
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.

30
140 150 160 170 180 190 200
Relación directa e inversa
330 100

Incorrelación 90 Fuerte relación


280
80 directa.
230
70
180
60
130 50
80 40

30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la media


• Para los valores de X mayores que la media le
tenemos valores de Y por encima y por
corresponden valores de Y mayores también.
debajo en proporciones similares.
Incorrelación.
• Para los valores de X menores que la media le
corresponden valores de Y menores también.
80
70 Cierta relación • Esto se llama relación directa.
60 inversa
50
40
30 Para los valores de X mayores que la
20 media le corresponden valores de Y
10
menores. Esto es relación inversa o
0
140 150 160 170 180 190 200 decreciente.
6
Covarianza de dos variables X e Y
 La covarianza entre dos variables, Covxy , nos indica si la posible
relación entre dos variables es directa o inversa.
 Directa: Covxy >0
 Inversa: Covxy <0
Cov xy 
 ( x  x )( y
i i  y)
 Incorreladas: Covxy =0 n 1

 El signo de la covarianza nos dice si el aspecto de la nube de puntos


es creciente o no, pero no nos dice nada sobre el grado de relación
entre las variables.
Coeficiente de correlación lineal de Pearson
 La coeficiente de correlación lineal de Covxy
Pearson de dos variables, r, nos r
indica si los puntos tienen una Sx S y
tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).

 tiene el mismo signo que la Covxy por


tanto de su signo obtenemos el que la
posible relación sea directa o inversa.

 r es útil para determinar si hay


relación lineal entre dos variables,
pero no servirá para otro tipo de
relaciones (cuadrática, logarítmica,...)
Propiedades de r
 Es adimensional
 Sólo toma valores en [-1,1]
 Las variables son incorreladas si r=0
 Relación lineal perfecta entre dos variables si r= +1 o r= -1
 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
Correlaciones positivas o de relación directa
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Correlaciones negativas o de relación inversa
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Animación: Evolución de r y diagrama de dispersión
Preguntas frecuentes

 ¿Si r=0 eso quiere decir que las variables son no independientes?
 En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos
los casos.
 Lo contrario si es cierto: Independencia implica incorrelación.

 ¿Puede darme una correlación de r= 1,2?


 Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.

 ¿A partir de qué valores se considera que hay “buena relación


lineal”?
 Imposible dar un valor concreto. Para este curso digamos que si |r|>0,7
hay buena relación lineal y que si 0,4<|r|<0,7 hay cierta relación o e
moderada.
Otros coeficientes de correlación
 Cuando las variables en vez de ser numéricas son ordinales, es posible
preguntarse sobre si hay algún tipo de correlación entre ellas.

 Disponemos para estos casos de dos estadísticos, aunque no los


usaremos en clase:
 ρ (‘ro’) de Spearman
 τ (‘tau’) de Kendall
Regresión
 El análisis de regresión sirve para predecir una medida en función de otra
medida (o varias).
 Y = Variable dependiente
 Predicha

 Explicada

 X = Variable independiente
 Predictora

 Explicativa

 ¿Es posible descubrir una relación?


 Y = f(X) + error

 f es una función de un tipo determinado

 el error es aleatorio, pequeño, y no depende de X

15
Modelo de regresión lineal simple
 En el modelo de regresión lineal simple, dado dos variables
 Y (dependiente)
 X (independiente, explicativa, predictora)

 buscamos encontrar una función de X muy simple (lineal) que nos permita
aproximar Y mediante
 Ŷ = b0 + b1X
 b0 (ordenada en el origen, constante)
 b1 (pendiente de la recta)

 Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión.
A la cantidad
 e=Y-Ŷ se le denomina residuo o error residual.

16
Interpretación de la ecuación lineal
Si se posee información sobre el No de reparaciones X Y
de motor (x) y el costo de mantenimiento en miles de 1 2
Bs. (y), Se podría obtener la siguiente ecuación de
regresión: 2 4
3 2
Y= 0,8665 + 0,8970 X
4 4
5 6
b0 = 0,8665 es una constante que representa el valor del
costo de mantenimiento cuando el número de 6 8
reparaciones es cero. Es decir, indica el nivel de costo 7 6
de mantenimiento que no depende del número de
reparaciones. Este es de 0,8665 miles de Bs. 8 5

b1 = 0,8970 representa la pendiente de la recta de 9 9


regresión. Nos indica que por cada reparación que se 10 12
realice, el costo de mantenimiento aumentará en 0,8970
miles de Bs
 La relación entre las variables no es exacta. Es natural preguntarse
entonces:
 Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
 Qué error cometemos con dicha aproximación (residual).

14

12

10
B1= 0,897
f(x) = 0.9 x + 0.87
8

2
b0=0,866
0
0 2 4 6 8 10 12
 El modelo lineal de regresión se construye utilizando la técnica de estimación
mínimo cuadrática:
 Buscar b , b de tal manera que se minimice la cantidad
0 1
 Σ e2
i i

 Se comprueba que para lograr dicho resultado basta con elegir:

 Se obtiene además unas ventajas


 El error residual medio es nulo
 La varianza del error residual es mínima para dicha estimación.

 Traducido: En término medio no nos equivocamos. Cualquier otra


estimación que no cometa error en término medio, si es de tipo lineal,
será peor por presentar mayor variabilidad con respecto al error medio
(que es cero).
¿Cómo medir la bondad de una regresión?
330

280

230
Baja
bondad de 180
ajuste
130

80 r=0,1
Coeficiente de determinación r2
30
140 150 160 170 180 190 200

100
90
80
Alta 70
bondad 60
de ajuste
50
40 r=0,8
30
140 150 160 170 180 190 200
Otros modelos de regresión
 Se pueden considerar otros tipos de
modelos, en función del aspecto que ¿recta o parábola?
presente el diagrama de dispersión
(regresión no lineal)

 Incluso se puede considerar el que una


variable dependa de varias (regresión
múltiple).

140 150 160 170 180 190 200

¿recta o cúbica?

140 150 160 170 180 190 200

21
Modelos de análisis de regresión

1 variable explicativa 2+ variables explicativas

También podría gustarte