Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Regresion y Correlacion

Descargar como ppt, pdf o txt
Descargar como ppt, pdf o txt
Está en la página 1de 40

Regresión y Correlación

Regresión y Correlación
Relaciones entre variables

El término regresión fue introducido por Galton


en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”

Francis Galton
•Primo de Darwin
“Cada peculiaridad en un hombre es compartida por •Estadístico y aventurero
•Fundador (con otros) de
sus descendientes, pero en promedio , en un grado la estadística moderna
menor. Regresión a la media” para explicar las teorías
de Darwin.

Regresión y Correlación
Conclusión

Padres muy altos tienen tendencia a tener hijos que


heredan parte de esta altura, aunque tienen tendencia
a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción


de una medida basándonos en el conocimiento de otra.

Regresión y Correlación
Modelo de Regresión Lineal

 El Modelo es la expresión teórica del comportamiento


de la población

Yi     x i   i
Error
Residual
Parámetros

Parte sistemática

Regresión y Correlación
Elementos del Modelo

 = Es el valor medio teórico que asume la variable Y cuando x=0

 = Es el valor medio teórico del aumento o decremento de la


variable Y cuando x varia una unidad.

 = Es el término de error en él se incluyen los errores casuales, de


medición, deficiencias del modelo, etc.

Regresión y Correlación
Supuestos del Modelo

 La variable "explicativa" X toma valores predeterminados por el


investigador.

 Para cada valor fijo de X , la variable Y se distribuye Normal .

 La relación entre las variables X e Y es lineal , es decir, la


regresión del promedio es lineal Simbólicamente : E(Y/X) = α +
.X , ya que E() = 0

 Los valores de la variable Y son independientes entre si ya que


existe Homocedasticidad ,significa que la variancia de los
errores es constante , no depende del valor de X. La variancia
de Y no depende del valor que tome la variable X
Regresión y Correlación
CALCULO DE LA RECTA DE REGRESIÓN

( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )

Yi     x i   i
Modelo de Regresión

y i ~ N ( E (Y / x i ),  2 )


Recta de Estimación y  a  b. x

Regresión y Correlación
Regresión Lineal
Algebra de la Muestra.

 El análisis de regresión sirve para predecir una medida


en función de otra medida (o varias).
 Y = Variable dependiente

 Predicha

 Explicada

 X = Variable independiente
 Predictora

 Explicativa

Regresión y Correlación
Estudio conjunto de dos variables

fila = datos de un individuo


Altura Peso
en cm. en Kg.
columna =representa los valores que toma una
variable sobre los mismos. 162 61
154 60
180 78
Las individuos no muestran ningún orden 158 62
particular. 171 66
169 60
Las observaciones se representan en un diagrama 166 54
de dispersión. 176 84
163 68

Objetivo será intentar reconocer a partir del mismo ... ...

si hay relación entre las variables, de qué tipo, y


si es posible predecir el valor de una de ellas en
función de la otra.

Regresión y Correlación
Diagramas de dispersión o nube de puntos

Alturas y pesos de 30 individuos representados en un diagrama de dispersión

100
90
80 Pesa 76 kg.

70
60

Mide 187 cm.


50Pesa 50 kg.
40
Mide 161 cm.
30
140 150 160 170 180 190 200

Regresión y Correlación
Relación entre variables.

100
90
ur a
80 al t
n la
co
70
en ta
aum
60 e so
p
El
50
40
30
140 150 160 170 180 190 200
Regresión y Correlación
Predicción de una variable en función de la otra.
El peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.

30
140 150 160 170 180 190 200
Regresión y Correlación
Estimación
a  ˆ Existen dos métodos para hallar los estimadores de  y
 que dan los mismos resultados.
b  ˆ
Método de Máxima Verosimilitud

Método de los Mínimos Cuadrados


n
 2 n 2
 ( yi  yi )   ei  mínimo
yˆ  a  b. x i i 1 i 1

n
 2 n
 i i  i
( y  y )  [ y  ( a  b. x i )]2

Regresión y Correlación i 1 i 1
n
 (a, b)   [ yi  a  b. x i ]2  mín
i 1

 (a, b)
0
a

 (a , b)
0
a  Y  b. X
b
n n
 xi . yi  n. X .Y  ( xi .  X ).( yi  Y ) Cov ( x , y )
b i 1
n
 i 1
n

V ( x)
x 2
i  n. X 2
 ( xi  X ) 2
i 1 i 1

Regresión y Correlación
Covarianza de X e Y 1
cov( x, y )   ( xi  x )( yi  y )
n i

 La covarianza entre dos variables, Cov(x,y), nos indica si la


posible relación entre dos variables es directa o inversa.

 Directa: Cov(x,y), >0

 Inversa: Cov(x,y), <0

 No existe relación : Cov(x,y), =0

 El signo de la covarianza indica el comportamiento entre las


variables. Esta puede ser directa, inversa o que no exista
relación lineal.
Regresión y Correlación
Relación directa e inversa.
330 100

280 90
80
230
70
180
60
130 50

80 40

30 30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores que la media le
tenemos valores de Y por encima y por debajo corresponden valores de Y mayores también.
en cantidades similares. No existe relación
•Para los valores de X menores que la media le
corresponden valores de Y menores también.

•Esto se llama relación directa o creciente entre X e Y.


80
70
60
50
40
30 Para los valores de X mayores que la media
20
10
le corresponden valores de Y menores. Esto
0 es relación inversa o decreciente.
140 150 160 170 180 190 200

Regresión y Correlación
Supuestos de los errores

e i  yo  yc 16

14

12

10

yo 8

 i ~ N (0,  2 ) 6
4

0
0 1 2 3 4 5 6

cov( i ,  j )  0 i  j

Regresión y Correlación
100
90
80
70
ei en

yˆ  a  bx
60 e1
50
40
30
140 150 160 170 180 190 200

Regresión y Correlación
Interpretación de los coeficientes

 a = ordenada al origen cuando x=0 ; y=a

 b= pendiente de la recta

b>0 :existe una relación lineal directa entre las variables

b<0: existe una relación lineal inversa entre las variables

b=0 no existe relación lineal entre las variables .

Regresión y Correlación
Otros modelos de Regresión

¿recta o parábola?

 Se pueden considerar otros tipos de


modelos, en función del aspecto que
presente el diagrama de dispersión
(regresión no lineal)
140 150 160 170 180 190 200

¿recta o cúbica?

 Incluso se puede considerar el que una


variable dependa de varias (regresión
múltiple).

140 150 160 170 180 190 200

Regresión y Correlación
Interpretación de la variabilidad en Y

En primer lugar olvidemos que existe la Y


variable X. Veamos cuál es la variabilidad
en el eje Y.

La franja sombreada indica la zona donde


varían los valores de Y.

Proyección sobre el eje Y = olvidar X y

Regresión y Correlación
Interpretación del residuo
Ahora en los errores de predicción (líneas
verticales). Los proyectamos sobre el eje Y. Y

Se observa que los errores de predicción,


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor será la bondad del ajuste.

Regresión y Correlación
100
Coeficiente de Determinación = r2
90 ŷ
80 Error no Explicado yo
Error total
70 Error Explicado
60
50 y
40
30
140 150 160 170 180 190 200

Regresión y Correlación
Error total = Error no Explicado + Error Explicado

y i  Y    y i  yˆ i    yˆ i  Y 
y    yi  y
ˆi    y 
2 2
i Y ˆi Y

 y    y ˆi    y 
n n
2 2
i Y  i  y ˆi Y
i 1 i 1

  yi  Y  y i  yˆ i     yˆ i  Y 
n n n
 
2 2 2

i 1 i 1 i 1

V .T .V . N .E V .E .

Regresión y Correlación
V .T . V . N .E .V .E . V . N .E . V .E .
 1 
V .T . V .T . V .T . V .T .

V . N .E . V .E .
1  r 2

V .T . V .T .

0  r2 1
r 2  0  VE  0  VNE  VT
r 2  1  VE  VT  VNE  0
No detecta el tipo de relacion

Regresión y Correlación
Coeficiente de Determinación

Resumiendo: Y

• La dispersión del error residual será una fracción


de la dispersión original de Y

•Cuanto menor sea la dispersión del error residual


mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
o coeficiente de determinación a:

VNE
R  1
2

VT
S 2
e  S 2
Y
Regresión y Correlación
Resumen sobre bondad de un ajuste

 La bondad de un ajuste de un modelo de regresión se mide


usando el coeficiente de determinación r2

 r2 es una medida adimensional que sólo puede tomar valores en


[0, 1]

 Cuando un ajuste es bueno, r2 será cercano a uno.

 Cuando un ajuste es malo r2 será cercano a cero.

 A r2 también se le denomina porcentaje de variabilidad explicado


por el modelo de regresión.

Regresión y Correlación
Coef. de correlación lineal de Pearson

 La coeficiente de correlación lineal de Pearson de dos


variables, r, nos indica si los puntos tienen una tendencia a
disponerse alineadamente (excluyendo rectas horizontales
y verticales).

 tiene el mismo signo que cov(x,y) por tanto de su signo


obtenemos el que la posible relación sea directa o inversa.

 r es útil para determinar si hay relación lineal entre dos


variables, pero no servirá para otro tipo de relaciones
(cuadrática, logarítmica,...)
cov( x , y )
r
Sx S y
Regresión y Correlación
Coeficiente de Correlación :r
 X e Y son variables aleatorias . Luego, no existe una variable explicativa
y otra explicada.

 La población de la cual se extrae la muestra es Normal Bivariada .

 Existe una relación lineal entre las variables, la cual está medida por el
coeficiente de correlación poblacional definido como :

X e Y están Normalmente distribuídas con


E ( x )   x V( x )   2x y E( y)   y V( y)   2y
Coeficiente de Correlación Poblacional
Cov( x , y) E[(X   x )(Y   y )]
  1    1
xy E[(X   x ) 2 ]E[(Y   y ) 2 ]

r  ˆ Coeficiente de Corr. Muestral


Regresión y Correlación
1 n n

cov( x, y ) 
n i 1
( xi  X )( yi  Y )  x i y i  n XY
r  r i 1
1  r  1
S ( x ).S ( y ) 1 n
( x  nX )( y  nY )
2 2 2 2

n
 ( xi  X ) 2  ( yi  Y ) 2 i i
i 1

r =-1 *Existe relación inversa y perfecta entre las variables

r =1 *Existe relación directa y perfecta entre variables

r =0 *No existe relación lineal entre las variables -Variables no


correlacionadas

-1 < r < 0 *Existe relación inversa entre las variables

0 < r < 1 * Existe relación directa entre las variables

2 2 2
Regresión y Correlación r  (r )  0  r  1;  1  r  1
Correlaciones Negativas

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Regresión y Correlación
correlaciones positivas

330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Regresión y Correlación
casi perfectas y positivas

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200

Regresión y Correlación
Animación: Residuos del modelo de regresión

Regresión y Correlación
INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIÓN
Distribución del coeficiente de correlación muestral r

Para  = 0 r es simétrica alrededor de n . Normal

r
2
~ t n2
( n ) es pequeño 1 r
n2

H0 :  = 0 H0 : X e Y son independientes

H1 :   0 H1 : X e Y no son independientes

Regresión y Correlación
DISTRIBUCIÓN DE LOS ESTIMADORES DE  y 

a ~ N ( ,  a )
a 
~ N (0,1) con  a   e.  xi2  e es desconocid o
a n. ( x i  X ) 2

a 
entonces ~ t n2
Sa

b e
b ~ N ( , b ) ~ N (0,1) como  b   e es desconocid o
b  ( xi  X ) 2

b
entonces ~ t n2 ,
Sb

Regresión y Correlación
VARIANCIA DE LA RECTA DE REGRESIÓN

Y    X  
i i i con  i ~ N (0,  2 )

Yˆi  ˆ  ˆX i  a  bx i 

E (Yˆi )  E (a )  E (b) x i     xi

E ( yˆ i )     x i  E ( yi )

yˆ i es un estimador no viciado de    x i
Regresión y Correlación
V {Y  b( x i  X )}
V (Yˆi )  V (a  bxi ) 

V (Yˆi )  V (Y )  ( x i  X ) 2V (b)

2     V ( i )
2 2
V (Y )  e
n
 2
 2
V (Yˆi )   ( xi  X ) 2 .
n  ( xi  X ) 2
 1 ( x  X ) 2

V (Yˆi )    
2 i
2
 n  ( xi  X ) 
Regresión y Correlación
ESTIMACIÓN DE LA MEDIA DE Yi

Correspondiente a un valor conocido de x i

Yi ~ N (   . x i , e )

yˆ i  (   . xi ) yˆ i   yi
 yˆ i

 yˆ i
~ N (0,1)
yˆ i  (   . x i ) yˆ i   yi
 ~ t n2
 yˆ i  S ( yˆ i ) S ( yˆ i ) S ( yˆ i )

yˆ i t n 2; / 2 .S ( yˆ i )  yi  yˆ i t n 2; / 2 .S ( yˆ i )

Regresión y Correlación
ESTIMACION DE UN FUTURO VALOR Yi PARA Xi FIJO

la variación propia  la de los errores 

la variación de la recta de ajuste.

1 ( xi  X ) 2 
V(yˆ /x i )  V ( i )  V ( yˆ i )     . 
2 2
2
 n  i( x  X ) 
 1 ( xi  X ) 2 
V ( yˆ / x i )  S 2
 S .1  
2
2
 i
( yi ) e
 n ( x  X ) 

yˆ i  t n 2; / 2 .S ( yi ) y  yˆ i  t n 2; / 2 .S ( yi )

Regresión y Correlación

También podría gustarte