Regresion y Correlacion

Regresión y Correlación
Relaciones entre variables
El término regresión fue introducido por Galton

en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”
Francis Galton
•Primo de Darwin
“Cada peculiaridad en un hombre es compartida por •Estadístico y aventurero
•Fundador (con otros) de
sus descendientes, pero en promedio , en un grado la estadística moderna
menor. Regresión a la media” para explicar las teorías
de Darwin.
Conclusión
Padres muy altos tienen tendencia a tener hijos que

heredan parte de esta altura, aunque tienen tendencia
a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.
Hoy en día el sentido de regresión es el de predicción

de una medida basándonos en el conocimiento de otra.
Modelo de Regresión Lineal
 El Modelo es la expresión teórica del comportamiento

de la población
Yi     x i   i
Error
Residual
Parámetros
Parte sistemática
Elementos del Modelo
 = Es el valor medio teórico que asume la variable Y cuando x=0
 = Es el valor medio teórico del aumento o decremento de la

variable Y cuando x varia una unidad.
 = Es el término de error en él se incluyen los errores casuales, de

medición, deficiencias del modelo, etc.
Supuestos del Modelo
 La variable "explicativa" X toma valores predeterminados por el

investigador.
 Para cada valor fijo de X , la variable Y se distribuye Normal .
 La relación entre las variables X e Y es lineal , es decir, la

regresión del promedio es lineal Simbólicamente : E(Y/X) = α +
.X , ya que E() = 0
 Los valores de la variable Y son independientes entre si ya que

existe Homocedasticidad ,significa que la variancia de los
errores es constante , no depende del valor de X. La variancia
de Y no depende del valor que tome la variable X
CALCULO DE LA RECTA DE REGRESIÓN
( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )
Yi     x i   i
Modelo de Regresión
y i ~ N ( E (Y / x i ),  2 )

Recta de Estimación y  a  b. x
Regresión Lineal
Algebra de la Muestra.
 El análisis de regresión sirve para predecir una medida

en función de otra medida (o varias).
 Y = Variable dependiente
 Predicha
 Explicada
 X = Variable independiente
 Predictora
 Explicativa
Estudio conjunto de dos variables
fila = datos de un individuo

Altura Peso
en cm. en Kg.
columna =representa los valores que toma una
variable sobre los mismos. 162 61
154 60
180 78
Las individuos no muestran ningún orden 158 62
particular. 171 66
169 60
Las observaciones se representan en un diagrama 166 54
de dispersión. 176 84
163 68
Objetivo será intentar reconocer a partir del mismo ... ...
si hay relación entre las variables, de qué tipo, y

si es posible predecir el valor de una de ellas en
función de la otra.
Diagramas de dispersión o nube de puntos
Alturas y pesos de 30 individuos representados en un diagrama de dispersión
100
90
80 Pesa 76 kg.
70
60
Mide 187 cm.

50Pesa 50 kg.
40
Mide 161 cm.
30
140 150 160 170 180 190 200
Relación entre variables.
100
90
ur a
80 al t
n la
co
70
en ta
aum
60 e so
p
El
50
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra.
El peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
Estimación
a  ˆ Existen dos métodos para hallar los estimadores de  y
 que dan los mismos resultados.
b  ˆ
Método de Máxima Verosimilitud
Método de los Mínimos Cuadrados

n
 2 n 2
 ( yi  yi )   ei  mínimo
yˆ  a  b. x i i 1 i 1
n
 2 n
 i i  i
( y  y )  [ y  ( a  b. x i )]2
Regresión y Correlación i 1 i 1
n
 (a, b)   [ yi  a  b. x i ]2  mín
i 1
 (a, b)
0
a
 (a , b)
0
a  Y  b. X
b
n n
 xi . yi  n. X .Y  ( xi .  X ).( yi  Y ) Cov ( x , y )
b i 1
n
 i 1
n

V ( x)
x 2
i  n. X 2
 ( xi  X ) 2
i 1 i 1
Covarianza de X e Y 1
cov( x, y )   ( xi  x )( yi  y )
n i
 La covarianza entre dos variables, Cov(x,y), nos indica si la

posible relación entre dos variables es directa o inversa.
 Directa: Cov(x,y), >0
 Inversa: Cov(x,y), <0
 No existe relación : Cov(x,y), =0
 El signo de la covarianza indica el comportamiento entre las

variables. Esta puede ser directa, inversa o que no exista
relación lineal.
Relación directa e inversa.
330 100
280 90
80
230
70
180
60
130 50
80 40
30 30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
Para valores de X por encima de la media •Para los valores de X mayores que la media le
tenemos valores de Y por encima y por debajo corresponden valores de Y mayores también.
en cantidades similares. No existe relación
•Para los valores de X menores que la media le
corresponden valores de Y menores también.
•Esto se llama relación directa o creciente entre X e Y.

80
70
60
50
40
30 Para los valores de X mayores que la media
20
10
le corresponden valores de Y menores. Esto
0 es relación inversa o decreciente.
140 150 160 170 180 190 200
Supuestos de los errores
e i  yo  yc 16
14
12
10
yo 8
 i ~ N (0,  2 ) 6
4
0
0 1 2 3 4 5 6
cov( i ,  j )  0 i  j
100
90
80
70
ei en
yˆ  a  bx
60 e1
50
40
30
140 150 160 170 180 190 200
Interpretación de los coeficientes
 a = ordenada al origen cuando x=0 ; y=a
 b= pendiente de la recta
b>0 :existe una relación lineal directa entre las variables
b<0: existe una relación lineal inversa entre las variables
b=0 no existe relación lineal entre las variables .
Otros modelos de Regresión
¿recta o parábola?
 Se pueden considerar otros tipos de

modelos, en función del aspecto que
presente el diagrama de dispersión
(regresión no lineal)
140 150 160 170 180 190 200
¿recta o cúbica?
 Incluso se puede considerar el que una

variable dependa de varias (regresión
múltiple).
140 150 160 170 180 190 200
Interpretación de la variabilidad en Y
En primer lugar olvidemos que existe la Y

variable X. Veamos cuál es la variabilidad
en el eje Y.
La franja sombreada indica la zona donde

varían los valores de Y.
Proyección sobre el eje Y = olvidar X y
Interpretación del residuo
Ahora en los errores de predicción (líneas
verticales). Los proyectamos sobre el eje Y. Y
Se observa que los errores de predicción,

residuos, están menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los residuos,

mejor será la bondad del ajuste.
100
Coeficiente de Determinación = r2
90 ŷ
80 Error no Explicado yo
Error total
70 Error Explicado
60
50 y
40
30
140 150 160 170 180 190 200
Error total = Error no Explicado + Error Explicado
y i  Y    y i  yˆ i    yˆ i  Y 
y    yi  y
î    y 
2 2
i Y î Y
 y    y î    y 
n n
2 2
i Y  i  y î Y
i 1 i 1
  yi  Y  y i  yˆ i     yˆ i  Y 
n n n
 
2 2 2
i 1 i 1 i 1
V .T .V . N .E V .E .
V .T . V . N .E .V .E . V . N .E . V .E .
 1 
V .T . V .T . V .T . V .T .
V . N .E . V .E .
1  r 2
V .T . V .T .
0  r2 1
r 2  0  VE  0  VNE  VT
r 2  1  VE  VT  VNE  0
No detecta el tipo de relacion
Coeficiente de Determinación
Resumiendo: Y
• La dispersión del error residual será una fracción

de la dispersión original de Y
•Cuanto menor sea la dispersión del error residual

mejor será el ajuste de regresión.
Eso hace que definamos como medida de

bondad de un ajuste de regresión,
o coeficiente de determinación a:
VNE
R  1
2
VT
S 2
e  S 2
Y
Resumen sobre bondad de un ajuste
 La bondad de un ajuste de un modelo de regresión se mide

usando el coeficiente de determinación r2
 r2 es una medida adimensional que sólo puede tomar valores en

[0, 1]
 Cuando un ajuste es bueno, r2 será cercano a uno.
 Cuando un ajuste es malo r2 será cercano a cero.
 A r2 también se le denomina porcentaje de variabilidad explicado

por el modelo de regresión.
Coef. de correlación lineal de Pearson
 La coeficiente de correlación lineal de Pearson de dos

variables, r, nos indica si los puntos tienen una tendencia a
disponerse alineadamente (excluyendo rectas horizontales
y verticales).
 tiene el mismo signo que cov(x,y) por tanto de su signo

obtenemos el que la posible relación sea directa o inversa.
 r es útil para determinar si hay relación lineal entre dos

variables, pero no servirá para otro tipo de relaciones
(cuadrática, logarítmica,...)
cov( x , y )
r
Sx S y
Coeficiente de Correlación :r
 X e Y son variables aleatorias . Luego, no existe una variable explicativa
y otra explicada.
 La población de la cual se extrae la muestra es Normal Bivariada .
 Existe una relación lineal entre las variables, la cual está medida por el
coeficiente de correlación poblacional definido como :
X e Y están Normalmente distribuídas con

E ( x )   x V( x )   2x y E( y)   y V( y)   2y
Coeficiente de Correlación Poblacional
Cov( x , y) E[(X   x )(Y   y )]
  1    1
xy E[(X   x ) 2 ]E[(Y   y ) 2 ]
r  ˆ Coeficiente de Corr. Muestral

1 n n
cov( x, y ) 
n i 1
( xi  X )( yi  Y )  x i y i  n XY
r  r i 1
1  r  1
S ( x ).S ( y ) 1 n
( x  nX )( y  nY )
2 2 2 2
n
 ( xi  X ) 2  ( yi  Y ) 2 i i
i 1
r =-1 *Existe relación inversa y perfecta entre las variables
r =1 *Existe relación directa y perfecta entre variables
r =0 *No existe relación lineal entre las variables -Variables no

correlacionadas
-1 < r < 0 *Existe relación inversa entre las variables
0 < r < 1 * Existe relación directa entre las variables
2 2 2
Regresión y Correlación r  (r )  0  r  1;  1  r  1
Correlaciones Negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
110 100
100 90
90 80
80
70
70
60
60
50 50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Animación: Residuos del modelo de regresión
INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIÓN
Distribución del coeficiente de correlación muestral r
Para  = 0 r es simétrica alrededor de n . Normal
r
2
~ t n2
( n ) es pequeño 1 r
n2
H0 :  = 0 H0 : X e Y son independientes
H1 :   0 H1 : X e Y no son independientes
DISTRIBUCIÓN DE LOS ESTIMADORES DE  y 
a ~ N ( ,  a )
a 
~ N (0,1) con  a   e.  xi2  e es desconocid o
a n. ( x i  X ) 2
a 
entonces ~ t n2
Sa
b e
b ~ N ( , b ) ~ N (0,1) como  b   e es desconocid o
b  ( xi  X ) 2
b
entonces ~ t n2 ,
Sb
VARIANCIA DE LA RECTA DE REGRESIÓN
Y    X  
i i i con  i ~ N (0,  2 )
Yî  ˆ  ˆX i  a  bx i 
E (Yî )  E (a )  E (b) x i     xi
E ( yˆ i )     x i  E ( yi )
yˆ i es un estimador no viciado de    x i
V {Y  b( x i  X )}
V (Yî )  V (a  bxi ) 
V (Yî )  V (Y )  ( x i  X ) 2V (b)
2     V ( i )
2 2
V (Y )  e
n
 2
 2
V (Yî )   ( xi  X ) 2 .
n  ( xi  X ) 2
 1 ( x  X ) 2

V (Yî )    
2 i
2
 n  ( xi  X ) 
ESTIMACIÓN DE LA MEDIA DE Yi
Correspondiente a un valor conocido de x i
Yi ~ N (   . x i , e )
yˆ i  (   . xi ) yˆ i   yi
 yˆ i

 yˆ i
~ N (0,1)
yˆ i  (   . x i ) yˆ i   yi
 ~ t n2
 yˆ i  S ( yˆ i ) S ( yˆ i ) S ( yˆ i )
yˆ i t n 2; / 2 .S ( yˆ i )  yi  yˆ i t n 2; / 2 .S ( yˆ i )
ESTIMACION DE UN FUTURO VALOR Yi PARA Xi FIJO
la variación propia  la de los errores 
la variación de la recta de ajuste.
1 ( xi  X ) 2 
V(yˆ /x i )  V ( i )  V ( yˆ i )     . 
2 2
2
 n  i( x  X ) 
 1 ( xi  X ) 2 
V ( yˆ / x i )  S 2
 S .1  
2
2
 i
( yi ) e
 n ( x  X ) 
yˆ i  t n 2; / 2 .S ( yi ) y  yˆ i  t n 2; / 2 .S ( yi )

Regresion y Correlacion

Cargado por

Copyright:

Formatos disponibles

Regresion y Correlacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion y Correlacion

Cargado por

Copyright:

Formatos disponibles

Regresión y Correlación

El término regresión fue introducido por Galton

Padres muy altos tienen tendencia a tener hijos que

Hoy en día el sentido de regresión es el de predicción

 El Modelo es la expresión teórica del comportamiento

 = Es el valor medio teórico que asume la variable Y cuando x=0

 = Es el valor medio teórico del aumento o decremento de la

 = Es el término de error en él se incluyen los errores casuales, de

 La variable "explicativa" X toma valores predeterminados por el

 Para cada valor fijo de X , la variable Y se distribuye Normal .

 La relación entre las variables X e Y es lineal , es decir, la

 Los valores de la variable Y son independientes entre si ya que

 El análisis de regresión sirve para predecir una medida

fila = datos de un individuo

Objetivo será intentar reconocer a partir del mismo ... ...

si hay relación entre las variables, de qué tipo, y

Alturas y pesos de 30 individuos representados en un diagrama de dispersión

Mide 187 cm.

Método de los Mínimos Cuadrados

 La covarianza entre dos variables, Cov(x,y), nos indica si la

 Directa: Cov(x,y), >0

 Inversa: Cov(x,y), <0

 No existe relación : Cov(x,y), =0

 El signo de la covarianza indica el comportamiento entre las

•Esto se llama relación directa o creciente entre X e Y.

 a = ordenada al origen cuando x=0 ; y=a

b>0 :existe una relación lineal directa entre las variables

b<0: existe una relación lineal inversa entre las variables

b=0 no existe relación lineal entre las variables .

 Se pueden considerar otros tipos de

 Incluso se puede considerar el que una

140 150 160 170 180 190 200

En primer lugar olvidemos que existe la Y

La franja sombreada indica la zona donde

Proyección sobre el eje Y = olvidar X y

Se observa que los errores de predicción,

Cuanto menos dispersos sean los residuos,

• La dispersión del error residual será una fracción

•Cuanto menor sea la dispersión del error residual

Eso hace que definamos como medida de

 La bondad de un ajuste de un modelo de regresión se mide

 r2 es una medida adimensional que sólo puede tomar valores en

 Cuando un ajuste es bueno, r2 será cercano a uno.

 Cuando un ajuste es malo r2 será cercano a cero.

 A r2 también se le denomina porcentaje de variabilidad explicado

 La coeficiente de correlación lineal de Pearson de dos

 tiene el mismo signo que cov(x,y) por tanto de su signo

 r es útil para determinar si hay relación lineal entre dos

 La población de la cual se extrae la muestra es Normal Bivariada .

X e Y están Normalmente distribuídas con

r  ˆ Coeficiente de Corr. Muestral

r =-1 *Existe relación inversa y perfecta entre las variables

r =1 *Existe relación directa y perfecta entre variables

r =0 *No existe relación lineal entre las variables -Variables no

-1 < r < 0 *Existe relación inversa entre las variables

0 < r < 1 * Existe relación directa entre las variables

Para  = 0 r es simétrica alrededor de n . Normal

Correspondiente a un valor conocido de x i

la variación propia  la de los errores 