Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Semana 13 Correlación y Regresión Lineal Simple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 41

Correlación y regresión lineal

Construcción
Inicio
• Motivación • Coeficiente de correlación de
Pearson.
• Competencias
• Modelo de regresión lineal simple.
• Saberes previos
• Significancia del modelo de regresión
lineal simple.
• Verificación de los supuestos.

Cierre
• Retroalimentación
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar
pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día
en particular en las horas no pico, con los siguientes resultados:
Distancia
en km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7

Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

Determine un modelo de regresión lineal simple del tiempo de


transportar pasajeros en función de la distancia recorrida.

¿El tiempo dependerá de la distancia?


Interpreta el coeficiente de
correlación de Pearson para
dos variables cuantitativas
en problemas
contextualizados.

Aplica la técnica de
Analiza el
regresión lineal simple en Aplica la regresión lineal
comportamiento de
problemas simple en problemas
dos variables
contextualizados contextualizados.
cuantitativas
utilizando el software
estadístico Excel.

Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
DEFINICIONES BÁSICAS

VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita
como el resultado de un valor conocido de la variable independiente. La
variable dependiente es aleatoria, es decir por cada valor dado de la variable
independiente, existen muchos valores para la variable dependiente. También,
se conoce como la variable respuesta. Se denota por la letra Y.

VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la
variable predictora o regresora. Se denota por la letra X.
DEFINICIONES BÁSICAS

RESIDUAL
Diferencia que existe entre el valor observado de la variable dependiente y el
valor pronosticado empleando la ecuación de regresión estimada; para la
observación i-ésima, el residual i-ésimo es 𝑦𝑖 − 𝑦ො𝑖 .

ANÁLISIS RESIDUAL
Es una de las herramientas principales para determinar si el modelo de regresión
empleado es apropiado.
DIAGRAMA DE DISPERSIÓN

• El diagrama de dispersión
representa el grado de (intensidad)
y naturaleza (forma) de la relación
entre las variables X e Y, si es que
existe.

• En el eje de las abscisas se


representa los valores de la variable
independiente (X).

• En el eje de la ordenada los valores


de la variable dependiente (Y).
COVARIANZA

Una medida del grado en que dos variables aleatorias se mueven en la


misma dirección o en direcciones opuestas la una respecto a la otra.

En otras palabras, si dos variables aleatorias generalmente se mueven en la


misma dirección se dirá que tienen una covarianza positiva. Si tienden a
moverse en direcciones opuestas, se dirá que tienen una covarianza
negativa.

La covarianza se mide como el valor que se espera de los productos de las


desviaciones de dos variables aleatorias respecto a sus correspondientes
medias. Una varianza es un caso especial de covarianza.
COVARIANZA

Cálculo de la covarianza

σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝒚𝒊 − 𝒚

𝑪𝒐𝒗 𝒙, 𝒚 =
𝒏−𝟏

Donde:
𝑥𝑖 : Valores de la variable x; 𝑦𝑖 : Valores de la variable y.
𝑥:ҧ Promedio de la variable x; 𝑦:
ത Promedio de la variable y.
𝑛 : Tamaño de la muestra.
COVARIANZA

Interpretación de la covarianza

› Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a


grandes valores de X corresponden grandes valores de Y.

› Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no


existencia de una relación lineal entre las dos variables estudiadas.

› Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a


grandes valores de X corresponden pequeños valores de Y.
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

Mide el grado de asociación entre dos variables cuantitativas relacionadas


linealmente.
Se calcula mediante la siguiente fórmula:

𝑐𝑜𝑣(𝑥, 𝑦) 𝒔𝒙 =
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙 𝟐
𝒔𝒚 =
σ𝒏𝒊=𝟏 𝒚𝒊 − 𝒚 𝟐

𝑟= 𝒏−𝟏 𝒏−𝟏
𝑠𝑥 𝑠𝑦

Sx: Desviación estándar de la variable x.


Sy: Desviación estándar de la variable y.
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

También, se puede calcular como:

𝑺𝑷(𝒙, 𝒚)
𝒓=
𝑺𝑪(𝒙) × 𝑺𝑪(𝒚)

SP(x,y): Suma de productos de los valores de x e y


𝒏

→ 𝑺𝑷 𝒙, 𝒚 = ෍ 𝒙𝒊 𝒚𝒊 − 𝒏ഥ
𝒙𝒚ഥ
𝒊=𝟏

SC(x): Suma de cuadrados de los valores de x


𝒏

→ 𝑺𝑪 𝒙 = ෍ 𝒙𝟐𝒊 − 𝒏ഥ
𝒙𝟐
𝒊=𝟏

SC(y): Suma de cuadrados de los valores de y


𝒏

→ 𝑺𝑪 𝒚 = ෍ 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐
𝒊=𝟏
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

Por propiedad, el coeficiente de correlación de Pearson se encuentra entre:

−1 ≤ 𝑟 ≤ 1

Esto es; si:


r = −1: La relación entre las variables es perfecta e inversa.
r = 0: No existe relación entre las variables
r = 1: La relación entre las variables es perfecta y directa.
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)

Interpretación del Coeficiente de correlación de Pearson

Si el valor del coeficiente de correlación estaría entre -1 y 1, se interpretaría de la


siguiente manera:
RELACIÓN ENTRE CORRELACIÓN Y COVARIANZA

› La correlación indica la fuerza y dirección de la asociación entre dos


variables aleatorias en forma de relación lineal. Dos variables cuantitativas
están correlacionadas cuando los valores de una de ellas varían con
respecto a los valores de la otra.

› La covarianza es una medida de la variación común a dos variables y, por


tanto, una medida del grado y tipo de su relación.

› El análisis de varianza sirve para comparar si los valores de un grupos de


datos son diferentes significativamente a los valores de otro u otros grupos
de datos.
EJERCICIO RESUELTO

El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría determinar
el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las horas no pico,
con los siguientes resultados:

Viaje 1 2 3 4 5 6 7 8 9 10 11 12

Distancia en
km. (X)
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y)
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

a) Interprete el diagrama de dispersión.


b) Determine la dirección de la relación entre las variables.
c) Determine el grado de relación entre las variables.
a) Interprete el diagrama de dispersión.

Diagrama de dispersión entre la distancia y el tiempo de transporte


45

40

Tiempo de transporte
35

30

25

20

15

10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Distancia en kilómetros

Se observa una tendencia creciente (positiva), a mayor distancia, mayor es


el tiempo de transporte.
Solución
Calculando las sumatorias respectivas para las variables:

Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5 12 12
2 11.6 18.15 210.5 134.6 329.4 ෍ 𝑥𝑖 = 216.9; ෍ 𝑦𝑖 = 357.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 𝑖=1 𝑖=1
346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3 12
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2 ෍ 𝑥𝑖 𝑦𝑖 = 6968;
8 20.2 37.24 752.2 408 1387 𝑖=1
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648 12 12
11 25.4 41.21 1047 645.2 1698 ෍ 𝑥𝑖2 = 4268; ෍ 𝑦𝑖2 = 11455
12 26.7 38.19 1020 712.9 1458
𝑖=1 𝑖=1
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
Se calcula la Covarianza; para ello, se necesita: 𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1
Calculando:
σ12
𝑖=1 𝑥𝑖 216.9 σ12
𝑖=1 𝑦𝑖 357.4
𝑥ҧ = = = 18.075; 𝑦ത = = = 29.787
𝑛 12 𝑛 12
𝑛

෍ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = 507.284
𝑖=1
Reemplazando:
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 507.284
𝐶𝑜𝑣 𝑥, 𝑦 = = = 46.117
𝑛−1 11

Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣(𝑥, 𝑦)
Se calcula el coeficiente de correlación; para ello, se necesita: 𝑟=
𝑠𝑥 𝑠𝑦
n n

 xi  x  
 i  
2 2
y y
Calculando: sx  i 1
 5.618; s y  i 1
 8.569
n 1 n 1

𝐶𝑜𝑣(𝑥, 𝑦) 46.117
Reemplazando: 𝑟=
𝑆𝑥 𝑆𝑦
=
(5.618)(8.569)
= 0.958

∴ Existe muy buena relación entre la distancia recorrida y el tiempo de transporte.


EJERCICIO RESUELTO

Los datos de la producción de trigo en toneladas (X) y el precio del kilo de harina en pesetas (Y ) en la
década de los 90 en una comunidad rural de Huaraz, fueron:

Muestra 1 2 3 4 5 6 7 8 9 10

X 30 28 32 25 25 25 22 24 35 40
Y 25 30 27 40 42 40 50 45 30 25

a) Interprete el diagrama de dispersión.


b) Determine la dirección de la relación entre las variables.
c) Determine el grado de relación entre las variables.

En excel
REGRESIÓN LINEAL SIMPLE

Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente, en base a lo
que ocurre o lo que sucede con las variables independientes (o regresoras) x1, x2,...., xp.
En el caso de dos variables, se cumple la siguiente función de regresión:

Y = 0 + 1X+ i → se llama: Regresión Lineal Simple

Características de la regresión lineal simple

 La variable X es determinística y es observada con la mejor precisión posible.


 La variable Y es aleatoria.
 Los errores, i, son variables aleatorias con media 0 y varianza 2 constantes .
 Los errores i y j (i,j=1…,n) son independientes entre si.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE

Estimación del Modelo de Regresión Lineal Simple


REGRESIÓN LINEAL SIMPLE

Estimación del Modelo de Regresión Lineal Simple


Principio del Método de Mínimos Cuadrados (MMC):
Determina una ecuación de regresión al minimizar la suma de
los cuadrados de las distancias verticales entre los valores
reales de Y y los valores pronosticado de Y.

Haciendo uso del MMC el modelo de regresión lineal


෢𝟎 + 𝜷
෡=𝜷
simple es estimado por la ecuación: 𝒀 ෢𝟏 𝑿

Donde:
෢𝟏 : Coeficiente de regresión estimado.
𝜷
෢𝟎 : Constante del modelo de regresión lineal.
𝜷
REGRESIÓN LINEAL SIMPLE

Estimación del Modelo de Regresión Lineal Simple


Para encontrar el valor estimado se usa las siguientes fórmulas:

Interpretación de los valores estimados:


෢𝟎 : Indica el valor promedio de la variable de respuesta Y
𝜷
cuando X es cero.

Equivale usar ෢𝟏 : Indica el cambio promedio en la variable de respuesta


𝜷
Y cuando X se incrementa en una unidad.
^
Cov ( x, y )
1 
S 2x
REGRESIÓN LINEAL SIMPLE

Ejemplo:
Considere el ejemplo sobre gasto en publicidad y venta de un producto

Semana 1 2 3 4 5 6 7 8 9 10

Gasto en publicidad
9 7 5 14 15 12 6 10 15 21
(X)

Ventas (Y) 10 6 5 12 10 15 5 12 17 20
REGRESIÓN LINEAL SIMPLE

Suponga que la recta de regresión es dada por

25

y = 0.9137x + 0.7842
20

15

10

0
0 5 10 15 20 25
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE

Algunos textos usan la notación ui para referirse al error i


REGRESIÓN LINEAL SIMPLE
Medidas de bondad de ajuste
a. Error Estándar de la Estimación: Es una medida de variabilidad alrededor de la línea de
regresión. Su fórmula esta dado por: n n n

 yi  ˆ0  yi  ˆ1  yi .xi


2

Se  i 1 i 1 i 1
 CME
n2

b. Coeficiente de determinación: Mide la variación total en Y explicada por el modelo de regresión


o indica en que porcentaje la variable independiente explica a la variable respuesta. Su fórmula
esta dado por:
R2 
SC Re g Propiedad: 2 0 <R ≤ 1
SCTotal

c. Coeficiente de determinación ajustado o corregido: El R2 ajustado es el porcentaje de


variación en la variable de respuesta que es explicado por su relación con una o más variables
predictoras, ajustado para el número de predictores en el modelo. Se utiliza el R2 ajustado para
determinar qué tan bien se ajusta el modelo ajusta a los datos cuando desee ajustar el número de
predictores del modelo.
Enfoque del Análisis de Varianza para la prueba de significancia de la regresión

i. Planteamiento de hipótesis:
H0: El modelo de regresión lineal simple no es significativo. 𝛽𝑖 = 0
H1: EL modelo de regresión lineal simple es significativo. 𝛽𝑖 ≠ 0
𝒏

ii. Nivel de significancia: 𝛼 (0.01, 0.05, 0.10, etc) 𝑺𝑷 𝒙, 𝒚 = ෍ 𝒙𝒊 𝒚𝒊 − 𝒏ഥ


𝒙𝒚ഥ
𝒊=𝟏
𝒏 𝒏
iii. Estadístico de prueba: 𝐹𝑐 (ANOVA)
𝑺𝑪 𝒚 = ෍ 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐 𝑺𝑪 𝒙 = ෍ 𝒙𝟐𝒊 − 𝒏ഥ
𝒙𝟐
𝒊=𝟏 𝒊=𝟏
Donde:
SCTotal: Suma de cuadrados del total.
𝐧

𝐒𝐂𝐓𝐨𝐭𝐚𝐥 = ෍ 𝐲𝐢𝟐 − 𝐧ത
𝐲 𝟐 = 𝐒𝐂(𝐲)
𝐢=𝟏

SCReg: Suma de cuadrados de la regresión.


𝐒𝐂𝐑𝐞𝐠 = 𝛽መ1 × 𝐒𝐏(𝐱, 𝐲)

iv. Valor crítico: FT = F(1, n-2, α) SCE: Suma de cuadrados del error.
SCE = SCTotal – SCReg

v. Decisión y conclusion: Si: Fc > F(1, n-2, α), se rechaza H0 y se acepta H1.
Ejemplo 1
Para determinar la relación entre la velocidad (X) y el rendimiento de la gasolina (Y) en automóviles de
determinada marca, se tomo una muestra de 6 automóviles y se obtuvieron los siguientes resultados:

X: Velocidad (km/h) 60 70 75 80 90 100

Y: Rendimiento (km/galón) 55 45 52 50 45 40

a) Halle la ecuación de regresión e interpretar sus coeficientes.


b) Calcule el coeficiente de determinación e interpretarlo.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento de gasolina para una velocidad de 120 Km/h.
d) Plantee las hipótesis respectivas y decir si el modelo obtenido es significativo a un nivel de
significancia del 5%.
a) Halle la ecuación de regresión e interpretar sus coeficientes.
𝒏
σ𝒏
𝒊=𝟏 𝒙𝒊 475 σ𝒏
𝒊=𝟏 𝒚𝒊 287
ഥ=
𝒙 𝒏
= 6 = 79.167 𝒚
ഥ= = = 47.833 σ𝑛𝑖=1 𝑥𝑖2 =38625 σ𝑛𝑖=1 𝑦𝑖2 =13879 ෍ 𝒙𝒊 𝒚𝒊 = 𝟐𝟐𝟒𝟎𝟎
𝒏 6
𝒊=𝟏
𝑺𝑪 𝒙 = σ𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒏ഥ
𝒙𝟐 = 38625 – 6 (79.17)2 =1020.517
𝒏 Equivale usar
𝑺𝑪 𝒚 = ෍ 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐 = 𝟏𝟑𝟖𝟕𝟗 − 𝟔 𝟒𝟕. 𝟖𝟑 𝟐
= 𝟏𝟓𝟏. 𝟎𝟐𝟓 ^
Cov ( x, y )
𝒊=𝟏 1 
S 2x
𝑺𝑷 𝒙, 𝒚 = σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏ഥ
𝒙𝒚ഥ = 22400 – 6(79.17*47.83)= -320.771

−320.771
𝛽መ1 = = −0.314 𝛽መ0 = 𝑦 − 𝛽መ1 𝑥 = 47.833 – (– 0.31*79.167 )=72.691
1020.517

La ecuación de regresión es: Y = 72.691 - 0.314 X

Donde: 𝛽መ1 = -0.314: Si se aumenta la velocidad en un kilómetro por hora, el rendimiento de


la gasolina disminuirá en 0.314 kilómetros por galón.
b) Calcule el coeficiente de determinación e interpretarlo.

𝑺𝑷 𝒙, 𝒚 = σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏ഥ
𝒙𝒚ഥ = 22400 – 6(79.17*47.833)= -320.771

−320.771
𝛽መ1 = = −0.314
1020.517

𝑵𝒐𝒕𝒂: 𝑺𝑪 𝒚 = SCTotal
෡ 𝟏 × 𝐒𝐏(𝐱, 𝐲) = -0.314*(-320.771)= 100.722
𝐒𝐂𝐑𝐞𝐠 = 𝜷

𝑺𝑪 𝒚 = ෍ 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐 = 𝟏𝟑𝟖𝟕𝟗 − 𝟔 𝟒𝟕. 𝟖𝟑 𝟐
= 𝟏𝟓𝟏. 𝟎𝟐𝟓
𝒊=𝟏

𝑺𝑪 𝐑𝐞 𝒈 𝟏𝟎𝟎.𝟕𝟐𝟐
𝑹𝟐 = = = 0.67
𝑺𝑪𝑻𝒐𝒕𝒂𝒍 𝟏𝟓𝟏.𝟎𝟐𝟓

Por lo tanto, la variabilidad del rendimiento de la gasolina es explicado por el modelo regresión
lineal en un 67%.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento de gasolina para una velocidad de
120 Km/h.

Dato: Velocidad = X = 120 km/h

Estimando el rendimiento de la gasolina:

𝒀 = 72.691 −𝟎.𝟑𝟏𝟒(𝟏𝟐𝟎)=𝟑𝟓.𝟎11 𝒌𝒎/𝒈𝒂𝒍ó𝒏


d) Plantee las hipótesis respectivas y decir si el modelo obtenido es significativo a
un nivel de significancia del 5%.

1.- Planteamiento de hipótesis 4.- Valor crítico: F1,4,0.05 =7.709


H0: El modelo no es significativo
H1: El modelo es significativo 5.- Decisión
2.- Nivel de significación α =0.05 Como Fcal = 8.01>FT rechaza H0. Es
decir, el modelo es significativo.
3.- Estadística de prueba: Fcal
SCT = Σy2 – ny2 = 13879 – 6(47.833)2 =151.025
SCR = 𝛽෠1 SP(X,Y) = -0.314*(-320.771)= 100.722
SCE = 151.025 – 100.722 = 50.303

Análisis de varianza
Fuente GL SC CM Fcal P
Regresión 1 100.72 100.722 8.01 0.047
2
Error 4 50.303 12.58
Total 5 151.02
5
Ejemplo 2
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría determinar
el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las horas no pico,
con los siguientes resultados:

Distancia
en km.
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

a) Verifique los supuestos para realizar una regresión lineal simple.


b) Determine la línea de regresión que permita estimar el tiempo de transporte en base a la distancia recorrida. Interprete
el coeficiente de regresión estimado.
c) Con un nivel de significancia de 5%, ¿se puede afirmar que el modelo de regresión lineal es significativo? Use el
enfoque por el Análisis de Varianza.
d) ¿Qué porcentaje de la variabilidad del tiempo de transporte está explicado por la distancia recorrida?
e) Estime el tiempo de transportar al pasajero que se espera obtener si se ha recorrido 20.6 kilómetros.
f) Con un 95% de confianza, estime el tiempo promedio de transportar al pasajero si se ha recorrido 20.6 kilómetros.
g) Con un 95% de confianza, estime el tiempo de transportar al pasajero si se ha recorrido 20.6 kilómetros.
Retroalimentación

Suponga que para hacer un estudio sobre los gastos de consumo familiar
mensual en relación con el ingreso familiar mensual, se eligieron 10 familias al
azar encontrándose la siguiente información:

Ingreso familiar ($) ( X ) 80 100 120 140 160 180 200 220 240 260

Gasto de consumo familiar


75 65 90 95 110 115 120 140 155 150
($) ( Y )

a) Calcule la recta de regresión.


b) Es posible afirmar que si el ingreso familiar se incrementa en un dólar, el
consumo familiar se incrementa en promedio, en $ 0.4050.
c) Calcule el coeficiente de determinación

También podría gustarte