Semana 13 Correlación y Regresión Lineal Simple
Semana 13 Correlación y Regresión Lineal Simple
Semana 13 Correlación y Regresión Lineal Simple
Construcción
Inicio
• Motivación • Coeficiente de correlación de
Pearson.
• Competencias
• Modelo de regresión lineal simple.
• Saberes previos
• Significancia del modelo de regresión
lineal simple.
• Verificación de los supuestos.
Cierre
• Retroalimentación
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar
pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día
en particular en las horas no pico, con los siguientes resultados:
Distancia
en km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Aplica la técnica de
Analiza el
regresión lineal simple en Aplica la regresión lineal
comportamiento de
problemas simple en problemas
dos variables
contextualizados contextualizados.
cuantitativas
utilizando el software
estadístico Excel.
Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
DEFINICIONES BÁSICAS
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita
como el resultado de un valor conocido de la variable independiente. La
variable dependiente es aleatoria, es decir por cada valor dado de la variable
independiente, existen muchos valores para la variable dependiente. También,
se conoce como la variable respuesta. Se denota por la letra Y.
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la
variable predictora o regresora. Se denota por la letra X.
DEFINICIONES BÁSICAS
RESIDUAL
Diferencia que existe entre el valor observado de la variable dependiente y el
valor pronosticado empleando la ecuación de regresión estimada; para la
observación i-ésima, el residual i-ésimo es 𝑦𝑖 − 𝑦ො𝑖 .
ANÁLISIS RESIDUAL
Es una de las herramientas principales para determinar si el modelo de regresión
empleado es apropiado.
DIAGRAMA DE DISPERSIÓN
• El diagrama de dispersión
representa el grado de (intensidad)
y naturaleza (forma) de la relación
entre las variables X e Y, si es que
existe.
Cálculo de la covarianza
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙
ഥ 𝒚𝒊 − 𝒚
ഥ
𝑪𝒐𝒗 𝒙, 𝒚 =
𝒏−𝟏
Donde:
𝑥𝑖 : Valores de la variable x; 𝑦𝑖 : Valores de la variable y.
𝑥:ҧ Promedio de la variable x; 𝑦:
ത Promedio de la variable y.
𝑛 : Tamaño de la muestra.
COVARIANZA
Interpretación de la covarianza
𝑐𝑜𝑣(𝑥, 𝑦) 𝒔𝒙 =
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝒙 𝟐
𝒔𝒚 =
σ𝒏𝒊=𝟏 𝒚𝒊 − 𝒚 𝟐
𝑟= 𝒏−𝟏 𝒏−𝟏
𝑠𝑥 𝑠𝑦
𝑺𝑷(𝒙, 𝒚)
𝒓=
𝑺𝑪(𝒙) × 𝑺𝑪(𝒚)
→ 𝑺𝑷 𝒙, 𝒚 = 𝒙𝒊 𝒚𝒊 − 𝒏ഥ
𝒙𝒚ഥ
𝒊=𝟏
→ 𝑺𝑪 𝒙 = 𝒙𝟐𝒊 − 𝒏ഥ
𝒙𝟐
𝒊=𝟏
→ 𝑺𝑪 𝒚 = 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐
𝒊=𝟏
COEFICIENTE DE CORRELACIÓN DE PEARSON (r)
−1 ≤ 𝑟 ≤ 1
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría determinar
el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las horas no pico,
con los siguientes resultados:
Viaje 1 2 3 4 5 6 7 8 9 10 11 12
Distancia en
km. (X)
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y)
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
40
Tiempo de transporte
35
30
25
20
15
10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Distancia en kilómetros
Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5 12 12
2 11.6 18.15 210.5 134.6 329.4 𝑥𝑖 = 216.9; 𝑦𝑖 = 357.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 𝑖=1 𝑖=1
346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3 12
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2 𝑥𝑖 𝑦𝑖 = 6968;
8 20.2 37.24 752.2 408 1387 𝑖=1
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648 12 12
11 25.4 41.21 1047 645.2 1698 𝑥𝑖2 = 4268; 𝑦𝑖2 = 11455
12 26.7 38.19 1020 712.9 1458
𝑖=1 𝑖=1
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
Se calcula la Covarianza; para ello, se necesita: 𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1
Calculando:
σ12
𝑖=1 𝑥𝑖 216.9 σ12
𝑖=1 𝑦𝑖 357.4
𝑥ҧ = = = 18.075; 𝑦ത = = = 29.787
𝑛 12 𝑛 12
𝑛
𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത = 507.284
𝑖=1
Reemplazando:
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 507.284
𝐶𝑜𝑣 𝑥, 𝑦 = = = 46.117
𝑛−1 11
Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣(𝑥, 𝑦)
Se calcula el coeficiente de correlación; para ello, se necesita: 𝑟=
𝑠𝑥 𝑠𝑦
n n
xi x
i
2 2
y y
Calculando: sx i 1
5.618; s y i 1
8.569
n 1 n 1
𝐶𝑜𝑣(𝑥, 𝑦) 46.117
Reemplazando: 𝑟=
𝑆𝑥 𝑆𝑦
=
(5.618)(8.569)
= 0.958
Los datos de la producción de trigo en toneladas (X) y el precio del kilo de harina en pesetas (Y ) en la
década de los 90 en una comunidad rural de Huaraz, fueron:
Muestra 1 2 3 4 5 6 7 8 9 10
X 30 28 32 25 25 25 22 24 35 40
Y 25 30 27 40 42 40 50 45 30 25
En excel
REGRESIÓN LINEAL SIMPLE
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente, en base a lo
que ocurre o lo que sucede con las variables independientes (o regresoras) x1, x2,...., xp.
En el caso de dos variables, se cumple la siguiente función de regresión:
Donde:
𝟏 : Coeficiente de regresión estimado.
𝜷
𝟎 : Constante del modelo de regresión lineal.
𝜷
REGRESIÓN LINEAL SIMPLE
Ejemplo:
Considere el ejemplo sobre gasto en publicidad y venta de un producto
Semana 1 2 3 4 5 6 7 8 9 10
Gasto en publicidad
9 7 5 14 15 12 6 10 15 21
(X)
Ventas (Y) 10 6 5 12 10 15 5 12 17 20
REGRESIÓN LINEAL SIMPLE
25
y = 0.9137x + 0.7842
20
15
10
0
0 5 10 15 20 25
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
Se i 1 i 1 i 1
CME
n2
i. Planteamiento de hipótesis:
H0: El modelo de regresión lineal simple no es significativo. 𝛽𝑖 = 0
H1: EL modelo de regresión lineal simple es significativo. 𝛽𝑖 ≠ 0
𝒏
𝐒𝐂𝐓𝐨𝐭𝐚𝐥 = 𝐲𝐢𝟐 − 𝐧ത
𝐲 𝟐 = 𝐒𝐂(𝐲)
𝐢=𝟏
iv. Valor crítico: FT = F(1, n-2, α) SCE: Suma de cuadrados del error.
SCE = SCTotal – SCReg
v. Decisión y conclusion: Si: Fc > F(1, n-2, α), se rechaza H0 y se acepta H1.
Ejemplo 1
Para determinar la relación entre la velocidad (X) y el rendimiento de la gasolina (Y) en automóviles de
determinada marca, se tomo una muestra de 6 automóviles y se obtuvieron los siguientes resultados:
Y: Rendimiento (km/galón) 55 45 52 50 45 40
−320.771
𝛽መ1 = = −0.314 𝛽መ0 = 𝑦 − 𝛽መ1 𝑥 = 47.833 – (– 0.31*79.167 )=72.691
1020.517
𝑺𝑷 𝒙, 𝒚 = σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒏ഥ
𝒙𝒚ഥ = 22400 – 6(79.17*47.833)= -320.771
−320.771
𝛽መ1 = = −0.314
1020.517
𝑵𝒐𝒕𝒂: 𝑺𝑪 𝒚 = SCTotal
𝟏 × 𝐒𝐏(𝐱, 𝐲) = -0.314*(-320.771)= 100.722
𝐒𝐂𝐑𝐞𝐠 = 𝜷
𝑺𝑪 𝒚 = 𝒚𝟐𝒊 − 𝒏ഥ
𝒚𝟐 = 𝟏𝟑𝟖𝟕𝟗 − 𝟔 𝟒𝟕. 𝟖𝟑 𝟐
= 𝟏𝟓𝟏. 𝟎𝟐𝟓
𝒊=𝟏
𝑺𝑪 𝐑𝐞 𝒈 𝟏𝟎𝟎.𝟕𝟐𝟐
𝑹𝟐 = = = 0.67
𝑺𝑪𝑻𝒐𝒕𝒂𝒍 𝟏𝟓𝟏.𝟎𝟐𝟓
Por lo tanto, la variabilidad del rendimiento de la gasolina es explicado por el modelo regresión
lineal en un 67%.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento de gasolina para una velocidad de
120 Km/h.
Análisis de varianza
Fuente GL SC CM Fcal P
Regresión 1 100.72 100.722 8.01 0.047
2
Error 4 50.303 12.58
Total 5 151.02
5
Ejemplo 2
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría determinar
el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del Callao durante las horas
no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las horas no pico,
con los siguientes resultados:
Distancia
en km.
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Suponga que para hacer un estudio sobre los gastos de consumo familiar
mensual en relación con el ingreso familiar mensual, se eligieron 10 familias al
azar encontrándose la siguiente información:
Ingreso familiar ($) ( X ) 80 100 120 140 160 180 200 220 240 260