Regresion Lineal
Regresion Lineal
Regresion Lineal
y = ax + b
Para calcular el valor de “b” (pendiente), que representa el grado de inclinación que
tiene la recta, se emplea la siguiente formula:
𝑛σ𝑥 ∙ 𝑦 − σ𝑥σ𝑦
𝑏=
𝑛 σ 𝑥2 − σ 𝑥 2
Para calcular el valor de “a” (ordenada al origen), que representa el punto en que
la recta corta al eje de las Y, se emplea la siguiente formula:
σ𝑦 − 𝑏σ𝑥
𝑎=
𝑛
Las variables “a” y “b” son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
COVARIANZA
La covarianza mide la relación lineal entre dos variables. ... Por lo tanto, una relación lineal
perfecta da como resultado un coeficiente de 1. La correlación mide tanto la fuerza como la
dirección de la relación lineal entre dos variables. Los valores de covarianza no están
estandarizados.
¿Cómo se calcula la covarianza?
Pasos
1.Aprende la fórmula estándar para calcular la covarianza.
2.Elabora una tabla de datos. ...
3.Calcula el promedio de los valores de x.
4.Calcula el promedio de los valores de y.
5.Calcula el producto de cada fila.
6.Al final de la última columna, calcula la suma de los valores.
σ 𝑋𝑖 𝑌𝑖
𝑆𝑋𝑌 = ഥ 𝑌ത
− 𝑋.
𝑛
COEFICIENTE DE CORRELACION LINEAL “r”
El coeficiente de correlación de Pearson o de lineal mide la fuerza y el sentido de una relación
lineal entre dos variables cuantitativas. El coeficiente de correlación toma valores entre -1 y +1. ...
Si el valor de coeficiente es próximo a cero, se dice que la relación es débil.
COEFICIENTE DE DETERMINACION(R2)
Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores de la
muestra, y se define como el porcentaje de la variabilidad total de la variable dependiente
“y” que es explicada por la recta de regresión.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.
Se calcula
2 2
2
𝑆𝑥𝑦 𝜎𝑥𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑅 = 2 2= 2 2= =1−
𝑆𝑥 𝑆𝑦 𝜎𝑥 𝜎𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙
Donde:
𝜎𝑥𝑦 es la covarianza de x,y
𝜎𝑥 es la desviación típica de la variable x
𝜎𝑦 es la desviación típica de la variable y.
1. Dada la siguiente distribución bidimensional de renta anual (x) y gasto en
vacaciones (y),ambas expresadas en miles de soles.
x y
12 1
15 1.5
20 2
25 3
30 4
σ 𝑋𝑖 102
ത
• 𝑋= = = 20.4
𝑛 5
σ 𝑌𝑖 11.5
• ത
𝑌= = = 2.3
𝑛 5
2 σ 𝑋²𝑖 2294
• 𝑆𝑋 = −𝑋 = 2 − 20.42 = 42.64 ⇒ 𝑆𝑋 = 42.64 = 6.53
𝑛 5
2 σ 𝑌²𝑖 32.25
• 𝑆𝑌 = − 𝑌2 = − 2.32 = 0.96 ⇒ 𝑆𝑌 = 0.96 = 0.98
𝑛 5
σ 𝑋𝑖 𝑌𝑖 269,5
• 𝑆𝑋𝑌 = ഥ ത
− 𝑋. 𝑌 = − 20.4 ∗ 2.3 = 6.98
𝑛 5
Hallando el valor del coeficiente de correlacion entre ambas variables:
𝑆𝑋𝑌 6.98
• 𝑟= = = 1.090
𝑆𝑋 𝑆𝑌 6.53∗0.98
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎:
• 𝑆𝑋𝑌 = 6.98
𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛:
• 𝑦 = 𝑎 + 𝑏𝑥
Calculando la pendiente :
𝑆𝑋𝑌 6.98
𝑏= 2 = = 0.1637
𝑆𝑋 42.64
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑡𝑒𝑟𝑚𝑖𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑎:
𝑎 = 𝑌ത − 𝑏 ∗ 𝑋ത = 2.3 − 0.1637 ∗ 20.4 = −1.0394
𝑅𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑒𝑛:
𝑦 = 𝑎 + 𝑏𝑥
Ecuación:
𝑦 = −1.0394 + 0.1637𝑥
σ𝑋 286
X(produ Y(precio de X*Y X² Y² • 𝑋ത = 𝑖 = = 28.6
cción de harina) 𝑁 10
σ𝑌 354
trigo) • 𝑌ത = 𝑖 = = 35.4
𝑁 10
30 25 750 900 625 σ 𝑋²𝑖 8468
• 𝑆𝑋2 = − 𝑋2 = − 28.62 = 28.84
784 900 𝑁 10
28 30 840
1024 729 ⇒ 𝑆𝑋 = 28.84 = 5.37
32 27 864
σ 𝑌²𝑖 13268
25 40 1000 625 1600 • 𝑆𝑌2 = − 𝑌2 = − 35.42 = 73.64
𝑁 10
25 42 1050 625 1764 ⇒ 𝑆𝑌 = 73.64 = 8.58
625 1600 σ 𝑋𝑖 𝑌𝑖
25 40 1000
• 𝑆𝑋𝑌 = ഥ 𝑌ത = 9734 − 28.6 ∗ 35.4
− 𝑋.
22 50 1100 484 2500 𝑁 10
576 2025
• 𝑆𝑋𝑌 = −39.04
24 45 1080
𝑆𝑋𝑌 −39.04 −39.04
35 30 1050 1225 900 𝑟= = = = −0.85
1600 625
𝑆𝑥 𝑆𝑌 5.37 ∗ 8.58 46.07
40 25 1000
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖𝑜𝑛:
σ 𝑋𝑖 =286 σ 𝑌𝑖 =354 σ 𝑋𝑖 𝑌𝑖 =9734 σ 𝑋²𝑖 =8468 σ 𝑌²𝑖 =13268
𝑅2 = −0.85 −0.85 = 0.72
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛:
• 𝑦 = 𝑎 + 𝑏𝑥
Calculando la pendiente :
𝑆𝑋𝑌 −39.04
𝑏= 2 = = −1.35
𝑆𝑋 28.84
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑡𝑒𝑟𝑚𝑖𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑎:
𝑎 = 𝑌ത − 𝑏 ∗ 𝑋ത = 35.4 − (−1.35) ∗ 28.6 = 74.01
𝑅𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑒𝑛:
𝑦 = 𝑎 + 𝑏𝑥
Ecuación:
𝑦 = 74.01 − 1.35𝑥
3. Al realizar un estudio de regresión lineal de dos variables X e Y se sabe que las
rectas de regresión se cortan en el puntos (5,15), que el coeficiente de
correlación lineal es -0.85 y que la pendiente de la recta de regresión X sobre Y es
el doble que la de la recta de Y sobre X , se pide:
A). Calcular las ecuaciones de las rectas de regresión de Y sobre X y de X sobre Y.
B). ¿Que porcentaje de la variabilidad de Y queda explicado por el modelo lineal?
Solución:
Calculando las ecuaciones de las rectas de regresión de Y sobre X y de X sobre Y.
Recta de regresión de Y sobre X.
Y = 𝑌ത + 𝑏𝑌𝑋 𝑋 − 𝑋ത
𝑆𝑋𝑌 Datos:
𝑏𝑌𝑋 =
𝑆𝑥 ² Punto de corte de las rectas (5,15)
Recta de regresión de X sobre Y. r=-0.85
X = 𝑋ത + 𝑏𝑋𝑌 𝑌 − 𝑌ത 𝑏𝑥𝑦 = 2𝑏𝑌𝑋
𝑆𝑋𝑌
𝑏𝑋𝑌 = => 𝑋ത =5 ; 𝑌ത = 15
𝑆𝑌 ²
𝑆²𝑋𝑌 Datos:
𝑅2 = = 𝑏𝑌𝑋 ∗ 𝑏𝑋𝑌 =(-0.85)²=0.72
𝑆²𝑥 𝑆²𝑌 Punto de corte de las rectas (5,15)
⇒ 𝑏𝑌𝑋 ∗ 2𝑏𝑌𝑋 = 2𝑏²𝑌𝑋 = 0.72 r=-0.85
𝑏𝑥𝑦 = 2𝑏𝑌𝑋
0.72
⇒ 𝑏𝑌𝑋 = = 0.60 => 𝑋ത =5 ; 𝑌ത = 15
2
Por lo tanto:
𝑏𝑋𝑌 = 2𝑏𝑌𝑋 = 2 ∗ 0.60 = 1.20 RESPUESTA PARA B)
Reemplazando en: La recta de regresión de Y sobre X
explica el 72,25% de la variabilidad
• Recta de regresión de Y sobre X. de Y.
Y = 𝑌ത + 𝑏𝑌𝑋 𝑋 − 𝑋ത => y=15+0.60*(x-5) R²=0.72
=>y=0.60x+12
• Recta de regresión de X sobre Y.
X = 𝑋ത + 𝑏𝑋𝑌 𝑌 − 𝑌ത =>y=5+1.20(y-15)
=>y=1.20y-13