Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
47 vistas21 páginas

Regresion Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 21

REGRESION LINEAL

REGRESIÓN LINEAL SIMPLE


“Una técnica estadística que establece una ecuación para estimar el valor desconocido
de una variable, a partir del valor conocido de otra variable, (en vez de valores de
muchas otras variables) se denomina análisis de regresión simple.”
Por lo tanto el análisis de regresión lineal simple, es el proceso general de predecir una
variable (Y) a partir de otra (X).
Las relaciones entre las variables pueden ser directas o también inversas.
Relación directa: la pendiente de esta línea es positiva, porque la variable Y crece a
medida que la variable X también lo hace.
Relación inversa: La pendiente de esta línea es negativa, porque a medida que
aumenta el valor de la variable Y, el valor de la variable X disminuye.
VARIABLE INDEPENDIENTE (X)
En el análisis de regresión una variable cuyo valor se suponga conocido y que se
utilice para explicar o predecir el valor de otra variable de interés se llama variable
independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)
En el análisis de regresión una variable cuyo valor se suponga desconocido y que se
explique o prediga con ayuda de otra se llama variable dependiente y se simboliza
con la letra Y.
La variable dependiente, al igual que la variable independiente es llamada de
diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.
DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el
análisis de regresión. Consta de una dispersión de puntos tal que cada
punto representa un valor de la variable independiente (medido a lo largo
del eje horizontal), y un valor asociado de la variable dependiente (medido
a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos
tipos de información, visualmente se pueden determinar los patrones que
indican como las variables están relacionadas (lineal o mediante una curva)
y por otro lado si existe una relación entre ellas visualizando la clase de
línea o ecuación de estimación que describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de
dispersión:
METODO DE MINIMOS CUADRADOS
El método que por lo común se utiliza para ajustar una línea a los datos muestrales
indicados en el diagrama de dispersión, se llama método de mínimos cuadrados. La
línea se deriva en forma tal que la suma de los cuadrados de las desviaciones
verticales entre la línea y los puntos individuales de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a
los datos muestrales, y los supuestos de este método son:
1. El error es cero.
2. Los datos obtenidos de las muestra son estadísticamente independientes.
3. La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muestrales, por el método de
mínimos cuadrados se llama línea de regresión estimada o línea de regresión
muestral.
Dicha línea recta es la que mejor se ajusta al conjunto de datos (X; Y) y es aquella en
que la distancia que hay entre los datos y la supuesta recta es la menor posible, y se
calcula mediante la siguiente formula:

y = ax + b
Para calcular el valor de “b” (pendiente), que representa el grado de inclinación que
tiene la recta, se emplea la siguiente formula:

𝑛σ𝑥 ∙ 𝑦 − σ𝑥σ𝑦
𝑏=
𝑛 σ 𝑥2 − σ 𝑥 2

Para calcular el valor de “a” (ordenada al origen), que representa el punto en que
la recta corta al eje de las Y, se emplea la siguiente formula:

σ𝑦 − 𝑏σ𝑥
𝑎=
𝑛
Las variables “a” y “b” son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
COVARIANZA
La covarianza mide la relación lineal entre dos variables. ... Por lo tanto, una relación lineal
perfecta da como resultado un coeficiente de 1. La correlación mide tanto la fuerza como la
dirección de la relación lineal entre dos variables. Los valores de covarianza no están
estandarizados.
¿Cómo se calcula la covarianza?
Pasos
1.Aprende la fórmula estándar para calcular la covarianza.
2.Elabora una tabla de datos. ...
3.Calcula el promedio de los valores de x.
4.Calcula el promedio de los valores de y.
5.Calcula el producto de cada fila.
6.Al final de la última columna, calcula la suma de los valores.
σ 𝑋𝑖 𝑌𝑖
𝑆𝑋𝑌 = ഥ 𝑌ത
− 𝑋.
𝑛
COEFICIENTE DE CORRELACION LINEAL “r”
El coeficiente de correlación de Pearson o de lineal mide la fuerza y el sentido de una relación
lineal entre dos variables cuantitativas. El coeficiente de correlación toma valores entre -1 y +1. ...
Si el valor de coeficiente es próximo a cero, se dice que la relación es débil.
COEFICIENTE DE DETERMINACION(R2)
Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores de la
muestra, y se define como el porcentaje de la variabilidad total de la variable dependiente
“y” que es explicada por la recta de regresión.
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.
Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.
Se calcula

2 2
2
𝑆𝑥𝑦 𝜎𝑥𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑅 = 2 2= 2 2= =1−
𝑆𝑥 𝑆𝑦 𝜎𝑥 𝜎𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙
Donde:
𝜎𝑥𝑦 es la covarianza de x,y
𝜎𝑥 es la desviación típica de la variable x
𝜎𝑦 es la desviación típica de la variable y.
1. Dada la siguiente distribución bidimensional de renta anual (x) y gasto en
vacaciones (y),ambas expresadas en miles de soles.
x y
12 1
15 1.5
20 2
25 3
30 4

a) El valor del coeficiente de correlaciones entra ambas variables es igual a :


b) ¿Cual es el valor de la covarianza para las variables de la pregunta anterior?.
c) La pendiente (parámetro b) de la recta de regresión de y sobre x que se obtiene
utilizando los datos de la de la pregunta a).
d) El termino constante (parámetro a) de la recta de regresión de y sobre x que se
obtiene utilizando los datos de la pregunta a).
e) Hallar el coeficiente de determinación de la regresión obtenida:
CALCULAR LOS DATOS
X(renta anual) Y(gasto X*Y X² Y²
vacaciones)
12 1 12 144 1
15 1.5 22.5 225 2.25
20 2 40 400 4
25 3 75 625 9
30 4 120 900 16
෍ 𝑋𝑖 = 102 ෍ 𝑌𝑖 = 11.5 ෍ 𝑋𝑖 𝑌𝑖 = 269.5 ෍ 𝑋²𝑖 = 2294 ෍ 𝑌²𝑖 = 32.25

σ 𝑋𝑖 102

• 𝑋= = = 20.4
𝑛 5
σ 𝑌𝑖 11.5
• ത
𝑌= = = 2.3
𝑛 5
2 σ 𝑋²𝑖 2294
• 𝑆𝑋 = −𝑋 = 2 − 20.42 = 42.64 ⇒ 𝑆𝑋 = 42.64 = 6.53
𝑛 5
2 σ 𝑌²𝑖 32.25
• 𝑆𝑌 = − 𝑌2 = − 2.32 = 0.96 ⇒ 𝑆𝑌 = 0.96 = 0.98
𝑛 5
σ 𝑋𝑖 𝑌𝑖 269,5
• 𝑆𝑋𝑌 = ഥ ത
− 𝑋. 𝑌 = − 20.4 ∗ 2.3 = 6.98
𝑛 5
Hallando el valor del coeficiente de correlacion entre ambas variables:
𝑆𝑋𝑌 6.98
• 𝑟= = = 1.090
𝑆𝑋 𝑆𝑌 6.53∗0.98
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎:
• 𝑆𝑋𝑌 = 6.98
𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛:
• 𝑦 = 𝑎 + 𝑏𝑥
Calculando la pendiente :
𝑆𝑋𝑌 6.98
𝑏= 2 = = 0.1637
𝑆𝑋 42.64
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑡𝑒𝑟𝑚𝑖𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑎:
𝑎 = 𝑌ത − 𝑏 ∗ 𝑋ത = 2.3 − 0.1637 ∗ 20.4 = −1.0394
𝑅𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑒𝑛:
𝑦 = 𝑎 + 𝑏𝑥
Ecuación:
𝑦 = −1.0394 + 0.1637𝑥

𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎:


𝑟 = 0.99 ⇒ 𝑟 2 = 0.9801
2. Los datos de la producción de trigo en toneladas(X) y el precio del kilo
de harina en soles (Y) en la década de los 80 fueron.
X(producción de Y(precio de harina)
trigo)
30 25
28 30
32 27
25 40
25 42
25 40
22 50
24 45
35 30
40 25
• Hallar el coeficiente de determinación:
• Hallar la recta de regresión
CALCULAR LOS DATOS

σ𝑋 286
X(produ Y(precio de X*Y X² Y² • 𝑋ത = 𝑖 = = 28.6
cción de harina) 𝑁 10
σ𝑌 354
trigo) • 𝑌ത = 𝑖 = = 35.4
𝑁 10
30 25 750 900 625 σ 𝑋²𝑖 8468
• 𝑆𝑋2 = − 𝑋2 = − 28.62 = 28.84
784 900 𝑁 10
28 30 840
1024 729 ⇒ 𝑆𝑋 = 28.84 = 5.37
32 27 864
σ 𝑌²𝑖 13268
25 40 1000 625 1600 • 𝑆𝑌2 = − 𝑌2 = − 35.42 = 73.64
𝑁 10
25 42 1050 625 1764 ⇒ 𝑆𝑌 = 73.64 = 8.58
625 1600 σ 𝑋𝑖 𝑌𝑖
25 40 1000
• 𝑆𝑋𝑌 = ഥ 𝑌ത = 9734 − 28.6 ∗ 35.4
− 𝑋.
22 50 1100 484 2500 𝑁 10
576 2025
• 𝑆𝑋𝑌 = −39.04
24 45 1080
𝑆𝑋𝑌 −39.04 −39.04
35 30 1050 1225 900 𝑟= = = = −0.85
1600 625
𝑆𝑥 𝑆𝑌 5.37 ∗ 8.58 46.07
40 25 1000
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖𝑜𝑛:
σ 𝑋𝑖 =286 σ 𝑌𝑖 =354 σ 𝑋𝑖 𝑌𝑖 =9734 σ 𝑋²𝑖 =8468 σ 𝑌²𝑖 =13268
𝑅2 = −0.85 −0.85 = 0.72
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛:
• 𝑦 = 𝑎 + 𝑏𝑥
Calculando la pendiente :
𝑆𝑋𝑌 −39.04
𝑏= 2 = = −1.35
𝑆𝑋 28.84
𝐻𝑎𝑙𝑙𝑎𝑛𝑑𝑜 𝑒𝑙 𝑡𝑒𝑟𝑚𝑖𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑎:
𝑎 = 𝑌ത − 𝑏 ∗ 𝑋ത = 35.4 − (−1.35) ∗ 28.6 = 74.01
𝑅𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑒𝑛:
𝑦 = 𝑎 + 𝑏𝑥
Ecuación:
𝑦 = 74.01 − 1.35𝑥
3. Al realizar un estudio de regresión lineal de dos variables X e Y se sabe que las
rectas de regresión se cortan en el puntos (5,15), que el coeficiente de
correlación lineal es -0.85 y que la pendiente de la recta de regresión X sobre Y es
el doble que la de la recta de Y sobre X , se pide:
A). Calcular las ecuaciones de las rectas de regresión de Y sobre X y de X sobre Y.
B). ¿Que porcentaje de la variabilidad de Y queda explicado por el modelo lineal?
Solución:
Calculando las ecuaciones de las rectas de regresión de Y sobre X y de X sobre Y.
Recta de regresión de Y sobre X.
Y = 𝑌ത + 𝑏𝑌𝑋 𝑋 − 𝑋ത
𝑆𝑋𝑌 Datos:
𝑏𝑌𝑋 =
𝑆𝑥 ² Punto de corte de las rectas (5,15)
Recta de regresión de X sobre Y. r=-0.85
X = 𝑋ത + 𝑏𝑋𝑌 𝑌 − 𝑌ത 𝑏𝑥𝑦 = 2𝑏𝑌𝑋
𝑆𝑋𝑌
𝑏𝑋𝑌 = => 𝑋ത =5 ; 𝑌ത = 15
𝑆𝑌 ²
𝑆²𝑋𝑌 Datos:
𝑅2 = = 𝑏𝑌𝑋 ∗ 𝑏𝑋𝑌 =(-0.85)²=0.72
𝑆²𝑥 𝑆²𝑌 Punto de corte de las rectas (5,15)
⇒ 𝑏𝑌𝑋 ∗ 2𝑏𝑌𝑋 = 2𝑏²𝑌𝑋 = 0.72 r=-0.85
𝑏𝑥𝑦 = 2𝑏𝑌𝑋
0.72
⇒ 𝑏𝑌𝑋 = = 0.60 => 𝑋ത =5 ; 𝑌ത = 15
2
Por lo tanto:
𝑏𝑋𝑌 = 2𝑏𝑌𝑋 = 2 ∗ 0.60 = 1.20 RESPUESTA PARA B)
Reemplazando en: La recta de regresión de Y sobre X
explica el 72,25% de la variabilidad
• Recta de regresión de Y sobre X. de Y.
Y = 𝑌ത + 𝑏𝑌𝑋 𝑋 − 𝑋ത => y=15+0.60*(x-5) R²=0.72

=>y=0.60x+12
• Recta de regresión de X sobre Y.
X = 𝑋ത + 𝑏𝑋𝑌 𝑌 − 𝑌ത =>y=5+1.20(y-15)
=>y=1.20y-13

También podría gustarte