Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Correlación y Regresión Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

UNIVERSIDAD DEL ATLÁNTICO

ESTADÍSTICA INFERENCIAL
REGRESIÓN

1. Regresión Lineal simple


2. Prueba de hipótesis en la regresión lineal simple – ANOVA
3. Calidad del ajuste en regresión lineal simple
4. Estimación y predicción por intervalo en regresión lineal simple
5. Intervalos de confianza y predicción en regresión simple
Propósito general de la unidad temática

• Estima parámetros de modelos de regresión lineal simple.


• Realiza inferencia a cerca de los parámetros de regresión.
• Realiza pruebas de hipótesis estadísticas a cerca de los parámetros de
regresión.
• Argumenta sobre la bondad de ajuste, la independencia y homogeneidad
en las pruebas de Ji cuadrado.
• Establece cuál es la metodología aplicable a una prueba de bondad de
ajuste.
REGRESIÓN

CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

Suponga que usted es la persona encargada del departamento de recursos humanos de una gran
empresa y podrías estar muy interesada(o) en saber si existe alguna relación entre las calificaciones
obtenidas en la universidad por lo empleados y el éxito de éstos en la compañía. Si verdaderamente
existe una relación fuerte entre estas dos variables, entonces las calificaciones obtenidas en la
universidad se podrían usar para predecir el éxito en la empresa y, por lo tanto, serían muy útiles a la
hora de seleccionar a los futuros empleados.

En estadística este es uno de los temas de mayor practicidad y utilidad en el campo profesional
porque generalmente siempre estamos tratando de hacer comparaciones entre dos o más variables y
mirar si tienen alguna relación entre sí con el fin de hacer predicciones. Así que nos podríamos hacer
la siguiente pregunta.
De la primera parte podemos decir que la correlación y la regresión están relacionadas
entre sí. Ambas implican la relación entre dos o más variables. La correlación sirve
principalmente para averiguar si existe una relación (lineal) y para determinar su
magnitud y dirección, mientras que la regresión se refiere principalmente al hecho de
utilizar la relación para hacer predicciones.

Una relación lineal entre dos variables es la que puede representarse con mayor
exactitud por medio de una línea recta.

POSIBLE RELACIÓN ENTRE VARIABLES

- El peso de un adolecente, con su estatura.


- Los gastos, con el ingreso disponible en un mes.
- Estatura de los niños, con su edad.
- Demanda de algún articulo, con los gastos de propaganda.
- Cantidad de cigarrillos al día, y la frecuencia cardiaca.
DIAGRAMA DE DISPERSIÓN
Para comenzar a estudiar la relación entre dos variables cuantitativas se utiliza el diagrama de
dispersión, el cual es una grafica de parejas de valores de las variables involucradas.
Relación lineal positiva: Existe una relación lineal positiva entre las variables X y Y si al
aumentar los valores de X los valores de Y tienden a aumentar.

Relación lineal negativa: Si existe una relación lineal negativa entre las variables X y Y,
entonces al aumentar los valores de X los valores de Y tienden disminuir y viceversa.

Relación Imperfecta: Una relación lineal imperfecta es aquella en la cual existe una relación
positiva negativa, pero no todos los puntos caen sobre la recta.

ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE


Si entre dos variables cuantitativas existen una relación lineal, el análisis de correlación lineal simple se usa para
determinar la dirección y la magnitud de dicha dirección.

La dirección de la relación se refiere a si esta es positiva o negativa.

La magnitud de la relación o grado de relación entre las variables se refiere a la fuerza de la relación que existe
entre las variables. Se trata de expresar cuantitativamente el grado de relación que existe entre las variables de
estudio.
COEFICIENTE DE CORRELACIÓN

Expresa de manera cuantitativa el grado y la dirección de la relación entre dos variables.

COEFICIENTE DE CORRELACIÒN r DE PEARSON: Se usa cuando los datos están medidos en


una escala de intervalo de razón.

#$%
!= , donde:
#$$ #%%

∑ (/ ∑ ) / ∑ (/ 2
'() = ∑ +, -, − '(( = ∑ +,1 −
0 0

∑ -, 1
')) = 3 -,1 −
4

Tanto '(( como ')) no pueden ser negativas, '() si puede ser positiva o negativa.
El signo del coeficiente de correlación indica si la relación entre las variables es positiva o
negativa.

Si el coeficiente es positivo, entonces la relación es positiva. En caso contrario, la relación es


negativa.

El valor numérico del coeficiente de correlación varia entre -1 y 1 y ésta describe la magnitud de la relación
entre las variables.
Ejemplo 1: Los datos siguientes son estaturas y pesos de nadadoras. Halle el coeficiente de
correlación de Pearson y concluya cual es la relación entre estas variables

! (Estatura) 68 64 62 65 66

" (Peso) 132 108 102 115 128

Solución:
Se llena la siguiente tabla para calcular el coeficiente de correlación de Pearson

#$ %$ #&% #' %'


68 132 8976 4624 17424
64 108 6912 4096 11664
62 102 6324 3844 10404
65 115 7475 4225 13225
66 128 8448 4356 16384

( #$ = *'+ ( %$ = +,+ ( # & % = *,-*+ ( #' = '--.+ ( %' = /0-1-


Hallemos ahora
∑ " * ∑ #* 0123242
S"# = ∑ x' y' − = 38135 − = 110 160
+ 2
140
1 ∑ "* 6 0126
S"" = ∑ x' − +
= 21145 − 2
= 20 120

100

∑ #* 6 2426
S## = ∑ y'1 − = 69101 − = 656 80
+ 2
60

<=> ??@ 40
Donde ; = = = 0,96
<== <>> 1@3A2A 20

0
61 62 63 64 65 66 67 68 69

Del resultado de r podemos concluir que la correlación entre los Coeficiente Intelectuales y las calificaciones
en una prueba de conocimiento de los estudiantes es positiva fuerte.
ANÁLISIS DE REGRESIÓN

El análisis de Regresión trata de establecer la mejor relación entre Y y x, al cuantificar la


intensidad de dicha relación y emplear métodos que permitan predecir los valores de la
respuesta ante valores dados del regresor x.

MODELO DE REGRESIÓN LINEAL SIMPLE:

Con frecuencia nos encontramos en economía con modelos en los que el comportamiento de una variable Y, se
puede explicar a través de una variable x, lo que representamos así:

! = #(%)

Si consideramos que la relación f, que liga y con x, es lineal, entonces se puede escribir así:

!' = )(* + )(,%- + /̂-


Donde:
"! : Es la variable respuesta o variable de interés (variable dependiente)
#$: variable predictora o independiente.
'&( : es el intercepto de la línea de regresión con el eje y.
'&) : es la pendiente de la línea de regresión y.
+̂$ : Componente de error aleatorio.

,. y -
ESTIMACIÓN DE LOS PARÁMETROS - ,/

∑ 23 43 5 62̅ 48
&
') = ∑ 9
23 5 62̅ 9

'&( = "8 − '&) #̅


EJEMPLO 2: Un hipermercado ha decidido ampliar el negocio y decide
estudiar de forma exhaus5va el número de cajas registradoras que va
a instalar, para evitar grandes colas.

Para ello, se obtuvieron los siguientes datos procedentes de otros establecimientos similares
acerca del número de cajas registradoras (variable X) y del 5empo medio de espera (variable
Y).
Solución: Se llena la siguiente tabla para calcular los datos

!" #" !$# !% #%

10 59 590 100 3481

12 51 612 144 2601

14 42 588 196 1764

16 32 512 256 1024

18 26 468 324 676

20 22 440 400 484

& !" = () & #" = %*% & ! $ # = *%+) & !% = +,%) & #% = +))*)
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN:

∑& ( ) ,
*+&( ./#0 )(23#43.5,27)
β! # = ∑ ' - ' = = −3,8614
&' ) *+&- #9/0)(23#4- )

β! 0 = y+ − β! # x+ = 38,67 − −3,8614 3 15 = 96,591

La ecuación de regresión está dada por:

GI + H
FE = H GK L M = NO, PNK + (−Q, ROKS 3 TU )

Si el número de cajas registradora es igual a cero, se espera que el tiempo para que atiendan un
cliente es de 96,591 minutos. Si se aumenta el número de cajas en una unidad se espera que el
tiempo de espera del cliente disminuya 3,8614 minuto.
!" #" !$# !% #% &
# ' '%

10 59 590 100 3481 57,98 1,02 1,05

12 51 612 144 2601 50,25 0,75 0,56

14 42 588 196 1764 42,53 -0,53 0,28

16 32 512 256 1024 34,81 -2,81 7,89

18 26 468 324 676 27,09 -1,09 1,18

20 22 440 400 484 19,36 2,64 6,95

( !" = *+ ( #" = %,% ( ! $ # = ,%-+ ( !% = -.%+ ( #% = -++,+ (' = + ( '% = -/, *-


ANÁLISIS DE VARIANZA PARA LA REGRESIÓN LINEAL – TABLA ANOVA
Análisis de Varianza para probar β = 0

FUENTE DE SUMA DE GRADOS DE CUADRADO


RAZÓN F
VARIACIÓN CUADRADOS LIBERTAD MEDIO
F=
Regresión SCR 1 CMR
CMR/CME
Error SCE n-2 CME

Total SCT n-1 CMT

Se utiliza el método de mínimos cuadrados

SUMA DE CUADRADOS

Suma de cuadrado total:


∑ %+ , )1),
!"# = !%% = ∑ '() − = 10030 − = 1059,33
- 2
Suma de cuadrado del error:
!"# = % & ' = 17,91

Suma de cuadrado de Regresión:


!", = !"- − !"# = 1059,33 − 17,91 = 1041,42

GRADOS DE LIBERTAD
Grados de libertad de regresión:
45 !", = 1
Grados de libertad del error:
45 !"# = 6 − 2 = 6 − 2 = 4
Grados de libertad total:
45 !"- = 6 − 1 = 6 − 1 = 5
SUMAS DE CUADRADOS MEDIOS: Es el cociente entre las sumas de cuadrados y los grados de
libertad.

Cuadrado medio de regresión:


%&' ,-.,,.0
!"# = = = 1041,42
()(%&') ,

Cuadrado medio de error:


%&6 ,7,8,
!"5 = ()(%&6) = .
= 4,477

Cuadrado medio total:


%&; ,-<8,==
!": = = = 211,866
()(%&;) <
ESTADÍSTICO DE FISHER

Es el cociente entre el cuadrado medio de regresión y el cuadrado medio del error.

#$% 1041,42
!= = = 232,615
#$& 4,477

PRUEBA DE HIPÓTESIS

01 = El modelo no es significativo
02 = El modelo es significativo

Si ! ≥ 45; 7879 se rechaza la hipótesis nula; donde, :2 = 1 y :; = 4


Para 95% de confiabilidad < = 0,05; Tabla de Fisher = 7,71

Como ! ≥ 45; 7879 ; se rechaza la hipótesis nula. Entonces el modelo es significativo.


TABLA DE ANÁLISIS DE VARIANZA - ANOVA

SUMA DE
FUENTE DE SUMA DE GRADOS DE
CUADRADOS RAZÓN F
VARIACIÓN CUADRADOS LIBERTAD
MEDIO

1041,42
!=
Regresión 1041,42 1 1041,42 4,477
= 232,615

Error 17,91 4 4,477

Total 1059,33 5 211,866


Referencias Bibliográficas

Referencias bibliográficas de apoyo:

1. G.C Canavos. Probabilidad y Estadística – Aplicaciones y Métodos. Mc. Graw Hill. México.

2. J. E. Freund, I Miller & M. Miller. Estadística Matemática Con Aplicaciones. Pearson Prentice Hall, Mexico

3. Walpole, Myers. Probabilidad y Estadística para Ingeniería y ciencias. Pearson. México.

4. Llinas Solano H. Estadística Inferencial. Ediciones Uninorte. Colombia.

También podría gustarte