Coeficiente de Correlación Lineal Simple
Coeficiente de Correlación Lineal Simple
Coeficiente de Correlación Lineal Simple
El coeficiente de correlación lineal simple mide el grado de asociación entre las variables (X i, Yi), debido a
una causa o factor común aleatorio, el coeficiente de correlación lineal simple, está definido por:
r=
∑ x i y i−n x y
√ ∑ x 2i −n x 2 √∑ y 2i −n y 2
Propiedades.
Mide la proporción de variación total de los valores de la variable Y i, explicadas por las variaciones de X i.
Si el modelo de regresión usado es adecuado el coeficiente de determinación será alto (tiende a 1).
Ejemplos:
1. Los siguientes datos corresponden a la cantidad de fertilizantes en libras ( x i) y la cantidad de
trigo producida en toneladas al sembrar parcelas de 2 hectáreas cada una.
Fertilizante ( x i) 2 4 5 7 10 11 12 15
Producción ( y i 8 9 11 11 12 14 15 16
)
4 7 11
5 10 12
6 11 14
7 12 15
8 15 16
TOTAL
x=
∑ x i = ❑ =, y= ∑ y i = ❑ =¿
n ❑ n ❑
COEFICIENTE DE CORRELACIÓN
r=
∑ x i y i−n x y =
−(× ×)
√ ∑ x i −n x √∑ y i −n y √−(×❑2) √−(×❑2)
2 2 2 2
r = −¿ = ❑ = ❑ = ❑ =¿ ¿
√❑ √ √❑ √❑ √❑ ❑
r =¿, esto significa que existe una excelente correlación o asociación positiva entre las variables
fertilizante en libras y producción de trigo en toneladas.
Esto quiere decir que a mayor cantidad de fertilizante mayor será la producción de trigo.
COEFICIENTE DE DETERMINACIÓN
2 2
r =( ) =¿,
% son las variaciones existentes en la producción de trigo en toneladas (y) que son explicadas
por las variaciones del fertilizante en libras (x) mientras que el % de las variaciones existentes en
la producción de trigo en toneladas son explicadas por otras variables que no están incluidas en
el modelo. Por lo tanto, el modelo de regresión lineal simple es adecuado para estimar o
predecir.
Con Excel
Nº Rendimiento Rendimiento
estudiantes Nivel Nivel
secundario ( superior ( y i)
x i)
1 16 15
2 13 11
3 15 17
4 12 14
5 11 11
6 16 14
7 13 15
ESTADÍSTICA GENERAL
8 10 12
Solución
a) Diagrama
b) Coeficiente de correlación y determinación
Nº Rendimiento Rendimient xi × yi xi
2
yi
2
x=
∑ x i = ❑ =, y= ∑ y i = ❑ =¿
n ❑ n ❑
COEFICIENTE DE CORRELACIÓN
r=
∑ x i y i−n x y =
−(× ×)
√ ∑ x i −n x √∑ y i −n y √−(×❑2) √−(×❑2)
2 2 2 2
r = −¿ = ❑ = ❑ = ❑ =¿ ¿
√❑ √ √❑ √❑ √❑ ❑
r =¿, esto significa que existe una excelente correlación o asociación positiva entre las variables
fertilizante en libras y producción de trigo en toneladas.
Esto quiere decir que a mayor cantidad de fertilizante mayor será la producción de trigo.
COEFICIENTE DE DETERMINACIÓN
2 2
r =( ) =¿,
% son las variaciones existentes en la producción de trigo en toneladas (y) que son explicadas
por las variaciones del fertilizante en libras (x) mientras que el % de las variaciones existentes en
la producción de trigo en toneladas son explicadas por otras variables que no están incluidas en
el modelo. Por lo tanto, el modelo de regresión lineal simple es adecuado para estimar o
predecir.
Con Excel
ESTADÍSTICA GENERAL
a) Diagrama
b) Coeficiente de correlación y determinación
Nº Rendimiento Rendimient xi × yi 2
xi yi
2
x=
∑ x i = ❑ =, y= ∑ y i = ❑ =¿
n ❑ n ❑
COEFICIENTE DE CORRELACIÓN
r=
∑ x i y i−n x y =
−(× ×)
√ ∑ x 2i −n x 2 √∑ y 2i −n y 2 √−(×❑2) √−(×❑2)
r = −¿ = ❑ = ❑ = ❑ =¿ ¿
√❑ √ √❑ √❑ √❑ ❑
r =¿, esto significa que existe una excelente correlación o asociación positiva entre las variables
fertilizante en libras y producción de trigo en toneladas.
Esto quiere decir que a mayor cantidad de fertilizante mayor será la producción de trigo.
COEFICIENTE DE DETERMINACIÓN
2 2
r =( ) =¿,
% son las variaciones existentes en la producción de trigo en toneladas (y) que son explicadas
por las variaciones del fertilizante en libras (x) mientras que el % de las variaciones existentes en
la producción de trigo en toneladas son explicadas por otras variables que no están incluidas en
el modelo. Por lo tanto, el modelo de regresión lineal simple es adecuado para estimar o
predecir.
Con Excel
a) Diagrama
b) Coeficiente de correlación y determinación
Nº X Y xi × yi 2
xi
2
yi
estudiantes
1 02 25
2 04 10
3 04 35
ESTADÍSTICA GENERAL
4 08 05
5 08 40
6 14 05
7 14 15
8 14 40
9 18 20
10 18 35
TOTAL
x=
∑ x i = ❑=, y= ∑ y i = ❑ =¿
n ❑ n ❑
COEFICIENTE DE CORRELACIÓN
r=
∑ x i y i−n x y =
−(× ×)
√ ∑ x 2i −n x 2 √∑ y 2i −n y 2 √−(×❑2) √−(×❑2)
r = −¿ = ❑ = ❑ = ❑ =¿ ¿
√❑ √ √❑ √❑ √❑ ❑
r =¿, esto significa que existe una excelente correlación o asociación positiva entre las variables
fertilizante en libras y producción de trigo en toneladas.
Esto quiere decir que a mayor cantidad de fertilizante mayor será la producción de trigo.
COEFICIENTE DE DETERMINACIÓN
2 2
r =( ) =¿,
% son las variaciones existentes en la producción de trigo en toneladas (y) que son explicadas
por las variaciones del fertilizante en libras (x) mientras que el % de las variaciones existentes en
la producción de trigo en toneladas son explicadas por otras variables que no están incluidas en
el modelo. Por lo tanto, el modelo de regresión lineal simple es adecuado para estimar o
predecir.
Con Excel
5. Un grupo de estudio tiene asignado obtener un modelo de regresión lineal para predecir las
ventas semanales de un producto en función de la publicidad por la radio, ha recopilado al azar
los tiempos de duración en minutos de la publicidad de 10 semanas y el respectivo número de
unidades vendidas del producto, los datos son los siguientes. Calcule el coeficiente de
correlación y determinación e interprete cada uno.
N° Publicidad X Ventas Y
1 20 50
2 30 73
3 30 69
4 40 87
5 50 108
6 60 128
ESTADÍSTICA GENERAL
7 60 135
8 60 132
9 70 148
1 80 140
0
SOLUCIÓN
N° Publicidad X Ventas Y xi × yi 2
xi
2
yi
1 20 50 1000 400 2500
2 30 73 2190 900 5329
3 30 69 2070 900 4761
4 40 87 3480 1600 7569
5 50 108 5400 2500 11664
6 60 128 7680 3600 16384
7 60 135 8100 3600 18225
8 60 132 7920 3600 17424
9 70 148 10360 4900 21904
10 80 140 11200 6400 19600
TOTAL 500 1070 59400 28400 125360
x=
∑ x i = 500 =50 , y= ∑ y i = 1070 =107
n 10 n 10
COEFICIENTE DE CORRELACIÓN
r=
∑ x i y i−n x y =
59400−(10 ×50 ×107)
√ ∑ x 2i −n x 2 √∑ y 2i −n y 2 √ 28400−(10 ×502 )√ 125360−(10 ×107 2)
59400−53500 5900 5900 5900
r= = = = =0.971
√ 28400−(25000) √125360−(114490 ) √ 3400 √10870 √ 3400 ×10870 6079.309
r =0. 971, esto significa que existe una excelente correlación o asociación positiva entre las
variables número de unidades vendidas y publicidad en minutos.
Esto quiere decir que a más minutos de publicidad mayor será el número de unidades vendidas.
COEFICIENTE DE DETERMINACIÓN
2 2
r = ( 0.971 ) =0.943,
94.3% son las variaciones existentes del número de unidades vendidas que son explicadas por
las variaciones de la publicidad en minutos mientras que el 5.7% de las variaciones existentes
del número de unidades vendidas son explicadas por otras variables que no están incluidas en el
modelo. Por lo tanto, el modelo de regresión lineal simple es adecuado para estimar o predecir.
Estadísticas de la regresión
Coeficiente de correlación 0.9705050
múltiple 1
Coeficiente de determinación 0.9418799
ESTADÍSTICA GENERAL
R^2 7
0.9346149
R^2 ajustado 7
8.8865397
Error típico 2
Observaciones 10