Unidad #3 Regresión y Correlación
Unidad #3 Regresión y Correlación
Unidad #3 Regresión y Correlación
1. INTRODUCCIÓN
El análisis de regresión y correlación permite determinar tanto la naturaleza
como la fuerza de una relación entre dos (o más) variables estadísticas. Para de
esta forma, pronosticar, con cierta precisión, el valor de una variable
desconocida, basado en observaciones anteriores de ésta y en otras variables.
El término regresión fue utilizado por primera vez como un concepto estadístico
en 1877 por Sir Francis Galton, cuando desarrolló un estudio para demostrar que
la estatura de los niños nacidos de padres altos tiende a retroceder o “regresar”
hacia la estatura media de la población. Designó la palabra regresión como el
nombre del proceso general de predecir una variable (la estatura de los niños) a
partir de otra (la estatura del padre o de la madre). Más tarde, los estadísticos
acuñaron el término regresión múltiple para describir el proceso mediante el cual
se utilizan varias variables para predecir otra.
2. TIPOS DE RELACIONES
Básicamente, la relación entre dos variables podría ser de dos tipos:
• Funcional, cuando exista una relación matemática exacta que ligue
ambas variables (ej. el radio y el área de un círculo)
• Aleatoria, cuando, aunque no exista entre las variables una relación
exacta, se puede observar (aunque no siempre es el caso) una cierta
tendencia entre los comportamientos de ambas.
3. PROCESO DE REGRESIÓN
4. REGRESIÓN LINEAL
La ecuación para una línea recta donde la variable dependiente “y” depende de
la variable independiente “x” está expresada como:
Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa
el método de mínimos cuadrados, cuya descripción se indica a continuación:
Pe.
Una compañía que fabrica tuberías de plástico para el mercado nacional, re-
quiere conocer si existe una relación lineal entre sus gastos anuales en publicidad
y promociones, con respecto a sus correspondientes ganancias anuales; la si-
guiente tabla expresa los datos anuales de estas variables, expresados en millo-
nes de Bolivianos:
AÑO GASTOS ANUALES EN PUBLICIDAD GANANCIAS ANUALES
(Millones Bs.) (Millones de Bs.)
2015 5 31
2016 11 40
2017 4 30
2018 5 34
2019 3 25
2020 2 20
Aplicando las ecuaciones (1) y (2), se obtienen los valores de dichos coeficientes
“a” y “b”:
n = número de pares ordenados
∑(𝒙𝒊 )2 ∑(𝒚𝒊 ) − ∑(𝒙𝒊 )∑(𝒙𝒊 𝒚𝒊 ) (200 ∗ 180) − (30 ∗ 1000)
𝒂= = = 20
𝒏∑(𝒙𝒊 )2 − (∑(𝒙𝒊 ))2 (6 ∗ 200) − (30)2
4° Ecuación Lineal:
y = 𝑎 + 𝑏𝑥 = 20 + 2𝑥
Regresión Lineal
45
40
35
30
25
20
15
y = 2x + 20
10
5
0
0 2 4 6 8 10 12
∑(𝑦 − 𝑦 ∗)2
𝑠𝑒 = √
𝑛−2
La tendencia en la relación entre las variables, no siempre puede ser una tenden-
cia lineal, también pueden existir otros tipos de líneas que aproxime a la nube
de puntos o diagrama de dispersión, como ser líneas que respondas a ecuacio-
nes:
• Cuadráticas
• Cúbicas
• Exponenciales
• Logarítmicas
• Otro tipo de ecuaciones
7. CORRELACIÓN LINEAL
Cuanto mejor se aproxime dicha nube a una recta, mayor será el grado de corre-
lación lineal. De esta forma, el estudio de la correlación lineal está íntimamente
ligado al de la regresión lineal.
7.1. Coeficiente de Correlación Lineal
Un indicador importante para medir el grado de correlación lineal entre dos va-
riables estadísticas, es el Coeficiente de Correlación Lineal “r”, que se define
como el cociente entre la Covarianza y el producto de las desviaciones estándar
de las variables “x” e “y”.
𝐶𝑜𝑣
𝑟=
𝑠𝑥 ∗ 𝑠𝑦
𝐶𝑜𝑣
𝑟=
𝜎𝑥 ∗ 𝜎𝑦
Donde la covarianza “Cov” se define como una especie de varianza, pero para las
dos variables consideradas simultáneamente:
∑𝑛
𝑖=1(𝑥𝑖 −ẋ)(𝑦𝑖 −ẏ)
• Covarianza Muestral: 𝐶𝑜𝑣 =
𝑛−1
∑𝑛
𝑖=1(𝑥𝑖 −ẋ)(𝑦𝑖 −ẏ)
• Covarianza Poblacional: 𝐶𝑜𝑣 =
𝑁
Dónde: ẋ e ẏ, son las medias aritméticas de las variables.
Sx: Desviación estándar muestral de la variable “x”
Sy: Desviación estándar muestral de la variable “y”
-1 -0,7 0 0,7 1
Pe.
Considerar los datos de las siguientes variables, para las cuales se requiere medir
la intensidad de la relación, a través del coeficiente de correlación lineal:
REGRESIÓN LINEAL
190
180
170
160
150
140
130
12 14 16 18 20 22 24
Otro indicador importante para medir la correlación lineal entre variables (in-
tensidad de la relación), es el Coeficiente de Determinación “r2”, que se define
como: el porcentaje de la variación total de “y” que es explicada por la regre-
sión lineal.
Por otra parte, el coeficiente de correlación tiene la ventaja, por sobre el de de-
terminación, de indicarnos el sentido de la relación, es decir, que nos permite
saber si existe relación directa o inversa entre las variables.
El coeficiente de determinación es un número positivo que está comprendido en
el intervalo [0 1], al multiplicarse por 100, este coeficiente indica un porcentaje
de validez con que se afirma que una variable depende de otra.
0 0,5 1