Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Unidad #3 Regresión y Correlación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

UNIDAD N° 3: REGRESIÓN Y CORRELACIÓN

1. INTRODUCCIÓN
El análisis de regresión y correlación permite determinar tanto la naturaleza
como la fuerza de una relación entre dos (o más) variables estadísticas. Para de
esta forma, pronosticar, con cierta precisión, el valor de una variable
desconocida, basado en observaciones anteriores de ésta y en otras variables.

El término regresión fue utilizado por primera vez como un concepto estadístico
en 1877 por Sir Francis Galton, cuando desarrolló un estudio para demostrar que
la estatura de los niños nacidos de padres altos tiende a retroceder o “regresar”
hacia la estatura media de la población. Designó la palabra regresión como el
nombre del proceso general de predecir una variable (la estatura de los niños) a
partir de otra (la estatura del padre o de la madre). Más tarde, los estadísticos
acuñaron el término regresión múltiple para describir el proceso mediante el cual
se utilizan varias variables para predecir otra.

Con el análisis de regresión, es posible formular una ecuación de estimación, esto


es, una fórmula matemática que relaciona las variables conocidas
(independiente “x”) con la variable desconocida (dependiente “y”).

Después de conocer el patrón de esta relación, se puede aplicar el análisis de


correlación para determinar el grado en el que las variables se relacionan. El
análisis de correlación indica, qué tan bien describe la ecuación de estimación,
la relación entre las variables en cuestión.

2. TIPOS DE RELACIONES
Básicamente, la relación entre dos variables podría ser de dos tipos:
• Funcional, cuando exista una relación matemática exacta que ligue
ambas variables (ej. el radio y el área de un círculo)
• Aleatoria, cuando, aunque no exista entre las variables una relación
exacta, se puede observar (aunque no siempre es el caso) una cierta
tendencia entre los comportamientos de ambas.

En una regresión, sólo puede existir una variable dependiente en la ecuación de


estimación, sin embargo, podemos relacionar más de una variable
independiente; a menudo cuando se agrega variables independientes, se mejora
la exactitud de la predicción. A los efectos de la asignatura, estudiaremos
principalmente relaciones entre dos variables.

En el análisis de regresión encontramos relaciones de tipo causal entre variables,


esto es, la variable independiente “causa” cambios en la variable dependiente,
pero en muchos casos, otros factores ocasionan los cambios tanto en las
variables dependientes como en las independientes. Por esta razón, es
importante considerar que las relaciones encontradas por la regresión son
relaciones de asociación, pero no necesariamente de causa y efecto. A menos
que se tenga razones específicas para creer que los valores de la variable
dependiente, se originan por los valores de las variables independientes; es
recomendable no inferir la causalidad en las relaciones encontradas por la
regresión.

3. PROCESO DE REGRESIÓN

El primer paso para el estudio de la relación entre las variables, consiste en la


construcción y observación de un diagrama de dispersión (Nube de puntos).

Ejemplo de diagrama de dispersión. Los datos corresponden a las medidas de dispersión de


velocidades y luminosidad en una muestra de 40 galaxias elípticas realizadas por Schechter
(1980).

Los diagramas de dispersión usan una colección de puntos graficados usando


coordenadas cartesianas para mostrar valores de dos variables. Al mostrar una
variable en cada eje, se puede detectar si existe una relación o correlación entre
las dos variables.

El proceso de regresión consiste entonces en ajustar una función a la nube de


puntos, donde esta función permitirá obtener al menos de forma aproximada,
una estimación del valor de una de las variables a partir del valor que tome la
otra. Cuando la función sea del tipo y = f(x), hablaremos de regresión de “y” sobre
“x” (a partir de los valores de x se pueden estimar los de y). Un diagrama de
dispersión nos puede dar dos tipos de información:

• Visualmente podemos identificar patrones que indiquen que las variables


están relacionadas o no y que tan fuerte es la relación entre variables.
• Si las variables están relacionadas podemos ver qué tipo de línea, o ecua-
ción de estimación describe esta relación.

4. REGRESIÓN LINEAL

En los diagramas de dispersión de las gráficas anteriores, se dispusieron las líneas


de regresión ajustando las líneas visualmente entre los puntos de datos. En esta
sección, aprenderemos a calcular la línea de regresión de manera más precisa,
usando una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente “y” depende de
la variable independiente “x” está expresada como:

En esta ecuación “a” se denomina la “ordenada y” porque su valor es el punto


en el cual la línea de regresión cruza el eje vertical Y. Mientras que “b” es la “pen-
diente” de la recta. Dentro del estudio de la regresión lineal se analiza cómo se
pueden determinar los parámetros “a” y “b” de la recta de regresión.

Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa
el método de mínimos cuadrados, cuya descripción se indica a continuación:

Sea una muestra de tamaño n en que la variable estadística bidimensional


toma los valores: (x1, y1), (x2, y2), . . . , (xn, yn). A cada valor xi de la va-
riable “x” le corresponde entonces un valor yi de la variable “y”, pudiendo
además asociársele un valor yi*, que sería el dado por la recta que quere-
mos calcular. Es decir:
𝑦𝑖∗ = 𝑎 + 𝑏𝑥
Llamemos “di” a la diferencia entre los dos valores: el dato observado y
el valor dado por la ecuación de la recta (distancia vertical), como se in-
dica en la figura adjunta:
𝑑𝑖 = 𝑦𝑖∗ − 𝑦𝑖

Para que la recta a determinar sea la que mejor se ajuste a la nube de


puntos, de entre todas las rectas posibles, dichas distancias d i deberán
ser lo más pequeñas posible. Es decir, hay que minimizar las distancias
verticales “di”. Para ello es conveniente tomar los cuadrados de las dis-
tancias, para que así no se anulen desviaciones positivas y negativas.

De esta forma, el problema se reduce a minimizar la expresión siguiente,


que no es nada más que la suma de las distancias al cuadrado:
𝑛 𝑛 𝑛

𝑀 = ∑(𝑑𝑖 )2 = ∑(𝑦𝑖∗ − 𝑦𝑖 )2 = ∑(𝑎 + 𝑏𝑥 − 𝑦𝑖 )2


𝑖=1 𝑖=1 𝑖=1

Para encontrar los valores de a y b que hacen mínima esta expresión, se


realiza un proceso de minimización de M, aplicando derivadas parciales.
Resultado de este proceso, se han obtenido las siguientes fórmulas para
obtener los coeficientes “a” y “b” de la ecuación de la recta:

∑(𝒙𝒊 )2 ∑(𝒚𝒊 )−∑(𝒙𝒊 )∑(𝒙𝒊𝒚𝒊 )


𝒂=
𝒏∑(𝒙𝒊 )2 −(∑(𝒙𝒊 ))2
(1)

𝒏∑(𝒙𝒊 𝒚𝒊 )−∑(𝒙𝒊 )∑(𝒚𝒊 )


𝒃=
𝒏∑(𝒙𝒊 )2 −(∑(𝒙𝒊))2
(2)

Pe.
Una compañía que fabrica tuberías de plástico para el mercado nacional, re-
quiere conocer si existe una relación lineal entre sus gastos anuales en publicidad
y promociones, con respecto a sus correspondientes ganancias anuales; la si-
guiente tabla expresa los datos anuales de estas variables, expresados en millo-
nes de Bolivianos:
AÑO GASTOS ANUALES EN PUBLICIDAD GANANCIAS ANUALES
(Millones Bs.) (Millones de Bs.)
2015 5 31
2016 11 40
2017 4 30
2018 5 34
2019 3 25
2020 2 20

1° Se designan el rol a las variables estadísticas:


• Variable independiente “x”: Gastos anuales en publicidad
• Variable dependiente “y”: Ganancias anuales

2° Ordenar los datos:

3° Calcular los valores de los coeficientes “a” y “b” de la línea de regresión:

Aplicando las ecuaciones (1) y (2), se obtienen los valores de dichos coeficientes
“a” y “b”:
n = número de pares ordenados
∑(𝒙𝒊 )2 ∑(𝒚𝒊 ) − ∑(𝒙𝒊 )∑(𝒙𝒊 𝒚𝒊 ) (200 ∗ 180) − (30 ∗ 1000)
𝒂= = = 20
𝒏∑(𝒙𝒊 )2 − (∑(𝒙𝒊 ))2 (6 ∗ 200) − (30)2

𝒏∑(𝒙𝒊 𝒚𝒊 ) − ∑(𝒙𝒊 )∑(𝒚𝒊 ) (6 ∗ 1000) − (30 ∗ 180)


𝒃= = =2
𝒏∑(𝒙𝒊 )2 − (∑(𝒙𝒊 ))2 (6 ∗ 200) − (30)2

4° Ecuación Lineal:
y = 𝑎 + 𝑏𝑥 = 20 + 2𝑥
Regresión Lineal
45
40
35
30
25
20
15
y = 2x + 20
10
5
0
0 2 4 6 8 10 12

5. VERIFICACIÓN DE LA ECUACIÓN DE ESTIMACIÓN


Para verificar la exactitud de la ecuación de estimación, existen varios
procedimientos, uno de ellos tiene que ver con la naturaleza misma del
procedimiento utilizado para estimar la ecuación (método de los mínimos
cuadrados), donde los errores individuales de cada punto de la nube y la recta
estimada (distancias di), tanto positivos como negativos, deben sumar cero.
Verificamos si se cumple esta condición para nuestro ejercicio anterior:

Evidentemente la suma algebraica de las distancias “di” resulta igual a 0, esta


evidencia nos indica que no se han cometido errores matemáticos al estimar la
ecuación lineal en el proceso de regresión.

5.1. Error Estándar de la Estimación


Una vez que ha sido ajustada la ecuación lineal de estimación, se hace necesario
medir el nivel de confiabilidad de esta ecuación, es decir se debe medir que tan
cerca o que tan alejados están los puntos del diagrama de dispersión, de la línea
recta que ha sido ajustada:
Para medir este nivel de confiabilidad, se ha desarrollado una medida
denominada “Error Estándar de Estimación”; esta medida es similar a la
desviación estándar ya que ambas miden el nivel de dispersión, solo que el error
estándar de estimación, mide el nivel dispersión de la nube de puntos, pero con
respecto de la línea de estimación tal como se indica en gráfico anterior.
La ecuación que define el Error Estándar de Estimación, esta expresada de la
siguiente manera:

∑(𝑦 − 𝑦 ∗)2
𝑠𝑒 = √
𝑛−2

Dónde: y: valores de la variable dependiente


y*: valores estimados con la ecuación de estimación que
corresponden a cada valor de “y”
n: número de puntos utilizados para ajustar la línea de regresión
Como ocurre en el caso de la desviación estándar, mientras más grande sea el error
estándar de la estimación, mayor será la dispersión de los puntos alrededor de la
línea de regresión. De manera inversa, si se=0, esperamos que la ecuación de esti-
mación sea un estimador “perfecto” de la variable dependiente. En ese caso, todos
los puntos caerían directamente sobre la línea de regresión y no habría puntos dis-
persos alrededor.

Determinamos ahora error estándar de estimación, para el ejercicio considerado


en el inciso 4.
∑(𝑦 − 𝑦 ∗)2 42
𝑠𝑒 = √ =√ = 3,24
𝑛−2 6−2

6. TIPOS DE REGRESIONES NO LINEALES

La tendencia en la relación entre las variables, no siempre puede ser una tenden-
cia lineal, también pueden existir otros tipos de líneas que aproxime a la nube
de puntos o diagrama de dispersión, como ser líneas que respondas a ecuacio-
nes:
• Cuadráticas
• Cúbicas
• Exponenciales
• Logarítmicas
• Otro tipo de ecuaciones

Para realizar este tipo de regresiones existen herramientas informáticas (Softwa-


res estadísticos) que permiten realizar este proceso, por su simplicidad y amplia
disponibilidad, se puede aprovechar las herramientas que nos provee una hoja
de cálculo como es el Excel, que permite realizar también regresiones no lineales.

7. CORRELACIÓN LINEAL

La correlación estudia el grado de asociación o dependencia entre las dos varia-


bles, es decir, estudiar la correlación significa analizar hasta qué punto es signifi-
cativa la dependencia de una variable con la otra. De esta manera, por ejemplo,
cuando exista una dependencia funcional entre ambas variables diremos que te-
nemos una correlación perfecta (ej. radio y área de un circulo). Cuando, por el
contrario, no exista ninguna dependencia entre las variables diremos que no hay
correlación.

El caso más interesante es el intermedio, cuando es posible que exista alguna


correlación, aunque no perfecta, que habrá que cuantificar.

Nos vamos a concentrar en un tipo particular de correlación que es la correlación


lineal; esta estudia el grado en que la nube de puntos representada en el dia-
grama de dispersión, se acerca a una recta.

Cuanto mejor se aproxime dicha nube a una recta, mayor será el grado de corre-
lación lineal. De esta forma, el estudio de la correlación lineal está íntimamente
ligado al de la regresión lineal.
7.1. Coeficiente de Correlación Lineal

Un indicador importante para medir el grado de correlación lineal entre dos va-
riables estadísticas, es el Coeficiente de Correlación Lineal “r”, que se define
como el cociente entre la Covarianza y el producto de las desviaciones estándar
de las variables “x” e “y”.
𝐶𝑜𝑣
𝑟=
𝑠𝑥 ∗ 𝑠𝑦

𝐶𝑜𝑣
𝑟=
𝜎𝑥 ∗ 𝜎𝑦

Donde la covarianza “Cov” se define como una especie de varianza, pero para las
dos variables consideradas simultáneamente:
∑𝑛
𝑖=1(𝑥𝑖 −ẋ)(𝑦𝑖 −ẏ)
• Covarianza Muestral: 𝐶𝑜𝑣 =
𝑛−1
∑𝑛
𝑖=1(𝑥𝑖 −ẋ)(𝑦𝑖 −ẏ)
• Covarianza Poblacional: 𝐶𝑜𝑣 =
𝑁
Dónde: ẋ e ẏ, son las medias aritméticas de las variables.
Sx: Desviación estándar muestral de la variable “x”
Sy: Desviación estándar muestral de la variable “y”

Este Coeficiente de Correlación lineal varía en el intervalo: -1 ≤ r ≤ 1

• Cuando el valor de “r” es muy cercano a 1 o a -1 se dice que existe una


alta correlación entre variables, por el contrario, cuando es más cercano
a 0, se dice que existe una baja correlación entre variables.
• Cuando r es positivo significa que, si una variable crece, también crece la
otra.
• Cuando r es negativo, indica que, si una variable crece, la otra variable
decrece.

Usualmente se utiliza la siguiente escala de “r” para medir una correlación:

-1 -0,7 0 0,7 1

Correlación alta Correlación baja Correlación alta


negativa positiva

Pe.
Considerar los datos de las siguientes variables, para las cuales se requiere medir
la intensidad de la relación, a través del coeficiente de correlación lineal:
REGRESIÓN LINEAL
190
180
170
160
150
140
130
12 14 16 18 20 22 24

7.2. Coeficiente de Determinación

Otro indicador importante para medir la correlación lineal entre variables (in-
tensidad de la relación), es el Coeficiente de Determinación “r2”, que se define
como: el porcentaje de la variación total de “y” que es explicada por la regre-
sión lineal.

Este coeficiente se calcula como el cuadrado del Coeficiente de Correlación Li-


neal:
2
𝐶𝑜𝑣
𝑟2 = (𝑟)2 =( )
𝑠𝑥 ∗ 𝑠𝑦

Los dos coeficientes utilizados en el análisis de regresión tienen su utilidad, pero


difieren en cuanto a su interpretación. La diferencia entre ambos está en que el
coeficiente de determinación “r2” representa el porcentaje de la variación de que
es explicado por la regresión, mientras que el coeficiente de correlación “r” sólo
nos permite clasificar la relación lineal en "fuerte" o "débil".

Por otra parte, el coeficiente de correlación tiene la ventaja, por sobre el de de-
terminación, de indicarnos el sentido de la relación, es decir, que nos permite
saber si existe relación directa o inversa entre las variables.
El coeficiente de determinación es un número positivo que está comprendido en
el intervalo [0 1], al multiplicarse por 100, este coeficiente indica un porcentaje
de validez con que se afirma que una variable depende de otra.

La escala de referencia para valorar este coeficiente, es la siguiente:

0 0,5 1

Determinación baja Determinación alta

También podría gustarte