Correlaciã - N Lineal y Regresiã - N Lineal Simple
Correlaciã - N Lineal y Regresiã - N Lineal Simple
Correlaciã - N Lineal y Regresiã - N Lineal Simple
ESTUDIANTE
ROSA CÁEZ VELÁSQUEZ
Docente
Julio Humberto Rodríguez
ESTADÍSTICA INFERENCIAL
28 MAYO DE 202
CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos,
conviene destacar algunas diferencias:
La correlación cuantifica como de relacionadas están dos variables, mientras que la
regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de
la otra.
El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber si
están relacionadas. En el caso de estudios de regresión lineal, es más común que una
de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se
mida la otra.
Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
CORRELACIÓN LINEAL
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer
de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es
la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Siendo β0𝛽0 la ordenada en el origen, β1𝛽1 la pendiente y ϵ𝜖 el error aleatorio. Este último
representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto
de todas aquellas variables que influyen en Y𝑌 pero que no se incluyen en el modelo como
predictores. Al error aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores 𝛽0 y 𝛽1 poblacionales son desconocidos, por lo
que, a partir de una muestra, se obtienen sus estimaciones 𝛽^0 y 𝛽^1. Estas estimaciones se
conocen como coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que
pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados
para obtener las estimaciones de los coeficientes).
Donde 𝑆𝑦 y 𝑆𝑥 son las desviaciones típicas de cada variable y R𝑅 el coeficiente de
correlación. 𝛽^0 es el valor esperado la variable 𝑌 cuando 𝑋 = 0, es decir, la intersección de
la recta con el eje y. Es un dato necesario para generar la recta, pero en ocasiones, no tiene
interpretación práctica (situaciones en las que 𝑋 no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos
es necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal
entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la
correlación). Sin embargo, en caso de querer predecir el valor de una variable en función de
la otra, no solo se necesita calcular la recta, sino que además hay que asegurar que el
modelo sea bueno.
DIAGRAMA DE DISPERSIÓN
Condiciones
La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el
coeficiente de Pearson no la puede detectar).
Las dos variables deben de ser cuantitativas.
Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de la
normal.
Homocedasticidad: La varianza de 𝑌 debe ser constante a lo largo de la variable 𝑋.
Esto se puede identificar si en el scatterplot los puntos mantienen la misma
dispersión en las distintas zonas de la variable 𝑋. Esta condición no la he
encontrado mencionada en todos los libros.
Características
Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
Es una medida independiente de las escalas en las que se midan las variables.
No varía si se aplican transformaciones a las variables.
No tiene en consideración que las variables sean dependientes o independientes.
El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su significancia. Solo
si el p-value es significativo se puede aceptar que existe correlación y esta será de la
magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de
correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de ambas
variables es 0 ya que el valor observado se puede deber al azar