Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Correlaciã - N Lineal y Regresiã - N Lineal Simple

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE

ESTUDIANTE
ROSA CÁEZ VELÁSQUEZ

Docente
Julio Humberto Rodríguez

UNIVERSIDAD LIBRE SEDE CARTAGENA

FACULTAD DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y CONTABLES

ESTADÍSTICA INFERENCIAL

28 MAYO DE 202
CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE

La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos,
conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables, mientras que la
regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de
la otra.
 El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber si
están relacionadas. En el caso de estudios de regresión lineal, es más común que una
de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se
mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.

CORRELACIÓN LINEAL
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer
de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es
la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.

siendo x¯e 𝑦¯ la media de cada variable y 𝑥𝑖 e 𝑦𝑖 el valor de las variables para la


observación 𝑖.
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto,
no es comparable entre distintos pares de variables. Para poder hacer comparaciones se
estandariza la covarianza, generando lo que se conoce como coeficientes de correlación.
Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de
Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
 La correlación de Pearson funciona bien con variables cuantitativas que tienen una
distribución normal. En el libro Handbook of Biological Statatistics se menciona
que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más
sensible a los valores extremos que las otras dos alternativas.
 La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo,
o bien cuando no se satisface la condición de normalidad para variables continuas y
los datos se pueden transformar a rangos. Es un método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el estudio de la
correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y
muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas
ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su
significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y
esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del
coeficiente de correlación a +1+1 o −1−1, si no es significativo, se ha de interpretar que la
correlación de ambas variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de correlación
es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un lado está el
parámetro estimado (en este caso el coeficiente de correlación) y por otro su significancia a
la hora de considerar la población entera. Si se calcula el coeficiente de correlación
entre X𝑋 e Y𝑌 en diferentes muestras de una misma población, el valor va a variar
dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la significancia
de la correlación obtenida y su intervalo de confianza.
Para este test de hipótesis, 𝐻0 considera que las variables son independientes (coeficiente
de correlación poblacional = 0) mientras que, la 𝐻𝑎, considera que existe relación
(coeficiente de correlación poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de correlación y
de sus significancias, también tiene un tamaño de efecto asociado. Se conoce
como coeficiente de determinación 𝑅2. Se interpreta como la cantidad de varianza
de 𝑌 explicada por 𝑋. En el caso del coeficiente de Pearson y el de Spearman, 𝑅2 se
obtiene elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se
puede calcular de este modo.

REGRESIÓN LINEAL SIMPLE


La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una
recta) que permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como 𝑌 y a la variable predictora o independiente
como 𝑋.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Siendo β0𝛽0 la ordenada en el origen, β1𝛽1 la pendiente y ϵ𝜖 el error aleatorio. Este último
representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto
de todas aquellas variables que influyen en Y𝑌 pero que no se incluyen en el modelo como
predictores. Al error aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores 𝛽0 y 𝛽1 poblacionales son desconocidos, por lo
que, a partir de una muestra, se obtienen sus estimaciones 𝛽^0 y 𝛽^1. Estas estimaciones se
conocen como coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que
pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados
para obtener las estimaciones de los coeficientes).
Donde 𝑆𝑦 y 𝑆𝑥 son las desviaciones típicas de cada variable y R𝑅 el coeficiente de
correlación. 𝛽^0 es el valor esperado la variable 𝑌 cuando 𝑋 = 0, es decir, la intersección de
la recta con el eje y. Es un dato necesario para generar la recta, pero en ocasiones, no tiene
interpretación práctica (situaciones en las que 𝑋 no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos
es necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal
entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la
correlación). Sin embargo, en caso de querer predecir el valor de una variable en función de
la otra, no solo se necesita calcular la recta, sino que además hay que asegurar que el
modelo sea bueno.

DIAGRAMA DE DISPERSIÓN

El diagrama de dispersión es una herramienta utilizada cuando se desea realizar un


análisis gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos.
El resultado del análisis en el diagrama puede mostrar que existe una relación entre una
variable y la otra.
El diagrama de dispersión tiene el propósito de controlar mejor el proceso y mejorarlo,
resulta indispensable conocer cómo se comportan algunas variables o características de
calidad entre sí, esto es, descubrir si el comportamiento de unas depende del
comportamiento de otras, o no, y en qué grado.
Se le llama diagrama de dispersión, porque al momento de graficar los puntos de
coincidencia de cada variable con respecto a la otra, estos puntos se van dispersando o
posicionando en el diagrama de acuerdo con el grado de relación entre ambas.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.
Para qué sirve un diagrama de dispersión
1. El diagrama de dispersión nos indica si dos variables (o factores o características de
calidad) están relacionados
2. El diagrama de dispersión además puede proporcionar la posibilidad de reconocer
fácilmente relaciones causa/efecto
Cómo se construye el diagrama de dispersión
Paso 1: Definir las variables a diagramar en el diagrama
Para nuestro ejemplo usaremos el tiempo del proceso en segundos y el espesor del producto
resultante en milímetros.
Paso 2: Determinar escalas para las variables del diagrama
Diseñar las escalas apropiadas para los ejes X y Y. Si vamos a realizar el diagrama en una
hoja o carta de papel, hay que ver en que rangos de cada variable nos vamos a mover (su
mínimo y su máximo) para que tracemos la escala y en ella indicar los valores que vamos a
estar midiendo.
Podemos realizar la gráfica en Excel o en Minitab y si es así, el software nos podrá generar
en forma automática estas escalas.
Paso 3: Recolectar los datos del diagrama
Procedemos a realizar las mediciones durante el proceso de interés.
Recolectar “n” parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,… “n” donde Xi y Yi
representan los valores respectivos de las dos variables. Para nuestro ejemplo sería para
cada tiempo progresivamente medir y anotar el espesor que resulta.
Paso 4: Generar el diagrama
Trazar los puntos en nuestra hoja de diagrama de dispersión, o bien graficarlos en el
software deseado. En nuestro ejemplo vemos que existe una correlación entre ambas
variables, a mayor tiempo mayor espesor.
Paso 5: Lectura y uso del Diagrama de Dispersión
En un diagrama de dispersión el patrón de puntos puede asumir formas diversas,
dependiendo de la relación que exista entre las variables. Si el patrón de puntos asume la
forma (quizás aproximada) de una línea recta, se dice que existe una relación lineal entre
las variables.
La lectura de un diagrama de dispersión se hace en base al tipo de relación entre los datos;
lo fuerte o débil de la relación, la forma de la relación y la posible presencia de punto
anómalos.
La relación entre los datos se denomina “correlación positiva” cuando a un aumento en el
valor de la variable X le acompaña un aumento en la otra variable.
El caso inverso en el diagrama da lugar a la llamada “correlación negativa”.
COEFICIENTE DE PEARSON
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación
difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si
se aplica la población Coeficiente de Pearson poblacional (𝜌).

Condiciones
 La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el
coeficiente de Pearson no la puede detectar).
 Las dos variables deben de ser cuantitativas.
 Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de la
normal.
 Homocedasticidad: La varianza de 𝑌 debe ser constante a lo largo de la variable 𝑋.
Esto se puede identificar si en el scatterplot los puntos mantienen la misma
dispersión en las distintas zonas de la variable 𝑋. Esta condición no la he
encontrado mencionada en todos los libros.
Características
 Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
 Es una medida independiente de las escalas en las que se midan las variables.
 No varía si se aplican transformaciones a las variables.
 No tiene en consideración que las variables sean dependientes o independientes.
 El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
 Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su significancia. Solo
si el p-value es significativo se puede aceptar que existe correlación y esta será de la
magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de
correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de ambas
variables es 0 ya que el valor observado se puede deber al azar

También podría gustarte