Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Modulo IV

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 12

Universidad Nacional Experimental

De Los Llanos Occidentales

“Ezequiel Zamora”

UNELLEZ

MODULO IV

Profesor: Estudiante:

Gabriel Vielma Victor Heredia

C.I 25.982.455

Barrancas julio, 2020


ANALISIS DE CORRELACION Y REGRESION DE LINEA SIMPLE

Para estudiar la relación lineal existente entre dos variables continuas es


necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.

La covarianza depende de las escalas en que se miden las variables estudiadas,


por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.

Se emplean como medida de fuerza de asociación (tamaño del efecto):

o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.

Las principales diferencias entre estos tres coeficientes de asociación son:


La correlación de Pearson funciona bien con variables cuantitativas que tienen
una distribución normal. En el libro Handbook of Biological Statatistics se
menciona que sigue siendo bastante robusto a pesar de la falta de normalidad.
Es más sensible a los valores extremos que las otras dos alternativas.
La correlación de Spearman se emplea cuando los datos son ordinales, de
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un método
no paramétrico.
La correlación de Kendall es otra alternativa no paramétrica para el estudio de la
correlación que trabaja con rangos. Se emplea cuando se dispone de pocos
datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando
hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario
calcular su significancia. Solo si el p-value es significativo se puede aceptar que
existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy
cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0, ya
que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de
correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras,
por un lado está el parámetro estimado (en este caso el coeficiente de
correlación) y por otro su significancia a la hora de considerar la población
entera. Si se calcula el coeficiente de correlación entre XX e YY en diferentes
muestras de una misma población, el valor va a variar dependiendo de las
muestras utilizadas. Por esta razón se tiene que calcular la significancia de la
correlación obtenida y su intervalo de confianza.
t=rN−2−−−−−√1−r2−−−−−√,   df=N−2t=rN−21−r2,   df=N−2
Para este test de hipótesis, H0H0 considera que las variables son
independientes (coeficiente de correlación poblacional = 0) mientras que,
la HaHa, considera que existe relación (coeficiente de correlación
poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de
correlación y de sus significancia, también tiene un tamaño de efecto asociado.
Se conoce como coeficiente de determinación R2R2. Se interpreta como la
cantidad de varianza de YY explicada por XX. En el caso del coeficiente
de Pearson y el de Spearman, R2R2 se obtiene elevando al cuadrado el
coeficiente de correlación. En el caso de Kendall no se puede calcular de este
modo. (No he encontrado como se calcula).
También se puede calcular la significancia de un coeficiente de correlación
mediante bootstrapping.

Coeficiente de Pearson

El coeficiente de correlación de Pearson es la covarianza estandarizada, y su


ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de
Pearson muestral (r), o si se aplica la población Coeficiente de Pearson
poblacional (ρρ).
Condiciones
La relación que se quiere estudiar entre ambas variables es lineal (de lo
contrario, el coeficiente de Pearson no la puede detectar).
Las dos variables deben de ser cuantitativas.
Normalidad: ambas variables se tienen que distribuir de forma normal. Varios
textos defienden su robustez cuando las variables se alejan moderadamente de
la normal.
Homocedasticidad: La varianza de YY debe ser constante a lo largo de la
variable XX. Esto se puede identificar si en el scatterplot los puntos mantienen la
misma dispersión en las distintas zonas de la variable XX. Esta condición no la
he encontrado mencionada en todos los libros.
Características
Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y
-1 una correlación lineal negativa perfecta.
Es una medida independiente de las escalas en las que se midan las variables.
No varía si se aplican transformaciones a las variables.
No tiene en consideración que las variables sean dependientes o
independientes.
El coeficiente de correlación de Pearson no equivale a la pendiente de la recta
de regresión.
Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su
significancia. Solo si el p-value es significativo se puede aceptar que existe
correlación y esta será de la magnitud que indique el coeficiente. Por muy
cercano que sea el valor del coeficiente de correlación a +1 o -1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0 ya
que el valor observado se puede deber al azar. (Ver más adelante como calcular
la significancia).

Coeficiente de Spearman (Spearman’s rho)

El coeficiente de Spearman es el equivalente al coeficiente de Pearson pero con


una previa transformación de los datos a rangos. Se emplea como alternativa
cuando los valores son ordinales, o bien, cuando los valores son continuos pero
no satisfacen la condición de normalidad requerida por el coeficiente de Pearson
y se pueden ordenar transformándolos en rangos. Al trabajar con rangos, es
menos sensible que Pearson a valores extremos. Existe una diferencia adicional
con respecto a Pearson. El coeficiente de Spearman requiere que la relación
entre las variables sea monótona, es decir, que cuando una variable crece la otra
también lo hace o cuando una crece la otra decrece (que la tendencia sea
constante). Este concepto no es exactamente el mismo que linealidad.

Coeficiente Tau de Kendall

Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere
estudiar sean ordinales o que se puedan transformar en rangos. Al ser no
paramétrico, es otra alternativa al Coeficiente de correlación de Pearson cuando
no se cumple la condición de normalidad. Parece ser más aconsejable que el
coeficiente de Spearman cuando el número de observaciones es pequeño o los
valores se acumulan en una región por lo que el número de ligaduras al generar
los rangos es alto.

Siendo CC el número de pares concordantes, aquellos en los que el rango de la


segunda variable es mayor que el rango de la primera variable. DD el número de
pares discordantes, cuando el rango de la segunda es igual o menor que el
rango de la primera variable.

Jackknife correlation
El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy
diversos. Sin embargo, tiene la desventaja de no ser robusto frente a outliers a
pesar de que se cumpla la condición de normalidad. Si dos variables tienen un
pico o un valle común en una única observación, por ejemplo por un error de
lectura, la correlación va a estar dominada por este registro a pesar de que entre
las dos variables no haya correlación real alguna. Lo mismo puede ocurrir en la
dirección opuesta. Si dos variables están altamente correlacionadas excepto
para una observación en la que los valores son muy dispares, entonces la
correlación existente quedará enmascarada. Una forma de evitarlo es recurrir a
la Jackknife correlation, que consiste en calcular todos los posibles coeficientes
de correlación entre dos variables si se excluye cada vez una de las
observaciones. El promedio de todas las Jackknife correlations calculadas
atenuará en cierta medida el efecto del outlier.

REGRESION LINEAL
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como YY y a la
variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
SIGNIFICADO DE LA REGRESION Y SUPUESTOS BASICOS
 El análisis de la regresión es un proceso estadístico para estimar las relaciones
entre variables. Incluye muchas técnicas para el modelado y análisis de diversas
variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictoras). Más
específicamente, el análisis de regresión ayuda a entender cómo el valor de la
variable dependiente varía al cambiar el valor de una de las variables
independientes, manteniendo el valor de las otras variables independientes fijas.
Más comúnmente, el análisis de regresión estima la esperanza condicional de la
variable dependiente dadas las variables independientes - es decir, el valor
promedio de la variable dependiente cuando se fijan las variables independientes.
Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de
localización de la distribución condicional de la variable dependiente dadas las
variables independientes. En todos los casos, el objetivo de la estimación es
una función de las variables independientes llamada la función de regresión. En el
análisis de regresión, también es de interés caracterizar la variación de la variable
dependiente en torno a la función de regresión, la cual puede ser descrita por
una distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción y previsión,
donde su uso tiene superposición sustancial en el campo de aprendizaje
automático. El análisis de regresión se utiliza también para comprender cuales de
las variables independientes están relacionadas con la variable dependiente, y
explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de
regresión puede utilizarse para inferir relaciones causales entre las variables
independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o
relaciones falsas, por lo que se recomienda precaución, 1 por ejemplo, la
correlación no implica causalidad.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:3

1. Que la relación entre los parámetros sea lineal.


2. Que los errores en la medición de las variables explicativas sean
independientes entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.

ESTIMACION MINIMOS CUADRADOS PARA EL MODELO DE


REGRESION SIMPLE
Para hacer una estimación del modelo de regresión lineal simple, trataremos de
buscar una recta de la forma:

de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de


mínimos cuadrados. Este método consiste en minimizarla suma de los cuadrados
de los errores:
Es decir, la suma de los cuadrados de las diferencias entre los valores reales
observados (yi) y los valores estimados ( ˆi y ).

Con este método, las expresiones que se obtiene para a y b son las siguientes:

En donde x y e denotan las medias muestrales de X e Y (respectivamente), 2 X S


es la varianza muestral de X y XY S es la covarianza muestral entre X e Y.

Análisis de los residuos

Si bien para la estimación por mínimos cuadrados de los coeficientes de un


modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de
los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada
también en las asunciones de normalidad y homoscedasticidad. Por consiguiente,
conviene asegurar que dichas asunciones se cumplen en cada caso.

Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se


puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin
embargo, la desigualdad de Tchebysheff, que establece que para cualquier
variable aleatoria

Siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis


nula

H0 : ai = a

Es calcular el cociente

y la probabilidad de error tipo I al rechazarla es £ 1/k2

Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues


en ese caso la estimación de EE(ai) no es válida.

Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en


que las variables ex1,...,xk son independientes, distribuidas normalmente con media
cero y todas con la misma varianza s2

ex1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores


de las variables X1,...,Xk.

Denominados residuos, son los valores que en la muestra toman estas variables.
El planteamiento habitual es considerar que, como todas ellas son normales con
la misma media (0) y la misma varianza (s2), los residuos ( ) también tienen una
distribución normal con media 0 y varianza desconocida s2 y, simplemente,
contrastar este extremo.

Al conjunto de técnicas que se usan para ello se le denomina análisis de los


residuos.

El análisis de los residuos consiste, por tanto, en contrastar que


, i=1,...,n provienen de una población normal con media 0 y varianza s 2 con las
pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.

Hay que tener en cuenta que de este modo se están contrastando globalmente
todas las asunciones y, por consiguiente, una falta de normalidad de los residuos
puede ser debida también a que el modelo sea inapropiado o a existencia de
heterocedasticidad.

Teniendo en cuenta que (n-(k+1)) s2/ s2 se distribuye como una ji-cuadrado con (n-
(k+1)) grados de libertad, la variable

llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1))


grados de libertad, que para valores de n suficientemente grandes se puede
aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se
contrasta la distribución de esta variable en lugar del residuo.

Además de estas pruebas de significación para asegurar que globalmente se


cumplen las asunciones del modelo, es útil realizar un análisis gráfico de los
mismos que permite discriminar entre distintas violaciones de las mismas. Si se
representara en una gráfica bidimensional los residuos observados (eje Y) para
cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se
observaría una nube de puntos en dirección horizontal y con anchura constante (la
media de cada ex1,...,xk debería ser cero y tener todas la misma varianza). Como
para cada variable Y|x1,...,xk el modelo produce la misma estimación una gráfica de
los residuos contra los valores predichos tendrá el mismo aspecto (fig. A).

Si se viola la linealidad se observará una falta de linealidad también en los


residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no será
constante (fig. C), una relación lineal entre los residuos y las predicciones puede
indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).

También podría gustarte