Modulo IV
Modulo IV
Modulo IV
“Ezequiel Zamora”
UNELLEZ
MODULO IV
Profesor: Estudiante:
C.I 25.982.455
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Coeficiente de Pearson
Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere
estudiar sean ordinales o que se puedan transformar en rangos. Al ser no
paramétrico, es otra alternativa al Coeficiente de correlación de Pearson cuando
no se cumple la condición de normalidad. Parece ser más aconsejable que el
coeficiente de Spearman cuando el número de observaciones es pequeño o los
valores se acumulan en una región por lo que el número de ligaduras al generar
los rangos es alto.
Jackknife correlation
El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy
diversos. Sin embargo, tiene la desventaja de no ser robusto frente a outliers a
pesar de que se cumpla la condición de normalidad. Si dos variables tienen un
pico o un valle común en una única observación, por ejemplo por un error de
lectura, la correlación va a estar dominada por este registro a pesar de que entre
las dos variables no haya correlación real alguna. Lo mismo puede ocurrir en la
dirección opuesta. Si dos variables están altamente correlacionadas excepto
para una observación en la que los valores son muy dispares, entonces la
correlación existente quedará enmascarada. Una forma de evitarlo es recurrir a
la Jackknife correlation, que consiste en calcular todos los posibles coeficientes
de correlación entre dos variables si se excluye cada vez una de las
observaciones. El promedio de todas las Jackknife correlations calculadas
atenuará en cierta medida el efecto del outlier.
REGRESION LINEAL
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como YY y a la
variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
SIGNIFICADO DE LA REGRESION Y SUPUESTOS BASICOS
El análisis de la regresión es un proceso estadístico para estimar las relaciones
entre variables. Incluye muchas técnicas para el modelado y análisis de diversas
variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictoras). Más
específicamente, el análisis de regresión ayuda a entender cómo el valor de la
variable dependiente varía al cambiar el valor de una de las variables
independientes, manteniendo el valor de las otras variables independientes fijas.
Más comúnmente, el análisis de regresión estima la esperanza condicional de la
variable dependiente dadas las variables independientes - es decir, el valor
promedio de la variable dependiente cuando se fijan las variables independientes.
Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de
localización de la distribución condicional de la variable dependiente dadas las
variables independientes. En todos los casos, el objetivo de la estimación es
una función de las variables independientes llamada la función de regresión. En el
análisis de regresión, también es de interés caracterizar la variación de la variable
dependiente en torno a la función de regresión, la cual puede ser descrita por
una distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción y previsión,
donde su uso tiene superposición sustancial en el campo de aprendizaje
automático. El análisis de regresión se utiliza también para comprender cuales de
las variables independientes están relacionadas con la variable dependiente, y
explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de
regresión puede utilizarse para inferir relaciones causales entre las variables
independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o
relaciones falsas, por lo que se recomienda precaución, 1 por ejemplo, la
correlación no implica causalidad.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:3
Con este método, las expresiones que se obtiene para a y b son las siguientes:
H0 : ai = a
Es calcular el cociente
Denominados residuos, son los valores que en la muestra toman estas variables.
El planteamiento habitual es considerar que, como todas ellas son normales con
la misma media (0) y la misma varianza (s2), los residuos ( ) también tienen una
distribución normal con media 0 y varianza desconocida s2 y, simplemente,
contrastar este extremo.
Hay que tener en cuenta que de este modo se están contrastando globalmente
todas las asunciones y, por consiguiente, una falta de normalidad de los residuos
puede ser debida también a que el modelo sea inapropiado o a existencia de
heterocedasticidad.
Teniendo en cuenta que (n-(k+1)) s2/ s2 se distribuye como una ji-cuadrado con (n-
(k+1)) grados de libertad, la variable