Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Regresion y Correlacion Multiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN MÚLTIPLE.

REGRESIÓN MÚLTIPLE.
El análisis de regresión múltiple estudia la relación de una variable dependiente y dos o más
variables independientes. En términos generales, suele utilizarse p para denotar el número de
estas últimas.

A la ecuación que describe cómo está relacionada la variable dependiente y con las variables
independientes 𝑥1 , 𝑥2 , … . , 𝑥𝑝 y un término de error se le conoce como modelo de regresión
múltiple. Se inicia con el supuesto de que este modelo toma la forma siguiente:

𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑 +∈
Donde:
β0 , β1 , β2 ,…, βp son los parámetros del modelo, y ϵ (la letra griega épsilon) es una variable
aleatoria denominada término del error. Este último corresponde a la variabilidad en y que
no puede ser explicada por el efecto lineal de las p variables independientes.

A la ecuación que describe cómo está relacionado el valor medio de y con 𝑥1 , 𝑥2 , … . , 𝑥𝑝 se


le conoce como ecuación de regresión múltiple. La siguiente es la ecuación de regresión
múltiple:
𝑬(𝒚) = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑

Ecuación de regresión estimada.


Si se conocieran los valores de los parámetros poblacionales β0 , β1 , β2 ,…, βp, se podría
emplear la ecuación de regresión anteriormente descrita, para calcular el valor medio de y
para valores dados de 𝑥1 , 𝑥2 , … . , 𝑥𝑝 . Desafortunadamente, los valores de estos parámetros
suelen en general no conocerse y es necesario estimarlos a partir de datos muestrales. Para
calcular los valores de los estadísticos muestrales b0, b1, b2, . . . , bp, que se usan como
estimadores puntuales de los parámetros β0 , β1 , β2 ,…, βp, se emplea una muestra aleatoria
simple. Con los estadísticos muestrales se obtiene la siguiente ecuación de regresión múltiple
estimada:
ŷ = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ + 𝒃𝒑 𝒙𝒑

Principio de los mínimos cuadrados.


En la regresión lineal simple usó el método de mínimos cuadrados para obtener la ecuación
de regresión estimada que permitía aproximar mejor la relación lineal entre las variables
dependiente e independiente. Con este método también se desarrolla la ecuación de regresión
múltiple estimada. El criterio en el método de mínimos cuadrados, como ya se dijo, es el
siguiente.
𝑳𝒂 𝒓𝒆𝒄𝒕𝒂 𝒅𝒆 𝒎𝒆𝒋𝒐𝒓 𝒂𝒋𝒖𝒔𝒕𝒆 = 𝒎𝒊𝒏 ∑(𝒚𝒊 − ŷ𝒊 )𝟐
Donde:
yi = valor observado de la variable dependiente en la observación iésima.
ŷi = valor estimado de la variable dependiente en la observación iésima.

1
Para la regresión lineal simple se proporcionaron las fórmulas para calcular los estimadores
b0 y b1 que se necesitan en la ecuación de regresión lineal simple estimada, empleando el
método de mínimos cuadrados. Con conjuntos de datos relativamente pequeños fue posible
usar esas fórmulas para obtener b0 y b1 mediante cálculos manuales. En la regresión
múltiple, en cambio, las fórmulas para los coeficientes de regresión b0, b1, b2, . . . , bp
utilizan álgebra matricial y quedan fuera del alcance de este documento. Por esta razón,
el estudio de la regresión múltiple centrará la atención en el uso de software para obtener
la ecuación de regresión estimada y alguna otra información. Se hará énfasis en la
interpretación de los resultados que proporciona este software y no en cómo efectuar los
cálculos para la regresión múltiple.

Relación entre STC, SCR y SCE.

𝑺𝑻𝑪 = 𝑺𝑪𝑹 + 𝑺𝑪𝑬

donde:

𝑆𝑇𝐶 = 𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 = ∑(𝑦𝑖 − 𝑦̅)2

𝑆𝐶𝑅 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛 = ∑(ŷ𝑖 − 𝑦̅)2

𝑆𝐶𝐸 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎𝑙 𝑒𝑟𝑟𝑜𝑟 = ∑(𝑦𝑖 − ŷ𝑖 )2

Dado lo complejo de los cálculos de estas tres sumas de cuadrados, es necesario emplear un
software para realizarlos.

El valor de la STC no depende de ŷ, por tanto, al agregar otra variable independiente al


modelo, la STC no varía, la SCR aumenta y la SCE disminuye. Esto tiene como consecuencia
que la ecuación de regresión estimada tenga un mejor ajuste para los datos observados.

El coeficiente de determinación múltiple.

El mismo concepto es válido en la regresión múltiple. El término coeficiente de


determinación múltiple indica que se mide la bondad de ajuste de la ecuación de regresión
múltiple estimada. El coeficiente de determinación múltiple, que se denota R2, se calcula
como sigue:
𝑺𝑪𝑹
𝑹𝟐 =
𝑺𝑻𝑪

Este coeficiente puede interpretarse como la proporción de la variabilidad en la variable


dependiente que es explicada por la ecuación de regresión estimada. Por tanto, el producto
de este coeficiente por 100 se interpreta como el porcentaje de la variabilidad en y que es
explicada por la ecuación de regresión estimada.

Siempre que se añade una variable independiente al modelo, R2 aumenta, por tanto, muchos
analistas prefieren ajustarlo al número de variables independientes para evitar sobreestimar

2
el efecto que tiene agregar una variable independiente sobre la cantidad de la variabilidad
explicada por la ecuación de regresión estimada. Siendo n el número de observaciones y p el
número de variables independientes, el coeficiente de determinación múltiple ajustado se
calcula como sigue:
𝒏−𝟏
𝑹𝟐𝒂 = 𝟏 − (𝟏 − 𝒓𝟐 )
𝒏−𝒑−𝟏

Supuestos del modelo de regresión múltiple.

Los supuestos acerca del término del error ϵ en el modelo de regresión múltiple son similares
a los supuestos en el modelo de regresión lineal simple.

En el análisis de regresión suele emplearse el término variable de respuesta en lugar de


variable dependiente. Además, como la ecuación de regresión múltiple genera un plano o
superficie, a su gráfica se le llama superficie de respuesta.

3
Prueba de significancia del modelo.

Las pruebas de significancia utilizadas en la regresión lineal simple fueron la prueba t y la


prueba F, y ambas llevan a la misma conclusión; es decir, si se rechaza la hipótesis nula, se
concluye que 𝛽1 ≠ 0. En la regresión múltiple, la prueba t y la prueba F tienen propósitos
diferentes:
1. La prueba F determina si existe una relación de significancia entre la variable
dependiente y el conjunto de todas las variables independientes; a esta prueba F se le
llama prueba de significancia global.
2. Si la prueba F indica que hay significancia global, se usa la prueba t para identificar
si cada una de las variables individuales es significativa. Para cada una de las variables
independientes del modelo se realiza una prueba t, y a cada cual se le refiere como prueba
de significancia individual.

4
Prueba de significancia de cada uno de los parámetros.

Si la prueba F indica que la relación de regresión múltiple es significativa, entonces podemos


realizar una prueba t para determinar la significancia de cada uno de los parámetros. A
continuación, se presenta la prueba t de significancia para el efecto.

El error cuadrado medio (ECM) proporciona una estimación de σ2. La raíz cuadrada del
CME es la estimación de la desviación del término del error. Como se definió en la regresión
lineal simple, esta desviación es el error estándar de estimación que se denota s. En el
estadístico de prueba, sbi es la estimación de la desviación estándar de bi. El software
proporciona el valor de sbi. El error estándar de estimación múltiple se calcula de la siguiente
manera:

También utilizando la información de la tabla ANOVA, se puede usar para calcular el error
estándar de estimación múltiple, utilizando la fórmula:

𝒔𝒀.𝟏𝟐𝟑…𝑲 = √𝑪𝑴𝑬

5
Suponiendo que se desarrolló un modelo de regresión múltiple para pronosticar una variable
dependiente referente a un costo (dólares), ¿Cómo interpretar el error estándar de estimación
si su valor fuera de 51.05? Recuerde que es el “error” típico o estándar cuando se emplea la
ecuación para predecir el costo. Primero, las unidades son las mismas que en la variable
dependiente, por lo cual el error estándar es en dólares ($51.05). Segundo, se espera que los
residuos sean aproximados a una distribución más o menos normal, por lo que alrededor de
68% de ellos estará dentro de ±$51.05 y cerca de 95% dentro de ±2(51.05) = ±$102.10; En
fin, un error estándar múltiple indica una mejor ecuación de predicción o más eficiente.

Multicolinealidad.

En el análisis de regresión se recurre al término variable independiente para referirse a


cualquier variable utilizada para predecir o explicar el valor de la variable dependiente. Sin
embargo, este término no significa que tales variables sean independientes entre ellas en
sentido estadístico. Al contrario, en un problema de regresión múltiple la mayoría de las
variables independientes están, en cierto grado, correlacionadas unas con otras. En el análisis
de regresión múltiple, la multicolinealidad expresa la correlación entre las variables
independientes.

Cuando las variables independientes están fuertemente correlacionadas, es imposible


determinar por separado el efecto de cada una de las variables independientes sobre la
variable dependiente, por tanto, si existe una fuerte multicolinealidad, podrá tenerse poca
confianza en los coeficientes.

En resumen, en las pruebas t para la significancia de cada uno de los parámetros, la dificultad
ocasionada por la multicolinealidad lleva a concluir que ninguno de los parámetros es
significativamente distinto de cero, cuando la prueba F sobre la ecuación de regresión
múltiple general indica que hay una relación significativa. Este problema se evita cuando
existe poca correlación entre las variables independientes.

Se han desarrollado diversas pruebas a efecto de determinar si la multicolinealidad es lo


suficientemente alta para ocasionar problemas. Con base en una regla práctica, la
multicolinealidad es un problema potencial si el valor absoluto del coeficiente de correlación
muestral es mayor de 0.7 para cualquier par de variables independientes.

En conclusión, siempre que sea posible, debe evitarse incluir variables independientes
fuertemente correlacionadas.

Variable independiente cualitativa en la regresión.

En caso de que se necesite trabajar con una variable independiente cualitativa en el análisis
de regresión, entonces si esta tiene dos categorías se deben codificar con cero y uno, creando
lo que se conoce como una variable ficticia (variable en la que sólo existen dos resultados
posibles). Si la variable independiente cualitativa tiene más de dos categorías, entonces habrá
que tener cuidado tanto al definir como al interpretar las variables ficticias que deberán ser
creadas, utilizando como regla general que si una variable cualitativa tiene k niveles, se
necesitan k - 1 variables ficticias, cada una de las cuales tomará el valor 0 o 1.

6
Suponga, por ejemplo, que un fabricante de fotocopiadoras divide un estado en tres regiones
de ventas: A, B y C. Sus gerentes desean aplicar el análisis de regresión para predecir las
ventas semanales. Utilizando como variable dependiente el número de fotocopiadoras
vendidas, están considerando diversas variables independientes (número de vendedores,
gastos en publicidad, etc.). Suponga que los gerentes piensan que la región de ventas puede
ser también un factor importante en la predicción del número de unidades vendidas. Como
región es una variable cualitativa que tiene tres niveles, A, B y C, para representar la región
de ventas se necesitarán 3 - 1 = 2 variables ficticias, cada una de las cuales tomará los valores
0 ó 1.

7
ANÁLISIS DE CORRELACIÓN MÚLTIPLE.

El coeficiente de correlación múltiple mide la asociación entre varias variables


independientes y una dependiente. Este se puede definir de manera general como la raíz
cuadrada de la suma de los cuadrados explicados por la regresión sobre la suma de los
cuadrados totales.

Si hay tres variables, habrá tres correlaciones simples entre ellas, ρ12, ρ13 y ρ23. Estos
coeficientes miden la relación lineal que existen entre estas variables, dos a dos, sin tener en
cuenta la posible influencia de la tercera.

Este coeficiente tiene una desventaja, su valor se incrementa cuando se introducen nuevas
variables independientes en el modelo, por tanto, resulta engañoso para el análisis.

El coeficiente de correlación múltiple se aplica a la situación en que una variable, a la que se


puede seguir llamando y, ha sido aislada para examinar su relación con el conjunto de las
otras variables. Este coeficiente de correlación múltiple (R1.23) viene determinado por la
expresión:

𝒓𝟐(𝟏,𝟐) + 𝒓𝟐(𝟏,𝟑) − 𝟐 𝒓(𝟏,𝟐) 𝒓(𝟏,𝟑) 𝒓(𝟐,𝟑)


𝑹𝟏.𝟐𝟑 = √
𝟏 − 𝒓𝟐(𝟐,𝟑)

Donde:
r(1,2) = la correlación simple entre la variable dependiente y la 1era variable independiente.
r(1,3) = la correlación simple entre la variable dependiente y la 2da variable independiente.
r(2,3) = la correlación simple entre la 1era variable independiente y la 2da variable independiente.

El valor de un coeficiente de correlación múltiple (R), se encuentra entre cero y uno. Cuanto
más se acerque a uno, mayor es el grado de asociación entre las variables. Y cuanto más se
acerca a 0, la relación lineal es peor.

Es importante destacar que si ya se ha realizado un análisis de regresión múltiple y por tanto,


se tiene el coeficiente de determinación múltiple (R2), el coeficiente de correlación múltiple
se puede obtener también mediante la raíz cuadrada del R 2 múltiple.

8
Ejemplo de la regresión lineal múltiple.
Supongamos que tenemos los siguientes datos en un estudio de la relación sobre la
inteligencia y la motivación, como predictores de la calificación final obtenida en el
bachillerato, en una muestra aleatoria de 12 sujetos. Utilizar un nivel de significancia del 0.05

Sujetos Inteligencia Motivación Calificación final


(i) (x1) (x2) (yi)
1 85 10 4
2 100 20 5
3 95 35 8
4 80 30 7
5 180 45 10
6 90 25 6
7 110 10 6
8 120 15 7
9 80 10 4
10 95 15 4
11 160 15 6
12 150 45 9

Primer paso: se empieza por desarrollar una matriz de correlación que mostrará la relación
entre las variables independientes y la variable dependiente. Esto ayudará a identificar las
variables independientes que se relacionan más con la variable dependiente. La matriz de
correlación revelará también aquellas variables independientes que están altamente
relacionadas y que son posiblemente redundantes. La matriz de correlación se muestra a
continuación:

Correlación de Pearson

Variable(1) Variable(2) n Pearson p-valor


Calificación Inteligencia 12 0.68 0.0160
Calificación Motivación 12 0.88 0.0002
Inteligencia Motivación 12 0.49 0.1036

Podemos notar que la calificación esta fuertemente relacionada con la motivación y en menor
medida está relacionada con la inteligencia, pues en ambos casos el valor p < (α = 0.05), lo
que significa que ambos coeficientes de correlación son significativos y que la correlación
calculada no se debe a la casualidad.

En cuanto a la correlación entre las variables independientes, nuestro estándar es buscar


correlaciones que excedan un valor absoluto de 0.700. Podemos notar que el coeficiente de
correlación entre las variables independientes es 0.49 y no es estadísticamente significativo
(el valor p < α=0.05), lo cual indica que estas no están correlacionadas y que la correlación
calculada se debió a la casualidad. Esto nos indica que no hay probabilidad de
multicolinealidad.

Segundo paso: calculamos la ecuación de la regresión múltiple.

9
Análisis de regresión lineal utilizando INFOSTAT.

Variable N R² R² Aj ECMP AIC BIC


Calificación 12 0.85 0.82 1.09 34.56 36.50

Coeficientes de regresión y estadísticos asociados

Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF


Constante 1.74 0.88 -0.26 3.74 1.96 0.0812
Inteligencia 0.02 0.01 -9.5E-04 0.04 2.15 0.0597 5.64 1.32
Motivación 0.11 0.02 0.06 0.16 4.85 0.0009 24.49 1.32

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 36.24 2 18.12 25.37 0.0002
Inteligencia 3.31 1 3.31 4.64 0.0597
Motivación 16.78 1 16.78 23.49 0.0009
Error 6.43 9 0.71
Total 42.67 11 _______

El R2 ajustado indica que las dos variables independientes explican el 82% de la varianza de
las calificaciones, es decir, que el 82% de la variabilidad de las calificaciones, se explica por
las variables independientes o predictoras contempladas en el modelo. El ajuste del modelo
puede considerarse según este dato bastante alto. La ecuación de regresión estimada es:

ŷ = 𝟏. 𝟕𝟒 + (𝟎. 𝟎𝟐 ∗ 𝒊𝒏𝒕𝒆𝒍𝒊𝒈𝒆𝒏𝒄𝒊𝒂) + (𝟎. 𝟏𝟏 ∗ 𝒎𝒐𝒕𝒊𝒗𝒂𝒄𝒊ó𝒏)

Lo cual refleja que por un punto más en la variable inteligencia, se incrementa la calificación
en 0.02 puntos. Respecto a la motivación, la calificación sube 0.11 puntos por cada unidad
más puntuada en esta última variable. Por último, la calificación prevista en ausencia de
motivación y de inteligencia alguna, es de 1.74 puntos.

El factor de inflación de la varianza (VIF) es de 1.32 en ambos casos y por tanto, es menor
que el límite superior de la prueba que es 10, lo que indica que las variables independientes
no están muy correlacionadas.

Tercer paso: realizar la prueba de la hipótesis global.

𝐻0 : 𝛽1 = 𝛽2 = 0
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝛽𝑖 𝑛𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜.

El valor p del modelo de regresión es 0.0002. Como el valor p es menor al nivel de


significancia (α=0.05), rechazamos la hipótesis nula y concluimos que al menos uno de los
coeficientes de regresión no es igual a cero. Esto indica que el modelo se muestra claramente
valido para representar los datos y que las variaciones en la variable calificación se explican
significativamente por el conjunto de efectos predictivos identificados.

10
Cuarto paso: evaluar los coeficientes individuales de regresión para determinar si no todos
ellos resultan igualmente relevantes. Si es así, quizás sea conveniente llevar a cabo una
depuración del modelo de regresión múltiple eliminando aquellos regresores que por sus
poderes predictivos –no significativos- no expliquen mucho más sobre y, que lo que ya
explican aquellos que sí lo son. Veamos a continuación cómo puede llevarse a cabo esta
tarea.

𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0

El valor p del coeficiente de regresión de la motivación (0.0009) es menor que 0.05, por
tanto, se concluye que este coeficiente de regresión es diferente de 0 y es un factor de
predicción significativo de la calificación. En el caso de la inteligencia, el valor P (0.0597)
es mayor que 0.05, así que no rechazamos la hipótesis nula y se concluye que el coeficiente
de regresión de esta variable no difiere de cero, es decir, que la inteligencia no es un factor
de predicción eficaz de la calificación y por tanto, esta variable se podría retirar del modelo,
para tener un modelo más sencillo y fácil de interpretar.

Quinto paso: retirar una variable independiente a la vez (en caso de existir varias que no sean
significativas) y rehacer el análisis para evaluar el efecto general de quitar dicha variable.

Análisis de regresión lineal

Variable N R² R² Aj ECMP AIC BIC


Calificación 12 0.77 0.75 1.35 37.55 39.00

Coeficientes de regresión y estadísticos asociados

Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF


const 3.29 0.60 1.97 4.62 5.54 0.0002
Motivación 0.13 0.02 0.08 0.18 5.81 0.0002 33.81 1.00

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 32.93 1 32.93 33.81 0.0002
Motivación 32.93 1 32.93 33.81 0.0002
Error 9.74 10 0.97
Lack of Fit 1.91 5 0.38 0.24 0.9265
Error Puro 7.83 5 1.57
Total 42.67 11 _______

Se observa que los valores R2 y R2 ajustado han disminuido, pero sólo ligeramente.
Utilizando las dos variables independientes, el valor R2 fue de 0.85, mientras que el R2
ajustado fue de 0.82. Al quitar la variable no significativa, los valores R2 y R2 ajustado son
0.77 y 0.75 respectivamente. Preferimos tener la ecuación con el menor número de variables
independientes, porque es más fácil de interpretar.

11
El valor p del modelo de regresión es 0.0002. Como el valor p es menor al nivel de
significancia (α=0.05), rechazamos la hipótesis nula y concluimos que al menos uno de los
coeficientes de regresión no es igual a cero. Esto indica que el modelo se muestra claramente
valido para representar los datos y que la calificación está afectada significativamente por la
variable motivación.

El valor p del coeficiente de regresión de la motivación (0.0002) es menor que 0.05, por
tanto, se concluye que este coeficiente de regresión es diferente de 0 y es un factor de
predicción significativo de la calificación.

La nueva ecuación de regresión estimada es:

ŷ = 𝟑. 𝟐𝟗 + (𝟎. 𝟏𝟑 ∗ 𝒎𝒐𝒕𝒊𝒗𝒂𝒄𝒊ó𝒏)

Esta ecuación explica 75% de la variabilidad de las calificaciones y nos indica que, a cada
valor de la motivación, le corresponde un pronostico de calificaciones basado en un
incremento constante de 3.29 puntos, más 0.13 veces el valor de la variable motivación.

Sexto paso: el paso final es examinar las suposiciones de regresión.

Prueba del supuesto de normalidad.

Shapiro-Wilks (modificado)

Variable n Media D.E. W* p(Unilateral D)


RDUO Calificación 12 0.00 0.94 0.91 0.3526

H0: Los residuos del modelo de regresión tienen distribución normal.


H1: Los residuos del modelo de regresión no tienen distribución normal.

Se aprecia en la prueba de normalidad de Shapiro-Wilks que no hay evidencia para rechazar


el supuesto de distribución normal (p=0.3526) > (α=0.05), por tanto, se acepta la hipótesis
nula y se sostiene la idea de que los residuos del modelo de regresión tienen una distribución
normal.

Prueba del supuesto de homogeneidad de las varianzas.

Variable N R² R² Aj CV
RABS Calif 12 0.62 0.17 58.16

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 1.64 6 0.27 1.37 0.3749
Motivación 1.64 6 0.27 1.37 0.3749
Error 1.00 5 0.20
Total 2.64 11

12
H0: La varianza de ϵ (término del error), es la misma para todos los valores de x.
H1: Al menos dos varianzas son distintas.

Se puede apreciar en la prueba de Levene para el modelo de regresión, que (p=0.3749) >
(α=0.05) para los grupos, por tanto, no hay evidencias para rechazar el supuesto de igualdad
de varianzas, por lo que se acepta la hipótesis nula y se sostiene la idea de que las varianzas
de ϵ (término del error) son homogéneas.

Prueba del supuesto de independencia.


Si las observaciones con las que contamos fueron producto de haber tomado una muestra
aleatoria de sujetos de alguna población, entonces en principio, tendremos observaciones
independientes, por tanto, como los datos proceden de una muestra aleatoria de 12 sujetos
tomada en el bachillerato, podemos asumir que se cumple el supuesto de independencia, y se
concluye que los valores de ϵ (término del error) son independientes.

Ajuste del modelo.

Según Di Rienzo (Manual de INFOSTAT, 2011, p.36): “si el modelo está bien ajustado y los
supuestos del modelo (normalidad, homoscedasticidad e independencia se cumplen), el 95%
de los residuos estudentizados estarán entre -2 y 2”.

En el gráfico anterior se aprecia que el 100% de los residuos estudentizados se encuentra


dentro del rango -2 y 2, que está encerrado por líneas rojas, por tanto, se puede sostener la
idea de que el modelo está bien ajustado. Además la prueba de error puro tiene un valor P de
0.9265 > 0.05, por tanto, se sostiene la idea de que el modelo tiene un buen ajuste. La grafica
del modelo de regresión lineal simple es:

13
Ejemplo del cálculo del coeficiente de correlación múltiple en el ejercicio anterior.

Correlación de Pearson

Variable(1) Variable(2) n Pearson p-valor


Calificación Inteligencia 12 0.68 0.0160
Calificación Motivación 12 0.88 0.0002
Inteligencia Motivación 12 0.49 0.1036

0.682 + 0.882 − 2 (0.68 ∗ 0.88 ∗ 0.49) 1.2368 − 0.586432


𝑅1.23 = √ 2
=√
1 − 0.49 0.7599
𝑅1.23 = √0.85585998 = 0.9251

Vemos que se obtiene el mismo resultado si también se le calcula la raíz cuadrada al R 2 del
modelo de regresión múltiple dado anteriormente, es decir, √0.85 = 0.92 e indica que el
grado de asociación entre las variables predictoras (motivación y inteligencia) y la variable
dependiente (calificación) es muy fuerte.

Nota: recuerde que calificación es la variable dependiente, inteligencia es la 1era variable


independiente y motivación es la 2da variable independiente.

14

También podría gustarte