Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
53 vistas124 páginas

Tema-7 FIN (14-5-20)

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 124

Tema 7

CORRELACIÓN Y REGRESIÓN LINEAL


1. Introducción
2. Correlación y regresión lineal simple
2.1 Modelo
2.2 Contraste de hipótesis
2.3 Relaciones entre el coeficiente de correlación y la regresión lineal
2.4 Interpretación del coeficiente de determinación
2.5 Factores que afectan al valor del coeficiente de correlación
3. Correlación y regresión lineal múltiple
3.1 Modelo
3.2 Contraste de hipótesis
3.3 Supuestos del modelo y su comprobación
3.4 Correlación múltiple, parcial y semiparcial
3.5 Multicolinealidad
3.6 Método de selección de variables
3.7 Interpretación de los pesos en la ecuación
4. Tamaño muestral requerido en regresión lineal. 1
5. Presentación de resultados
DOCUMENTACIÓN

AMON, J. (1987). Estadística para • Temas 12 y 13


Psicólogos 2.
MARTÍNEZ, R., CASTELLANOS, M.A. y • Tema 7
CHACON, J.C. (2015). Análisis de Datos
en Psicología y Ciencias de la Salud
(Volumen II).
PARDO, A. y SAN MARTÍN, R. (1994). • Temas 8
Análisis de Datos en Psicología II.

2
1- INTRODUCCIÓN

- Objetivo:
Estudiar la relación entre una variable dependiente cuantitativa (Y) y una o
varias variables independientes cuantitativas (X),consideradas conjuntamente

- Para ello es necesario tener medidas de todos los sujetos en todas las
variables

- Si sólo existe una variable independiente se habla de correlación y regresión


lineal simple, si hay más de una variable independiente se habla de correlación
y regresión lineal múltiple

3
Diferencia entre regresión y correlación lineal simple:

Correlación:
El objetivo es conocer la relación entre dos variables aleatorias X e Y, es decir,
si las modalidades de una variable están asociadas con las de otras (ej: rxy)

Regresión:
El objetivo es predecir una variable dependiente Y a partir de las puntuaciones
de los sujetos en otra variable X.

El énfasis en un modelo u otro se hace en función del objetivo: si se quiere estudiar


la relación entre variables o predecir una variable

4
2- CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
2.1 Modelo
Valor Efectos debidos Efectos debidos a
observado = a factores + Efectos debidos a factores + factores no
en la VD constantes tenidos en cuenta (VVII) controlados

Yi = β0 X i0 +β1 X i1 + β2 X i2 + ...+ βk X ik +ε
i
Modelo de Regresión Lineal Simple

Yi = α + βX i + ε i Su representación
gráfica en una
Ordenada en el origen (α): recta
Magnitud común a todos los
Pendiente (β): Peso de la variable X en Error para cada sujeto
sujetos. Valor que de Y
la ecuación o tasa de cambio: cambio en
cuando X=0
Y por cada unidad de cambio en X
5
- Para poder aplicar el modelo es necesario comprobar que existe relación lineal entre
la VD (Y) y la VI (X), es decir, que los puntos en el diagrama de dispersión se sitúan
en torno a una línea recta

Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo al año (Y)

12 y = 0.2429x + 2.8714

10

8
ausencias

0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos
6
- Para un mismo diagrama de dispersión pueden ajustarse muchas rectas (modelos)
diferentes
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo al año (Y)

12 y = 0.2429x + 2.8714

10

8
ausencias

0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos
7
Estimadores del modelo de regresión

Según el Método de mínimos cuadrados: selecciona los estimadores que


∑(yi − )
2
y′i
hacen mínimo el error cuadrático medio
Se2 = 2
S x.y =
Modelo regresión Yi = α + βX i + ε i n

Recta regresión
poblacional
E(Yi ) = α + βX i ei = Yi − Yi'
Recta regresión
estimada
Yi = a + bX i
'

α = µ y − βµ x σy
β = ρ xy
σx
a = Y − bX Sy
b = rxy
Sx
8
 Ecuación de la recta regresión lineal en puntuaciones directas

E(Yi ) = α + βX i Recta de regresión poblacional


de Y sobre X
'
Yi = a + bX i Recta de regresión estimada
en la muestra

Y VD, Variable criterio o variable a predecir

X VI o Variable predictora
'
Y Variable pronosticada o pronóstico

Y ≠ Yi
i
'
ei = (Yi − Y )
i
'

Valor que se obtiene al


utilizar la recta de Valor que se obtiene al
regresión para predecir medir directamente Y 9
Y a partir de X
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo (Y)

ei = (Yi − Yi ' ) =
12 y = 0.2429x + 2.8714
= 4 − 4,81 = −0,81 Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
Error al predecir
la ausencia del 8
ausencias

sujeto a partir del


número de 6
cigarrillos que 4,81
4
fuma (8), falta 4
días y le
2
predecimos 4,81
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos
10
 Ecuación de la recta regresión lineal en puntuaciones típicas

E(ZYi ) = βZ X i Recta de regresión poblacional


de Y sobre X
'
ZYi = betaZ Xi Recta de regresión estimada
en la muestra

β = ρxy
Número de desviaciones
beta = rxy típicas que cambia Y
cuando X cambia una
desviación típica X

11
2.2 Contraste de hipótesis

E(Yi ) = α + βX i
Yi′ = a + bX i

- Se realizan 4 contrastes de hipótesis:


(se comprueba antes, aunque por motivos
1. Modelo de la regresión didácticos lo expondremos al final)
2. α→a
3. β→b
4. ρxy → rxy

12
- Contraste sobre la pendiente

1. H0: β = 0
H1: β ≠ 0
2. α

3. SUPUESTOS:
- Independencia: 1 m.a.s. medida en las variables X e Y
- Normalidad bivariada:

Yi → N(µ y xi , σ i2 )
ε i → N (0,σ i2 )
- Homocedasticidad
σ 2y x1 = σ 2
y x2 = ... = σ 2
y xk = σ 2
13
Normalidad bivariada :

Y N(µ y x k , σ 2 )

N(µ y x 2 , σ 2 )

N(µ y x1 , σ 2 )

x1 x2 …………….…… xk X 14
4. ESTADÍSTICO DE CONTRASTE

b
T= ~2 → tn−2
Se
∑ (x − x )
2
i

Sb Error típico de
∑( )
2
yi − y′i estimación de la
S˜e2 = pendiente de la
n−2 recta de
Regresión

15
5. REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN

Contraste
bilateral

α /2 α /2
0

T≤α / 2 t n−2 T≥1−α / 2 t n−2


- Rechazamos H0 si el valor obtenido en la muestra para el E.C.cae en la región crítica
, la variable X es un predictor estadísticamente significativo de la variable Y
- Mantenemos H0 si el valor obtenido en la muestra para el E.C. cae en la región de
aceptación, la variable X no es predictor de la variable Y

6. NIVEL CRÍTICO Valor del E.C.

- Contraste bilateral [
p = 2 P(t n−2 ≥ t k ) ] obtenido en la
muestra 16
7. INTERVALO DE CONFIANZA

α /2 α /2

LI = b − t
α 2 n −2 Sb Ls = b + t
α 2 n −2 Sb
Error máximo Error máximo

17
Ejemplo

12 y = 0.2429x + 2.8714
Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
8
ausencias

0
Ordenada (a)
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 Pendiente
cigarrillos Pendiente (b) en puntuaciones
típicas

18
ECUACIÓN DE REGRESIÓN EN DIRECTAS

H0 : α = 0
H1 : α ≠ 0
Como n.c. (0,032) <0,05, rechazamos la hipótesis nula y tomamos como estimación
de la ordenada el valor 2,871
H0 : β = 0
H1 : β ≠ 0
Como n.c. (0,005) <0,01, rechazamos la hipótesis nula y tomamos como estimación
de la pendiente el valor 0,243
Ecuación de regresión de Y sobre X, predecir Y a partir de X. Ejemplo:
Yi' = 2,871+ 0,243X i a una persona que fume 30 cigarrillos diarios se le predecirá una
19
ausencia :
Yi' = 2,871+ 0,243• 30 = 10,16
ECUACIÓN DE REGRESIÓN EN TÍPICAS

H0 : β = 0
H1 : β ≠ 0
Como n.c. (0,005) <0,01, rechazamos la hipótesis nula y tomamos como estimación
de la pendiente de la ecuación en puntuaciones típicas el valor 0,866

ZY' i = 0,866Z Xi Ecuación de regresión de Y sobre X, en puntuaciones típicas

20
- Contraste sobre el coeficiente de correlación

1. H0: ρxy = 0
H1: ρxy ≠ 0
2. α

3. SUPUESTOS:

- Independencia: 1 m.a.s. medida en las variables X e Y


- Normalidad bivariada

21
4. ESTADÍSTICO DE CONTRASTE

rxy n − 2
T= 2
→ t n−2
1− r xy

5. REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN


Contraste bilateral

α /2 α /2
0
T≤α / 2 t n−2 T≥1−α / 2 t n−2
- Rechazamos H0 si el valor obtenido en la muestra para el E.C. cae en la región
crítica, existe relación lineal entre X e Y estadísticamente significativa
- Mantenemos H0 si el valor obtenido en la muestra para el E.C. cae en la región de
aceptación, no existe relación lineal entre X e Y estadísticamente significativa
22
6. NIVEL CRÍTICO

- Contraste bilateral [ ]
p = 2 P(t n−2 ≥ t k ) Valor del E.C.
obtenido en la
muestra

7. INTERVALO DE CONFIANZA

-Nos lo ofrecen los programa de ordenador

23
Ejemplo
H0 : ρ xy = 0
H1 : ρ xy ≠ 0

Como n.c. (0,005) <0,05, rechazamos la hipótesis nula de que no existe relación lineal
entre el número de cigarrillos que se fuma al día y los días que se falta al trabajo en un
año.
rxy = 0,866 Igual al valor de la pendiente de la ecuación de regresión en puntuaciones
típicas
rxy2 = 0,751 Hay un 75,1% de varianza asociada entre el número de cigarrillos que
se fuma al día y los días que se falta al trabajo en un año 24
- Contraste conjunto sobre el modelo de regresión
(mediante el análisis de varianza)

• En ausencia de más información a cada sujeto le predeciríamos con la puntuación


media, en este caso, predeciré que cualquier trabajador se ausentará por término
medio 7 días al año Y = 7 días

• Si conocemos que la ausencia al trabajo está relacionada con alguna variable, en


este caso el número de cigarrillos que se fuma al día, podemos predecir de forma
particular a todos aquellos sujetos que fuman el mismo número de cigarrillos

Ejemplo. Sujeto 1

E(Yi / x = 8) = 0,2429 + 2,8714X i = 0,2429 + 2,8714(8) = 4,81

25
• El error cometido al utilizar la media para pronosticar

ei = (Yi − Y ) = 4 − 7 = −3
• El error cometido al utilizar la recta de regresión

ei = (Yi − Yi ' ) = 4 − 4,81 = −0,81

(Yi − Y ) = (Yi' − Y ) + (Yi − Yi' )

(4 − 7) = (4,81− 7) + (4 − 4,81)

(−3) = (−2,19) + (−0,81)

Parte del error que dejamos de Parte del error que seguimos
Error al predecir
cometer al utilizar la recta de cometiendo al utilizar la recta de
mediante la media
regresión, al predecir las regresión, al predecir las ausencias
ausencias teniendo en cuenta teniendo en cuenta que fuma 8 26
que fuma 8 cigarrillos al día cigarrillos al día
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo (Y)

ei = (Yi − Yi ' ) =
12 y = 0.2429x + 2.8714
= 4 − 4,81 = −0,81 Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
Error al predecir,
utilizando recta de 8
ausencias

regresión, la
ausencia del sujeto a 6
partir del número de
4,81
ei = (Yi-Ῡ) = 4-7= -3
cigarrillos que fuma 4 Error al predecir, utilizando la
(8), falta 4 días y le media, la ausencia del sujeto a partir
predecimos 4,81 2 del número de cigarrillos que fuma
(8), falta 4 días y le predecimos 7
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos
27
∑(Y − Y ) = ∑(Y ′ − Y ) + ∑(Y − Y′)
2 2 2

SCTOTAL = SCREGRESION + SCERROR

n-1 k n-k-1

ESTADÍSTICO DE CONTRASTE

H0 : el modelo de regresión en conjunto no


MCREG
F= es predictivo. La variación de Y explicada
MCERROR por el modelo de REGRESIÓN no es superior a
la no explicada o ERROR
28
Tabla ANOVA de la regresión

Fuentes S.C. g.l. M.C. E.C. sig


de variación

SCREG MCREG
MCREG = F= P(F<1−α F1,(n−2) )
Regresión SCREGRESIÓN 1 1 MCERROR

SCERROR
MCERROR =
Error SCERROR (n-2) (n − 2)

Total SCTOTAL n-1

- Mantenemos H0 de que el modelo de regresión en conjunto no


es estadísticamente predictivo si el valor obtenido en la muestra
para el E.C. cae en la región de aceptación
- Rechazamos H0 si el valor obtenido en la muestra
para el E.C. cae en la región crítica, conclusión: el
F>1−α F1,(n−2)
modelo de regresión en conjunto es estadísticamente
predictivo 29
Estimador tamaño del efecto

2
2 S y′ SCREGRESION SCERROR Estimador sesgado, sobre
rxy = = = 1− todo si el tamaño de la
2 SCTOTAL SCTOTAL
Sy muestra es pequeño

2 Coeficiente de
2 SCERROR (n − 2) (1− rxy )(n − 1) determinación ajustado
rAJ . = 1− = 1−
SCTOTAL (n − 1) (n − 2) o corregido: estimador
insesgado

30
Ejemplo

Como sig. (0,005) <0,01, rechazamos la hipótesis nula y afirmamos que el modelo de
regresión es estadísticamente predictivo

Estimador insesgado del tamaño del efecto: un 70,9% de la variabilidad de los días que
se falta al trabajo en un año se puede predecir a partir del número de cigarrillos que se
fuma al día. 31
2.3 Relaciones entre el coeficiente de correlación lineal y
la recta de regresión lineal simple

E(Yi ) = α + βX i
Si ρ xy > 0 → β > 0

Si ρ xy < 0 → β < 0

Si ρ xy = ±1 → la correlación lineal es perfecta, todos los puntos


del diagrama de dispersión están en la recta de regresión
→ Yi = E(Y ) Para todo i
i

32
Si se rechaza la Ho del modelo de regresión lineal simple

Se rechaza la Ho de la pendiente de la recta de regresión

Se rechaza la Ho de la correlación lineal

33
2.4. Interpretación del coeficiente de determinación (r2xy)
en regresión lineal

• Proporción de varianza de Y asociada X, proporción de varianza


de Y que puede predecirse a partir de X.

• Índice de ajuste de los datos, puntos del diagrama de dispersión, a


la recta de regresión.

• Proporción de error reducido utilizando la recta de regresión en


lugar de la media para hacer los pronósticos.

34
- r2xy Proporción de varianza de Y asociada a la varianza de X

2 2 2
σ =σ +σ
y y′ y⋅x
n n n

∑ (Y − E (Y ))
i
2
∑ ( E (Y i ) − E (Y )) 2 ∑ (Y − E (Y ))
i i
2

i =1
= i =1
+ i =1
n n n
n n n

∑ (Yi − Y ) 2
∑ (Y ´−Y ) 2
∑ i
(Y − Y ´)2

i =1
= i =1
+ i =1
n n n

Varianza de Y asociada al Varianza de Y no asociada al


Varianza total de Y pronóstico, varianza de Y que pronóstico, varianza de Y que
puede predecirse a partir de X no puede predecirse a partir35
de X
σ2 =σ2 +σ2
y y′ y⋅x

σ2 σ2 σ2 σ2
ρ xy 2 = 1− ρ xy 2 = 1−
y′ y⋅x y′ y⋅x
= 1− =
σ2 σ2 σ2 σ2
y y y y

Coeficiente de determinación: Proporción de varianza de Y no


Proporción de varianza de Y asociada a la varianza de X
asociada a la varianza de X

36
Ejemplo

y = 0.2429x + 2.8714
Ausencias Cigarrillos Predicción Error 12

(Y) (X) (Y´) (Y-Y´) 10


4.00 8.00 4.81 -0.81
8
6.00 8.00 4.81 1.19

ausencias
6.00 16.00 6.76 -0.76 6

7.00 16.00 6.76 0.24 4


8.00 20.00 7.73 0.27
2
7.00 20.00 7.73 -0.73
8.00 24.00 8.70 -0.70 0

10.00 24.00 8.70 1.30 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos

S2 = S2 + S2
y y′ y⋅x
2,75 = 2,07 + 0,68 S 2 = 2,75
y
S 2 = 2,75 S 2 = 2,07 S 2 = 0,68 S2
2,07 S2 = 0,68
y y' y.x rxy 2 =
y′
= = 0,75 y.x
S2 2,75
y
Variabilidad total Parte de la Parte de la
de ausencias variabilidad de las S 2 = 2,07
variabilidad de las y'
ausencias que ausencias que no
puede predecirse puede predecirse
(está asociada) a (no está asociada) a
partir del número partir del número
de cigarrillos de cigarrillos 37
- r2xy Índice de ajuste de los puntos a la recta de regresión

σ2
Cuanto más próximos están los puntos a la recta de
regresión → menor error se comente por término
ρ xy 2 = 1−
y⋅x
σ2 medio → mayor será el valor del coeficiente de
y correlación

12 y = 0.2429x + 2.8714 12 y = 0.2429x + 2.8714

10 10

8 8

ausencias
ausencias

6 6

4
2
ρ xy 2 = 0,55
4

2
ρ xy = 0,75 2

0 0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

cigarrillos cigarrillos

38
- r2xy Proporción de error reducido

• Si no se dispone de más información, la forma habitual de predecir la puntuación


de un sujeto en una variable es asignarle la media de la población a la que
pertenece. El error de predicción que se comete con cada sujeto será: ei = (Yi − E(Yi ))

• Si se utiliza la recta de regresión, es decir se utiliza la puntuación del sujeto en X


para predecir su valor en Y, cometeremos menos error: ei = (Yi − E(Yi )) → E(Yi ) = α + βX i

σ2 =σ2 +σ2
y y′ y⋅x

n n n

∑ i
(Y − E(Y )) 2
∑ i
(E(Y ) − E(Y )) 2
∑ i
(Y − E(Yi )) 2

i=1
= i=1
+ i=1
n n n

39
σ2 =σ2 +σ2
y y′ y⋅x

σ2 σ2 σ2 σ2
ρ xy 2 = 1− ρ xy 2 = 1−
y′ y⋅x y′ y⋅x
= 1− =
σ2 σ2 σ2 σ2
y y y y

Coeficiente de determinación: Proporción de error cometido al


Proporción de error reducido al pronosticar con la recta de
pronosticar con la recta de regresión en lugar de la media
regresión en lugar de pronosticar
con la media de Y
40
2.5 Factores que afectan al valor de ρxy

1. Variabilidad del grupo: restricción del rango


Si la variabilidad es reducida en una o ambas variables el valor de ρxy puede
verse reducido
Y

X
41
2. Influencia de otras variables

Rendimiento Motivación alta


Motivación media

Motivación baja

Inteligencia

42
3. Existencia de valores atípicos

datos atípicos
Rendimiento bivariados

Emocionalidad
43
3- CORRELACIÓN Y REGRESIÓN LINEAL MÚLTIPLE
3.1 Modelo
Valor Efectos debidos Efectos debidos a
Efectos debidos a factores +
observado a factores + factores no
= tenidos en cuenta (VVII)
en la VD constantes controlados

Yi = β0 X i0 +β1 X i1 + β2 X i2 + ...+ βk X ik +ε i
Modelo de Regresión Lineal Múltiple

Yi = β 0 + β1 X i1 + β 2 X i2 + ...+ β k X ik + εi

Magnitud común a todos


los sujetos Pesos de cada una de las k variables Error para cada sujeto
independientes dentro de la ecuación de
regresión 44
 Ecuación de regresión lineal en puntuaciones directas
Ecuación de regresión
E(Yi ) = β0 + β1X i1 + β 2 X i2 + ...+ β k X ik poblacional de Y sobre
X1, X2, …, Xk


Yi = b0 + b1X i1 + b2 X i 2 + ...+ bk X ik Ecuación de regresión
estimada en la muestra

Y → VD variable criterio o variable a predecir


X1,X2,…,Xk →VVII o variables predictoras

Yˈ → variable pronosticada o predicha


'
Y ≠Y e = (Y − Y ' )
Valor que se obtiene al
utilizar la recta de Valor que se obtiene al
regresión para predecir medir directamente Y 45
Y a partir de X
 Ecuación de regresión lineal en puntuaciones típicas

Z 'Yi = beta1Z ' X i1 +beta2 Z ' X i 2 +... + betak Z ' X ik Ecuación de regresión
estimada en la muestra

46
Importante

• En un primer momento, la ecuación de regresión se estima a partir


de los datos de los sujetos en la muestra, todos los sujetos tienen que
ser medidos tanto en X como en Y.

• Una vez construida puede ser aplicada a todos los sujetos de la


población a la que pertenece la muestra, en este caso es suficiente
medir al sujeto en X1, X2, …, Xk y utilizando la ecuación de la recta
de regresión podemos predecir su puntuación en Y.

47
3.2 Contraste de hipótesis

E(Yi ) = β0 + β1X i1 + β 2 X i2 + ...+ β k X ik

Yi′ = b0 + b1X i1 + b2 X i 2 + ...+ bk X ik

- Se realizan 4 contrastes de hipótesis:


1. Modelo de la regresión
2. β0 → b0
3. β1 , β2 … βk → b1, b2 … bk

4. ρ2Y.1,2…k → R2Y.1,2…k

48
- Contraste sobre el modelo de la regresión.
Pone a prueba si la variación de Y explicada por el modelo es superior a la
no explicada.

1. H0: β1= β2 …= βk= 0 ↔ H0: ρ2Y.1,2…k= 0


2. α
3. SUPUESTOS:
- Independencia: 1 m.a.s. medida en las variables X1,X2…Xk e Y

- Normalidad multivariada:
Yi → N(µY/ X1,X2…Xk, σ2y )
εi → N(0, σ2e)

- Homocedasticidad
- Linealidad
49
∑(Y − Y ) = ∑(Y ′ − Y ) + ∑(Y − Y′)
2 2 2

SCTOTAL = SCREGRESION + SCERROR

n-1 k n-k-1

ESTADÍSTICO DE CONTRASTE

H0 : el modelo de regresión en conjunto no


MCREG
F= es predictivo. La variación de Y explicada
MCERROR por el modelo de REGRESIÓN no es superior a
la no explicada o ERROR
50
Tabla ANOVA de la regresión

Fuentes S.C. g.l. M.C. E.C. sig


de variación

SC REG MCREG P( F > F1−α ,k ,( n − k −1) )


Regresión SCREGRESIÓN k MC REG = F=
k −1 MCERROR
SC ERROR
MC ERROR =
Error SCERROR (n-k-1) (n − k − 1)

Total SCTOTAL n-1

- Mantenemos H0 de que el modelo de regresión en


conjunto no es predictivo si el valor obtenido en la
muestra para el E.C. cae en la región de aceptación

- Rechazamos H0 si el valor obtenido en la muestra


F>1−α F(K−1),(n−k−1)
para el E.C. cae en la región crítica, conclusión: el
modelo de regresión en conjunto es predictivo 51
Ejemplo mediante el método introducir

Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)

H0: β1= β2= β3= β4= β5= β6 = 0 ↔ H0: ρ2Y.1,2,3,4,5,6= 0

Como sig. (0,000) <0,001, rechazamos la hipótesis nula y afirmamos que el modelo
de regresión es estadísticamente predictivo
52
- Contraste sobre ρ 2
Y .1, 2...k

• Proporción de varianza de la variable


2 Y asociada conjuntamente a todas las
2 S y′ SCREGRESION SCERROR
R y.1,2...k = = = 1− variables independientes
S y2 SCTOTAL SCTOTAL
• Proporción de error cuadrático medio
reducido al pronosticar mediante la
recta de regresión en lugar de utilizar
la media de Y

• Es muy sensible al número de predictores, basta incluir un predictor más en la ecuación


de regresión, aunque sea irrelevante, para que el valor del coeficiente de correlación
múltiple aumente.
• Se utiliza como estimado, el coeficiente de correlación ajustado o corregido:

2
2 SCERROR (n − k − 1) (1− R y,1,2...k )(n − 1)
R AJ . = 1− = 1−
SCTOTAL (n − 1) (n − k − 1)
53
Ejemplo
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)

H0 : ρ2Y.1,2,3,4,5,6= 0

Un 77,6% de la variabilidad de la nota media académica se puede predecir a partir de la


capacidad de resolución problemas, del vocabulario, del C.I. total, de la originalidad, de
la riqueza expresiva y la creatividad global consideradas conjuntamente.

54
- Contraste sobre las pendientes de la regresión

• Si se rechaza la hipótesis nula, y afirmamos que el modelo en su conjunto


es estadísticamente significativo, se tienen que comprobar las hipótesis
nulas referidas a cada una de las pendientes de las variables predictoras y
a la constante

H0 : βj= 0
H1 : βj ≠ 0

55
Ejemplo
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), del riqueza de vocabulario (X2), del C.I. Total (X3), de la originalidad (X4),
de la riqueza expresiva (X5) y la creatividad global (X6)

H 0 : β 0 = 0 → Se rechaza
H 0 : β1 = 0 → Se rechaza
H 0 : β 2 = 0 → Se rechaza
H 0 : β 3 = 0 → Se mantiene
H 0 : β 4 = 0 → Se mantiene
H 0 : β 5 = 0 → Se mantiene
H 0 : β 6 = 0 → Se mantiene

Yi′ = 2,088 + 0,635X i1 + 0,02X i2


ZY′ i = 0,826Z X i1 + 0,096Z X i 2 56
3.3 Supuestos y su comprobación
• Linealidad entre la variable criterio y las predictoras.
Comprobación: Diagrama de dispersión de la criterio con cada predictora o
diagramas de dispersión de los residuos (errores).

• Independencia de los errores.


Comprobación Diagrama de dispersión de los residuos y los casos. Los errores
asociados a una observación son independientes de los de las otras observaciones.
Pruebas estadísticas:(Durbin-Watson): valores entre 0-4. Valores próximos a 2 (1,5-
2,5) indican independencia. Inferiores a 1,5 indican autocorrelaciónn positiva y los
superiores a 2,5 autocorrelación negativa.

• Normalidad de los errores


Los errores cometidos a partir de cada combinación de valores de las variables
independientes se exige que sigan una distribución normal.
Comprobación: histograma de los residuos y el gráfico de probabilidad normal (Q-
Q). Pruebas estadísticas: Kolmogorov y Shapiro-Wilk (si sig>0,05 mantenemos
hipótesis nula de normalidad)
• Homocedasticidad de los errores
La varianza de los errores debe ser la misma para cada combinación de valores de
las variables independientes.
Comprobación: Gráfico de dispersión entre los residuos y los valores pronosticados
en la variable criterio o VD. En el caso de ocurrir heteroscedasticidad se puede
utilizar el método de mínimos cuadrados ponderados (MCP), para estimar la
ecuación de regresión. En este caso se da menos peso a los valores de la variable
independiente que produce mayor variabilidad.

• Ausencia de multicolinealidad
La multicolinealidad indica correlación elevada entre las variables predictoras. Se
analiza mediante el índice de Tolerancia.

• Adecuada especificación del modelo


Debe incluir todas las variables relevantes y excluir las irrelevantes

 Es importante realizar análisis de casos atípicos


• Los supuestos de Normalidad, homocedasticidad y linealidad, están
estrechamente asociados al comportamiento de los residuos (errores), un
análisis cuidadoso de los mismos puede informar sobre el cumplimiento de
los supuestos.

• (Y-Y’)- cuanto menores son mejor es el ajuste de los datos al modelo de


regresión

59
Normalidad: histograma de residuos

60
Normalidad: gráfico P-P de residuos tipificados

Probabilidad
acumulada
esperada si la
distribución es
normal

Probabilidad acumulada observada 61


Homocedasticidad y linealidad:

Residuos

Pronóstico

Se cumplen el supuesto de homocedasticidad y de linealidad


62
Residuos

Pronóstico

Se cumple el supuesto de homocedasticidad y no el de linealidad


63
Residuos

Pronóstico
No se cumple el supuesto de homocedasticidad y sí el de linealidad
64
Residuos

Pronóstico

No se cumple ni el supuesto de homocedasticidad y ni el de linealidad


65
Residuos

Pronóstico

Existencia de atípicos
66
Robustez de F frente al incumplimiento de los supuestos

Los estadísticos de la regresión son muy robustos frente al


incumplimento del supuesto de normalidad

Independencia de las observaciones


Las distribuciones
muestrales no siguen
Puntuaciones atípicas exactamente el modelo
propuesto
Multicolinealidad

67
3.4 Correlación múltiple, parcial y semiparcial

0 ≤ Ry.1,2...k ≤ 1 Ry.1,2...k = ryy′

Modelo con dos predictores:


Correlación parcial
ry2.1 = r ′ y′ = a + b x1 x 2 ′ = a + b x1
(y− y′)(x 2 − x 2 )

La relación entre la VD y una VI, eliminando de ambas la influencia de otra VI

Incremento porcentual (en lo que queda por explicar de VD) en R2 al incluir X2

2
∆R 2

ry 2.1=
1 − R y2.1 68
Correlación semiparcial
ry(2.1) = ry(x −x ′ ) x 2 ′ = a + b x1
2 2

La relación entre la VD y una VI, eliminando de la VI la influencia de otra VI

Incremento en R2 al incluir X2

ry2( 2.1) = ∆R 2
R y2.12 = ry21 + ry2( 2.1)

69
Variabilidad de (Y) =1

X2
X1
2
r
y(1.2) B C D 2
ry(2.1)

ry12 ry22
A
2
R y.12
2
1− Ry.12
70
0 ≤ Ry.1,2...k ≤ 1 Ry.1,2...k = ryy′

Modelo con k predictores:

Correlación parcial
ryj.12...h = r(y −y ′ )(x −x ′ ) y′ = b0 + b1 x1 + b2 x 2 + ... + bh x h
j j

x j ′ = b0 + b1 x1 + b2 x 21 + ... + bh x h
La relación entre la VD y una VI (Xj), eliminando de ambas la influencia de varias VVII

Incremento porcentual (en lo que queda por explicar de VD) en R2 al incluir Xj


∆R 2
ryj2.12... h=
1 − R y2.12...h 71
Correlación semiparcial

ry(j.12…h) = ry (xj –xj´) x j´= b0 +b1 x1 + b2 x2 +…+ bh xh

La relación entre la VD y una VI (Xj), eliminando de la VI la influencia de otras VVII

Incremento en R2 al incluir Xj
r2 = ∆R 2
yj.12...h

R = ry1 + ry ( 2.1) + ry ( 3.12 ) + ry ( 4.123 ) + ... + ry ( k .123... k −1)


2 2 2 2 2 2

72
3.5 Multicolinealidad

• En un modelo de regresión lineal múltiple, al existir varias variables independientes,


es frecuente que también algunas de ellas estén correlacionadas

• Si la correlación entre las variables independientes es alta, el error típico de


estimación de las pendientes es alto, por tanto, puede haber mucha variación al
estimar la ecuación de regresión en muestras diferentes

• Para medir la relación entre las variables independientes se calcula:


- el índice de Tolerancia para cada una de ellas. Si una variable independiente
tiene mucha colinealidad con el resto no debe incluirse en el modelo

Tol( j) = 1− R 2j.1,2,3... p
Tol(j) ≈ 1 j no correlaciona con resto de VVII
Tol(j) ≈ 0 j correlación muy alta con el resto VVII
Problema: TOL <0,2

Coeficiente de correlación múltiple entre la variable independiente que se está considerando


y el resto de variables independientes, cuanto mayor es la tolerancia menor es la
colinealidad de este predictor con el resto de predictores. Si un predictor tiene una tolerancia
muy baja, no debe entrar en la ecuación 73
- Factor de inflación de la variaza (FIV). Es el inverso de la
Tolerancia.
1
FIV =
1 − R 2j .1, 2,3... p

FIV ≈ 1 j no correlaciona con resto de VVII


Problema cuando
FIV promedio >1
FIV > 12 j correlación muy alta con el resto VVII

74
3.6 Métodos de selección de variables
• El objetivo es conseguir una ecuación que explique el mayor porcentaje de
variabilidad de la variable dependiente con el menor número posible de
predictores o variable independientes: principio de parsimonia

• Existen distintos procedimientos de selección de variables que pueden estimar


modelos de regresión diferentes a partir del mismo conjunto de predictores y
la misma variable independiente

• El modelo resultante depende tanto de las variables que han sido consideradas
para formar parte de la ecuación como de las que no han sido consideradas
pero tienen relación con la variable dependiente

75
Introducir

Pasos sucesivos (Stepwise)

Hacia delante (Forward)

Hacia atrás (Backward)

Secuencial o jerárquica
76
Introducir (ejemplo diapositiva 55)

 Se estima el modelo introduciendo todas las variables de forma


simultánea

 Para obtener el modelo es necesario ver qué pesos de la ecuación de


regresión son estadísticamente significativos

77
Stepwise (regresión por pasos)
1. Se escoge como primera variable predictora la que tiene mayor correlación lineal simple
con la variable dependiente y se calcula si la ecuación regresión con esta variable es
predictiva. Si no se rechaza la hipótesis (β1 = 0), se termina el proceso, si la ecuación es
predictiva se pasa al punto 2.

2. Se escoge de entre las restantes variables aquella que tiene mayor corrección parcial con
la variable dependiente una vez que se elimina el efecto de la variable que ya está en la
ecuación. Se comprueba si el incremento en el coeficiente de correlación múltiple al
introducir esta nueva variable es estadísticamente significativo. Si no lo es, se termina el
proceso; si lo es se pasa al punto 3.

3. Se evalúa si sacar de la ecuación la variable que ya estaba en el paso anterior no produce


una disminución estadísticamente significativa del coeficiente de correlación múltiple. Si
no la produce, se elimina la variable que entró en un paso anterior, si lo es no se elimina.
En cualquiera de las dos circunstancias se pasa al punto 4.

4. Se escoge de entre las restantes variables aquella que tiene mayor corrección parcial con
la variable dependiente una vez que se elimina el efecto de las variables que están en la
ecuación en el paso anterior. Se comprueba si el incremento en el coeficiente de
correlación múltiple al introducir esta nueva ecuación es estadísticamente significativo.
Si no lo es se termina el proceso; si lo es se pasa al punto 3. 78
Ejemplo mediante el método stepwise

Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)

Hay un 77,1% de la variablidad en las


nota media académica que se puede
predecir a partir de resolución de
En un primer paso entra variable resolución de problemas problemas
H0: β1= 0 (pendiente nula)
La ecuación de regresión para predecir
nota media a partir de resolución de
problemas, no es estadísticamente
predictiva. Como sig<0,001 la
rechazamos y concluimos que si es
predictiva
En los métodos por pasos el modelo
seleccionado siempre es estadísticamente
79
significativo, cuando no lo es se termina el
proceso
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)

Hay un 77,9% de la variabilidad en las


nota media académica que se puede
En un segundo paso entra variable riqueza de vocabulario predecir a partir de la capacidad de
resolución de problemas y la riqueza de
N de la muetra: gl total+1=206+1 =207 vocabulario conjuntamente. Introducir
la variable riqueza de vocabulario
incrementa en un 0,8% la proporción de
varianza que se puede predecir.

H0: β1= β2= 0 (pendientes nulas)


La ecuación de regresión para predecir
nota media a partir de resolución de
problemas, y vocabulario, no es
estadísticamente predictiva. Como
sig<0,001 la rechazamos y concluimos
80
que si es predictiva
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)
Significación de la
ordenada en el origen y de
cada una de las pendientes

Ordenada en
el origen

Pendientes
en
puntuaciones
Yi′ = 2,008 + 0,637X i1 + 0,02X i 2 ZY′ i = 0,829Z Xi1 + 0,106Z Xi 2
directas

Ejemplo de pronóstico. Predecir la nota media a un alumno que tenga un 10 en resolución de problemas y 7 en
Vocabulario.
Y ´ = 2,008 + 0,637(10) + 0,022 (7) = 8,532 pronosticamos en nota media 81
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)
Pendientes o coeficientes de Significación ó nivel crítico
las VV predictoras de las Pendientes
Correlación entre la nota
media académica y cada uno
de los predictores, una vez
eliminada la influencia de la
resolución de problemas (el
predictor que ya está en la
ecuación)

Uno menos la correlación al


cuadrado entre resolución de
problemas (el predictor que
ya está en la ecuación) y cada
uno de los otros predictores.

82
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)

Correlación entre la nota


media académica y cada uno
de los predictores, una vez
eliminada la influencia de la
de resolución de problemas y
la riqueza vocabulario (los
predictores que ya están en la
ecuación)

Uno menos la correlación al


cuadrado entre de resolución
de problemas y la riqueza
vocabulario (los predictores
que ya están en la ecuación) y
cada uno de los otros
predictores. 83
84
 Backward (hacia atrás)

 En un primer paso se introducen todas las variables en el modelo de la ecuación


de regresión y luego se procede como en el método de spetwise, para ir
eliminando variables de la ecuación

 Forward (hacia adelante)

 Equivale el método de spetwise, pero una vez que una variable entra en la
ecuación de regresión no se revisa la posibilidad de que salga.

85
Secuencial o jerárquica
El procedimiento por pasos suele ser útil en fases iniciales o exploratorias de la
investigación. Pero si deseamos tener en cuenta consideraciones teóricas que
sustenten el modelo de regresión se suele utilizar la regresión jerarquica.

 Consiste en la introducción de una jerarquía o secuencia de variables


independientes decidida por el investigador. La elección de la secuencia se
establece de antemano guiada por la teoría.

 Se introducen k bloques cada uno con una o más variables que el que le precede.
En cada fase puede verse el cambio o incremento sobre R2 producido por la
introducción del nuevo bloque. Se utiliza el contraste F para evaluar la
significación del predictor o bloque de predictores añadidos.

86
Ejemplo mediante el regresión jerarquica
Se sabe que la nota media académica (Y) se relaciona con las variables CI y capacidad de
resolución de problemas. Estamos interesados en conocer si la variable vocabulario produce
un incremento significativo en la predicción de la nota media producida por las dos
predictoras anteriores. Por eso se introducen en un primer bloque las dos primeras y en el
segundo bloque la tercera.

La variable
∆R 2 = Rmodelo
2
completo − Rmodelo reducido = 0,778 − 0,774 = 0,004
2 Vocabulario
proporciona un
La introducción de la incremento, 0,004,
Hay un 77,4% de la variabilidad en las nota media variable vocabulario en el
estadísticamente
académica que se puede predecir a partir de la de segundo bloque produce un significativo en la
resolución de problemas y CI incremento del 0,4 % de la predicción de la nota
variabilidad en las nota media (sig<0,05)
Hay un 77,8% de la variabilidad en las nota media
media académica que se
académica que se puede predecir a partir de
puede predecir a partir de
resolución de problemas , CI y vocabulario. Este es
las variables del primer
el ajuste del modelo definitivo
bloque
HIPÓTESIS ANOVAS
Modelo 1 (primer bloque)
H0: β1= β2= 0
La ecuación de regresión para predecir nota
media a partir de resolución de problemas y CI
no es estadísticamente predictiva. Como
sig<0,001 la rechazamos y concluimos que si es
predictiva

Modelo 2 (primer bloque+segundo bloque


H0: β1= β2= β3 = 0
La ecuación de regresión para predecir nota
media a partir de resolución de problemas, CI y
vocabulario, no es estadísticamente predictiva.
Como sig<0,001 la rechazamos y concluimos
que si es predictiva

Ecuación de regresión definitiva o completa (fijarnos en el modelo 2)


Notai ´= 1,941+ 0,001 Cii + 0,633 Resprobi + 0,021 Vocabui (Ecuación en directas)
ZNotai ´= 0,01 ZCii + 0,824 ZResprobi + 0,101 ZVocabui (Ecuación en típicas)
88
Correlaciones
Semiparciales

Correlación entre la nota media académica y cada Correlación entre la nota media académica y cada
uno de los predictores, una vez eliminada la uno de los predictores, una vez eliminada la
influencia sobre ambos de los otros predictores de influencia, sólo sobre ese predictor, de los otros
este bloque. predictores de este bloque

0,789 es la correlación entre la nota media y resolución de 0,607 es la correlación entre la nota media y resolución de
problemas después de eliminar el influjo del CI sobre ambas problemas después de eliminar el influjo del CI sobre
0,793 es la correlación entre la nota media y resolución de resolución de problemas
problemas después de eliminar el influjo del CI y de 0,608 es la correlación entre la nota media y resolución de
vocabulario sobre ambas problemas después de eliminar el influjo del CI y de
vocabulario sobre a resolución de problemas

89
Tolerancia: Uno menos la correlación al cuadrado entre cada una de las predictoras con todas las
demás predictoras que aparecen en el modelo. Nos indica la colinealidad de esa predictora con la
restantes del modelo
0,544 es la Tolerancia, es decir, el índice de colinealidad entre resolución de problemas y CI .
0,345 es la Tolerancia, es decir, el índice de colinealidad entre el CI y, la nota media y resolución
de problemas conjuntamente

90
3.7 Interpretación de los pesos en la ecuación de regresión

• No está del todo resuelto el problema de la importancia relativa de las variables


en la ecuación, puesto que el peso depende tanto del resto de variables que están
en la ecuación como de variables que no están en la ecuación y podría haber
entrado

• Hay que ser cautelosos a la hora de interpretar la importancia relativa, sólo


podría interpretarse adecuadamente a partir del peso de los coeficientes
estandarizados si las variables independientes no tienen ninguna relación entre
ellas, pero en la práctica este caso es muy raro

• Antes de hacer un análisis de regresión conviene mirar la matriz de


correlaciones

91
• El hecho de que una variable haya quedado fuera de la ecuación no quiere decir
necesariamente que no tenga relación con la variable dependiente, puede ser que
lo que explica dicha variable ya esté explicado por otras variables

• Variables supresoras: variables que tienen una correlación positiva o no tienen


relación con la variable dependiente y en el modelo de regresión entran a formar
parte con un peso negativo. Lo que hacen es eliminar de alguna de las variables
independientes que están en la ecuación la parte que se relaciona con la variable
supresora pero no con la variable dependiente.

92
• Tenemos 3 variables predictoras X1, X2 y X3, estando muy correlacionadas X1 y
X2. En este caso, puede ser que una de ellas no entre en la ecuación porque aporta
poco a lo que ya explica la otra

Variabilida
d de X3
Variabilidad
de X1
Variabilidad
e X2
Variabilidad de Y

93
• Si sólo estuvieran X3 y X1, ésta última entraría en la ecuación

Variabilidad
de X3
Variabilidad
de X1

Variabilidad de Y

94
• Si sólo estuvieran X3 y X2, ésta última entraría en la ecuación

Variabilidad
de X3

Variabilidad
e X2
Variabilidad de Y

95
4- TAMAÑO MUESTRAL REQUERIDO EN
REGRESIÓN LINEAL

Es importante tener una muestra de tamaño adecuado para obtener un modelo


estable y generalizable. Se recomienda:

- Al menos 15 sujetos por predictor

- n > 50 + 8p (p= número de predictores)


(para obtener un nivel crítico < 0,05 y potencia de 0,80)

- software G*power

96
5- PRESENTACIÓN DE RESULTADOS

Con el ejemplo diapositiva número 78, 79 y 80 de regresión por pasos:

• En el texto hay que indicar el valor del estadístico de contraste F del


modelo final (F(2,204) = 172,440, p<,001) y R2 = 0,781 y R2corr = 0,779 .

• Tablas:

 Tabla de medias y desviaciones típicas de las variables predictoras


y el criterio
 Tabla de correlaciones entre las variables
 Tabla resumen de los principales resultados de la regresión

97
• Tabla resumen de los resultados de la regresión por el método de pasos
sucesivos

Variable B ET B Beta R222 ∆R2


Paso 1 ,772*** ,772***
Constante 2,756 ,192
Resolución de problemas ,675 ,026 ,879
Paso 2 ,779*** ,008***
constante 2,008 ,323
Resolución de problemas ,637 ,029 ,829
Riqueza de vocabulario ,022 ,008 ,106

*** P<,000

98
• Tabla resumen de los resultados de la regresión jerarquica
∆R
2 2

Variable B ET B Beta R
Bloque 1 ,774*** ,774***
Constante 2,080 ,411
CI ,008 ,004, ,084
Resolución probl. ,632 ,034 ,822

Bloque 2 ,778*** ,004***


Constante 1,941 ,412
CI ,001 ,006 ,010
Resolución probl. ,633 ,034 ,824
Vocabulario ,021 ,010 ,101

99
Fichero de datos de SPSS del Ejemplo diapositiva 37

ausencias cigarrillos
1 4 8
2 6 8
3 6 16
4 7 16
5 8 20
6 7 20
7 8 24
8 10 24

***Si tuviésemos 3 predictoras más, deberíamos tener 3 columnas


más en el fichero de datos
100
Análisis con SPSS
Regresión lineal múltiple
regresión jerárquica
Se sabe que la nota media académica (Y) se relaciona con las variables CI y
capacidad de resolución de problemas. Estamos interesados en conocer si la variable
vocabulario produce un incremento significativo en la predicción de la nota media
producida por las dos predictoras anteriores. Por eso se introducen en un primer
bloque las dos primeras y en el segundo bloque la tercera.
CCRcrITERIO

Nota media CI Resolución problemas Vocabulario

2
Sujetos
3

5
101
…..
102
1. Variable
dependiente o criterio

2. Variables predictoras que


se introducen en el primer
bloque

3. Para introducir las variables


predictoras en el segundo bloque

4. Variables predictoras que se


introducen en el segundo
bloque
103
104
105
106
Estadísticos descriptivos de la variable criterio
(nota media) y las predictoras (CI, resolución
de problemas y vocabulario)

rxy entre la
nota media y
cada una de
las
predictoras

107
En el primer bloque (Modelo 1), hemos
pedido pronosticar la nota media a partir de
resolución de problemas y CI total obtenido
en el WISC

En el segundo bloque (Modelo 2), hemos


introducido la variable vocabulario para
pronosticar la nota media con las dos
anteriores y esta, y comprobar si se produce
un incremento significativo en el pronóstico

Valores próximos a 2 (1,5-2,5)


indican que se cumple el supuesto de
independencia.

108
*** Las dos tablas están comentadas en las diapositivas 88, 89 y 90

109
La tabla variables excluidas, nos informa de las variables que NO se han incluido en la ecuación
de regresión de un modelo. En este caso, en el modelo 1 no está la variable vocabulario, sólo resolución
de problemas y CI

110
Examinamos la distribución normal de los errores
cometidos a pronosticar la nota media académica
a partir de la ecuación de regresión.
Desviaciones de la diagonal = Desviaciones de la
normalidad.
En nuestro caso, hay poca desviación, parece que
se cumple el supuesto de normalidad de los
errores.

Examinamos la
homocedasticidad y linealidad.

En nuestro caso, parece que se


cumplen.

111
Presentación de resultados
Se realizó un análisis de regresión lineal múltiple jerárquica con el objetivo
de comprobar si la variable vocabulario produce un incremento significativo
en la predicción de la nota media académica producida por las variables CI
y capacidad de resolución de problemas.

En un primer bloque se introdujeron las variables CI y capacidad de


resolución de problemas, siendo el modelo estadísticamente significativo
F(2,204) = 353,77, p<0,001. En el segundo bloque se introdujo la variable
vocabulario, el modelo también fue estadísticamente significativo F(3,203) =
241,661, p<0,001. El ajuste del modelo fue R2 =0,778, p<0,001, y el
incremento producido por vocabulario fue ∆R2 =0,005, p=0,032.

Los tres variables, CI, capacidad de resolución de problemas y vocabulario ,


son predictores estadísticamente significativos de la nota media académica,
con un porcentaje de varianza asociada del 77,8%, incrementando un 0,5%
la variable vocabulario.

***Hay que incluir la tabla de descriptivos, la de correlaciones y la tabla


112
resumen de los principales resultados de la regresión (diapositiva 99)
Análisis con SPSS
Regresión lineal múltiple
regresión por pasos método stepwise
Predecir las nota media académica (Y) a partir de las variables capacidad de
resolución problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad
(X4), riqueza expresiva (X5) y creatividad global (X6)
CCRcrITERIO

Nota CI Resolución Vocabulario Originalidad Riqueza Creatividad


media problemas expresiva global

2
Sujetos
3


..
113
114
1. Variable
dependiente o criterio

2. Todas las Variables


predictoras

3. Seleccionar Método
Escalonado (por pasos o
stepwise)

115
116
117
118
Estadísticos descriptivos de la variable criterio
(nota media) y las predictoras (resolución de
problemas, vocabulario, CI, originalidad,
riqueza expresiva, creatividad)

rxy entre la
nota media y
cada una de
las
predictoras

119
Valores próximos a 2 (1,5-2,5)
indican que se cumple el supuesto de
independencia.

120
*** Las dos tablas están comentadas en las diapositivas 70, 80 y 81

121
En el paso 1 entra resolución de problemas
En el paso 2 entra vocabulario. Las dos
predictoras, en este paso, son resolución de
problemas y vocabulario

La tabla variables excluidas, nos informa de las variables que NO se han incluido en la ecuación
de regresión de un modelo. En este caso, en el modelo 1 están todas la variables excepto la que entra en
este paso, resolución de problemas. En el modelo 2 queda excluidas todas, excepto la que ha entrado en
el paso 1 y la que entra en el paso 2, vocabulario.

CI, originalidad, riqueza expresiva y creatividad, quedan excluidas de la ecuación de regresión porque
no son estadísticamente significativas en el incremento de R cuadrado. (todas las sig >0,05)
122
Examinamos la distribución normal de los errores
cometidos a pronosticar la nota media académica
a partir de la ecuación de regresión.
Desviaciones de la diagonal = Desviaciones de la
normalidad.
En nuestro caso, hay poca desviación, parece que
se cumple el supuesto de normalidad de los
errores.

Examinamos la
homocedasticidad y linealidad.

En nuestro caso, parece que se


cumplen.

123
Presentación de resultados
Se realizó un análisis de regresión lineal múltiple por pasos con el objetivo
predecir las nota media académica a partir de las variables: capacidad de
resolución problemas, riqueza de vocabulario, C.I. Total, originalidad, riqueza
expresiva y creatividad global.

En el primer paso se introdujo capacidad de resolución de problemas y en el


segundo paso riqueza de vocabulario. El modelo de regresión fue
estadísticamente significativo (2,204) = 364,199, p<0,001. El ajuste del modelo
fue R2 =0,779, p<0,001, y el incremento producido al entrar vocabulario en la
ecuación de regresión fue ∆R2 =0,009, p=0,005.

Sólo dos de las variables, capacidad de resolución de problemas y vocabulario,


son predictores estadísticamente significativos de la nota media académica, con
un porcentaje de varianza asociada del 77,9%, incrementando un 0,9% la
variable vocabulario. Las variables C.I. Total, originalidad, riqueza expresiva y
creatividad global, no resultaron ser predictores estadísticamente significativos

***Hay que incluir la tabla de descriptivos, la de correlaciones y la tabla


124
resumen de los principales resultados de la regresión (diapositiva 98)

También podría gustarte