Tema-7 FIN (14-5-20)

Tema 7
CORRELACIÓN Y REGRESIÓN LINEAL

1. Introducción
2. Correlación y regresión lineal simple
2.1 Modelo
2.2 Contraste de hipótesis
2.3 Relaciones entre el coeficiente de correlación y la regresión lineal
2.4 Interpretación del coeficiente de determinación
2.5 Factores que afectan al valor del coeficiente de correlación
3. Correlación y regresión lineal múltiple
3.1 Modelo
3.3 Supuestos del modelo y su comprobación
3.4 Correlación múltiple, parcial y semiparcial
3.5 Multicolinealidad
3.6 Método de selección de variables
3.7 Interpretación de los pesos en la ecuación
4. Tamaño muestral requerido en regresión lineal. 1
5. Presentación de resultados
DOCUMENTACIÓN
AMON, J. (1987). Estadística para • Temas 12 y 13

Psicólogos 2.
MARTÍNEZ, R., CASTELLANOS, M.A. y • Tema 7
CHACON, J.C. (2015). Análisis de Datos
en Psicología y Ciencias de la Salud
(Volumen II).
PARDO, A. y SAN MARTÍN, R. (1994). • Temas 8
Análisis de Datos en Psicología II.
2
1- INTRODUCCIÓN
- Objetivo:
Estudiar la relación entre una variable dependiente cuantitativa (Y) y una o
varias variables independientes cuantitativas (X),consideradas conjuntamente
- Para ello es necesario tener medidas de todos los sujetos en todas las
variables
- Si sólo existe una variable independiente se habla de correlación y regresión

lineal simple, si hay más de una variable independiente se habla de correlación
y regresión lineal múltiple
3
Diferencia entre regresión y correlación lineal simple:
Correlación:
El objetivo es conocer la relación entre dos variables aleatorias X e Y, es decir,
si las modalidades de una variable están asociadas con las de otras (ej: rxy)
Regresión:
El objetivo es predecir una variable dependiente Y a partir de las puntuaciones
de los sujetos en otra variable X.
El énfasis en un modelo u otro se hace en función del objetivo: si se quiere estudiar

la relación entre variables o predecir una variable
4
2- CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
2.1 Modelo
Valor Efectos debidos Efectos debidos a
observado = a factores + Efectos debidos a factores + factores no
en la VD constantes tenidos en cuenta (VVII) controlados
Yi = β0 X i0 +β1 X i1 + β2 X i2 + ...+ βk X ik +ε
i
Modelo de Regresión Lineal Simple
Yi = α + βX i + ε i Su representación
gráfica en una
Ordenada en el origen (α): recta
Magnitud común a todos los
Pendiente (β): Peso de la variable X en Error para cada sujeto
sujetos. Valor que de Y
la ecuación o tasa de cambio: cambio en
cuando X=0
Y por cada unidad de cambio en X
5
- Para poder aplicar el modelo es necesario comprobar que existe relación lineal entre
la VD (Y) y la VI (X), es decir, que los puntos en el diagrama de dispersión se sitúan
en torno a una línea recta
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo al año (Y)
12 y = 0.2429x + 2.8714
10
8
ausencias
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
6
- Para un mismo diagrama de dispersión pueden ajustarse muchas rectas (modelos)
diferentes
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo al año (Y)
12 y = 0.2429x + 2.8714
10
8
ausencias
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
7
Estimadores del modelo de regresión
Según el Método de mínimos cuadrados: selecciona los estimadores que

∑(yi − )
2
y′i
hacen mínimo el error cuadrático medio
Se2 = 2
S x.y =
Modelo regresión Yi = α + βX i + ε i n
Recta regresión
poblacional
E(Yi ) = α + βX i ei = Yi − Yi'
Recta regresión
estimada
Yi = a + bX i
'
α = µ y − βµ x σy
β = ρ xy
σx
a = Y − bX Sy
b = rxy
Sx
8
 Ecuación de la recta regresión lineal en puntuaciones directas
E(Yi ) = α + βX i Recta de regresión poblacional

de Y sobre X
'
Yi = a + bX i Recta de regresión estimada
en la muestra
Y VD, Variable criterio o variable a predecir
X VI o Variable predictora
'
Y Variable pronosticada o pronóstico
Y ≠ Yi
i
'
ei = (Yi − Y )
i
'
Valor que se obtiene al

utilizar la recta de Valor que se obtiene al
regresión para predecir medir directamente Y 9
Y a partir de X
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo (Y)
ei = (Yi − Yi ' ) =
12 y = 0.2429x + 2.8714
= 4 − 4,81 = −0,81 Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
Error al predecir
la ausencia del 8
ausencias
sujeto a partir del

número de 6
cigarrillos que 4,81
4
fuma (8), falta 4
días y le
2
predecimos 4,81
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
10
 Ecuación de la recta regresión lineal en puntuaciones típicas
E(ZYi ) = βZ X i Recta de regresión poblacional

de Y sobre X
'
ZYi = betaZ Xi Recta de regresión estimada
en la muestra
β = ρxy
Número de desviaciones
beta = rxy típicas que cambia Y
cuando X cambia una
desviación típica X
11
E(Yi ) = α + βX i
Yi′ = a + bX i
- Se realizan 4 contrastes de hipótesis:

(se comprueba antes, aunque por motivos
1. Modelo de la regresión didácticos lo expondremos al final)
2. α→a
3. β→b
4. ρxy → rxy
12
- Contraste sobre la pendiente
1. H0: β = 0
H1: β ≠ 0
2. α
3. SUPUESTOS:
- Independencia: 1 m.a.s. medida en las variables X e Y
- Normalidad bivariada:
Yi → N(µ y xi , σ i2 )
ε i → N (0,σ i2 )
- Homocedasticidad
σ 2y x1 = σ 2
y x2 = ... = σ 2
y xk = σ 2
13
Normalidad bivariada :
Y N(µ y x k , σ 2 )
N(µ y x 2 , σ 2 )
N(µ y x1 , σ 2 )
x1 x2 …………….…… xk X 14
4. ESTADÍSTICO DE CONTRASTE
b
T= ~2 → tn−2
Se
∑ (x − x )
2
i
Sb Error típico de
∑( )
2
yi − y′i estimación de la
S˜e2 = pendiente de la
n−2 recta de
Regresión
15
5. REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN
Contraste
bilateral
α /2 α /2
0
T≤α / 2 t n−2 T≥1−α / 2 t n−2

- Rechazamos H0 si el valor obtenido en la muestra para el E.C.cae en la región crítica
, la variable X es un predictor estadísticamente significativo de la variable Y
- Mantenemos H0 si el valor obtenido en la muestra para el E.C. cae en la región de
aceptación, la variable X no es predictor de la variable Y
6. NIVEL CRÍTICO Valor del E.C.
- Contraste bilateral [
p = 2 P(t n−2 ≥ t k ) ] obtenido en la
muestra 16
7. INTERVALO DE CONFIANZA
α /2 α /2
LI = b − t
α 2 n −2 Sb Ls = b + t
α 2 n −2 Sb
Error máximo Error máximo
17
Ejemplo
12 y = 0.2429x + 2.8714
Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
8
ausencias
0
Ordenada (a)
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 Pendiente
cigarrillos Pendiente (b) en puntuaciones
típicas
18
ECUACIÓN DE REGRESIÓN EN DIRECTAS
H0 : α = 0
H1 : α ≠ 0
Como n.c. (0,032) <0,05, rechazamos la hipótesis nula y tomamos como estimación
de la ordenada el valor 2,871
H0 : β = 0
H1 : β ≠ 0
de la pendiente el valor 0,243
Ecuación de regresión de Y sobre X, predecir Y a partir de X. Ejemplo:
Yi' = 2,871+ 0,243X i a una persona que fume 30 cigarrillos diarios se le predecirá una
19
ausencia :
Yi' = 2,871+ 0,243• 30 = 10,16
ECUACIÓN DE REGRESIÓN EN TÍPICAS
H0 : β = 0
H1 : β ≠ 0
de la pendiente de la ecuación en puntuaciones típicas el valor 0,866
ZY' i = 0,866Z Xi Ecuación de regresión de Y sobre X, en puntuaciones típicas
20
- Contraste sobre el coeficiente de correlación
1. H0: ρxy = 0
H1: ρxy ≠ 0
2. α
3. SUPUESTOS:
- Independencia: 1 m.a.s. medida en las variables X e Y

- Normalidad bivariada
21
4. ESTADÍSTICO DE CONTRASTE
rxy n − 2
T= 2
→ t n−2
1− r xy
5. REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN

Contraste bilateral
α /2 α /2
0
T≤α / 2 t n−2 T≥1−α / 2 t n−2
- Rechazamos H0 si el valor obtenido en la muestra para el E.C. cae en la región
crítica, existe relación lineal entre X e Y estadísticamente significativa
- Mantenemos H0 si el valor obtenido en la muestra para el E.C. cae en la región de
aceptación, no existe relación lineal entre X e Y estadísticamente significativa
22
6. NIVEL CRÍTICO
- Contraste bilateral [ ]
p = 2 P(t n−2 ≥ t k ) Valor del E.C.
obtenido en la
muestra
7. INTERVALO DE CONFIANZA
-Nos lo ofrecen los programa de ordenador
23
Ejemplo
H0 : ρ xy = 0
H1 : ρ xy ≠ 0
Como n.c. (0,005) <0,05, rechazamos la hipótesis nula de que no existe relación lineal
entre el número de cigarrillos que se fuma al día y los días que se falta al trabajo en un
año.
rxy = 0,866 Igual al valor de la pendiente de la ecuación de regresión en puntuaciones
típicas
rxy2 = 0,751 Hay un 75,1% de varianza asociada entre el número de cigarrillos que
se fuma al día y los días que se falta al trabajo en un año 24
- Contraste conjunto sobre el modelo de regresión
(mediante el análisis de varianza)
• En ausencia de más información a cada sujeto le predeciríamos con la puntuación

media, en este caso, predeciré que cualquier trabajador se ausentará por término
medio 7 días al año Y = 7 días
• Si conocemos que la ausencia al trabajo está relacionada con alguna variable, en

este caso el número de cigarrillos que se fuma al día, podemos predecir de forma
particular a todos aquellos sujetos que fuman el mismo número de cigarrillos
Ejemplo. Sujeto 1
E(Yi / x = 8) = 0,2429 + 2,8714X i = 0,2429 + 2,8714(8) = 4,81
25
• El error cometido al utilizar la media para pronosticar
ei = (Yi − Y ) = 4 − 7 = −3
• El error cometido al utilizar la recta de regresión
ei = (Yi − Yi ' ) = 4 − 4,81 = −0,81
(Yi − Y ) = (Yi' − Y ) + (Yi − Yi' )
(4 − 7) = (4,81− 7) + (4 − 4,81)
(−3) = (−2,19) + (−0,81)
Parte del error que dejamos de Parte del error que seguimos
Error al predecir
cometer al utilizar la recta de cometiendo al utilizar la recta de
mediante la media
regresión, al predecir las regresión, al predecir las ausencias
ausencias teniendo en cuenta teniendo en cuenta que fuma 8 26
que fuma 8 cigarrillos al día cigarrillos al día
Ejemplo: Consumo diario de cigarrillos (X); Días de ausencia al trabajo (Y)
ei = (Yi − Yi ' ) =
12 y = 0.2429x + 2.8714
= 4 − 4,81 = −0,81 Yi ' = α + bX i
10 Yi ' = 2,8714 + 0,2429 X i
Error al predecir,
utilizando recta de 8
ausencias
regresión, la
ausencia del sujeto a 6
partir del número de
4,81
ei = (Yi-Ῡ) = 4-7= -3
cigarrillos que fuma 4 Error al predecir, utilizando la
(8), falta 4 días y le media, la ausencia del sujeto a partir
predecimos 4,81 2 del número de cigarrillos que fuma
(8), falta 4 días y le predecimos 7
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
27
∑(Y − Y ) = ∑(Y ′ − Y ) + ∑(Y − Y′)
2 2 2
SCTOTAL = SCREGRESION + SCERROR
n-1 k n-k-1
ESTADÍSTICO DE CONTRASTE
H0 : el modelo de regresión en conjunto no

MCREG
F= es predictivo. La variación de Y explicada
MCERROR por el modelo de REGRESIÓN no es superior a
la no explicada o ERROR
28
Tabla ANOVA de la regresión
Fuentes S.C. g.l. M.C. E.C. sig

de variación
SCREG MCREG
MCREG = F= P(F<1−α F1,(n−2) )
Regresión SCREGRESIÓN 1 1 MCERROR
SCERROR
MCERROR =
Error SCERROR (n-2) (n − 2)
Total SCTOTAL n-1
- Mantenemos H0 de que el modelo de regresión en conjunto no

es estadísticamente predictivo si el valor obtenido en la muestra
para el E.C. cae en la región de aceptación
- Rechazamos H0 si el valor obtenido en la muestra
para el E.C. cae en la región crítica, conclusión: el
F>1−α F1,(n−2)
modelo de regresión en conjunto es estadísticamente
predictivo 29
Estimador tamaño del efecto
2
2 S y′ SCREGRESION SCERROR Estimador sesgado, sobre
rxy = = = 1− todo si el tamaño de la
2 SCTOTAL SCTOTAL
Sy muestra es pequeño
2 Coeficiente de
2 SCERROR (n − 2) (1− rxy )(n − 1) determinación ajustado
rAJ . = 1− = 1−
SCTOTAL (n − 1) (n − 2) o corregido: estimador
insesgado
30
Ejemplo
Como sig. (0,005) <0,01, rechazamos la hipótesis nula y afirmamos que el modelo de
regresión es estadísticamente predictivo
Estimador insesgado del tamaño del efecto: un 70,9% de la variabilidad de los días que
se falta al trabajo en un año se puede predecir a partir del número de cigarrillos que se
fuma al día. 31
2.3 Relaciones entre el coeficiente de correlación lineal y
la recta de regresión lineal simple
E(Yi ) = α + βX i
Si ρ xy > 0 → β > 0
Si ρ xy < 0 → β < 0
Si ρ xy = ±1 → la correlación lineal es perfecta, todos los puntos

del diagrama de dispersión están en la recta de regresión
→ Yi = E(Y ) Para todo i
i
32
Si se rechaza la Ho del modelo de regresión lineal simple
Se rechaza la Ho de la pendiente de la recta de regresión
Se rechaza la Ho de la correlación lineal
33
2.4. Interpretación del coeficiente de determinación (r2xy)
en regresión lineal
• Proporción de varianza de Y asociada X, proporción de varianza

de Y que puede predecirse a partir de X.
• Índice de ajuste de los datos, puntos del diagrama de dispersión, a

la recta de regresión.
• Proporción de error reducido utilizando la recta de regresión en

lugar de la media para hacer los pronósticos.
34
- r2xy Proporción de varianza de Y asociada a la varianza de X
2 2 2
σ =σ +σ
y y′ y⋅x
n n n
∑ (Y − E (Y ))
i
2
∑ ( E (Y i ) − E (Y )) 2 ∑ (Y − E (Y ))
i i
2
i =1
= i =1
+ i =1
n n n
n n n
∑ (Yi − Y ) 2
∑ (Y ´−Y ) 2
∑ i
(Y − Y ´)2
i =1
= i =1
+ i =1
n n n
Varianza de Y asociada al Varianza de Y no asociada al

Varianza total de Y pronóstico, varianza de Y que pronóstico, varianza de Y que
puede predecirse a partir de X no puede predecirse a partir35
de X
σ2 =σ2 +σ2
y y′ y⋅x
σ2 σ2 σ2 σ2
ρ xy 2 = 1− ρ xy 2 = 1−
y′ y⋅x y′ y⋅x
= 1− =
σ2 σ2 σ2 σ2
y y y y
Coeficiente de determinación: Proporción de varianza de Y no

Proporción de varianza de Y asociada a la varianza de X
asociada a la varianza de X
36
Ejemplo
y = 0.2429x + 2.8714
Ausencias Cigarrillos Predicción Error 12
(Y) (X) (Y´) (Y-Y´) 10

4.00 8.00 4.81 -0.81
8
6.00 8.00 4.81 1.19
ausencias
6.00 16.00 6.76 -0.76 6
7.00 16.00 6.76 0.24 4

8.00 20.00 7.73 0.27
2
7.00 20.00 7.73 -0.73
8.00 24.00 8.70 -0.70 0
10.00 24.00 8.70 1.30 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
S2 = S2 + S2
y y′ y⋅x
2,75 = 2,07 + 0,68 S 2 = 2,75
y
S 2 = 2,75 S 2 = 2,07 S 2 = 0,68 S2
2,07 S2 = 0,68
y y' y.x rxy 2 =
y′
= = 0,75 y.x
S2 2,75
y
Variabilidad total Parte de la Parte de la
de ausencias variabilidad de las S 2 = 2,07
variabilidad de las y'
ausencias que ausencias que no
puede predecirse puede predecirse
(está asociada) a (no está asociada) a
partir del número partir del número
de cigarrillos de cigarrillos 37
- r2xy Índice de ajuste de los puntos a la recta de regresión
σ2
Cuanto más próximos están los puntos a la recta de
regresión → menor error se comente por término
ρ xy 2 = 1−
y⋅x
σ2 medio → mayor será el valor del coeficiente de
y correlación
12 y = 0.2429x + 2.8714 12 y = 0.2429x + 2.8714
10 10
8 8
ausencias
ausencias
6 6
4
2
ρ xy 2 = 0,55
4
2
ρ xy = 0,75 2
0 0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos cigarrillos
38
- r2xy Proporción de error reducido
• Si no se dispone de más información, la forma habitual de predecir la puntuación

de un sujeto en una variable es asignarle la media de la población a la que
pertenece. El error de predicción que se comete con cada sujeto será: ei = (Yi − E(Yi ))
• Si se utiliza la recta de regresión, es decir se utiliza la puntuación del sujeto en X

para predecir su valor en Y, cometeremos menos error: ei = (Yi − E(Yi )) → E(Yi ) = α + βX i
σ2 =σ2 +σ2
y y′ y⋅x
n n n
∑ i
(Y − E(Y )) 2
∑ i
(E(Y ) − E(Y )) 2
∑ i
(Y − E(Yi )) 2
i=1
= i=1
+ i=1
n n n
39
σ2 =σ2 +σ2
y y′ y⋅x
σ2 σ2 σ2 σ2
ρ xy 2 = 1− ρ xy 2 = 1−
y′ y⋅x y′ y⋅x
= 1− =
σ2 σ2 σ2 σ2
y y y y
Coeficiente de determinación: Proporción de error cometido al

Proporción de error reducido al pronosticar con la recta de
pronosticar con la recta de regresión en lugar de la media
regresión en lugar de pronosticar
con la media de Y
40
2.5 Factores que afectan al valor de ρxy
1. Variabilidad del grupo: restricción del rango

Si la variabilidad es reducida en una o ambas variables el valor de ρxy puede
verse reducido
Y
X
41
2. Influencia de otras variables
Rendimiento Motivación alta

Motivación media
Motivación baja
Inteligencia
42
3. Existencia de valores atípicos
datos atípicos
Rendimiento bivariados
Emocionalidad
43
3- CORRELACIÓN Y REGRESIÓN LINEAL MÚLTIPLE
3.1 Modelo
Valor Efectos debidos Efectos debidos a
Efectos debidos a factores +
observado a factores + factores no
= tenidos en cuenta (VVII)
en la VD constantes controlados
Yi = β0 X i0 +β1 X i1 + β2 X i2 + ...+ βk X ik +ε i
Modelo de Regresión Lineal Múltiple
Yi = β 0 + β1 X i1 + β 2 X i2 + ...+ β k X ik + εi
Magnitud común a todos

los sujetos Pesos de cada una de las k variables Error para cada sujeto
independientes dentro de la ecuación de
regresión 44
 Ecuación de regresión lineal en puntuaciones directas
Ecuación de regresión
E(Yi ) = β0 + β1X i1 + β 2 X i2 + ...+ β k X ik poblacional de Y sobre
X1, X2, …, Xk
′
Yi = b0 + b1X i1 + b2 X i 2 + ...+ bk X ik Ecuación de regresión
estimada en la muestra
Y → VD variable criterio o variable a predecir

X1,X2,…,Xk →VVII o variables predictoras
Yˈ → variable pronosticada o predicha

'
Y ≠Y e = (Y − Y ' )
Valor que se obtiene al
utilizar la recta de Valor que se obtiene al
regresión para predecir medir directamente Y 45
Y a partir de X
 Ecuación de regresión lineal en puntuaciones típicas
Z 'Yi = beta1Z ' X i1 +beta2 Z ' X i 2 +... + betak Z ' X ik Ecuación de regresión
estimada en la muestra
46
Importante
• En un primer momento, la ecuación de regresión se estima a partir

de los datos de los sujetos en la muestra, todos los sujetos tienen que
ser medidos tanto en X como en Y.
• Una vez construida puede ser aplicada a todos los sujetos de la

población a la que pertenece la muestra, en este caso es suficiente
medir al sujeto en X1, X2, …, Xk y utilizando la ecuación de la recta
de regresión podemos predecir su puntuación en Y.
47
E(Yi ) = β0 + β1X i1 + β 2 X i2 + ...+ β k X ik
Yi′ = b0 + b1X i1 + b2 X i 2 + ...+ bk X ik
- Se realizan 4 contrastes de hipótesis:

1. Modelo de la regresión
2. β0 → b0
3. β1 , β2 … βk → b1, b2 … bk
4. ρ2Y.1,2…k → R2Y.1,2…k
48
- Contraste sobre el modelo de la regresión.
Pone a prueba si la variación de Y explicada por el modelo es superior a la
no explicada.
1. H0: β1= β2 …= βk= 0 ↔ H0: ρ2Y.1,2…k= 0

2. α
3. SUPUESTOS:
- Independencia: 1 m.a.s. medida en las variables X1,X2…Xk e Y
- Normalidad multivariada:
Yi → N(µY/ X1,X2…Xk, σ2y )
εi → N(0, σ2e)
- Homocedasticidad
- Linealidad
49
∑(Y − Y ) = ∑(Y ′ − Y ) + ∑(Y − Y′)
2 2 2
SCTOTAL = SCREGRESION + SCERROR
n-1 k n-k-1
ESTADÍSTICO DE CONTRASTE
H0 : el modelo de regresión en conjunto no

MCREG
F= es predictivo. La variación de Y explicada
MCERROR por el modelo de REGRESIÓN no es superior a
la no explicada o ERROR
50
Tabla ANOVA de la regresión
Fuentes S.C. g.l. M.C. E.C. sig

de variación
SC REG MCREG P( F > F1−α ,k ,( n − k −1) )

Regresión SCREGRESIÓN k MC REG = F=
k −1 MCERROR
SC ERROR
MC ERROR =
Error SCERROR (n-k-1) (n − k − 1)
Total SCTOTAL n-1
- Mantenemos H0 de que el modelo de regresión en

conjunto no es predictivo si el valor obtenido en la
muestra para el E.C. cae en la región de aceptación
- Rechazamos H0 si el valor obtenido en la muestra

F>1−α F(K−1),(n−k−1)
para el E.C. cae en la región crítica, conclusión: el
modelo de regresión en conjunto es predictivo 51
Ejemplo mediante el método introducir
Predecir las nota media académica (Y) a partir de las variables capacidad de resolución
problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad (X4), riqueza
expresiva (X5) y creatividad global (X6)
H0: β1= β2= β3= β4= β5= β6 = 0 ↔ H0: ρ2Y.1,2,3,4,5,6= 0
Como sig. (0,000) <0,001, rechazamos la hipótesis nula y afirmamos que el modelo
de regresión es estadísticamente predictivo
52
- Contraste sobre ρ 2
Y .1, 2...k
• Proporción de varianza de la variable

2 Y asociada conjuntamente a todas las
2 S y′ SCREGRESION SCERROR
R y.1,2...k = = = 1− variables independientes
S y2 SCTOTAL SCTOTAL
• Proporción de error cuadrático medio
reducido al pronosticar mediante la
recta de regresión en lugar de utilizar
la media de Y
• Es muy sensible al número de predictores, basta incluir un predictor más en la ecuación

de regresión, aunque sea irrelevante, para que el valor del coeficiente de correlación
múltiple aumente.
• Se utiliza como estimado, el coeficiente de correlación ajustado o corregido:
2
2 SCERROR (n − k − 1) (1− R y,1,2...k )(n − 1)
R AJ . = 1− = 1−
SCTOTAL (n − 1) (n − k − 1)
53
Ejemplo
H0 : ρ2Y.1,2,3,4,5,6= 0
Un 77,6% de la variabilidad de la nota media académica se puede predecir a partir de la

capacidad de resolución problemas, del vocabulario, del C.I. total, de la originalidad, de
la riqueza expresiva y la creatividad global consideradas conjuntamente.
54
- Contraste sobre las pendientes de la regresión
• Si se rechaza la hipótesis nula, y afirmamos que el modelo en su conjunto

es estadísticamente significativo, se tienen que comprobar las hipótesis
nulas referidas a cada una de las pendientes de las variables predictoras y
a la constante
H0 : βj= 0
H1 : βj ≠ 0
55
Ejemplo
problemas (X1), del riqueza de vocabulario (X2), del C.I. Total (X3), de la originalidad (X4),
de la riqueza expresiva (X5) y la creatividad global (X6)
H 0 : β 0 = 0 → Se rechaza
H 0 : β1 = 0 → Se rechaza
H 0 : β 2 = 0 → Se rechaza
H 0 : β 3 = 0 → Se mantiene
Yi′ = 2,088 + 0,635X i1 + 0,02X i2

ZY′ i = 0,826Z X i1 + 0,096Z X i 2 56
3.3 Supuestos y su comprobación
• Linealidad entre la variable criterio y las predictoras.
Comprobación: Diagrama de dispersión de la criterio con cada predictora o
diagramas de dispersión de los residuos (errores).
• Independencia de los errores.

Comprobación Diagrama de dispersión de los residuos y los casos. Los errores
asociados a una observación son independientes de los de las otras observaciones.
Pruebas estadísticas:(Durbin-Watson): valores entre 0-4. Valores próximos a 2 (1,5-
2,5) indican independencia. Inferiores a 1,5 indican autocorrelaciónn positiva y los
superiores a 2,5 autocorrelación negativa.
• Normalidad de los errores

Los errores cometidos a partir de cada combinación de valores de las variables
independientes se exige que sigan una distribución normal.
Comprobación: histograma de los residuos y el gráfico de probabilidad normal (Q-
Q). Pruebas estadísticas: Kolmogorov y Shapiro-Wilk (si sig>0,05 mantenemos
hipótesis nula de normalidad)
• Homocedasticidad de los errores
La varianza de los errores debe ser la misma para cada combinación de valores de
las variables independientes.
Comprobación: Gráfico de dispersión entre los residuos y los valores pronosticados
en la variable criterio o VD. En el caso de ocurrir heteroscedasticidad se puede
utilizar el método de mínimos cuadrados ponderados (MCP), para estimar la
ecuación de regresión. En este caso se da menos peso a los valores de la variable
independiente que produce mayor variabilidad.
• Ausencia de multicolinealidad
La multicolinealidad indica correlación elevada entre las variables predictoras. Se
analiza mediante el índice de Tolerancia.
• Adecuada especificación del modelo

Debe incluir todas las variables relevantes y excluir las irrelevantes
 Es importante realizar análisis de casos atípicos

• Los supuestos de Normalidad, homocedasticidad y linealidad, están
estrechamente asociados al comportamiento de los residuos (errores), un
análisis cuidadoso de los mismos puede informar sobre el cumplimiento de
los supuestos.
• (Y-Y’)- cuanto menores son mejor es el ajuste de los datos al modelo de

regresión
59
Normalidad: histograma de residuos
60
Normalidad: gráfico P-P de residuos tipificados
Probabilidad
acumulada
esperada si la
distribución es
normal
Probabilidad acumulada observada 61

Homocedasticidad y linealidad:
Residuos
Pronóstico
Se cumplen el supuesto de homocedasticidad y de linealidad

62
Residuos
Pronóstico
Se cumple el supuesto de homocedasticidad y no el de linealidad

63
Residuos
Pronóstico
No se cumple el supuesto de homocedasticidad y sí el de linealidad
64
Residuos
Pronóstico
No se cumple ni el supuesto de homocedasticidad y ni el de linealidad

65
Residuos
Pronóstico
Existencia de atípicos
66
Robustez de F frente al incumplimiento de los supuestos
Los estadísticos de la regresión son muy robustos frente al

incumplimento del supuesto de normalidad
Independencia de las observaciones

Las distribuciones
muestrales no siguen
Puntuaciones atípicas exactamente el modelo
propuesto
Multicolinealidad
67
3.4 Correlación múltiple, parcial y semiparcial
0 ≤ Ry.1,2...k ≤ 1 Ry.1,2...k = ryy′
Modelo con dos predictores:

Correlación parcial
ry2.1 = r ′ y′ = a + b x1 x 2 ′ = a + b x1
(y− y′)(x 2 − x 2 )
La relación entre la VD y una VI, eliminando de ambas la influencia de otra VI
Incremento porcentual (en lo que queda por explicar de VD) en R2 al incluir X2
2
∆R 2
ry 2.1=
1 − R y2.1 68
Correlación semiparcial
ry(2.1) = ry(x −x ′ ) x 2 ′ = a + b x1
2 2
La relación entre la VD y una VI, eliminando de la VI la influencia de otra VI
Incremento en R2 al incluir X2
ry2( 2.1) = ∆R 2
R y2.12 = ry21 + ry2( 2.1)
69
Variabilidad de (Y) =1
X2
X1
2
r
y(1.2) B C D 2
ry(2.1)
ry12 ry22
A
2
R y.12
2
1− Ry.12
70
0 ≤ Ry.1,2...k ≤ 1 Ry.1,2...k = ryy′
Modelo con k predictores:
Correlación parcial
ryj.12...h = r(y −y ′ )(x −x ′ ) y′ = b0 + b1 x1 + b2 x 2 + ... + bh x h
j j
x j ′ = b0 + b1 x1 + b2 x 21 + ... + bh x h
La relación entre la VD y una VI (Xj), eliminando de ambas la influencia de varias VVII
Incremento porcentual (en lo que queda por explicar de VD) en R2 al incluir Xj

∆R 2
ryj2.12... h=
1 − R y2.12...h 71
Correlación semiparcial
ry(j.12…h) = ry (xj –xj´) x j´= b0 +b1 x1 + b2 x2 +…+ bh xh
La relación entre la VD y una VI (Xj), eliminando de la VI la influencia de otras VVII
Incremento en R2 al incluir Xj
r2 = ∆R 2
yj.12...h
R = ry1 + ry ( 2.1) + ry ( 3.12 ) + ry ( 4.123 ) + ... + ry ( k .123... k −1)

2 2 2 2 2 2
72
3.5 Multicolinealidad
• En un modelo de regresión lineal múltiple, al existir varias variables independientes,

es frecuente que también algunas de ellas estén correlacionadas
• Si la correlación entre las variables independientes es alta, el error típico de

estimación de las pendientes es alto, por tanto, puede haber mucha variación al
estimar la ecuación de regresión en muestras diferentes
• Para medir la relación entre las variables independientes se calcula:

- el índice de Tolerancia para cada una de ellas. Si una variable independiente
tiene mucha colinealidad con el resto no debe incluirse en el modelo
Tol( j) = 1− R 2j.1,2,3... p
Tol(j) ≈ 1 j no correlaciona con resto de VVII
Tol(j) ≈ 0 j correlación muy alta con el resto VVII
Problema: TOL <0,2
Coeficiente de correlación múltiple entre la variable independiente que se está considerando

y el resto de variables independientes, cuanto mayor es la tolerancia menor es la
colinealidad de este predictor con el resto de predictores. Si un predictor tiene una tolerancia
muy baja, no debe entrar en la ecuación 73
- Factor de inflación de la variaza (FIV). Es el inverso de la
Tolerancia.
1
FIV =
1 − R 2j .1, 2,3... p
FIV ≈ 1 j no correlaciona con resto de VVII

Problema cuando
FIV promedio >1
FIV > 12 j correlación muy alta con el resto VVII
74
3.6 Métodos de selección de variables
• El objetivo es conseguir una ecuación que explique el mayor porcentaje de
variabilidad de la variable dependiente con el menor número posible de
predictores o variable independientes: principio de parsimonia
• Existen distintos procedimientos de selección de variables que pueden estimar

modelos de regresión diferentes a partir del mismo conjunto de predictores y
la misma variable independiente
• El modelo resultante depende tanto de las variables que han sido consideradas
para formar parte de la ecuación como de las que no han sido consideradas
pero tienen relación con la variable dependiente
75
Introducir
Pasos sucesivos (Stepwise)
Hacia delante (Forward)
Hacia atrás (Backward)
Secuencial o jerárquica
76
Introducir (ejemplo diapositiva 55)
 Se estima el modelo introduciendo todas las variables de forma

simultánea
 Para obtener el modelo es necesario ver qué pesos de la ecuación de

regresión son estadísticamente significativos
77
Stepwise (regresión por pasos)
1. Se escoge como primera variable predictora la que tiene mayor correlación lineal simple
con la variable dependiente y se calcula si la ecuación regresión con esta variable es
predictiva. Si no se rechaza la hipótesis (β1 = 0), se termina el proceso, si la ecuación es
predictiva se pasa al punto 2.
2. Se escoge de entre las restantes variables aquella que tiene mayor corrección parcial con
la variable dependiente una vez que se elimina el efecto de la variable que ya está en la
ecuación. Se comprueba si el incremento en el coeficiente de correlación múltiple al
introducir esta nueva variable es estadísticamente significativo. Si no lo es, se termina el
proceso; si lo es se pasa al punto 3.
3. Se evalúa si sacar de la ecuación la variable que ya estaba en el paso anterior no produce

una disminución estadísticamente significativa del coeficiente de correlación múltiple. Si
no la produce, se elimina la variable que entró en un paso anterior, si lo es no se elimina.
En cualquiera de las dos circunstancias se pasa al punto 4.
4. Se escoge de entre las restantes variables aquella que tiene mayor corrección parcial con
la variable dependiente una vez que se elimina el efecto de las variables que están en la
ecuación en el paso anterior. Se comprueba si el incremento en el coeficiente de
correlación múltiple al introducir esta nueva ecuación es estadísticamente significativo.
Si no lo es se termina el proceso; si lo es se pasa al punto 3. 78
Ejemplo mediante el método stepwise
Hay un 77,1% de la variablidad en las

nota media académica que se puede
predecir a partir de resolución de
En un primer paso entra variable resolución de problemas problemas
H0: β1= 0 (pendiente nula)
La ecuación de regresión para predecir
nota media a partir de resolución de
problemas, no es estadísticamente
predictiva. Como sig<0,001 la
rechazamos y concluimos que si es
predictiva
En los métodos por pasos el modelo
seleccionado siempre es estadísticamente
79
significativo, cuando no lo es se termina el
proceso
Hay un 77,9% de la variabilidad en las

nota media académica que se puede
En un segundo paso entra variable riqueza de vocabulario predecir a partir de la capacidad de
resolución de problemas y la riqueza de
N de la muetra: gl total+1=206+1 =207 vocabulario conjuntamente. Introducir
la variable riqueza de vocabulario
incrementa en un 0,8% la proporción de
varianza que se puede predecir.
H0: β1= β2= 0 (pendientes nulas)

La ecuación de regresión para predecir
nota media a partir de resolución de
problemas, y vocabulario, no es
estadísticamente predictiva. Como
sig<0,001 la rechazamos y concluimos
80
que si es predictiva
Significación de la
ordenada en el origen y de
cada una de las pendientes
Ordenada en
el origen
Pendientes
en
puntuaciones
Yi′ = 2,008 + 0,637X i1 + 0,02X i 2 ZY′ i = 0,829Z Xi1 + 0,106Z Xi 2
directas
Ejemplo de pronóstico. Predecir la nota media a un alumno que tenga un 10 en resolución de problemas y 7 en
Vocabulario.
Y ´ = 2,008 + 0,637(10) + 0,022 (7) = 8,532 pronosticamos en nota media 81
Pendientes o coeficientes de Significación ó nivel crítico
las VV predictoras de las Pendientes
Correlación entre la nota
media académica y cada uno
de los predictores, una vez
eliminada la influencia de la
resolución de problemas (el
predictor que ya está en la
ecuación)
Uno menos la correlación al

cuadrado entre resolución de
problemas (el predictor que
ya está en la ecuación) y cada
uno de los otros predictores.
82
Correlación entre la nota

media académica y cada uno
de los predictores, una vez
eliminada la influencia de la
de resolución de problemas y
la riqueza vocabulario (los
predictores que ya están en la
ecuación)
Uno menos la correlación al

cuadrado entre de resolución
de problemas y la riqueza
vocabulario (los predictores
que ya están en la ecuación) y
cada uno de los otros
predictores. 83
84
 Backward (hacia atrás)
 En un primer paso se introducen todas las variables en el modelo de la ecuación

de regresión y luego se procede como en el método de spetwise, para ir
eliminando variables de la ecuación
 Forward (hacia adelante)
 Equivale el método de spetwise, pero una vez que una variable entra en la
ecuación de regresión no se revisa la posibilidad de que salga.
85
Secuencial o jerárquica
El procedimiento por pasos suele ser útil en fases iniciales o exploratorias de la
investigación. Pero si deseamos tener en cuenta consideraciones teóricas que
sustenten el modelo de regresión se suele utilizar la regresión jerarquica.
 Consiste en la introducción de una jerarquía o secuencia de variables

independientes decidida por el investigador. La elección de la secuencia se
establece de antemano guiada por la teoría.
 Se introducen k bloques cada uno con una o más variables que el que le precede.
En cada fase puede verse el cambio o incremento sobre R2 producido por la
introducción del nuevo bloque. Se utiliza el contraste F para evaluar la
significación del predictor o bloque de predictores añadidos.
86
Ejemplo mediante el regresión jerarquica
Se sabe que la nota media académica (Y) se relaciona con las variables CI y capacidad de
resolución de problemas. Estamos interesados en conocer si la variable vocabulario produce
un incremento significativo en la predicción de la nota media producida por las dos
predictoras anteriores. Por eso se introducen en un primer bloque las dos primeras y en el
segundo bloque la tercera.
La variable
∆R 2 = Rmodelo
2
completo − Rmodelo reducido = 0,778 − 0,774 = 0,004
2 Vocabulario
proporciona un
La introducción de la incremento, 0,004,
Hay un 77,4% de la variabilidad en las nota media variable vocabulario en el
estadísticamente
académica que se puede predecir a partir de la de segundo bloque produce un significativo en la
resolución de problemas y CI incremento del 0,4 % de la predicción de la nota
variabilidad en las nota media (sig<0,05)
Hay un 77,8% de la variabilidad en las nota media
media académica que se
académica que se puede predecir a partir de
puede predecir a partir de
resolución de problemas , CI y vocabulario. Este es
las variables del primer
el ajuste del modelo definitivo
bloque
HIPÓTESIS ANOVAS
Modelo 1 (primer bloque)
H0: β1= β2= 0
La ecuación de regresión para predecir nota
media a partir de resolución de problemas y CI
no es estadísticamente predictiva. Como
sig<0,001 la rechazamos y concluimos que si es
predictiva
Modelo 2 (primer bloque+segundo bloque

H0: β1= β2= β3 = 0
La ecuación de regresión para predecir nota
media a partir de resolución de problemas, CI y
vocabulario, no es estadísticamente predictiva.
Como sig<0,001 la rechazamos y concluimos
que si es predictiva
Ecuación de regresión definitiva o completa (fijarnos en el modelo 2)

Notai ´= 1,941+ 0,001 Cii + 0,633 Resprobi + 0,021 Vocabui (Ecuación en directas)
ZNotai ´= 0,01 ZCii + 0,824 ZResprobi + 0,101 ZVocabui (Ecuación en típicas)
88
Correlaciones
Semiparciales
Correlación entre la nota media académica y cada Correlación entre la nota media académica y cada
uno de los predictores, una vez eliminada la uno de los predictores, una vez eliminada la
influencia sobre ambos de los otros predictores de influencia, sólo sobre ese predictor, de los otros
este bloque. predictores de este bloque
0,789 es la correlación entre la nota media y resolución de 0,607 es la correlación entre la nota media y resolución de
problemas después de eliminar el influjo del CI sobre ambas problemas después de eliminar el influjo del CI sobre
0,793 es la correlación entre la nota media y resolución de resolución de problemas
problemas después de eliminar el influjo del CI y de 0,608 es la correlación entre la nota media y resolución de
vocabulario sobre ambas problemas después de eliminar el influjo del CI y de
vocabulario sobre a resolución de problemas
89
Tolerancia: Uno menos la correlación al cuadrado entre cada una de las predictoras con todas las
demás predictoras que aparecen en el modelo. Nos indica la colinealidad de esa predictora con la
restantes del modelo
0,544 es la Tolerancia, es decir, el índice de colinealidad entre resolución de problemas y CI .
0,345 es la Tolerancia, es decir, el índice de colinealidad entre el CI y, la nota media y resolución
de problemas conjuntamente
90
3.7 Interpretación de los pesos en la ecuación de regresión
• No está del todo resuelto el problema de la importancia relativa de las variables

en la ecuación, puesto que el peso depende tanto del resto de variables que están
en la ecuación como de variables que no están en la ecuación y podría haber
entrado
• Hay que ser cautelosos a la hora de interpretar la importancia relativa, sólo

podría interpretarse adecuadamente a partir del peso de los coeficientes
estandarizados si las variables independientes no tienen ninguna relación entre
ellas, pero en la práctica este caso es muy raro
• Antes de hacer un análisis de regresión conviene mirar la matriz de

correlaciones
91
• El hecho de que una variable haya quedado fuera de la ecuación no quiere decir
necesariamente que no tenga relación con la variable dependiente, puede ser que
lo que explica dicha variable ya esté explicado por otras variables
• Variables supresoras: variables que tienen una correlación positiva o no tienen

relación con la variable dependiente y en el modelo de regresión entran a formar
parte con un peso negativo. Lo que hacen es eliminar de alguna de las variables
independientes que están en la ecuación la parte que se relaciona con la variable
supresora pero no con la variable dependiente.
92
• Tenemos 3 variables predictoras X1, X2 y X3, estando muy correlacionadas X1 y
X2. En este caso, puede ser que una de ellas no entre en la ecuación porque aporta
poco a lo que ya explica la otra
Variabilida
d de X3
Variabilidad
de X1
Variabilidad
e X2
Variabilidad de Y
93
• Si sólo estuvieran X3 y X1, ésta última entraría en la ecuación
Variabilidad
de X3
Variabilidad
de X1
Variabilidad de Y
94
• Si sólo estuvieran X3 y X2, ésta última entraría en la ecuación
Variabilidad
de X3
Variabilidad
e X2
Variabilidad de Y
95
4- TAMAÑO MUESTRAL REQUERIDO EN
REGRESIÓN LINEAL
Es importante tener una muestra de tamaño adecuado para obtener un modelo

estable y generalizable. Se recomienda:
- Al menos 15 sujetos por predictor
- n > 50 + 8p (p= número de predictores)

(para obtener un nivel crítico < 0,05 y potencia de 0,80)
- software G*power
96
5- PRESENTACIÓN DE RESULTADOS
Con el ejemplo diapositiva número 78, 79 y 80 de regresión por pasos:
• En el texto hay que indicar el valor del estadístico de contraste F del

modelo final (F(2,204) = 172,440, p<,001) y R2 = 0,781 y R2corr = 0,779 .
• Tablas:
 Tabla de medias y desviaciones típicas de las variables predictoras

y el criterio
 Tabla de correlaciones entre las variables
 Tabla resumen de los principales resultados de la regresión
97
• Tabla resumen de los resultados de la regresión por el método de pasos
sucesivos
Variable B ET B Beta R222 ∆R2

Paso 1 ,772*** ,772***
Constante 2,756 ,192
Resolución de problemas ,675 ,026 ,879
Paso 2 ,779*** ,008***
constante 2,008 ,323
Resolución de problemas ,637 ,029 ,829
Riqueza de vocabulario ,022 ,008 ,106
*** P<,000
98
• Tabla resumen de los resultados de la regresión jerarquica
∆R
2 2
Variable B ET B Beta R
Bloque 1 ,774*** ,774***
CI ,008 ,004, ,084
Resolución probl. ,632 ,034 ,822
Bloque 2 ,778*** ,004***

CI ,001 ,006 ,010
Resolución probl. ,633 ,034 ,824
Vocabulario ,021 ,010 ,101
99
Fichero de datos de SPSS del Ejemplo diapositiva 37
ausencias cigarrillos
1 4 8
2 6 8
3 6 16
4 7 16
5 8 20
6 7 20
7 8 24
8 10 24
***Si tuviésemos 3 predictoras más, deberíamos tener 3 columnas

más en el fichero de datos
100
Análisis con SPSS
Regresión lineal múltiple
regresión jerárquica
Se sabe que la nota media académica (Y) se relaciona con las variables CI y
capacidad de resolución de problemas. Estamos interesados en conocer si la variable
vocabulario produce un incremento significativo en la predicción de la nota media
producida por las dos predictoras anteriores. Por eso se introducen en un primer
bloque las dos primeras y en el segundo bloque la tercera.
CCRcrITERIO
Nota media CI Resolución problemas Vocabulario
2
Sujetos
3
5
101
…..
102
1. Variable
dependiente o criterio
2. Variables predictoras que

se introducen en el primer
bloque
3. Para introducir las variables

predictoras en el segundo bloque
4. Variables predictoras que se

introducen en el segundo
bloque
103
104
105
106
Estadísticos descriptivos de la variable criterio
(nota media) y las predictoras (CI, resolución
de problemas y vocabulario)
rxy entre la
nota media y
cada una de
las
predictoras
107
En el primer bloque (Modelo 1), hemos
pedido pronosticar la nota media a partir de
resolución de problemas y CI total obtenido
en el WISC
En el segundo bloque (Modelo 2), hemos

introducido la variable vocabulario para
pronosticar la nota media con las dos
anteriores y esta, y comprobar si se produce
un incremento significativo en el pronóstico
Valores próximos a 2 (1,5-2,5)

indican que se cumple el supuesto de
independencia.
108
*** Las dos tablas están comentadas en las diapositivas 88, 89 y 90
109
La tabla variables excluidas, nos informa de las variables que NO se han incluido en la ecuación
de regresión de un modelo. En este caso, en el modelo 1 no está la variable vocabulario, sólo resolución
de problemas y CI
110
Examinamos la distribución normal de los errores
cometidos a pronosticar la nota media académica
a partir de la ecuación de regresión.
Desviaciones de la diagonal = Desviaciones de la
normalidad.
En nuestro caso, hay poca desviación, parece que
se cumple el supuesto de normalidad de los
errores.
Examinamos la
homocedasticidad y linealidad.
En nuestro caso, parece que se

cumplen.
111
Presentación de resultados
Se realizó un análisis de regresión lineal múltiple jerárquica con el objetivo
de comprobar si la variable vocabulario produce un incremento significativo
en la predicción de la nota media académica producida por las variables CI
y capacidad de resolución de problemas.
En un primer bloque se introdujeron las variables CI y capacidad de

resolución de problemas, siendo el modelo estadísticamente significativo
F(2,204) = 353,77, p<0,001. En el segundo bloque se introdujo la variable
vocabulario, el modelo también fue estadísticamente significativo F(3,203) =
241,661, p<0,001. El ajuste del modelo fue R2 =0,778, p<0,001, y el
incremento producido por vocabulario fue ∆R2 =0,005, p=0,032.
Los tres variables, CI, capacidad de resolución de problemas y vocabulario ,

son predictores estadísticamente significativos de la nota media académica,
con un porcentaje de varianza asociada del 77,8%, incrementando un 0,5%
la variable vocabulario.
***Hay que incluir la tabla de descriptivos, la de correlaciones y la tabla

112
resumen de los principales resultados de la regresión (diapositiva 99)
Análisis con SPSS
Regresión lineal múltiple
regresión por pasos método stepwise
Predecir las nota media académica (Y) a partir de las variables capacidad de
resolución problemas (X1), riqueza de vocabulario (X2), C.I. Total (X3), originalidad
(X4), riqueza expresiva (X5) y creatividad global (X6)
CCRcrITERIO
Nota CI Resolución Vocabulario Originalidad Riqueza Creatividad

media problemas expresiva global
2
Sujetos
3
…
..
113
114
1. Variable
dependiente o criterio
2. Todas las Variables

predictoras
3. Seleccionar Método
Escalonado (por pasos o
stepwise)
115
116
117
118
Estadísticos descriptivos de la variable criterio
(nota media) y las predictoras (resolución de
problemas, vocabulario, CI, originalidad,
riqueza expresiva, creatividad)
rxy entre la
nota media y
cada una de
las
predictoras
119
Valores próximos a 2 (1,5-2,5)
indican que se cumple el supuesto de
independencia.
120
*** Las dos tablas están comentadas en las diapositivas 70, 80 y 81
121
En el paso 1 entra resolución de problemas
En el paso 2 entra vocabulario. Las dos
predictoras, en este paso, son resolución de
problemas y vocabulario
La tabla variables excluidas, nos informa de las variables que NO se han incluido en la ecuación
de regresión de un modelo. En este caso, en el modelo 1 están todas la variables excepto la que entra en
este paso, resolución de problemas. En el modelo 2 queda excluidas todas, excepto la que ha entrado en
el paso 1 y la que entra en el paso 2, vocabulario.
CI, originalidad, riqueza expresiva y creatividad, quedan excluidas de la ecuación de regresión porque
no son estadísticamente significativas en el incremento de R cuadrado. (todas las sig >0,05)
122
Examinamos la distribución normal de los errores
cometidos a pronosticar la nota media académica
a partir de la ecuación de regresión.
Desviaciones de la diagonal = Desviaciones de la
normalidad.
En nuestro caso, hay poca desviación, parece que
se cumple el supuesto de normalidad de los
errores.
Examinamos la
homocedasticidad y linealidad.
En nuestro caso, parece que se

cumplen.
123
Presentación de resultados
Se realizó un análisis de regresión lineal múltiple por pasos con el objetivo
predecir las nota media académica a partir de las variables: capacidad de
resolución problemas, riqueza de vocabulario, C.I. Total, originalidad, riqueza
expresiva y creatividad global.
En el primer paso se introdujo capacidad de resolución de problemas y en el

segundo paso riqueza de vocabulario. El modelo de regresión fue
estadísticamente significativo (2,204) = 364,199, p<0,001. El ajuste del modelo
fue R2 =0,779, p<0,001, y el incremento producido al entrar vocabulario en la
ecuación de regresión fue ∆R2 =0,009, p=0,005.
Sólo dos de las variables, capacidad de resolución de problemas y vocabulario,

son predictores estadísticamente significativos de la nota media académica, con
un porcentaje de varianza asociada del 77,9%, incrementando un 0,9% la
variable vocabulario. Las variables C.I. Total, originalidad, riqueza expresiva y
creatividad global, no resultaron ser predictores estadísticamente significativos
***Hay que incluir la tabla de descriptivos, la de correlaciones y la tabla

124
resumen de los principales resultados de la regresión (diapositiva 98)

Tema-7 FIN (14-5-20)

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Tema-7 FIN (14-5-20)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema-7 FIN (14-5-20)

Cargado por

Copyright:

Formatos disponibles

Tema 7

CORRELACIÓN Y REGRESIÓN LINEAL

AMON, J. (1987). Estadística para • Temas 12 y 13

- Si sólo existe una variable independiente se habla de correlación y regresión

El énfasis en un modelo u otro se hace en función del objetivo: si se quiere estudiar

Según el Método de mínimos cuadrados: selecciona los estimadores que

E(Yi ) = α + βX i Recta de regresión poblacional

Y VD, Variable criterio o variable a predecir

Valor que se obtiene al

sujeto a partir del

E(ZYi ) = βZ X i Recta de regresión poblacional

- Se realizan 4 contrastes de hipótesis:

T≤α / 2 t n−2 T≥1−α / 2 t n−2

6. NIVEL CRÍTICO Valor del E.C.

ZY' i = 0,866Z Xi Ecuación de regresión de Y sobre X, en puntuaciones típicas

- Independencia: 1 m.a.s. medida en las variables X e Y

5. REGIÓN CRÍTICA Y CRITERIO DE DECISIÓN

-Nos lo ofrecen los programa de ordenador

• En ausencia de más información a cada sujeto le predeciríamos con la puntuación

• Si conocemos que la ausencia al trabajo está relacionada con alguna variable, en

E(Yi / x = 8) = 0,2429 + 2,8714X i = 0,2429 + 2,8714(8) = 4,81

ei = (Yi − Yi ' ) = 4 − 4,81 = −0,81

(Yi − Y ) = (Yi' − Y ) + (Yi − Yi' )

(−3) = (−2,19) + (−0,81)

SCTOTAL = SCREGRESION + SCERROR

H0 : el modelo de regresión en conjunto no

Fuentes S.C. g.l. M.C. E.C. sig

Total SCTOTAL n-1

- Mantenemos H0 de que el modelo de regresión en conjunto no

Si ρ xy = ±1 → la correlación lineal es perfecta, todos los puntos

Se rechaza la Ho de la pendiente de la recta de regresión

Se rechaza la Ho de la correlación lineal

• Proporción de varianza de Y asociada X, proporción de varianza

• Índice de ajuste de los datos, puntos del diagrama de dispersión, a

• Proporción de error reducido utilizando la recta de regresión en

Varianza de Y asociada al Varianza de Y no asociada al

Coeficiente de determinación: Proporción de varianza de Y no

(Y) (X) (Y´) (Y-Y´) 10

7.00 16.00 6.76 0.24 4

10.00 24.00 8.70 1.30 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

12 y = 0.2429x + 2.8714 12 y = 0.2429x + 2.8714

• Si no se dispone de más información, la forma habitual de predecir la puntuación

• Si se utiliza la recta de regresión, es decir se utiliza la puntuación del sujeto en X

Coeficiente de determinación: Proporción de error cometido al

1. Variabilidad del grupo: restricción del rango

Rendimiento Motivación alta

Magnitud común a todos

Y → VD variable criterio o variable a predecir

Yˈ → variable pronosticada o predicha

• En un primer momento, la ecuación de regresión se estima a partir

• Una vez construida puede ser aplicada a todos los sujetos de la

E(Yi ) = β0 + β1X i1 + β 2 X i2 + ...+ β k X ik

Yi′ = b0 + b1X i1 + b2 X i 2 + ...+ bk X ik

- Se realizan 4 contrastes de hipótesis:

1. H0: β1= β2 …= βk= 0 ↔ H0: ρ2Y.1,2…k= 0

SCTOTAL = SCREGRESION + SCERROR

H0 : el modelo de regresión en conjunto no

Fuentes S.C. g.l. M.C. E.C. sig

Bloque 2 ,778* ,004*