Estadistica 01
Estadistica 01
Estadistica 01
Anlisis de regresin
INTRODUCCIN
OBJETIVO DE LA REGRESIN
Determinar una funcin matemtica sencilla
que describa el comportamiento de una variable
dados los valores de otra u otras variables.
DIAGRAMA DE DISPERSIN
Figura1
Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con una
variable altura (x) de la concha Patelloida Pygmatea
47
48 Anlisis de regresin
Investigador
1
=
Cov(x, y)
S
2
x
; b
0
=
b
0
= y b
1
x
RECTA DE REGRESIN ESTIMADA
b y
i
=
b
0
+
b
1
x
i
o b y
i
= y +
b
1
(x
i
x)
1
: la variacin que se produce en b y por cada unidad de incremento en x
COEFICIENTE DE CORRELACIN LINEAL
Es una medida de la asociacin lineal de las variables x e y
r =
Cov(x, y)
S
x
S
y
, 1 r 1
Si r = 1 relacin lineal negativa perfecta entre x e y
Si r = 1 asociacin lineal positiva perfecta entre x e y
Si r = 0 no existe ninguna relacin lineal entre x e y
50 Anlisis de regresin
ANLISIS DE LA VARIANZA
Si b y
i
son estimadores de y
i
y
i
y = (y
i
b y
i
) + (b y
i
y)
ECUACIN BSICA DEL NLISIS DE LA VARIANZA
X
(y
i
y)
2
=
X
(y
i
b y
i
)
2
+
X
(b y
i
y)
2
SCT = SCE +SCR
eg
SCT : Suma de cuadrados total
SCE : Suma de cuadrados residual
SCR
eg
: Suma de cuadrados de la regresin
Tabla ANOVA
Fuentes de Sumas de Cuadrados Grados de Cuadrados F
Variacin libertad medios
Regresin SCR
eg
=
P
(b y
i
y)
2
1 MCR
eg
MCR
eg
MCE
Error SCE =
P
(y
i
b y
i
)
2
n 2 MCE =
SCE
n 2
Total SCT =
P
(y
i
y)
2
n 1
SCT
n 1
Anlisis de regresin 51
COEFICIENTE DE DETERMINACIN
Estadstico que representa la proporcin de variacin
explicada por la regresin
Es una medida relativa del grado de asociacin lineal entre x e y
R
2
=
SCR
eg
SCT
= 1
SCE
SCT
; 0 R
2
1
Si R
2
= 0 SCR
eg
= 0 El modelo no explica nada de y a partir de x.
Si R
2
= 1 SCR
eg
= SCT Ajuste perfecto: y depende funcionalmente
de x .
F Un valor de R
2
cercano a 0 Baja capacidad explicativa de la recta.
F Un valor de R
2
prximo a 1 Alta capacidad explicativa de la recta.
EL CONTRASTE DE REGRESIN
H
0
:
1
= 0
H
1
:
1
6= 0
Fijado un nivel de signicacin , se rechaza H
0
si F
exp
> F
,1,n2
52 Anlisis de regresin
EJEMPLO
La Patelloida Pygmatea es una lapa pegada a las rocas y conchas a lo largo de
las costas protegidas en el rea Indo-Pacca. Se realiza un experimento para
estudiar la inuencia de la altura (x) de la Patelloida Pygmatea en su longitud
(y ) medidas ambas en milmetros. Se tienen los siguientes datos:
x y x y x y x y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
SOLUCIN
Figura1
Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con una
variable altura (x) de la concha Patelloida Pygmatea
Anlisis de regresin 53
Recta de regresin estimada
b y = 1.36 + 1.99 x
Coeciente de correlacin lineal
r = 0.8636
Coeciente de determinacin
r
2
= R
2
= 0.74
H
0
:
1
= 0
H
1
:
1
6= 0
A un nivel de signicacin del 5%,
F
exp
= 76.42 > F
,1,n2
= F
0.05;1.26
= 4.23
Ntese adems que el valor p < .
Rechazamos la hiptesis nula de no linealidad del modelo
54 Anlisis de regresin
REGRESIN LINEAL MLTIPLE
La v.a. y se relaciona con k variables explicativas x
1
, . . . , x
k
y =
0
+
1
x
1
+
2
x
2
+. . . +
k
x
k
+
Los parmetros
0
,
1
, . . . ,
k
son estimados por mnimos cuadrados.
Para n observaciones podemos escribir:
y
1
=
0
+
1
x
11
+
2
x
12
+. . . +
k
x
1k
+
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
n
=
0
+
1
x
n1
+
2
x
n2
+. . . +
k
x
nk
+
n
En notacin matricial
Y = X +
donde
X =
1 x
11
. . . x
1k
1 x
21
. . . x
2k
1
.
.
.
.
.
.
.
.
.
1 x
n1
.
.
. x
nk
; =
0
.
.
.
y
=
1
.
.
.
; Y =
y
1
.
.
.
y
n
Anlisis de regresin 55
El vector de coecientes es estimado por mnimos cuadrados por:
B = (X
t
X)
1
X
t
Y
La ecuacin ajustada de regresin resultante es:
b
Y = XB
ANLISIS DE LA VARIANZA
y
i
y = (y
i
b y
i
) + (b y
i
y)
ECUACIN BSICA DEL NLISIS DE LA VARIANZA
X
(y
i
y)
2
=
X
(y
i
b y
i
)
2
+
X
(b y
i
y)
2
SCT = SCE +SCR
eg
SCT : Suma de cuadrados total
SCE : Suma de cuadrados residual
SCR
eg
: Suma de cuadrados de la regresin
Tabla ANOVA
Fuentes de Sumas de Grados de Cuadrados F
exp
Variacin Cuadrados libertad Medios
Regresin B
t
X
t
Y
t
1
n
(
P
y
i
)
2
k CMR
eg
=
SCR
eg
k
CMR
eg
CME
Error Y
t
Y B
t
X
t
Y n k 1 CME =
SCE
n k 1
Total Y
t
Y
1
n
(
P
y
i
)
2
n 1
56 Anlisis de regresin
COEFICIENTE DE DETERMINACIN MLTIPLE
R
2
=
SCR
eg
SCT
= 1
SCE
SCT
; 0 R
2
1.
Representa la proporcin de variacin de y explicada por la regresin
Si R
2
= 0 SCR
eg
= 0 El modelo no explica nada de la variacin
de y a partir de su relacin lineal con x
1
, . . . , x
k
.
Si R
2
= 1 SCR
eg
= SCT Toda la variacin de y es explicada por
los trminos presentes en el modelo.
F Un valor de R
2
cercano a 1 Mayor cantidad de variacin total es expli-
cada por el modelo de regresin.
COEFICIENTE DE DETERMINACIN CORREGIDO
R
2
= 1
X
e
2
i
n k 1
X
(y
i
y)
2
n 1
e
i
= y
i
b y
i
Anlisis de regresin 57
EL CONTRASTE DE REGRESIN
H
0
:
1
=
2
= . . . =
k
= 0
H
1
:
j
6= 0 para algn j = 1, . . . , k
Fijado un nivel de signicacin , se rechaza H
0
si F
exp
> F
,k,nk1
Bibliografa utilizada:
F Canavos, George C. (1988). "Probabilidad y Estadstica. Aplicaciones y Mtodos".
Ed.: Mc Graw Hill.
F Lara Porras A.M. (2002). "Estadstica para Ciencias Biolgicas y Ciencias Ambien-
tales. Problemas y Exmenes Resueltos". Ed.: Proyecto Sur.
F Milton, Susan (2002). "Estadstica para Biologa y Ciencias de la Salud". Ed.: Mc
Graw-Hill.
F Pea, Daniel (2002). Regresin y diseo de experimentos". Ed.:Alianza Editorial.
Temporalizacin: Dos horas