Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Diseno Completamente Randomizado o Al Azar

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 30

DISEÑO COMPLETAMENTE RANDOMIZADO O AL AZAR

Introducción

Este diseño experimental es el más simple de todos los diseños experimentales y útil cuando
las unidades experimentales son esencialmente homogéneas; es decir cuando la variación
entre ellas es pequeña que al agruparlas en bloques la ganancia en precisión sería
insignificante. En este diseño los tratamientos se asignan aleatoriamente a las unidades
experimentales sin imponer restricción. Es decir, cada unidad experimental tiene la misma
oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de
números aleatorios.

Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C.


Suponga que se cuenta con 15 parcelas (numeradas del 1 al 15) y se decide usar 5 repeticiones
por tratamiento. Entonces en la tabla de número aleatorio dada en el libro de Steel y Torrie
(tabla A1) se eligió aleatoriamente un punto de partida (puede ser eligiendo un número
aleatoria para página, otra para fila y otro para columna) de este punto de partida se elige
verticalmente y en forma consecutiva 15 números aleatorios de tres dígitos, luego se enumera
asignando el número 1 al menor, el número 2 al siguiente y así sucesivamente hasta llegar
asignar el número 15 al mayor de todo. Los 5 primeros números aleatorios da origen a las
parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarán el tratamiento A, los 5
siguiente el tratamiento B y los 5 últimos las parcelas que se le aplicarán el tratamiento C.
Suponga se obtuvo los siguientes números aleatorios:

Número aleatorio 118 701 789 965 688


Rango (Tratamiento A) 1 8 9 15 7
Número aleatorio 638 901 841 396 802
Rango (Tratamiento B) 5 13 11 4 10
Número aleatorio 687 938 377 392 848
Rango (Tratamiento C) 6 14 2 3 12

Con el R

> library(agricolae)
> trt <- c("A", "B", "C")
> repeticion <- c(5, 5, 5)
> outdesign <- design.crd(trt,r=repeticion,seed=777,serie=0)
> summary(outdesign)
> outdesign
$parameters
$parameters$design
[1] "crd"

$parameters$trt
[1] "A" "B" "C"

$parameters$r
[1] 5 5 5

$parameters$serie
[1] 0
$parameters$seed
[1] 777

$parameters$kinds
[1] "Super-Duper"

$parameters[[7]]
[1] TRUE

$book
plots r trt
1 1 1 B
2 2 1 A
3 3 2 A
4 4 3 A
5 5 1 C
6 6 2 B
7 7 3 B
8 8 2 C
9 9 4 B
10 10 4 A
11 11 3 C
12 12 4 C
13 13 5 B
14 14 5 A
15 15 5 C

Ventajas

1) Este diseño es flexible en cuanto a que el número de tratamiento y repeticiones sólo


está limitado por el número de unidades experimentales.
2) El número de repeticiones puede variar de un tratamiento a otro, aunque generalmente
lo ideal es tener el mismo número de repeticiones por cada tratamiento
3) El análisis estadístico es simple, aun cuando se pierde unidades experimentales o
tratamientos completos, el diseño se mantiene; es decir, sigue siendo un diseño
completamente al azar
4) El número de grados de libertad para estimar el error experimental es máximo, esto
mejora la precisión del experimento, lo cual toma mayor importancia con experimento
pequeño (en aquellos cuyos grados de libertad para el error es menor a 20).

Desventajas

1.- Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variación
entre las unidades experimentales excepto a la debida a los tratamientos.
2.- Solo es aplicable en situaciones en las que el material experimental es homogéneo.

Diseño completamente Randomizado con una observación por unidad experimental

Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con
ni repeticiones y de cada unidad experimental se obtiene una observación. Luego, se obtiene
el siguiente cuadro de datos:

Totales Nº de Media
observaciones
1 Y11 Y12 Y1n1 Y1. n1 Y1.
Tratamiento
2 Y21 Y22 Y2n2 Y2. n2 Y2.

t Yt1 Yt 2 Ytnt Yt. nt Yt.


Y..  Yij n.  ni
Totales t ni t Y..
Y.. 
i1 j1 i1 n.

Y , Y  Yn , para i 1, 2,
ni
Donde: Yi.  ij i.
i.
,t
j1 i

Modelo aditivo lineal

Yij   i ij para i 1, 2, , t


j 1, 2, , ni
donde:
Yij = Es la observación o respuesta que se obtiene de la unidad experimental que
constituye la j-ésima repetición del tratamiento i .

 = Es el parámetro común para todos los tratamientos llamado media común.


 i = Es el parámetro que representa el efecto verdadero del i -ésimo tratamiento.

ij = Es un componente aleatorio, comúnmente llamado error.

Para las pruebas de hipótesis se asume que ij es una variable independiente distribuida
normalmente con media cero y variancia común 2 (esto es, ij ~ N0,2  ).

En un diseño experimental de acuerdo con el tipo de efecto que se desea analizar se presenta
dos tipos de modelo:

Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o
fijado por el investigador.

Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al
azar de una población grande.

Análisis de modelos de efectos fijos

En un modelo de efectos fijos, los efectos de los tratamientos son definidos como
desviaciones con respecto a la media común, de manera tal que:
  0
t ni
i
i1 j 1

Estimación de parámetros: Para realizar la estimación de parámetros se usará el método de


los mínimos cuadrados, el cual consiste en encontrar los valores de  y  i ( i 1,2, t ) que
minimiza la suma de cuadrados de los errores:

Q    Yij   i 


t ni t ni 2
2
ij
i1 j1 i1 j1

Estos valores serán denotados por ̂ y ˆi ( i 1,2, t ).


Aplicando este método se tiene:

Q
2Yij  ˆ ˆi   0
t ni

 ˆ ,ˆi i1 j1

Q
2Yij  ˆ ˆi   0, para i 1,2, t
ni

i ˆ ,ˆi i1

Lo cual es equivalente a:

n.ˆ  ˆi  Y..


t ni

i j 1
ni ˆ  niˆi  Yi. para i 1,2, t

Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones normales, la


cual tiene múltiples soluciones. Para obtener una solución se aplica restricciones:

nˆ  0
t
i i
i1

Con esta restricción el sistema se reduce a:

n.ˆ  Y..
ni ˆ  niˆi  Yi. para i 1,2, t

Resolviendo se tiene la siguiente solución:

ˆ Y..  Y..
n.
ˆi  Yi. Y.. Yi Y.. para i 1,2, t
ni

Al valor
Yˆij  ˆ ˆi
Yˆij Yi. , para i 1,2, t , j 1, 2, ni

se le llama valores predichos o ajustado de la j -ésima repetición del tratamiento i .


De esto se puede obtener los residuales del modelo:

eij Yij Yˆij


eij Yij Yi. , para i 1,2, t , j 1, 2, ni

Análisis de Variancia (Modelo I)

En un modelo de efectos fijos, es de interés en probar la siguiente hipótesis:

H0 :1 2  t  0 , contra


Ha :i  0, para al menos dos i .
Si hacemos
i   i , para i 1,2, t

entonces un estimador de i está dado por ˆi Yi. y las hipótesis dados anteriormente puede
ser expresado como:

H0 : 1  2   t , contra
Ha : al menos dos i son diferentes

El procedimiento de prueba adecuado para probar estas hipótesis es el Análisis de Variancia,


el cual consiste en descomponer la variabilidad total en sus fuentes. Esto es,

Y Y   n Y Y   Y Y 
t ni t t ni
2 2 2
ij .. i i. .. ij i.
i1 j 1 i1 i1 j 1

donde:

SCTotal  Yij Y..   Yij2 


ni ni
t 2 t
Y..2
= Medida de la variación total
i1 j1 i1 j1 n.

SCTrat  ni Yi. Y..    i.  .. = Medida de la variación que existe entre los
t 2 t
Y2 Y2
i1 i1 ni n.
tratamientos.
SCE  Yij Yi.   Yij2  i. = Medida de la variación que existe dentro de
t ni t ni
2 t
Y2
i1 j 1 i1 j 1 i1 ni
cada tratamiento.
Se puede observar que:

SCE  SCTotal SCTrat


Además al término:
Y..2
TC 
n.

Cuadrados Medios y sus Valores Esperados:

Los cuadrados medios se define como el cociente entre la suma de cuadrados y sus
respectivos grados de libertad. Para un DCA se tiene:

CMTrat  SCTrat / t 1


CME  SCE/ n. t 

Se puede demostrar que para modelo de efectos fijo (modelo I):

n
t
2

ECMTrat 2  i1


i i

t 1
ECME  2

Para modelo de efectos aleatorio (modelo II)


 i ni
n 
ni2
ECMTrat  rd , siendo rd 
2 2
t 1
ECME  2

Se puede observar el CME es un estimador insesgado de la variancia común 2


Luego, esto puede ser representado en el siguiente cuadro llamado cuadro de ANVA

Fuente de Suma de Grados de Cuadrados Medios Fc


Variación Cuadrados Libertad
Entre SCTrat t 1 CMTrat  SCTrat / t 1 CMTrat
Tratamiento CME
Dentro de SCE n. t CME  SCE/ n. t 
Tratamiento
Total SCTotal n. 1
Entonces, bajo la asunción de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y variancia común y bajo la H0 se puede demostrar
que

CMTrat
F ~ Ft1,n. t
CME
Luego para probar H0 se puede usar esta Estadística de Prueba, se rechaza H0 si
Fc  F1;t1,n. t .

Muchos investigadores utilizan la siguiente escala para reportar sus resultados:

- Si el pvalue ≥0.10 la prueba resulta no significativa y no se rechaza H0, el R lo deja en


Blanco
- Si 0.05≤pvalue<0.10 la prueba resulta significativa 0.10 En este caso el R coloca un
punto. Steel y Otros (1997) recomienda: si el tamaño de muestra es grande no se
rechaza H0; pero si el tamaño de muestra es pequeño H0 puede ser rechazado.
- Si 0.01≤pvalue<0.05, la prueba resulta altamente significativa, el paquete R coloca (* )
Se rechaza H0.
- Si 0.001≤pvalue<0.01, la prueba resulta altamente significativa, el paquete R coloca
(**), se rechaza H0.
- Si el pvalue<0.001, la prueba resulta muy altamente significativa, el paquete R coloca
(***), se rechaza H0.

Coeficiente de Variabilidad:

Una medida que permite medir cuan homogéneo el conjunto de unidades experimentales
usadas está dado por el coeficiente de variabilidad, el cual se define:

CME
cv  100
Y..
En experimentos agrícolas se considera un coeficiente aceptable si cv 25%.
Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulación
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realizó un experimento con 24
animales de características similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuación.

Tratamientos
A B C D
62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
66 68 64
63
59

Yi. 244 396 408 488


ni 4 6 6 8
Yi. 61 66 68 61

Modelo aditivo lineal

Yij   i ij para i 1, 2,3, 4


j 1, 2, , ni
donde:
Yij = Es el tiempo de coagulación que se obtiene del j-ésimo animal que recibió la dieta i .

 = Es el parámetro común para todos los tratamientos llamado media común.


 i = Es el parámetro que representa el efecto verdadero de la i -ésima dieta.

ij = Es un componente aleatorio, comúnmente llamado error

Una posible aleatorización de los tratamientos está dado por


> trt <- c("A", "B", "C","D")
> repeticion <- c(4,6,6,8)
> outdesign <- design.crd(trt,r=repeticion,seed=755,serie=0)
> outdesign
$parameters
$parameters$design
[1] "crd"

$parameters$trt
[1] "A" "B" "C" "D"

$parameters$r
[1] 4 6 6 8

$parameters$serie
[1] 0

$parameters$seed
[1] 755

$parameters$kinds
[1] "Super-Duper"

$parameters[[7]]
[1] TRUE

$book
plots r trt
1 1 1 C
2 2 2 C
3 3 1 A
4 4 1 B
5 5 1 D
6 6 3 C
7 7 2 B
8 8 4 C
9 9 2 A
10 10 3 A
11 11 5 C
12 12 3 B
13 13 4 B
14 14 2 D
15 15 5 B
16 16 3 D
17 17 4 D
18 18 5 D
19 19 6 D
20 20 7 D
21 21 6 C
22 22 8 D
23 23 4 A
24 24 6 B

Efectos estimados

ˆ1 Y1 Y  6164 3


ˆ2 Y2 Y  6664  2
ˆ3 Y3 Y  6864  4
ˆ4 Y4 Y  6164 3
Algunos residuales

e11 Y11 Y1  62611


e22 Y22 Y2  67 66 1
e31 Y31 Y3  6868  0

Valores Predichos

Yˆ1j Y1  61 para j 1, ,4


Yˆ2 j Y2  66 para j 1, ,6
Yˆ3 j Y3  68 para j 1, ,6
Yˆ4 j Y4  61 para j 1, ,8

Análisis de variancia

Y..  Yij  62  60   59 1536, Y


4 ni 4 ni
2
ij  622  602  592  98644 ,
i1 j 1 i1 j 1

Y..2 1536
2

 Yi.2 2442 3962 4082 4882


4
TC    98304,      98532
n. 24 i1 ni 4 6 6 8

SCTrat   TC  98532 98304  228,


Yi.2 4

i1 ni

SCTotal  Yij2 TC  98644 98304  340


4 ni

i1 j1
SCE  SCTotal SCTrat 340228112

Fuente de Variación SC GL CM F
Entre Dietas (tratamientos) 228 3 76 13.57
Dentro de dietas (residual) 112 20 5.6
Total 340 23

Hp :1 2 3 4  0


Ha : Al menos dos i  0

CMTrat 76
Fc   13.57
CME 5.6
F0.95,3,20  3.10, F0.99,3,20)  4.94, Se rechaza H0
> pvalue<-1-pf(13.57,3,20)
> pvalue
[1] 4.66169e-05

La prueba resulta muy altamente significativa, se rechaza H0, se ha encontrado suficiente


evidencia estadística para afirmar que al menos dos de las dieta influye significativamente
sobre el tiempo de coagulación.

Diagnóstico de cumplimiento de Supuestos

1.- Introducción

Las suposiciones que se hacen sobre el modelo para realizar estimación por intervalo y
pruebas de hipótesis sobre los parámetros son:

1.- modelo aditivo lineal


2.- El término de error  tiene media cero.
3.- El término de error  tiene variancia constante 2 .
4.- Los errores no están correlacionados.
5.- Los errores se distribuyen normalmente.

Las suposiciones 4 y 5 implican que los errores son variables aleatorias independientes.
Violaciones de estos supuestos, sobretodo de los supuestos 3, 4 y 5, le resta validez a la
prueba de hipótesis realizada en el ANVA y a las pruebas de comparaciones múltiples.

En este capítulo, se presenta varios métodos útiles para realizar el diagnóstico y tratamiento
de las violaciones de las suposiciones básicas en el análisis de variancia

2.- Definición de Residuos

Un residuo se define:

eij Yij Yˆij , j 1,2, , ni y i 1,2, , t


donde:
Yij es una observación y Yˆij el valor ajustado correspondiente. Esto es

Yˆij  ˆ ˆi Y.. Yi. Y.. Yi.

Desde que el residuo es una desviación entre el valor observado y el ajustado, entonces es una
medida de variabilidad no explicada por el modelo. De esta manera, cualquier violación de
las suposiciones del modelo debe ser mostrada por el residual. También puede pensarse que
los residuos son valores observado de los errores. Esto último no es cierto

Propiedades de los residuales

1) La media de los residuales es igual a cero.


2) La variancia promedio aproximada es:
e
t ni
2
ij
SCE
CME  it1 j1

n t n t
t
i i
i1 i1

3) Los residuales no son independientes. Esta dependencia de los residuales tiene un pequeño

n no sea pequeño.
t
efecto sobre su uso para investigar la calidad del modelo mientras i
i1

Residual Estandarizado

Muchas veces es más útil trabajar con los residuales estandarizados, los cuales se define:

eij
dij  , j 1, 2, , ni y i 1,2, , t
CMError 1hi,i 

Siendo el elemento i de la diagonal de la siguiente matriz hat H XXX


 - X donde

1n11 1n11 0n11 0n11 


 
X   n21 n21 n21
1 0 1 0n21 
 , XX
 - es la inversa generalizada de XX

 
1nt 1 0nt 1 0nt 1 1nt 1 

El residuales estandarizado tiene media cero y una variancia aproximadamente igual a la


unidad.

Los residuales estandarizados:

son también útiles para detectar violaciones al supuesto de normalidad. Si los errores están
distribuido normalmente, entonces aproximadamente el 68% de los residuales podrían caer
entre –1 y +1, y aproximadamente el 95% podrían caer entre –2 y +2 desviaciones
sustanciales de estos límites indican violación potencial de la suposición de normalidad. Si n
es pequeño, se reemplaza los límite 1 y 2 con los correspondiente valores de la
distribución de tGLE . El examen de los residuales estandarizados realizado de esta manera es
también útil para identificar valores extremos.

Chequeo de Modelo Aditivo Lineal

Mediante el gráfico de la regresión no paramétrica de los valores predichos sobre los


residuales (llamado Lowes) que el paquete R da en el primer gráfico al usar el comando
plot(modelo) si la línea sobrepone a la recta y=0 o está en entorno muy cerca a esta línea
entonces se puede aceptar que cumple con el supuesto de modelo aditivo lineal; En caso
contrario la forma de este lowes representa la falta de ajuste del modelo.
Chequeo de supuestos de Normalidad

Para chequear este supuesto se puede realizar


1) Mediante gráfico de probabilidad Normal, los residuales estandarizado debe
sobreponer o estar en un entorno muy cercano a la recta que contiene los cuantiles de
la distribución normal estándar.
2) Realizar la prueba de normalidad de Anderson Darling

Chequeo de Homogeneidad de variancia

1) Gráfico de Caja, este gráfico no sólo permite visualizar si existe homogeneidad de


varianza, sino si existe valores extremos. Además permite también realizar una
comparación gráfica entre tratamientos. (solo para DCA).

2) Gráfico de los residuales versus los valores predichos. Aparte de chequear


homogeneidad de varianza, permite detectar valores extremos y falta de ajuste del
modelo. Todos los residuales debe distribuirse uniformemente en una banda del
mismo ancho.

3) Gráfico de los valores predichos versus la raíz cuadrada de los valores absolutos de los
residuales estandarizados: el paquete R proporciona este gráfico más la curva estimada
de la regresión Lowes que se obtiene con estos valores. El Lowes o parte no debe tener
una tendencia marcada o la variabilidad de la raíz cuadrada de los valores absolutos de
los residuales debe estar en una banda uniforme o no

4) Mediante prueba de Homogeneidad de variancia: Prueba de Bartlett o Levine (solo


para DCA) mediante la prueba de Breusch y Pagan

Gráfico de residuales versus valores predichos ŷ


Este gráfico es útil para detectar varios tipos comunes de modelos inadecuados, y puede ser
de las siguientes formas:

Los residuales caen dentro de una banda, el modelo es adecuado

5) Pruebas de Homogeneidad de variancia. Prueba de Bartlett o de Levene (solo para DCA) o


mediante la prueba

a) Prueba de Bartlett para Homogeneidad de Variancia en DCA

H0 :12 22  t2


Ha : Al menos dos i2 son diferentes

la estadística de prueba está dado por

 t a
c2  1  ni t lnCME ni 1lnSi2  ~2t1 / H0 es verdadera
t

C  i1  i1 
Yij Yi.  Y
ni ni
2
ij
donde: S 
2 j1
, siendo Yi  j1
, para i 1, 2, , t ,
i
ni 1 ni

 
n 1 S
t
2
 t 
1  1 
3t 1 
i i
SCE 1 
CME   Sp2  i1
y C 1  
 t
i1  ni 1
ni t n t  ni 1
t t

i1 i1
i  i1 

Se rechaza H0 a un nivel de significación  , si c2  21,t1 .

Ejemplo: Con los datos de tiempo de Coagulación

Tratamientos
A B C D
62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
66 68 64
63
59

Yi. 244 396 408 488


ni 4 6 6 8
Yi. 61 66 68 61

Y
ni 14894 26176 27758 29816
2
ij
j 1

Si2 3.333333 8 2.8 6.857143

H0 :A2 B2 C2 D2


Ha : Al menos dos i2 son diferentes

1 1 1 1 1 1  1.091799
C 1 (    )
3*4 1  3 5 5 7 35 5  7

c2  1 20ln5.6 3ln3.333333 5ln8 5ln2.8  7ln6.857143


1.091799
c 1.667956
2

20.95,3  7.815, se acepta H0


> coag<-read.table("coag.txt",T)
> coag
Tiempo dieta aleatorizacion
1 62 A 4
2 60 A 15
3 63 A 24
4 59 A 9
5 63 B 12
6 67 B 18
7 71 B 22
8 64 B 17
9 65 B 8
10 66 B 5
11 68 C 2
12 66 C 19
13 71 C 13
14 67 C 7
15 68 C 23
16 68 C 20
17 56 D 1
18 62 D 14
19 60 D 3
20 61 D 6
21 63 D 10
22 64 D 11
23 63 D 16
24 59 D 21
> mod<-lm(Tiempo~dieta,coag)
> summary(aov(mod))
Df Sum Sq Mean Sq F value Pr(>F)
dieta 3 228 76.0 13.57 4.66e-05 ***
Residuals 20 112 5.6
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> par(mfrow=c(2,2))
> plot(mod)
Residuals vs Fitted Normal Q-Q
4 6

Standardized residuals
7 7

2
Residuals

1
-2 0

0
-1
5 5

-2
17
-6

17

61 63 65 67 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage


Standardized residuals

1.5

Standardized residuals

17 7
7 0.5
2

5
1.0

1
0
0.5

-2 -1

5
Cook's distance
0.0

17 0.5

61 63 65 67 0.00 0.10 0.20

Fitted values Leverage

> ri<-rstandard(fit1)

> sort(ri)
17 5 4 12 8 24 2
-2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500
14 9 19 10 11 15 16
-0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000
20 18 6 1 21 23 3
0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001
22 13 7
1.3552619 1.3887301 2.3145502

> sort(predict(fit1))
17 18 19 20 21 22 23 24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
61 61 61 61 61 61 61 61 61 61 61 61 66 66 66 66 66 66 68 68 68 68 68 68

Análisis de los gráficos:

Gráfico Nº 1: La regresión no paramétrica de los valores predichos sobre los residuales se


desvía ligeramente de la recta y=0, esto indica que posiblemente se cumpla con el supuesto de
modelo aditivo lineal. También se puede observar que la variabilidad de los residuales se
mantiene casi constante cuando los valores predichos aumenta de 61 a 66 luego decrece
cuando el valor predicho aumenta 66 a 68, pero cuando el valor predicho toma el valor de 68
solo se tiene los residuales de 6 observaciones, las cuales tiene una variabilidad menor que
cuando el valor predicho toma el valor 66 (correspondiente a 6 residuales), Finalmente
cuando el valor predicho toma el valor de 61 (correspondiente 12 residuales) los residuales
tiene una variabilidad casi igual a la variabilidad de los residuales cuando el valor predicho
toma el valor 66. Luego es posible que la variabilidad de los residuales cuando el valor
predicho toma el valor de 68 no afecte el cumplimiento del supuesto de homogeneidad de
varianzas debido a que esa disminución en la variabilidad corresponde a solo 6 observaciones.

Grafico Nª 3: en cuanto a la variabilidad observada en el primer gráfico puede ser corroborado


en el tercer gráfico, en donde el gráfico de la regresión no paramétrica de los valores predicho
sobre la raíz cuadrada de los valores absolutos de los residuales estandarizado permanece
constante cuando el valor predicho aumenta de 61 a 66 para luego decrecer cuando el valor
predicho aumenta a 68. Esta disminución se debe solo a 6 residuales estandarizados. Esto
corrobora que es posible que se cumpla con el supuesto de homogeneidad de varianzas.

Gráfico Nº 2: se puede observar que los cuantiles de los residuales estandarizados casi
sobrepone a la recta que contiene los cuantiles teórico de la distribución normal estándar esto
estaría indicando que posiblemente se cumpla con el supuesto de distribución normal de
errores

Gráfico Nº 4: Se puede observar que los únicos residuales estandarizados que sobrepasan los
límites ±2 corresponden a las observaciones 7 y 17, pero no son influyentes debido a que no
sobrepasan el límite 0.5. de la distancia de Cook

> shapiro.test(ri)
H0 : La distribución de los errores es Normal
H1 : La distribución de los errores no es Normal

Shapiro-Wilk normality test

data: ri
W = 0.9822, p-value = 0.9322
> ad.test(ri)

Anderson-Darling normality test

data: ri
A = 0.2598, p-value = 0.6814

En ambas pruebas resulta no significativas a un nivel del 10%, se acepta la hipótesis planteada
o nula, se puede aceptar que los errores se distribuyen normalmente.
> bartlett.test(Tiempo~dieta,coag)

Bartlett test of homogeneity of variances

data: Tiempo by dieta


Bartlett's K-squared = 1.668, df = 3, p-value = 0.6441

b) Prueba de Levene para Homogeneidad de Varianza DCA

La prueba de Levene es una alternativa a la prueba de Bartlett. Es menos sensitivo que la


prueba de Bartlett al incumplimiento del supuesto de normalidad. Si se tiene una fuerte
evidencia que sus datos provienen de una distribución normal o casi normal, entonces la
prueba de Bartlett es mejor.

Para realizar la prueba de Levene se sigue el siguiente procedimiento:

H0 :12 22  t2


Ha : Al menos dos i2 son diferentes

Estadístico de prueba

Se extraído k muestra aleatoria, la i -ésima muestra es de tamaño ni , en cada muestra se ha


observado una característica Y . Luego, el estadístico de prueba de Levene se define:

n kni Zi Z 2
k

W i1

k 1Zij  Zi 2
k ni

i1 j1
donde Zij puede ser:

1.- Zij  Yij Yi , siendo Yi es la media de las observaciones obtenida de la muestra i
2.- Zij  Yij Yi , siendo Yi es la mediana de las observaciones obtenida de la muestra i .
3.- Zij  Yij Yi , siendo Yi es la media truncada del 10% de las observaciones obtenida de la
muestra i .
La media truncada del 10% calcula la media de los datos comprendido entre el 5to percentil y
el percentil 95.

Yij es la j-ésima observación sobre la variable Y obtenida de la muestra i . La


En (1), (2) y (3)
selección de cuál de los Zij determina la robustez y poder de la prueba de Levine. Por
robustez se entiende la habilidad de la prueba de no detectar falsamente variancias desiguales
cuando los datos no se distribuyen normalmente y las variancias son iguales. Por poder de
prueba se entiende a la habilidad de la prueba detectar variancias desiguales cuando de hecho
estas son desiguales.

El artículo original de Levene propuso la prueba usando solamente la media. Brown y


Forsythe (1974) extendieron la prueba usando la mediana y la media truncada. Ellos mediante
estudios realizados con el método de Monte Carlos llegaron a la conclusión de que el uso de
la media truncada tiene mejor comportamiento cuando los datos siguen una distribución de
Cauchy y la mediana cuando los datos siguen una distribución Chi cuadrado con 4 grados de
libertad (esto es para distribuciones sesgada). En cambio el uso de la media proporciona mejor
poder para distribuciones simétricas de cola moderada.

Aunque la elección óptima depende de la distribución subyacente, la definición sobre la base


de la mediana se recomienda como la opción que ofrece buena robustez frente a muchos tipos
de datos no normales, manteniendo una buena potencia. Si usted tiene conocimiento de la
distribución subyacente de los datos, esto puede indicar mediante una de las otras opciones.
En la prueba de Levene se rechaza la hipótesis que la variancia son iguales si

W  F1,k1,Nk
> library(car)
> leveneTest(Tiempo~dieta,coag)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.6492 0.5926
20
c) Prueba de Score para varianza del error no constante

Breusch y Pagan (1979), y Cook y Weisberg (1983) sugiere una prueba de puntaje (score)
para la variancia de los errores no constante en un modelo lineal, basado sobre la relación:
vari   g0 1zi1   pzip 
Aquí los zi son predictores de la variancia del error y la función g  de los predictores
lineales 0 1zi1   p zip no se necesita ser conocido. En aplicaciones típicas son los mismo
predictores del modelo lineal (esto es los x s), o sólo hay un z , el valor ajustado ŷ desde el
modelo lineal, en tal caso se realiza una prueba de dependencia de la dispersión con los
niveles.
Esta prueba ha sido implementada en la librería car del paquete R mediante la función
ncvTest para probar la dependencia sobre los niveles. En este caso la hipótesis planteada está
dado por:

H0 :La variancia del error es constante


Contra la alternativa
H1 :La variancia del error no es constante
> library(car)
> ncvTest(mod)

Non-constant Variance Score Test


Variance formula: ~ fitted.values
Chisquare = 0.1454082 Df = 1 p = 0.7029627

Se puede observar que en los residuales pruebas de homogeneidad de variancia los pvalue>
0.1. Luego la hipótesis de homogeidad de varianzas no se rechaza se puede aceptar que
cumple con el supuesto de homogeneidad de variancia
Chequeo de independencia

Gráfico de los residuales versus aleatorización o orden de observación.

a) Los residuales versus la secuencia en que fueron recolectados o orden de aleatorización:

Figura No 1, autocorrelación positiva


4
2
residuales

0
-2
-4

5 10 15 20

tiempo

Figura No 2, autocorrelación negativa


6
4
2
residuales

0
-2
-4
-6

5 10 15 20

tiempo
vs. orden
(la respuesta es Tiempo)

5.0

2.5
Residuo

0.0

-2.5

-5.0
2 4 6 8 10 12 14 16 18 20 22 24
Orden de observación

> mod<-lm(Tiempo~dieta,coag)
> ei<-residuals(mod)
> data.frame(coag,ei)
Tiempo dieta aleatorizacion ei
1 62 A 4 1.000000e+00
2 60 A 15 -1.000000e+00
3 63 A 24 2.000000e+00
4 59 A 9 -2.000000e+00
5 63 B 12 -3.000000e+00
6 67 B 18 1.000000e+00
7 71 B 22 5.000000e+00
8 64 B 17 -2.000000e+00
9 65 B 8 -1.000000e+00
10 66 B 5 1.402687e-16
11 68 C 2 1.125131e-16
12 66 C 19 -2.000000e+00
13 71 C 13 3.000000e+00
14 67 C 7 -1.000000e+00
15 68 C 23 1.125131e-16
16 68 C 20 1.125131e-16
17 56 D 1 -5.000000e+00
18 62 D 14 1.000000e+00
19 60 D 3 -1.000000e+00
20 61 D 6 2.924635e-17
21 63 D 10 2.000000e+00
22 64 D 11 3.000000e+00
23 63 D 16 2.000000e+00
24 59 D 21 -2.000000e+00

Para construir el siguiente archivo: aleat.txt copiar el conjunto de datos obtenidos con el
comando data.frame y pegar en la hoja de trabajo del Minitab desplazar los nombres a una casilla
a la derecha e eliminar la columna de numeración de los datos copiar los datos obtenidos en una
hoja de excel y ordenar el conjunto de datos de acuerdo a la columna de aleatorización de menor
a mayor, luego copiar el conjunto de datos obtenidos en block de notas grave este archivo con
un nombre diferente a coag.txt, por ejemplo aleat.txt.

> aleat
Tiempo dieta aleatorizacion ei
1 56 D 1 -5
2 68 C 2 0
3 60 D 3 -1
4 62 A 4 1
5 66 B 5 0
6 61 D 6 0
7 67 C 7 -1
8 65 B 8 -1
9 59 A 9 -2
10 63 D 10 2
11 64 D 11 3
12 63 B 12 -3
13 71 C 13 3
14 62 D 14 1
15 60 A 15 -1
16 63 D 16 2
17 64 B 17 -2
18 67 B 18 1
19 66 C 19 -2
20 68 C 20 0
21 59 D 21 -2
22 71 B 22 5
23 68 C 23 0
24 63 A 24 2

> plot(ei~aleatorizacion,ty="l",aleat)
4
2
RESID1

0
-2
-4

5 10 15 20

aleatorizacion

> mod1<-lm(Tiempo~dieta,aleat)
> library(zoo)
> library(lmtest)
> dwtest(mod1,alternative="two.sided")

Durbin-Watson test

data: mod1
DW = 2.3125, p-value = 0.396
alternative hypothesis: true autocorrelation is not 0
> dwtest(mod1,alternative="less")

Durbin-Watson test

data: mod1
DW = 2.3125, p-value = 0.198
alternative hypothesis: true autocorrelation is less than 0
> dwtest(mod1,alternative="greater")

Durbin-Watson test

data: mod1
DW = 2.3125, p-value = 0.802
alternative hypothesis: true autocorrelation is greater than 0

Gráfico de leverage vs residuales estandarizados

Permite detectar valores extremos y leverages y corresponde al cuarto gráfico que


presenta el comando plot(mod).

Estimación del Número de Réplicas para la prueba de F en el ANVA en un DCA

Para probar la H0 :1 2  t  0 se usa la estadística

CMTrat
F0 
CME
Esta estadística tiene una distribución F central con v1  t 1 y v2  r t 1 grados de
libertad si H0 es verdadera.
Dentro de una prueba de hipótesis se puede cometer dos tipos de errores. Error tipo I y
error tipo II. Generalmente una prueba de hipótesis el investigador fija la probabilidad
de cometer error tipo I (el nivel de significación  ) pero no la probabilidad de cometer
error tipo II,  . La potencia de prueba es la probabilidad de rechazar la hipótesis nula
cuando esta es falsa; esto es 1   PF  F1,v1,v2  H0 es falsa , esta variable F tiene
una distribución F no central con v1  t 1, v2  r t 1 grados de libertad y parámetro
ri2
de no centralidad  . Los valores de los efectos de los tratamientos y de 2 ,
 2

pueden ser reemplazados por sus estimados basados de un experimento similar o


preliminar, así como el valor de la variancia común por el CME. Luego fijando los
valores de  y  , se puede hacer un programa en lenguaje R como el se muestra a
continuación:
nrepdca<-function(y,trat,t,r1,a,b){trat<-as.factor(trat)
y<-as.vector(y)
mod<-lm(y~trat)
efectos<-coefficients(mod)
trat1<-sum(y[1 :r1])/r1-mean(y)
etrat1<-efectos[2 :t]+trat1
etrat<-c(trat1,etrat1)
v2p<- mod$df.residual
cme<-deviance(mod)/v2p
scef<-sum(etrat^2)
v1<-t-1
fo<-qf(1-a,v1,v2p)
r<-0
pot1<-0
pot<-1-b
while(pot1<pot){r<-r+1
v2<-r*(t-1)
lamda<-(r*scef)/cme
pot1<-1-
pf(fo,v1,v2,lamda)
}
valor<-c(r,pot1)
caract<-c("replica","potencia")
nrep<-data.frame(caract,valor)
nrep
}

Para el ejemplo de coagulación se tiene:

> nrepdca(tiempo,dieta,4,4,0.05,0.1)
caract valor
1 replica 3.000000
2 potencia 0.927757

También, se puede utilizar método gráfico basado en el gráfico de la probabilidad de


r i2
cometer error tipo II,  y de una variable   que está en función del parámetro
t 2
de no centralidad. Estos gráficos pueden ser encontrados en el apéndice V del libro de
Montgomery.

Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son
elegidos al azar de una población grande. En este caso se considera el siguiente modelo:

Yij   i ij para i 1, 2, , t


j 1, 2, , ni

En este modelo, se asumen que los ij ~ NID0,2  , y que los efectos  i son variables
aleatorias independientes distribuidas normalmente con media cero y variancia común 2 .
Esto es:

i ~ NID0, 2 
A 2 y 2 se le conoce con el nombre de componentes de variancias, debido a que la
variancia de una observación puede ser expresada como:
var yij  2 2

En este caso el parámetro de interés es la variancia de los efectos 2 . Si 2  0 todos
los efectos de los tratamientos son iguales, si   0 existe variabilidad entre estos
2

efectos. En este caso, el interés del investigador es probar si existe una variabilidad
significativa los efectos de los tratamientos. Esto es

H0 :2  0
H1 :2  0
Se puede demostrar que bajos estas suposiciones ( ij ~ NID0,2  y i ~ NID0, 2  ),
en el cuadro de ANVA se cumple:

 i ni
n 
ni2
ECMTrat  rd , siendo rd 
2 2
t 1
ECME  2

Luego, para probar H0 :2  0 contra la alternativa H1 :2  0, se puede usar la


siguiente estadística de prueba:

CMTrat
Fc  ~ Ft1,n t H0 es verdadera
CME

Se rechaza H0 :2  0 a un nivel de significación  si Fc  F1,t1,n t

De los esperados cuadrados medios, se puede observar que los estimadores insesgados de
2 y 2 está dado por

ˆ2 CME y ˆ2  CMTrat CME ,


rd
respectivamente. Si n1  n2   nt  r , entonces

ˆ2  CMTrat CME


r
Ejemplo: Una compañía textil que confecciona un tipo de fibra posee un número muy
grande de telares. En la producción de fibra es importante que produzca fibra con
resistencia uniforme. Se sospecha, que adicionalmente a la variación usual en la
resistencia de las fibras producidas por un telar, existen variaciones en la resistencia de
fibras producidas entre los telares. Para investigar esto, se selecciona 5 telares al azar y se
realiza 4 determinaciones por cada telar. Este experimento fue conducido bajo un diseño
completamente azar. Realice el ANVA y pruebe la hipótesis respectiva.
Telares
T1 T2 T3 T4 T5
42 48 50 55 44
45 47 52 54 45
43 49 53 53 46
44 47 51 54 43

> telares<-read.table("telares.txt",T)
> modte2<-lm(resist~telares,data=telares)
> modte2

Call:
lm(formula = resist ~ telares, data = telares)

Coefficients:
(Intercept) telaresb telaresc telaresd telarese
43.50 4.25 8.00 10.50 1.00

> summary(aov(modte2))
Df Sum Sq Mean Sq F value Pr(>F)
telares 4 322.0 80.50 61.14 4.17e-09 ***
Residuals 15 19.8 1.32
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

H0 :2  0
Ha :2  0
En este caso la prueba resultó altamente significativa, ya que

CMTrat
Fc   61.139 con un P-value=0.000000004175.
CME
Luego los componentes de variancia estimados están dado por:

CMTrat CME 80.51.32


ˆ2 CME 1.32 y ˆ2   19.795
r 4
Para ver si esta prueba es válida se debe realizar un análisis de residuales
> par(mfrow=c(2,2))
> plot(modte2)
Residuals vs Fitted Normal Q-Q

Standardized residuals
1.5

1.5
2 2
Residuals

0.5

0.5
-1.5 -0.5

-0.5
-1.5
1 9 1 9

44 46 48 50 52 54 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Constant Leverage:
Scale-Location Residuals vs Factor Levels
Standardized residuals

1.2

Standardized residuals

2
1 9
1.5

2
0.8

0.5
-1.5 -0.5
0.4
0.0

1 9

telares :
44 46 48 50 52 54 a c d e b

Fitted values Factor Level Combinations

> sort(predict(modte2))
1 2 3 4 17 18 19 20 5 6 7 8 9
43.50 43.50 43.50 43.50 44.50 44.50 44.50 44.50 47.75 47.75 47.75 47.75 51.50
10 11 12 13 14 15 16
51.50 51.50 51.50 54.00 54.00 54.00 54.00

Gráfico Nº 1: La regresión no paramétrica de los valores predichos sobre los residuales se desvía
ligeramente de la recta y=0, esto indica que posiblemente se cumpla con el supuesto de modelo
aditivo lineal. También se puede observar que la variabilidad de los residuales se mantiene casi
constante cuando los valores predichos aumenta de 43.5 a 44.5 luego decrece cuando el valor
predicho aumenta 44.5 a 47.75, pero cuando el valor predicho toma el valor de 47.75 solo se
tiene los residuales de 4 observaciones, luego aumenta cuando toma un valor predicho de 51.5
(correspondiente a 4 residuales), Finalmente cuando el valor predicho toma el valor de 54
(correspondiente 4 residuales) los residuales tiene una variabilidad casi igual a la variabilidad de
los residuales cuando el valor predicho toma el valor 47.75. Luego es posible que la variabilidad
de los residuales cuando el valores predichos tomen los valores de 47.75 o de 54 no afecte el
cumplimiento del supuesto de homogeneidad de varianzas debido a que esa disminución en la
variabilidad corresponde a solo 8 observaciones.
Grafico Nª 3: en cuanto a la variabilidad observada en el primer gráfico puede ser corroborado en
el tercer gráfico, en donde el gráfico de la regresión no paramétrica de los valores predicho sobre
la raíz cuadrada de los valores absolutos de los residuales estandarizado si bien es decreciente
pero muy cercano a una recta con un valor absoluto de la pendiente menor que 1 Esto corrobora
que es posible que se cumpla con el supuesto de homogeneidad de varianzas.

Gráfico Nº 2: se puede observar que los cuantiles de los residuales estandarizados casi sobrepone
a la recta que contiene los cuantiles teórico de la distribución normal estándar con excepción del
residual estandarizado de la observación 1 que se aleja un poco más que el resto de los cuantiles
de los residuales estandarizados, de la recta que contiene los cuantíles teórico de la distribución
normal estándar, el cual no afectaría el cumplimiento del supuesto de normalidad de errores. Por
lo tanto se puede aceptar que cumple con el supuesto de distribución normal de errores

Gráfico Nº 4: Se puede observar no hay residuales estandarizados que sobrepasan los límites ±2
por lo tanto no hay valores extremos

H0 : La distribución de los errores es Normal


H1 : La distribución de los errores no es Normal

> ri<-rstandard(modte2)
> shapiro.test(ri)

Shapiro-Wilk normality test

data: ri
W = 0.9308, p-value = 0.1601

A un nivel de significación del 10% se acepta H0 ; es decir, se puede aceptar que los errores se
distribuye normalmente.

> library(car)
Loading required package: MASS
Loading required package: nnet

> ncvTest(modte2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.4140372 Df = 1 p = 0.5199275

> summary(aov(modte2))
Df Sum Sq Mean Sq F value Pr(>F)
telares 4 322.0 80.50 61.14 4.17e-09 ***
Residuals 15 19.8 1.32
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> y<-telares[,1]
> telar<-telares[,2]
> yp<-tapply(y,telar,mean)
> my<-mean(y)
> ti<-yp-my
> ti
a b c d e
-4.75 -0.50 3.25 5.75 -3.75

H0 : La distribución de los efectos de los telares sobre la resistencia de la fibra es Normal


H1 : La distribución de los efectos de los telares sobre la resistencia de la fibra no es Normal
> shapiro.test(ti)

Shapiro-Wilk normality test

data: efectos1
W = 0.9334, p-value = 0.6197

A un nivel de significación del 10% se acepta la hipótesis nula o planteada. Por lo tanto, se puede
aceptar que los efectos de los telares sobre la resistencia de la fibra tiene una distribución normal.

También podría gustarte