Diseno Completamente Randomizado o Al Azar
Diseno Completamente Randomizado o Al Azar
Diseno Completamente Randomizado o Al Azar
Introducción
Este diseño experimental es el más simple de todos los diseños experimentales y útil cuando
las unidades experimentales son esencialmente homogéneas; es decir cuando la variación
entre ellas es pequeña que al agruparlas en bloques la ganancia en precisión sería
insignificante. En este diseño los tratamientos se asignan aleatoriamente a las unidades
experimentales sin imponer restricción. Es decir, cada unidad experimental tiene la misma
oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de
números aleatorios.
Con el R
> library(agricolae)
> trt <- c("A", "B", "C")
> repeticion <- c(5, 5, 5)
> outdesign <- design.crd(trt,r=repeticion,seed=777,serie=0)
> summary(outdesign)
> outdesign
$parameters
$parameters$design
[1] "crd"
$parameters$trt
[1] "A" "B" "C"
$parameters$r
[1] 5 5 5
$parameters$serie
[1] 0
$parameters$seed
[1] 777
$parameters$kinds
[1] "Super-Duper"
$parameters[[7]]
[1] TRUE
$book
plots r trt
1 1 1 B
2 2 1 A
3 3 2 A
4 4 3 A
5 5 1 C
6 6 2 B
7 7 3 B
8 8 2 C
9 9 4 B
10 10 4 A
11 11 3 C
12 12 4 C
13 13 5 B
14 14 5 A
15 15 5 C
Ventajas
Desventajas
1.- Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variación
entre las unidades experimentales excepto a la debida a los tratamientos.
2.- Solo es aplicable en situaciones en las que el material experimental es homogéneo.
Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con
ni repeticiones y de cada unidad experimental se obtiene una observación. Luego, se obtiene
el siguiente cuadro de datos:
Totales Nº de Media
observaciones
1 Y11 Y12 Y1n1 Y1. n1 Y1.
Tratamiento
2 Y21 Y22 Y2n2 Y2. n2 Y2.
Y , Y Yn , para i 1, 2,
ni
Donde: Yi. ij i.
i.
,t
j1 i
Para las pruebas de hipótesis se asume que ij es una variable independiente distribuida
normalmente con media cero y variancia común 2 (esto es, ij ~ N0,2 ).
En un diseño experimental de acuerdo con el tipo de efecto que se desea analizar se presenta
dos tipos de modelo:
Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o
fijado por el investigador.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al
azar de una población grande.
En un modelo de efectos fijos, los efectos de los tratamientos son definidos como
desviaciones con respecto a la media común, de manera tal que:
0
t ni
i
i1 j 1
Q
2Yij ˆ ˆi 0
t ni
Q
2Yij ˆ ˆi 0, para i 1,2, t
ni
Lo cual es equivalente a:
i j 1
ni ˆ niˆi Yi. para i 1,2, t
nˆ 0
t
i i
i1
n.ˆ Y..
ni ˆ niˆi Yi. para i 1,2, t
ˆ Y.. Y..
n.
ˆi Yi. Y.. Yi Y.. para i 1,2, t
ni
Al valor
Yˆij ˆ ˆi
Yˆij Yi. , para i 1,2, t , j 1, 2, ni
entonces un estimador de i está dado por ˆi Yi. y las hipótesis dados anteriormente puede
ser expresado como:
H0 : 1 2 t , contra
Ha : al menos dos i son diferentes
Y Y n Y Y Y Y
t ni t t ni
2 2 2
ij .. i i. .. ij i.
i1 j 1 i1 i1 j 1
donde:
SCTrat ni Yi. Y.. i. .. = Medida de la variación que existe entre los
t 2 t
Y2 Y2
i1 i1 ni n.
tratamientos.
SCE Yij Yi. Yij2 i. = Medida de la variación que existe dentro de
t ni t ni
2 t
Y2
i1 j 1 i1 j 1 i1 ni
cada tratamiento.
Se puede observar que:
Los cuadrados medios se define como el cociente entre la suma de cuadrados y sus
respectivos grados de libertad. Para un DCA se tiene:
n
t
2
t 1
ECME 2
i ni
n
ni2
ECMTrat rd , siendo rd
2 2
t 1
ECME 2
CMTrat
F ~ Ft1,n. t
CME
Luego para probar H0 se puede usar esta Estadística de Prueba, se rechaza H0 si
Fc F1;t1,n. t .
Coeficiente de Variabilidad:
Una medida que permite medir cuan homogéneo el conjunto de unidades experimentales
usadas está dado por el coeficiente de variabilidad, el cual se define:
CME
cv 100
Y..
En experimentos agrícolas se considera un coeficiente aceptable si cv 25%.
Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulación
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realizó un experimento con 24
animales de características similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuación.
Tratamientos
A B C D
62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
66 68 64
63
59
$parameters$trt
[1] "A" "B" "C" "D"
$parameters$r
[1] 4 6 6 8
$parameters$serie
[1] 0
$parameters$seed
[1] 755
$parameters$kinds
[1] "Super-Duper"
$parameters[[7]]
[1] TRUE
$book
plots r trt
1 1 1 C
2 2 2 C
3 3 1 A
4 4 1 B
5 5 1 D
6 6 3 C
7 7 2 B
8 8 4 C
9 9 2 A
10 10 3 A
11 11 5 C
12 12 3 B
13 13 4 B
14 14 2 D
15 15 5 B
16 16 3 D
17 17 4 D
18 18 5 D
19 19 6 D
20 20 7 D
21 21 6 C
22 22 8 D
23 23 4 A
24 24 6 B
Efectos estimados
Valores Predichos
Análisis de variancia
Y..2 1536
2
i1 ni
i1 j1
SCE SCTotal SCTrat 340228112
Fuente de Variación SC GL CM F
Entre Dietas (tratamientos) 228 3 76 13.57
Dentro de dietas (residual) 112 20 5.6
Total 340 23
CMTrat 76
Fc 13.57
CME 5.6
F0.95,3,20 3.10, F0.99,3,20) 4.94, Se rechaza H0
> pvalue<-1-pf(13.57,3,20)
> pvalue
[1] 4.66169e-05
1.- Introducción
Las suposiciones que se hacen sobre el modelo para realizar estimación por intervalo y
pruebas de hipótesis sobre los parámetros son:
Las suposiciones 4 y 5 implican que los errores son variables aleatorias independientes.
Violaciones de estos supuestos, sobretodo de los supuestos 3, 4 y 5, le resta validez a la
prueba de hipótesis realizada en el ANVA y a las pruebas de comparaciones múltiples.
En este capítulo, se presenta varios métodos útiles para realizar el diagnóstico y tratamiento
de las violaciones de las suposiciones básicas en el análisis de variancia
Un residuo se define:
Desde que el residuo es una desviación entre el valor observado y el ajustado, entonces es una
medida de variabilidad no explicada por el modelo. De esta manera, cualquier violación de
las suposiciones del modelo debe ser mostrada por el residual. También puede pensarse que
los residuos son valores observado de los errores. Esto último no es cierto
3) Los residuales no son independientes. Esta dependencia de los residuales tiene un pequeño
n no sea pequeño.
t
efecto sobre su uso para investigar la calidad del modelo mientras i
i1
Residual Estandarizado
Muchas veces es más útil trabajar con los residuales estandarizados, los cuales se define:
eij
dij , j 1, 2, , ni y i 1,2, , t
CMError 1hi,i
son también útiles para detectar violaciones al supuesto de normalidad. Si los errores están
distribuido normalmente, entonces aproximadamente el 68% de los residuales podrían caer
entre –1 y +1, y aproximadamente el 95% podrían caer entre –2 y +2 desviaciones
sustanciales de estos límites indican violación potencial de la suposición de normalidad. Si n
es pequeño, se reemplaza los límite 1 y 2 con los correspondiente valores de la
distribución de tGLE . El examen de los residuales estandarizados realizado de esta manera es
también útil para identificar valores extremos.
3) Gráfico de los valores predichos versus la raíz cuadrada de los valores absolutos de los
residuales estandarizados: el paquete R proporciona este gráfico más la curva estimada
de la regresión Lowes que se obtiene con estos valores. El Lowes o parte no debe tener
una tendencia marcada o la variabilidad de la raíz cuadrada de los valores absolutos de
los residuales debe estar en una banda uniforme o no
t a
c2 1 ni t lnCME ni 1lnSi2 ~2t1 / H0 es verdadera
t
C i1 i1
Yij Yi. Y
ni ni
2
ij
donde: S
2 j1
, siendo Yi j1
, para i 1, 2, , t ,
i
ni 1 ni
n 1 S
t
2
t
1 1
3t 1
i i
SCE 1
CME Sp2 i1
y C 1
t
i1 ni 1
ni t n t ni 1
t t
i1 i1
i i1
Tratamientos
A B C D
62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
66 68 64
63
59
Y
ni 14894 26176 27758 29816
2
ij
j 1
1 1 1 1 1 1 1.091799
C 1 ( )
3*4 1 3 5 5 7 35 5 7
Standardized residuals
7 7
2
Residuals
1
-2 0
0
-1
5 5
-2
17
-6
17
61 63 65 67 -2 -1 0 1 2
1.5
Standardized residuals
17 7
7 0.5
2
5
1.0
1
0
0.5
-2 -1
5
Cook's distance
0.0
17 0.5
> ri<-rstandard(fit1)
> sort(ri)
17 5 4 12 8 24 2
-2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500
14 9 19 10 11 15 16
-0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000
20 18 6 1 21 23 3
0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001
22 13 7
1.3552619 1.3887301 2.3145502
> sort(predict(fit1))
17 18 19 20 21 22 23 24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
61 61 61 61 61 61 61 61 61 61 61 61 66 66 66 66 66 66 68 68 68 68 68 68
Gráfico Nº 2: se puede observar que los cuantiles de los residuales estandarizados casi
sobrepone a la recta que contiene los cuantiles teórico de la distribución normal estándar esto
estaría indicando que posiblemente se cumpla con el supuesto de distribución normal de
errores
Gráfico Nº 4: Se puede observar que los únicos residuales estandarizados que sobrepasan los
límites ±2 corresponden a las observaciones 7 y 17, pero no son influyentes debido a que no
sobrepasan el límite 0.5. de la distancia de Cook
> shapiro.test(ri)
H0 : La distribución de los errores es Normal
H1 : La distribución de los errores no es Normal
data: ri
W = 0.9822, p-value = 0.9322
> ad.test(ri)
data: ri
A = 0.2598, p-value = 0.6814
En ambas pruebas resulta no significativas a un nivel del 10%, se acepta la hipótesis planteada
o nula, se puede aceptar que los errores se distribuyen normalmente.
> bartlett.test(Tiempo~dieta,coag)
Estadístico de prueba
n kni Zi Z 2
k
W i1
k 1Zij Zi 2
k ni
i1 j1
donde Zij puede ser:
1.- Zij Yij Yi , siendo Yi es la media de las observaciones obtenida de la muestra i
2.- Zij Yij Yi , siendo Yi es la mediana de las observaciones obtenida de la muestra i .
3.- Zij Yij Yi , siendo Yi es la media truncada del 10% de las observaciones obtenida de la
muestra i .
La media truncada del 10% calcula la media de los datos comprendido entre el 5to percentil y
el percentil 95.
W F1,k1,Nk
> library(car)
> leveneTest(Tiempo~dieta,coag)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.6492 0.5926
20
c) Prueba de Score para varianza del error no constante
Breusch y Pagan (1979), y Cook y Weisberg (1983) sugiere una prueba de puntaje (score)
para la variancia de los errores no constante en un modelo lineal, basado sobre la relación:
vari g0 1zi1 pzip
Aquí los zi son predictores de la variancia del error y la función g de los predictores
lineales 0 1zi1 p zip no se necesita ser conocido. En aplicaciones típicas son los mismo
predictores del modelo lineal (esto es los x s), o sólo hay un z , el valor ajustado ŷ desde el
modelo lineal, en tal caso se realiza una prueba de dependencia de la dispersión con los
niveles.
Esta prueba ha sido implementada en la librería car del paquete R mediante la función
ncvTest para probar la dependencia sobre los niveles. En este caso la hipótesis planteada está
dado por:
Se puede observar que en los residuales pruebas de homogeneidad de variancia los pvalue>
0.1. Luego la hipótesis de homogeidad de varianzas no se rechaza se puede aceptar que
cumple con el supuesto de homogeneidad de variancia
Chequeo de independencia
0
-2
-4
5 10 15 20
tiempo
0
-2
-4
-6
5 10 15 20
tiempo
vs. orden
(la respuesta es Tiempo)
5.0
2.5
Residuo
0.0
-2.5
-5.0
2 4 6 8 10 12 14 16 18 20 22 24
Orden de observación
> mod<-lm(Tiempo~dieta,coag)
> ei<-residuals(mod)
> data.frame(coag,ei)
Tiempo dieta aleatorizacion ei
1 62 A 4 1.000000e+00
2 60 A 15 -1.000000e+00
3 63 A 24 2.000000e+00
4 59 A 9 -2.000000e+00
5 63 B 12 -3.000000e+00
6 67 B 18 1.000000e+00
7 71 B 22 5.000000e+00
8 64 B 17 -2.000000e+00
9 65 B 8 -1.000000e+00
10 66 B 5 1.402687e-16
11 68 C 2 1.125131e-16
12 66 C 19 -2.000000e+00
13 71 C 13 3.000000e+00
14 67 C 7 -1.000000e+00
15 68 C 23 1.125131e-16
16 68 C 20 1.125131e-16
17 56 D 1 -5.000000e+00
18 62 D 14 1.000000e+00
19 60 D 3 -1.000000e+00
20 61 D 6 2.924635e-17
21 63 D 10 2.000000e+00
22 64 D 11 3.000000e+00
23 63 D 16 2.000000e+00
24 59 D 21 -2.000000e+00
Para construir el siguiente archivo: aleat.txt copiar el conjunto de datos obtenidos con el
comando data.frame y pegar en la hoja de trabajo del Minitab desplazar los nombres a una casilla
a la derecha e eliminar la columna de numeración de los datos copiar los datos obtenidos en una
hoja de excel y ordenar el conjunto de datos de acuerdo a la columna de aleatorización de menor
a mayor, luego copiar el conjunto de datos obtenidos en block de notas grave este archivo con
un nombre diferente a coag.txt, por ejemplo aleat.txt.
> aleat
Tiempo dieta aleatorizacion ei
1 56 D 1 -5
2 68 C 2 0
3 60 D 3 -1
4 62 A 4 1
5 66 B 5 0
6 61 D 6 0
7 67 C 7 -1
8 65 B 8 -1
9 59 A 9 -2
10 63 D 10 2
11 64 D 11 3
12 63 B 12 -3
13 71 C 13 3
14 62 D 14 1
15 60 A 15 -1
16 63 D 16 2
17 64 B 17 -2
18 67 B 18 1
19 66 C 19 -2
20 68 C 20 0
21 59 D 21 -2
22 71 B 22 5
23 68 C 23 0
24 63 A 24 2
> plot(ei~aleatorizacion,ty="l",aleat)
4
2
RESID1
0
-2
-4
5 10 15 20
aleatorizacion
> mod1<-lm(Tiempo~dieta,aleat)
> library(zoo)
> library(lmtest)
> dwtest(mod1,alternative="two.sided")
Durbin-Watson test
data: mod1
DW = 2.3125, p-value = 0.396
alternative hypothesis: true autocorrelation is not 0
> dwtest(mod1,alternative="less")
Durbin-Watson test
data: mod1
DW = 2.3125, p-value = 0.198
alternative hypothesis: true autocorrelation is less than 0
> dwtest(mod1,alternative="greater")
Durbin-Watson test
data: mod1
DW = 2.3125, p-value = 0.802
alternative hypothesis: true autocorrelation is greater than 0
CMTrat
F0
CME
Esta estadística tiene una distribución F central con v1 t 1 y v2 r t 1 grados de
libertad si H0 es verdadera.
Dentro de una prueba de hipótesis se puede cometer dos tipos de errores. Error tipo I y
error tipo II. Generalmente una prueba de hipótesis el investigador fija la probabilidad
de cometer error tipo I (el nivel de significación ) pero no la probabilidad de cometer
error tipo II, . La potencia de prueba es la probabilidad de rechazar la hipótesis nula
cuando esta es falsa; esto es 1 PF F1,v1,v2 H0 es falsa , esta variable F tiene
una distribución F no central con v1 t 1, v2 r t 1 grados de libertad y parámetro
ri2
de no centralidad . Los valores de los efectos de los tratamientos y de 2 ,
2
> nrepdca(tiempo,dieta,4,4,0.05,0.1)
caract valor
1 replica 3.000000
2 potencia 0.927757
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son
elegidos al azar de una población grande. En este caso se considera el siguiente modelo:
En este modelo, se asumen que los ij ~ NID0,2 , y que los efectos i son variables
aleatorias independientes distribuidas normalmente con media cero y variancia común 2 .
Esto es:
i ~ NID0, 2
A 2 y 2 se le conoce con el nombre de componentes de variancias, debido a que la
variancia de una observación puede ser expresada como:
var yij 2 2
En este caso el parámetro de interés es la variancia de los efectos 2 . Si 2 0 todos
los efectos de los tratamientos son iguales, si 0 existe variabilidad entre estos
2
efectos. En este caso, el interés del investigador es probar si existe una variabilidad
significativa los efectos de los tratamientos. Esto es
H0 :2 0
H1 :2 0
Se puede demostrar que bajos estas suposiciones ( ij ~ NID0,2 y i ~ NID0, 2 ),
en el cuadro de ANVA se cumple:
i ni
n
ni2
ECMTrat rd , siendo rd
2 2
t 1
ECME 2
CMTrat
Fc ~ Ft1,n t H0 es verdadera
CME
De los esperados cuadrados medios, se puede observar que los estimadores insesgados de
2 y 2 está dado por
> telares<-read.table("telares.txt",T)
> modte2<-lm(resist~telares,data=telares)
> modte2
Call:
lm(formula = resist ~ telares, data = telares)
Coefficients:
(Intercept) telaresb telaresc telaresd telarese
43.50 4.25 8.00 10.50 1.00
> summary(aov(modte2))
Df Sum Sq Mean Sq F value Pr(>F)
telares 4 322.0 80.50 61.14 4.17e-09 ***
Residuals 15 19.8 1.32
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
H0 :2 0
Ha :2 0
En este caso la prueba resultó altamente significativa, ya que
CMTrat
Fc 61.139 con un P-value=0.000000004175.
CME
Luego los componentes de variancia estimados están dado por:
Standardized residuals
1.5
1.5
2 2
Residuals
0.5
0.5
-1.5 -0.5
-0.5
-1.5
1 9 1 9
44 46 48 50 52 54 -2 -1 0 1 2
Constant Leverage:
Scale-Location Residuals vs Factor Levels
Standardized residuals
1.2
Standardized residuals
2
1 9
1.5
2
0.8
0.5
-1.5 -0.5
0.4
0.0
1 9
telares :
44 46 48 50 52 54 a c d e b
> sort(predict(modte2))
1 2 3 4 17 18 19 20 5 6 7 8 9
43.50 43.50 43.50 43.50 44.50 44.50 44.50 44.50 47.75 47.75 47.75 47.75 51.50
10 11 12 13 14 15 16
51.50 51.50 51.50 54.00 54.00 54.00 54.00
Gráfico Nº 1: La regresión no paramétrica de los valores predichos sobre los residuales se desvía
ligeramente de la recta y=0, esto indica que posiblemente se cumpla con el supuesto de modelo
aditivo lineal. También se puede observar que la variabilidad de los residuales se mantiene casi
constante cuando los valores predichos aumenta de 43.5 a 44.5 luego decrece cuando el valor
predicho aumenta 44.5 a 47.75, pero cuando el valor predicho toma el valor de 47.75 solo se
tiene los residuales de 4 observaciones, luego aumenta cuando toma un valor predicho de 51.5
(correspondiente a 4 residuales), Finalmente cuando el valor predicho toma el valor de 54
(correspondiente 4 residuales) los residuales tiene una variabilidad casi igual a la variabilidad de
los residuales cuando el valor predicho toma el valor 47.75. Luego es posible que la variabilidad
de los residuales cuando el valores predichos tomen los valores de 47.75 o de 54 no afecte el
cumplimiento del supuesto de homogeneidad de varianzas debido a que esa disminución en la
variabilidad corresponde a solo 8 observaciones.
Grafico Nª 3: en cuanto a la variabilidad observada en el primer gráfico puede ser corroborado en
el tercer gráfico, en donde el gráfico de la regresión no paramétrica de los valores predicho sobre
la raíz cuadrada de los valores absolutos de los residuales estandarizado si bien es decreciente
pero muy cercano a una recta con un valor absoluto de la pendiente menor que 1 Esto corrobora
que es posible que se cumpla con el supuesto de homogeneidad de varianzas.
Gráfico Nº 2: se puede observar que los cuantiles de los residuales estandarizados casi sobrepone
a la recta que contiene los cuantiles teórico de la distribución normal estándar con excepción del
residual estandarizado de la observación 1 que se aleja un poco más que el resto de los cuantiles
de los residuales estandarizados, de la recta que contiene los cuantíles teórico de la distribución
normal estándar, el cual no afectaría el cumplimiento del supuesto de normalidad de errores. Por
lo tanto se puede aceptar que cumple con el supuesto de distribución normal de errores
Gráfico Nº 4: Se puede observar no hay residuales estandarizados que sobrepasan los límites ±2
por lo tanto no hay valores extremos
> ri<-rstandard(modte2)
> shapiro.test(ri)
data: ri
W = 0.9308, p-value = 0.1601
A un nivel de significación del 10% se acepta H0 ; es decir, se puede aceptar que los errores se
distribuye normalmente.
> library(car)
Loading required package: MASS
Loading required package: nnet
> ncvTest(modte2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.4140372 Df = 1 p = 0.5199275
> summary(aov(modte2))
Df Sum Sq Mean Sq F value Pr(>F)
telares 4 322.0 80.50 61.14 4.17e-09 ***
Residuals 15 19.8 1.32
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> y<-telares[,1]
> telar<-telares[,2]
> yp<-tapply(y,telar,mean)
> my<-mean(y)
> ti<-yp-my
> ti
a b c d e
-4.75 -0.50 3.25 5.75 -3.75
data: efectos1
W = 0.9334, p-value = 0.6197
A un nivel de significación del 10% se acepta la hipótesis nula o planteada. Por lo tanto, se puede
aceptar que los efectos de los telares sobre la resistencia de la fibra tiene una distribución normal.