Prueba de Homocedasticidad
Prueba de Homocedasticidad
Prueba de Homocedasticidad
( n – 1 ) s2
χ 2
= ----------------
δ 2
Donde:
* s2 = Varianza muestral.
*δ 2
= Varianza poblacional si y solo si suponemos que la hipótesis nula
es cierta.
EJEMPLO
• H0 : δ 2
= 144
• H1 : δ 2
> 144
(n – 1 ) s2 (25-1)(15)2
χ 2
= --------------- = ------------------- = 37,5
δ 2
122
Si la hipótesis nula es cierta, el estadístico muestral de 37,5 se obtiene
de la distribución ji cuadrada teórica, en particular, la distribución con 24 grados
de libertad ( 25 - 1 = 24 ).
Como se puede observar en la ecuación anterior, cuanto mas grande es
la varianza muestral respecto a la varianza poblacional hipotética, mas grande
es el estadístico que se obtiene. Luego deducimos que de un estadístico
muestral grande llevamos al rechazo de la hipótesis nula, y un estadístico
muestral pequeño implicará que no se rechaze. La tabla ji cuadrada se usa
para determinar si es probable o no que el valor 37,5 haya sido obtenido de la
distribución muestral ji cuadrada hipotética.
Supongamos que esta prueba debe llevarse a un nivel de significancia
de 0,02. En la columna 0,02 de la tabla de ji cuadrada y la fila 24, se encuentra
el valor critico de 40, 27. La regla de decisión es:
Si χ 2
> 40,27, se rechaza la hipótesis nula de que la varianza de la
población es 144 ( Se rechaza H0 si χ 2
> 40,27 ).
Cociente F
S12
F = ---------
S22
Donde:
EJEMPLO
• H0 : δ 1
2
-δ 2
2
≤ 0
• H1 : δ 1
2
-δ 2
2
>0
S 12 14,3641
F = ------- = ---------------- = 2,34
S22 6,1504
• H0 : δ 2
2
-δ 1
2
≤ 0
• H1 : δ 2
2
-δ 1
2
>0
S12 1,370
F = --------- = ----------- = 2,8
S 22 489
Una de las varianzas muestrales es 2,8 veces mas grande que la otra.
La hipótesis nula se rechaza ya que el estadístico de prueba (2,8) excede al
valor crítico (1,94) de la tabla F. Se puede concluir que el inventario 2 tiene mas
variabilidad en el tiempo que el inventario 1.
• METDO DENTRO
Donde:
• ∑(xi – x1)2 = (12,4 – 12)2 + (13,7 – 12)2 + (11,5 – 12)2 + (10,3 – 12)2 =
6,19
• ∑(xi – x2)2 = (11,9 – 11)2 + (9,3 – 11)2 + (12,1 – 11)2 + (10,6 – 11)2 =
5,07
• ∑(xi – x3)2 = (10,3 – 11,2)2 + (12,4 – 11,2)2 + (11,9 – 11,2)2 + (10,2 –
11,2)2 = 3,74
EJEMPLO
• METODO ENTRE
Donde:
δ 2
• δ x
2
= -----
n
• nδ x
2
=δ 2
• δ 2
= nδ x
2
n∑ (xj – x)2
j
sx2 = ---------------------
c- 1
Donde:
EJEMPLO
n∑ (xj – x)2
j 4 (0,56) 2,24
sx2 = --------------------- = ------------- = -------- = 1,12
c- 1 3–1 2
• TABLA ANOVA
Donde:
• j = Número de la columna
• i = Número de la fila
• c = Número de columnas (grupos)
• n = Número de elementos en cada grupo (tamaño de la muestra)
EJEMPLO
Fuente de
Variación SC gl Estimación de δ 2
Coeficiente
F
----------------------------------------------------------------------------------------------------------
Grupos entre 378,54 2 189,27 13,26
Grupos dentro 214,09 15 14,27
----------------------------------------------------------------------------------------------------------
TOTAL 592,63 17
• c- 1 = 3 – 1 = 2 (Grupos entre)
• c (n – 1) = 3 ( 6 – 1 ) = 15 (Grupos dentro)
METODO DENTRO
METODO ENTRE
(4 – 4,25)2 + (4 – 4,25)2 + (6 – 4,25)2 + (3 – 4,25)2 = 6,75
TABLA ANOVA
Fuente de
Variación SC GL Estimación δ 2
Coeficiente F
----------------------------------------------------------------------------------------------------------
Metodo 6,75 3 6,75 / 3 2,25 / 6,25 = 0,36
Entre
Metodo 75 12 75 / 12
Dentro
TOTAL 81,75 15
EJEMPLO
Campaña de
Publicidad TIENDA 1 TIENDA 2 TIENDA 3 MEDIAS
----------------------------------------------------------------------------------------------------------
12,05 15,17 9,48
A (16,87) 23,94 (17,75) 18,52 (8,96) 6,92 14,53
14,63 19,57 10,47
25,78 21,4 7,63
B (20,58) 17,52 (18,52) 13,59 (8,48) 11,90 15,86
18,45 20,57 5,92
----------------------------------------------------------------------------------------------------------
MEDIAS 18,73 18,14 8,72 15,20
Interacción
H0 : No hay interacción entre los factores en las filas y los factores en las
columnas para la población bajo prueba.
EJEMPLO
EJEMPLO
Son muchos los cálculos requeridos por un análisis de varianza con dos
criterios de clasificación. La disponibilidad generalizada de paquetes de
computadora que realizan ANOVA ha eliminado prácticamente los cálculos
manuales para esta técnica. Sin embargo, es importante saber que se está
haciendo con los datos para lograr una interpretación y un entendimiento
apropiados. Los cálculos específicos para un procedimiento de ANOVA con
dos criterios de clasificación no se presentarán aquí, pero se describirá la
naturaleza general del análisis y se interpretará una salida de computadora.
La suposición clave que fundamenta el ANOVA con dos criterios de
clasificación es la misma que para el ANOVA con un criterio: Se supone que
todas las poblaciones bajo estudio tienen la misma varianza. Si se tiene tres
filas en la tabla de datos y cinco columnas, hay quince celdas y quince
poblaciones que deben muestrarse. Independientemente de si las medidas de
estas quince poblaciones son las mismas, debe suponerse que varían en el
mismo grado. Todas deben tener la misma varianza para que el procedimiento
de ANOVA funcione correctamente.
Existen cuatro formas de estimar la varianza común de las poblaciones
en el procedimiento de ANOVA con dos criterios de clasificación. Una de estas
formas, el método dentro, produce una estimación fiable de esta varianza
independientemente de que cualquiera de las tres hipótesis nulas sean ciertas.
Igual que en el procedimiento de ANOVA con un criterio, el método dentro mide
la variabilidad de cada valor muestral alrededor de su propia medida de la
celda. Aún cuando varias de las celdas en la tabla de datos tengan medias
diferentes, esto no influirá en los cálculos de la varianza estimada con el
método dentro. Al calcular la suma de cuadros usando el método entre se
compara el primer dato con la media de la celda en la que está. La diferencia
se eleva al cuadrado y se suma a los cuadrados de las diferencias entre todos
los otros valores de la muestra y las medias de sus propias celdas. El valor que
se obtiene se divide entre el número apropiado de grados de libertad, rc(n – 1).
Como la media de la celda se resta de cada uno de los n elementos en la
celda, uno de estos elementos no tiene libertad para variar. Cada celda tiene
entonces (n – 1) grados de libertad, y hay r (el número de filas) multiplicado por
c (el número de columnas) celdas. Esta estimación dentro de la varianza es el
denominador de cada cociente F.
El segundo método para estimar la varianza es válido solo si no hay
interacción entre las poblaciones. Si la hay, este método produce una
estimación inflada. El valor de gl se calcula de la misma manera que para la
prueba de la tabla de contingencia: (r – 1) (c – 1).
El tercer método para estimar la varianza produce una estimación válida
sólo si la hipótesis nula sobre la igualdad de la media de columnas es cierta. Si
esta hipótesis es falsa, se obtendrá una estimación inflada. Esto es lo mismo
que usar el método entre para estimar la varianza en un procedimiento de
ANOVA con un criterio.
Los grados de libertad son el número de columnas menos uno, (c – 1).
El último método para estimar la varianza es válido sólo si la hipótesis
sobre medias iguales en las filas es cierta. Si no lo es, se obtiene una
estimación inflada. De nuevo, el procedimiento es similar al método entre para
estimar la varianza en un ANOVA con un criterio. Los grados de libertad son el
número de filas menos uno, (r – 1). La taba de a continuación contiene las
fórmulas para el procedimiento de ANOVA con dos criterios de clasificación.
j = Número de la columna.
i = Número del renglón.
k = Número de la observación dentro de una celda.
r = Número de filas.
c = Número de columnas.
n = Número de observaciones en cada celda.
El resultado final de un procedimiento de ANOVA con dos criterios es el
cálculo de tres cocientes F. El denominador para cada uno
de estos cocientes es la estimación del método dentro para la varianza
desconocida de la población. Los numeradores de los cocientes
son las “ estimaciones” obtenidas bajo la suposición de que cada una de las
tres hipótesis es cierta. Cada cociente F se examina para ver
si es muy grande. Cualquier cociente F que sea mas grande que el valor de la
tabla F da como resultado el rechazo de la hipótesis nula
correspondiente. La forma general de cada uno de los tres cocientes F es:
Si las tres hipótesis nulas son ciertas, los cálculos para los numeradores
y denominadores de estos tres cocientes F serán estimaciones válidas de la
misma varianza poblacional desconocida. Como se ha visto, una razón de este
tipo se obtiene de la distribución F. Sin embargo, si cualquiera de las tres
hipótesis nulas es falsa, el numerador de la razón correspondiente estará
inflado y dará un valor grande de F que llevará el rechazo de la hipótesis nula.
EJEMPLO
Fuente de
variación SC gl Estimación de δ 2
Coeficiente
F
----------------------------------------------------------------------------------------------------------
Filas 8,013 1 8,013 0,50
Columnas 378,381 2 189,90 11,81
Interacción 13,851 2 6,925 0,43
Dentro 192,223 12 16,019
TOTAL 592,468 17
LA PRUEBA DE KRUSKAL-WALLIS
N+1 2
N – ni δ 2
N – ni (N2 – 1)12 (N – ni)(N + 1)(N – 1)
Var(Oi) = E(Oi- ------ ) = -------- ---- = -------- --------------- =---------------------------
2 N - 1 ni N–1 ni 12ni(N – 1)
12 N(N+1)2
------------------ -----------------
N(N+1) 4
12 Oi2
Entonces, H = ------------- Σ ---- - 3(N+1)
N(N+1) ni
1
Y E(H) = --------------------- E(S) = k – 1
N(N+1)/12
N!
-------------------
n1! n2!... nk!
r
Σ (tk3 – tk)
k
C = 1 - --------------------
N3 - N
EJEMPLO:
CONTROL 12 16 14 2 12
PREMIO 13 18 14 13 8 7 6 4
CASTIGO 13 14 7 8 4 3 2 5 9
Se desea saber si hay evidencias suficientes para concluir que diferencia entre
las medianas de los tratamientos, a nivel de significación de 0,01.
1. Hipótesis
H0 = Las tres poblaciones subyacentes son idénticas.
H1 = Las tres poblaciones no tienen la misma mediana.
2. Supuestos:
a) Las k muestras de tamaños n1,, n2 , n3 son aleatorias
b) Las N observaciones son mutuamente independientes
c) La variable dependiente es continua.
d) El nivel de medida es al menos ordinal.
e) Las poblaciones son idénticas excepto posiblemente en los
promedios.
3. Estadístico de contraste
Transformemos los datos en ordenes:
Oi
-----
Control: 13.5, 21, 19, 1.5, 13.5 68.5
Premio: 16, 22,19,16,10.5,8.5,7,4.5 103.5
Castigo: 16,19,8.5,10.5,4.5,3,1.5,6,12 81
Calculo H:
12 68.52 103.5 812
Hk = ------------- (-------+--------+-------) – 3(23) =
(22)(23) 5 8 9
= 0.0237(938.45+1339.03+729) – 69 = 71.3+ 69 = 2.3
(6 + 24 + 6 + 24 + 6 +6 +6) 78
C = 1 - -------------------------------------- = 1 - -------- = 0.9993
223 - 22 10626
23
h`k = ---------- = 2.316
0.993
4. Zona Crítica
Puesto que un grupo tiene tamaño superior a 8 , utilizamos la
distribución de χ 2
con 2 g.l. La zona critica estará formada por todos
los valores iguales o superiores a 0.99χ 2
2
=9.21
5. Decisión:
Puesto que 2.316 < 9.21, no podemos rechazar la hipótesis nula (p >
0.05).
6. Conclusión
No hay evidencia suficiente en los datos para afirmar que los
tratamientos tienen efecto diferencial.
RESUMEN
EJERCICIOS
S12 (0.61)2
d) ----- = -------- = 4.42
S22 (0.29)2
Número 4.-