Distribuciones Muestralesp1
Distribuciones Muestralesp1
Distribuciones Muestralesp1
Introducción
5
6 1. Introducción
Para que las inferencias sean válidas, la muestra debe ser representativa de la pobla-
ción. A menudo puede resultar atractivo seleccionar las observaciones más convenientes
como muestra o ejercitar el juicio en la selección de la muestra. Es frecuente que estos
procedimientos introduzcan un sesgo en la muestra, lo que trae como consecuencia que
el parámetro de interés sea subestimado (o sobrestimado) por la muestra. Por otra par-
te, no es posible describir de manera estadı́stica el comportamiento de una muestra de
este tipo. Para evitar estas dificultades, es deseable seleccionar una muestra aleatoria
como el resultado de un mecanismo aleatorio. En consecuencia, la selección de una
muestra es un experimento aleatorio, y cada observación de la muestra es el valor
observado de una variable aleatoria. Las observaciones en la población determinan la
distribución de probabilidad de la variable aleatoria.
Para definir una muestra aleatoria, sea X la variable aleatoria que representa el
resultado de tomar una observación de la población. Sea f (x) la función de probabi-
lidad de X. Supongamos que cada observación en la muestra se obtiene de manera
independiente, bajo las mismas condiciones. Es decir, las observaciones de la muestra
se obtienen al observar X de manera independiente bajo condiciones que no cambian,
por ejemplo n veces. Sea Xi la variable aleatoria que representa la i-ésima réplica. En-
tonces X1 , X2 , . . . , Xn constituyen una muestra aleatoria donde los valores numéricos
son x1 , x2 , . . . , xn . Las variables aleatorias en una muestra aleatoria son independien-
tes, con la misma distribución de probabilidad f (x) debido a que cada observación se
obtiene bajo las mismas condiciones. Es decir, las funciones de probabilidad marginal
de X1 , X2 , . . . , Xn son f (x1 ), f (x2 ), . . . , f (xn ), respectivamente, y por independencia,
la función de probabilidad conjunta de la muestra aleatoria es
se desea alcanzar una conclusión acerca de la población de habitantes del paı́s que
prefieren una marca particular de gaseosa. Sea p el valor no conocido de esta proporción.
Resulta poco práctico interrogar a cada persona de la población para determinar el
verdadero valor de p. Para hacer una inferencia con respecto a la proporción verdadera
p, un procedimiento más razonable consiste en seleccionar una muestra aleatoria (de
un tamaño apropiado) y utilizar la proporción observada p̂ de personas en la muestra
que prefieren cierta marca de gaseosa.
La proporción de la muestra, p̂, se calcula dividiendo el número de personas de
la muestra que prefieren una marca particular de gaseosa entre el tamaño total de la
muestra, n. Por lo tanto, p̂ es una función de los valores observados en la muestra
aleatoria. Puesto que es posible obtener muchas muestras aleatorias de una población,
el valor de p̂ cambiará de una a otra. Es decir, p̂ es una variable aleatoria. Esta variable
aleatoria se conoce como estadı́stica, estadı́grafo o estimador.
E[Y ] = C1 µ1 + C2 µ2 + . . . + Cp µp
y
V [Y ] = C12 σ12 + C22 σ22 + . . . + Cp2 σp2 .
se lanzan dos dados, y las figuras (c), (d) y (e) contienen la distribuciones de los pun-
tajes promedio obtenidos cuando se lanzan tres, cinco y diez dados, respectivamente.
Notemos que, si bien la población (un dado) está relativamente lejos de ser normal,
la distribución de los promedios queda aproximada, de manera razonablemente buena,
por la distribución normal, incluso para tamaños de muestra tan pequeños como cinco.
Aunque, en muchos casos, el teorema central del lı́mite funciona bien para muestras
pequeñas (n=4 ó 5), en particular donde la población es continua, unimodal y simétrica,
en otras situaciones se requiere muestras grandes, dependiendo de la forma que tenga
la población. En muchos casos de interés práctico, si n ≥ 30, la aproximación normal
será satisfactoria sin importar cuál sea la forma de la población. Si n < 30, el teorema
central del lı́mite funciona si la distribución de la población no está muy alejada de
una distribución normal.
Ejemplo 3 Una compañı́a de electrónica fabrica resistores que tienen una resistencia
promedio de 100 Ω (ohmios) y una desviación estándar de 10 Ω. La distribución de
1.1. Distribuciones muestrales 11
2
Ejemplo 5 Si X → N (µ, σ 2 ) ⇒ X → N (µ, σn ) y √σn es el error estándar.
s
Si σ 2 es desconocido, entonces σ
bX = √ es el error estándar estimado.
n
x 0 1
p(x) q p
E[bp] = p
pq
V [b
p] =
n
E[b
p] = p
pq N −n
V [b
p] =
n N −1
NOTAS:
a) Una regla práctica que se sigue con frecuencia establece que la distribución mues-
tral de pb es aproximadamente normal, si np > 5 y nq > 5.
1.1. Distribuciones muestrales 13
N −n
b) El factor de corrección de población finita N −1
, se puede dejar de utilizar en
las aplicaciones prácticas cuando Nn ≤ 0,05.
Proporción:
!
1
p0 + 2n −p
p ≤ p0 ) = P
P (b Z≤ p pq
n
!
1
p0 − 2n −p
p ≥ p0 ) = P
P (b Z≥ p pq
n
Binomial:
x + 12 − np
P (X ≤ x) = P Z ≤ √
npq
1
x − 2 − np
P (X ≥ x) = P Z ≥ √
npq
µX 1 −X 2 = µX 1 − µX 2 = µ1 − µ2
y varianza
2 2 2 σ12 σ22
σX 1 −X 2
= σX + σX = +
1 2n1 n2
Si las dos poblaciones no están distribuidas de manera normal, pero el tamaño de am-
bas muestras n1 y n2 es mayor que 30, entonces puede emplearse el teorema central del
1.1. Distribuciones muestrales 15
2 σ12 σ22
µX 1 −X 2 = µ1 − µ2 y σX 1 −X 2
= +
n1 n2