Clase 3
Clase 3
Clase 3
para la media), Teorema del Limite Central (Aplicaciones), Intervalos de confianza para la media
(Aplicaciones)
MUESTREO
La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la
mejor manera los rasgos esenciales de dicha población que son importantes para la investigación.
Para que una muestra sea representativa, y por lo tanto útil, debe reflejar las similitudes y
diferencias encontradas en la población, es decir ejemplificar las características de ésta.
Los errores más comunes que se pueden cometer al tomar una muestra son:
1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, a
esto se le denomina error de muestreo.
2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomó la
muestra, se le denomina: error de Inferencia.
El muestreo es una técnica que utilizaremos para inferir algo respecto de una población mediante la
selección de una muestra de esa población. En muchos casos, el muestreo es la única manera de poder
obtener alguna conclusión de una población, entre otras causas, por el coste económico y el tiempo
empleado que supondría estudiar a todos los miembros de una población.
El tamaño de muestra está estrechamente ligado a los objetivos de investigación, y pueden suceder
varias situaciones, entre otras, que la investigación tenga varios objetivos, entonces se determina
1
el tamaño de muestra para cada objetivo y se toma como tamaño de muestra el mayor de ellos, o puede
suceder que el investigador considere que el objetivo que gobierna la muestra sea uno solo y para él
se determina el tamaño de la muestra. Entonces primero se debe expresar el objetivo de investigación
en una medida estadística, tal como la media, la proporción, etc... Posteriormente se calcula el
tamaño de muestra para los objetivos pertinentes. Para la media y la proporción, se utilizan las
siguientes fórmulas:
S2 P.Q
Para la media (µ) : n0 = E 2 cuando Para la proporción ( π ) : n0 = E2 cuando se
( 2) ( 2)
Z Z
se conoce el tamaño de la población: conoce el tamaño de la población:
n0 n0
n= n 0 n= n 0
1+ 1+
N N
Donde n0 es el tamaño de muestra inicial cuando no se conoce el tamaño de la población. Generalmente
es aconsejable tener una idea acerca del tamaño de la Población, para poder ajustar el tamaño de la
muestra (n). Observe que para el cálculo del tamaño de la muestra se debe tener información previa,
acerca de:
Para el promedio, el valor de S2 se conoce como varianza “semilla”, porque si se desea estimar la
media sería ilógico que se conozca la varianza. Se debe tener una idea inicial de la dispersión,
entre más cerca esté del verdadero valor de la dispersión de la población, el tamaño de la muestra
será más adecuado. Se utilizan varias formas para ello:
1. Seleccionar una muestra piloto (n1) pequeña arbitraria con buen criterio y con ella calcular la
varianza. En este caso, generalmente el tamaño de muestra definitivo, se le realiza un ajuste
mediante la fórmula:
S2 2 P.Q 2
n0 = (1+ )n = 2 (1+ )
E 2 n E n
( )
Z 2
1
( )
0 Z 2
1
2
2. Consultar un experto que nos informe sobre la dispersión de la variable, puede ser preguntándole
2
la varianza o en su defecto usar la siguiente aproximación σ ≅ S =2Rango2 (X max− X min )
2
≈ .
42 42
3. Consultar la bibliografía existente sobre las variables de estudio, para ver si de pronto existe
información sobre la dispersión de la variable E, es el error máximo permitido para estimar el
parámetro. Es la máxima diferencia permitida entre la estimación o la medida obtenida con la muestra
y el verdadero valor del parámetro, dada una confianza (1-α). Esta confianza determina el valor de Z
en la distribución la distribución Normal, es decir que se supone que el comportamiento del
parámetro tiene una distribución Normal. En la siguiente gráfica se puede apreciar, este concepto
con un nivel de confianza de 95%.
En algunos casos, el investigador puede plantear este error como un porcentaje del parámetro.
Las fórmulas para los otros parámetros como el total, la diferencia de medias, diferencia de
proporciones, la media de las diferencias, la varianza, la razón de varianzas, se deja como
investigación para el lector.
3
Ejemplo 1: Se tienen 1800 empresas en el sector industrial, de las cuales se desea seleccionar una
muestra con el propósito de estimar el número medio de vendedores que tienen. Se sabe que las
empresas tienen no menos de 3 vendedores y no más de 28 vendedores. ¿De qué tamaño se ha de
seleccionar la muestra si se desea tener una confianza de 0,90 de que, al estimar el número medio de
vendedores por empresa, el máximo error en la estimación no sobrepase de dos vendedores?
( 28−3)2
2 26.2656
S= =39.0625 n 39.0625 n= =25.8878≈ 26
16 0= =26.2656 26.2656
2 1+ 2
(
1.64
)
1800
Ejemplo 2: Se desea investigar el número medio de unidades semanales de un producto que consumen los
compradores. En una prueba piloto se tomaron quince compradores de producto y se encontró que
semanalmente consumían: 4, 9, 12, 8, 15, 3, 7, 5, 12, 10, 8, 12, 11, 15, 6. ¿De qué tamaño ha de
seleccionarse la muestra si se desea tener una confianza de 0,98 de que la estimación se encuentre a
más o menos 0,5 unidades del promedio verdadero? x<-c(4,9,12,8,15,3,7,5,12,10,8,12,11,15,6)
x́=9.1333 S2=13.9810
n 13.9810 2
0=
0.5 2
1+ (
15 )
=303.6058 ( 1.1333 ) ≈ 344.0765 ≈345
( )
2.33
n 13.9810 2
0=
0.7307 2
1+(15 )
=142.1582 ( 1.1333 ) ≈161.1079 ≈ 162
( 2.33 )
Ejemplo 3: Una agencia de publicidad desea estimar la proporción de televidentes en una ciudad que
observaron un mensaje publicitario emitido por un canal de televisión en un programa especial. ¿De
qué tamaño se ha de seleccionar la muestra si desea tener una confianza de 0,95 de que el máximo
error en la estimación se encuentre a lo más de 0,05 de la proporción real? Telefónicamente se
contactaron 50 televidentes y 15 dijeron haber observado el mensaje publicitario.
0.30 x 0.70 2
n0 =
(
0.05
)
2
=322.6944 1+
50 (
=335.6022≈ 336 )
1.96
4
Ejercicios:
1. En un estudio por muestreo se desea estimar el gasto medio mensual que tienen los hogares de
Bogotá en un determinado producto. ¿De qué tamaño se debe seleccionar la muestra si se desea tener
una confianza de 0,95 de que el máximo error en la estimación no exceda de $2500? Se conoce, por
estudios anteriores, que el gasto mensual de los hogares en ese producto tiene una desviación
estándar de $28000.
2. Se quiere realizar un estudio de mercados para estimar cual es el gasto medio anual en camisas
que realizan los hombres en Colombia. De qué tamaño se debería seleccionar la muestra para poder
tener una confianza de 0,95 de que el máximo error en la estimación no exceda de $8000. Por estudios
previos, puede suponerse que la desviación estándar del gasto anual en camisas de los hombres es de
$50000.
3. En una empresa que tiene 2500 empleados se desea seleccionar una muestra aleatoria simple con el
propósito de estimar cual es el tiempo medio de experiencia que tienen en su actual ocupación.
¿Cuántos empleados serán necesarios seleccionar si se desea tener una confianza de 0,90 de que el
máximo error en la estimación no sobrepase de medio año? Se conoce que el empleado con menos
experiencia en su cargo actual tiene tres meses y el de más experiencia tiene quince años.
5. Para un mercado de prueba, se desea establecer el tamaño de muestra que se debe seleccionar para
estimar la proporción real de consumidores satisfechos con un cierto producto, dentro de más o menos
0,03 a un nivel de confianza de 0,90. No se tiene idea de cuál es la proporción de consumidores
satisfechos.
6. En una empresa que tiene 1200 trabajadores se va a realizar un estudio por muestreo. Interesa
establecer la proporción de trabajadores que están actualmente realizando algún tipo de estudios.
¿De qué tamaño habría de seleccionarse la muestra si se desea tener una confianza de 0,95 de que el
error máximo en la estimación no exceda de 0,035? Según un estudio realizado hace algún tiempo, el
20% de los trabajadores seguían algún tipo de estudios.
5
DISTRIBUCIONES MUESTRALES
Teorema del límite central: Si muestras aleatorias de n observaciones se sacan de una población no
normal con media finita µ y desviación estándar σ, entonces, cuando n es grande, la distribución de
muestreo de la media muestral x́ está distribuida normalmente en forma aproximada, con media µ y
desviación estándar σ/√ n . La aproximación se hace más precisa cuando n se hace grande.
Cualquiera que sea su forma, la distribución muestral de x́ siempre tiene una media idéntica a la
media de la población muestreada y una desviación estándar igual a la desviación poblacional
estándar dividida entre la raíz de n. En consecuencia, la dispersión de la distribución de medias
muestrales es considerablemente menor que la dispersión de la población muestreada.
El teorema del límite central se puede expresar de otro modo para aplicar a la suma de las
mediciones muestrales ∑ x i, que, cuando n se hace grande, también tiene una distribución
aproximadamente normal con media nµ y desviación estándar σ√ n .
σ
DISTRIBUCION MUESTTRAL DE LA MEDIA: ( μ X́ =μ σ X́ = ¿
√n
Ejemplo 4: Un auditor toma una muestra de tamaño 63 de una población muy grande de cuentas por
cobrar; la desviación estándar de la población se desconoce. La desviación estándar de la muestra
fue de $43000 pesos. El valor real de la media de las cuentas por cobrar se cree que es de $266000.
b. ¿Cuál es la probabilidad de que en esta muestra se encuentre una media de $260000 o más?
6
260000−266000
P( x́ ≥260000)=P( Z ≥ )=P( Z ≥−1.11)=0.8665
43000 / √ 63
R: pnorm(260000,266000,5417.49078,lower.tail=F)= 0.8659662
pnorm(-1.11,0,1,lower.tail=F)= 0.8665005
d. Determine el número de cuentas por cobrar que tengan un valor entre $200000 y $260000, suponga
que el total de las cuentas por cobrar son de 615.
200000−266000 260000−266000
P(200000 ≤ x́ ≤ 260000)=P ( ≤Z ≤ )=P(−12.18 ≤ Z ≤−1.11)=0.1335−0=0.1335
43000/ √ 63 43000/ √ 63
R:pnorm(-1.11,0,1)-pmorm(-12.18,0,1)= 0.1334995-no se pudo encontrar=0.1334995-0=0.1334995
El número total de cuentas por cobrar que tienen esa característica es 0.1335*n=83.1705≅83
Ejemplo 5: Se ha seleccionado una muestra piloto de 50 personas de una población de mayores de 18 años.
Se desconoce la talla media de la población, pero en la muestra se ha obtenido que es de 1.60, se
conoce por otros estudios que la desviación estándar es de 3.3 cm, determine la probabilidad de que la
media poblacional no difiera de la media de la muestra en más de 1 cm,
P(|x́−μ|<1) =P((-1/(3.3/√50)< z <1/(3.3/√50))=P(-2.1 < z <2.1)= 0.9642712
R: pnorm(2.1,0,1)-pnorm(-2.1,0,1)= 0.9642712
Ejemplo 6: Se sabe que los pesos de los paquetes de cierto artículo en una cadena de producción se
distribuyen normalmente con media 500 gr desviación estándar de 10 gr. Se selecciona una muestra de 100
paquetes de la producción y se observa que la media de estos es de 530 gr. Es coherente este resultado
con la hipótesis inicial.
X N(μ=500,σ=10)
X́ N(500,10/√100)=N(500,1)
P( x́ ≥530)= P(Z≥ (530 – 500)/1)= P(Z≥30) = 0
Ejemplo 7: El peso de un producto en Kg sigue una distribución normal con media 30 y desviación típica
3. Un empresario decide aceptar el lote de 600 unidades que le envía el proveedor, si al elegir 5
7
unidades de dicho producto al azar encuentra que su peso medio no es menor que 29. Calcular la
probabilidad de que rechace el lote.
X~N(µ=30,σ=3) n=5
3
x́ ~N( μ x́=µ=30;σ x́ = ¿
√n
29−30 −1
Acepta el lote: P(x>29)=
(
P z>
3
) (
=P z > )
1.34164
=P(z>−0.74536)
=0.771973
√5
R: pnorm(29,30,1.34164,lower.tail=F)= 0.7719719
pnorm(-0.74536,0,1,lower.tail=F)= 0.7719729
Ejemplo 8: La oficina de control de calidad de una marca de automóviles reporta en forma regular el
número de defectos importantes de cada automóvil nuevo que somete a prueba. Suponga que el número de
tales defectos para cierto modelo es una variable aleatoria con media 3.2 y desviación estándar 2.4.
Entre 100 automóviles seleccionados al azar de este modelo. Cuál es la probabilidad de que el número
promedio muestral de defectos importantes exceda 4.
P( x́ >4 ¿=¿ P(z>(4-3.2)/0.24)=1-P(Z>3.33)=0.0004
R: pnorm(4,3.2,0.24,lower.tail=F)= 0.0004290603
pnorm(3.33,0,1,lower.tail=F)
Ejercicios: Les recomiendo realizar los ejercicios propuestos en el libro en la página 249-269, leer
los ejercicios resueltos y resolver los propuestos.
1. Una empresa fabrica bombillos que tienen una duración que se distribuye aproximadamente en forma
normal, con µ=800 horas y σ=40 horas. Encuentre la probabilidad de que la muestra aleatoria de 16
bombillos tenga una vida promedio menor o igual a 775 horas.
2. Una empresa fabrica baterías con una vida útil que se distribuye aproximadamente normal con media de
800 horas y una desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria
de 16 baterías tenga una vida promedio de menos de 775 horas
3. La vida media de una máquina para hacer pasta es de siete años, con una desviación estándar de un
año. Suponga que la vida útil de las maquinas siguen aproximadamente una distribución normal, Cuál es
la probabilidad de que la vida media de una muestra de nueve de estas máquinas este entre 6.4 y 7.2
8
años, Cuál sería el valor mínimo de la media del 35% de las medias de tamaño 9 que tiene los valores
más grandes.
4. El tiempo que el cajero de un banco atiende a un cliente es una variable aleatoria con media 3.2
minutos y una desviación estándar de 1.56 minutos. Si se observa una muestra aleatoria de 64 clientes,
encuentre la probabilidad de que su tiempo medio con el cajero sea: A lo mas de 2.7 minutos, Más de 3.5
minutos, Al menos 3.2 minutos, pero menos de 3.4 minutos.
5. Una empresa quiere estar segura de que su detergente para ropa contiene en realidad, 100 oz de
líquido como se indica en la etiqueta. Reportes anteriores del proceso de llenado indican que la
cantidad media por envase es 100 oz con una desviación de 2 oz. El técnico en calidad en su revisión de
las 10 de la mañana, al revisar 40 envases, encontró que la cantidad media de líquido era 99.8oz. ¿Debe
el técnico detenerla operación de llenado o es un error razonable?
6. Una empresa que se dedica a dar información a las empresas que se anuncian en tv, han encontrado en
investigaciones anteriores que un adulto ve en promedio 6 horas de tv por día con una desviación
estándar de 1.5 horas. Sería razonable que, en una muestra de 50 adultos, seleccionados aleatoriamente,
se encontrara que en promedio ven menos de 6.5 horas de tv por día.
p∗q
DISTRIBUCION MUESTRAL DE LA PROPORCION: ( μ p=π , σ p =
√ n
)
Ejemplo 9: Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se
toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la
muestra de la gente que fuma cigarrillos sea menor que 0.55.
Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la
distribución normal a la binomial y el segundo utilizando la fórmula de la distribución muestral de
proporciones.
9
X−µ X−nπ 440−480
(
P(X<440)= P Z <
σ ) (
=P Z <
√ nπ (1−π )
=P Z <
) (
13.85641 )
=P ( Z ←2.8868 )=¿ 0.001946
Este valor significa que existe una probabilidad del 0.1946% de que, al extraer una muestra de 800
estudiantes, menos de 440 fuman cigarrillos.
√ π ( 1−π )
n
)(
=P Z <
√0.60∗0.40
800
)=P(Z ←2.8868)
=0.001946
R: pnorm(0.55,0.60,sqrt(0.60*0.40/800))=0.001946208
Observe que este valor es igual al obtenido en el método de la aproximación de la distribución normal a
la binomial. La interpretación en esta solución estaría enfocada a la proporción de la muestra, por lo
que diríamos que la probabilidad de que, al extraer una muestra de 800 estudiantes de esa universidad,
la proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.1946%.
Ejemplo 10: Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por una firma
es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:
a. Menos del 3% de los componentes defectuosos.
n= 60 artículos
π =0.04
p= 0.03
0.03−0.04
p(p<0.03) =
P Z<
( √0.04∗0.96
60
)
=P ( Z←0.3953 )=0.346311
σ p= 0.04∗0.96 =0.025298221
√ 60
La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03 artículos
defectuosos es de 0.346311.
R: pnorm(0.03,0.04,0.025298221)= 0.3463164
b. Más del 1% pero menos del 5% de partes defectuosas.
n= 60 artículos
π =0.04
10
p= 0.01 y 0.05
0.05−0.04
¿=P (−1.1859<Z <0.3953 )=0.6536893−0.117831=¿
p(0.01 < p < 0.05) = P ¿< Z < 0.04∗0.96 0.5358583
√ 60
R: pnorm(0.3953,0,1)-pnorm(-1.1859,0,1)= 0.5358584
Ejemplo 11: Una cadena de tiendas de departamentos tiene 5000 cuentas de crédito abiertas con sus
clientes. Se sabe, de acuerdo con la experiencia de varios años que la proporción de cuentas de
crédito que se encuentran atrasadas en sus pagos es de 10%; si se extrae de esta población una
muestra aleatoria de 100 cuentas. Cuál es la probabilidad de que más de 13 de ellas se encuentren
atrasadas en sus pagos. La proporción de la muestra: p=13/100=0.13
0.13−0.10
P(p>0.13)=
(
P Z>
√0.10∗0.90
100
)
=P ( Z >1 )=0.158655
Podemos decir que hay un 15.87% de que haya más de 13 cuentas morosas.
R: pnorm(1,0,1,lower.tail=F)= 0.1586553
Ejemplo 12: en unas elecciones un determinado candidato asegura que tiene ganado al menos el 50% de los
votos. En un sondeo previo a las elecciones se obtiene una muestra de 500 votantes y 160 se mostraron a
favor del candidato. Es coherente con la hipótesis del candidato el resultado obtenido en la muestra
X B (1 , p=0.5 ) fuese cierta, entonces habrá que admitir que la proporción muestral se distribuye
p=160/500=0.32
La probabilidad de observar un suceso tan extremo o más de o.32
P(p<0.32)=( P<¿)=P(Z<-8.05009)=0
R: pnorm(-8.05009,0,1)=0
11
pasajeros no debe exceder los 1585 kilogramos en más del 5% del tiempo de recorrido. Cual la
probabilidad de que el peso total de los pasajeros de la lancha exceda los 1585 kilogramos. ¿Es alto o
es muy bajo?
μ∑ x =n* μ=¿25*61=1525
R: pnorm(1,032795559,0,1,lower.tail=F)=0.1508488
Ejercicios
1. Un elevador de carga grande puede transportar un máximo de 10000 libras (5 toneladas). Suponga que
una carga que contiene 45 cajas se debe transportar mediante el elevador. La experiencia ha demostrado
que el peso de una caja de este tipo de carga se ajusta a una distribución normal con una media de 200
libras y una desviación estándar de 55 libras. Que probabilidad hay de que las 45 cajas se puedan
cargar en el elevador de carga simultáneamente.
2. Una empresa fabricante de ascensores quiere desarrollar especificaciones para el número de personas
que pueden viajar en un nuevo elevador que están diseñando. Suponga que el peso medio de un adulto es
de 160 libras con una desviación estándar de 15 libras. La distribución de peso sigue una distribución
normal, cual es la probabilidad de que el peso promedio de una muestra de 30 adultos sea 170 libras o
más.
3. La duración de cierto tipo de batería esta normalmente distribuida con un valor medio de 8 horas y
desviación estándar de 1 hora. Hay cuatro baterías en un paquete. Cuál es el valor de duración, de tal
modo que la duración total de todas baterías de un paquete exceda ese valor en solo 5% de todos los
paquetes?
4. Una empresa fabricante de elevadores quiere desarrollar especificaciones para el número de personas
que pueden viajar en un nuevo elevador que están diseñando. Suponga que el peso medio de un adulto es
de 160 libras con una desviación estándar de 15 libras. La distribución de peso sigue una distribución
normal, cual es la probabilidad de que el peso promedio de una muestra de 30 adultos sea 170 libras o
más.
12