Muest Reo
Muest Reo
Muest Reo
de Mercados, Técnicas Cuantitativas.
De las cualidades del hombre, la más asombrosa, es sin duda, la imaginación.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 2
Técnicas de Muestreo
1. Muestreo en Poblaciones Finitas 4
2. Muestreo aleatorio simple 15
3. Muestreo aleatorio estratificado 28
4. Muestreo aleatorio por conglomerados 55
5. Muestreo bietápico por conglomerados 73
6. Muestreo aleatorio sistemático 91
7. Muestreo aleatorio sistemático replicado 103
8. Métodos indirectos de estimación 119
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 3
MUESTREO POBLACIONES FINITAS
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 4
MUESTREO EN POBLACIONES FINITAS
POBLACIÓN: Conjunto de componentes (personas, objetos, etc.) en los que se desea realizar una
investigación.
POBLACIÓN FINITA E INFINITA: Una de las metas de la Estadística en sus diferentes formas es
disponer de datos que sirvan para obtener información con el fin de caracterizar la población que
los ha generado.
Cuando es posible identificar cada una de las unidades que forman la Población asignando
determinadas etiquetas (algo que las diferencia de las demás), es decir, cuando se conoce el valor
de la variable objeto de estudio con el elemento que lo presenta se habla de Población Finita,
denominando tamaño de la población (N) al número de unidades que la forman.
El tamaño de la población puede considerarse infinito o no ser relevante, bien porque proviene de
alguna situación que puede repetirse indefinidamente o porque el tamaño es tan grande que
conviene tratarlo como tal, o bien porque no se puede identificar cada unidad; se dirá que está anta
una Población Infinita.
MUESTRA: Subconjunto o parte del universo o población en que se llevará a cabo la investigación.
La muestra es una parte representativa de la población.
TAMAÑO DE LA MUESTRA: Se define a partir de los recursos disponibles y de los requerimientos
que tenga el análisis de la investigación. Se debe tomar la mayor muestra posible, cuanto más
grande y representativa sea la muestra, menor será el error que se comete.
Una muestra grande tiene más de 30 componentes.
El hecho de que la muestra sea grande no cumple necesariamente con el requisito de
representatividad. Esta característica depende de otros factores y no sólo del tamaño, sino del
diseño del muestreo de cómo se seleccionará a los componentes de la muestra.
NIVEL DE CONFIANZA Y MARGEN DE ERROR: Variables que describen el nivel de precisión de los
resultados de una encuesta por muestreo.
Con un nivel de confianza del 95% el margen de error es del 5%, esto significa que, si la encuesta se
realiza en repetidas ocasiones (seleccionando una nueva muestra con el mismo marco de muestreo
cada vez que la encuesta es repetida), el 95% de las veces los resultados estarán a una distancia
máxima de 5 puntos porcentuales de los valores reales de la población.
SESGO: Situaciones en que los resultados de una encuesta por muestreo subestiman o
sobreestiman un parámetro poblacional (valor estadístico que describe a la población objetivo) de
forma sistemática. Los sesgos se pueden presentar debido a distintos factores.
ESTIMACIÓN DEL TAMAÑO MUESTRAL: Se basa en la inferencia estadística tradicional, es decir, en
la construcción de intervalos de confianza alrededor de las medias o proporciones de la muestra. En
este enfoque, el nivel de precisión se especifica de antemano.
Los estadísticos muéstrales o estadísticos son las diferentes medidas numéricas (media, varianza,
etc.) cuando se aplican a una muestra. Cuando estas medidas numéricas se aplican a una población
se denominan parámetros poblacionales o simplemente parámetros. Un estimador de un parámetro
poblacional es el estadístico muestral (x) utilizado para estimar el parámetro (μ) .
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 5
El estadístico de la cuasivarianza (s2x ) muestral estima la varianza poblacional (σ2 ) .
Cuando la estimación se refiere a un rango o intervalo, se denomina estimación de intervalo, el
parámetro poblacional desconocido probablemente se encuentra en este intervalo.
FACTOR DE PONDERACIÓN: Peso que se atribuye a una determinada variable estadística para
aumentar o disminuir su importancia con relación a las demás variables de un conjunto de datos. En
encuestas por muestreo a veces se utilizan factores de ponderación para que las muestras se
ajusten mejor a la población objetivo, tanto en el caso de muestras estratificadas no proporcionales
como cuando se registran altos niveles de no respuesta.
MUESTREO: Método utilizado para seleccionar a los componentes de la muestra del total de la
población. Son un conjunto de reglas, procedimientos y criterios mediante los que se selecciona un
conjunto de elementos de una población que representan lo que sucede en toda esa población.
MARCO DE MUESTREO: Lista de componentes (individuos, hogares, etc.) de la población objetivo, a
partir de donde se selecciona la muestra.
y Permite que el estudio se realice en menor tiempo.
y Se incurre en menos gastos.
DISEÑO MUESTRAL
y Permite profundizar en el análisis de las variables.
y Permite tener mayor control de las variables a estudiar.
⎧ i Probabilístico
TIPOS DE MUESTREO ⎨
⎩ i No Probabilístico
En una investigación cuantitativa, el investigador escoge una población, saca la muestra
representativa de la población y procede al muestreo probabilístico.
En la investigación cuantitativa, la muestra se basa en analizar con profundidad una característica
que sea válida.
En casos particulares, la investigación se realiza seleccionando de forma intencionada.
Muestreo aleatorio simple
Muestreo estratificado
Muestreo sistemático
Muestreo por conglomerados o clústeres.
¿Existe un
marco de Muestreo aleatorio bietápico
muestreo?
¿Existe un
marco de Muestreo bola de nieve
muestreo? Muestreo dirigido por encuestados
Muestreo de conveniencia
Muestreo accidental o por comodidad
Muestreo por cuotas
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 6
© MUESTREO PROBABILÍSTICO
Es el método más recomendable si se está
haciendo una investigación cuantitativa
porque todos los componentes de la
población tienen la misma posibilidad de ser
seleccionados para la muestra.
MUESTREO ALEATORIO SIMPLE:
Los componentes de la muestra son seleccionados aleatoriamente a partir
del marco de muestreo completo, y cada componente en la muestra tiene
la misma probabilidad de ser seleccionado.
Este tipo de muestreo es la forma más básica de muestreo aleatorio y se suele utilizar en combinación
con otro método de muestreo (como puede ser el estratificado). La selección de la muestra aleatoria
simple se puede realizar mediante un programa informático.
MUESTREO ESTRATIFICADO:
Se divide a la población objetivo en subgrupos que no se sobreponen,
exclusivos, homogéneos, y luego una muestra aleatoria simple se
selecciona de cada subgrupo (estrato).
La distribución del tamaño de la muestra entre los estratos
puede ser proporcional o no proporcional al tamaño de la
población objetivo en cada estrato.
En caso de que no sea proporcional, la probabilidad de ser
incluido en la muestra varía entre los distintos estratos, esta
representación desigual se compensa utilizando factores de
ponderación.
El factor de ponderación corresponde al número de componentes (personas, hogares, etc.)
representados por cada una de ellas. Los factores de ponderación solo se aplican para calcular el
número que cubren toda la muestra, no se utilizan al realizar un análisis que comparen unos estratos
con otros.
Sobre cada estrato se seleccionan muestras aleatorias con un tamaño dado según cierto criterio
denominado “afijación”, entre los que están:
* Igual tamaño en cada estrato (afijación uniforme).
* Tamaño proporcional al tamaño del estrato en la población (afijación proporcional).
* Afijación proporcional corregida por la varianza del estrato, es decir, seleccionando más muestras
de los estratos con mayor variabilidad (afijación óptima).
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 7
Dividir a la población objetivo en distintos estratos suele conllevar a distintas ventajas:
* Si todos los subgrupos son homogéneos, respecto a las variables que se analizan, se pueden
obtener resultados con una gran calidad a partir de una muestra más reducida que con una
muestra no estratificada.
* Garantiza la representatividad de grupos pequeños de la población objetivo al tratarlo como
una población objetivo independiente.
* Aumenta la eficiencia y la representatividad de la muestra. Con una muestra aleatoria simple,
en promedio se obtiene una muestra representativa, con un mayor riesgo de tener subgrupos
sobre o subrepresentados en la muestra.
* Al estratificar la muestra se intenta evitar sesgos, obteniendo estimaciones más precisas sobre
la población objetivo.
MUESTREO SISTEMÁTICO: Se realiza a través del cálculo de un intervalo que
rige la selección de los componentes de la muestra.
Este tipo de muestreo es menos costoso y requiere de menos tiempo que otros métodos, esta técnica
debe ser utilizada con cautela para que ofrezca resultados tan buenos como los del muestreo aleatorio
simple.
Algunos investigadores lo consideran como técnica importante para realizar análisis sobre problemas
sociales de gran magnitud. El muestreo sistemático frecuentemente se utiliza en combinación con
algún otro método, como puede ser el muestreo
El procedimiento es el siguiente:
1. Se identifica y define la población.
2. Cada uno de los componentes de la población debe estar enumerado.
3. Se realiza el cálculo de la muestra.
4. Se realiza al cálculo del intervalo numérico que es la base para la selección de la muestra. Este
se calcula dividiendo (N/m) el total de la población (N) por la muestra (m).
Un inconveniente del muestreo sistemático aparece cuando en la selección se da regularidad en el
ordenamiento. Al elegir a los miembros de la muestra con una periodicidad constante se puede
introducir una uniformidad que no existe en la población. Por ejemplo, si la lista está ordenada por
sexo u otra característica la selección puede alterar la muestra.
Una limitación del muestreo sistemático es que los componentes que conforman el grupo
seleccionado pueden ser muy parecidas entre sí, reduciendo la representatividad de la muestra y, en
consecuencia, aumentar la incertidumbre de los resultados en comparación con un muestreo aleatorio
simple o con un muestreo estratificado.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 8
MUESTREO POR COMGLOMERADOS O CLÚSTERES:
Las unidades objeto de estudio se agrupan en conglomerados
o áreas ocupadas por los elementos de la población.
Se trata de seleccionar aquellos conglomerados o clústeres más representativos de la población, de
forma que estén compuestos de unidades lo más heterogéneas posibles, pero a su vez los clústeres
deben de ser lo más homogéneos posible.
Tiene la ventaja de ser un muestreo menos costoso y más fácil de implementar administrativamente.
Presenta la limitación de dar lugar a conglomerados o clústeres relativamente imprecisos, siendo difícil
de formar grupos heterogéneos (los hogares en un bloque de manzanas tienden a ser similares en
lugar de distintos).
Puede ser difícil calcular e interpretar estadísticos basados en clústeres.
El procedimiento del muestreo por conglomerados:
1. Se definen los conglomerados que componen la
población.
2. Se selecciona los subconjuntos a estudiar y se
realizan los listados de las componentes del
conglomerado.
3. Se procede a calcular la muestra de las casas.
4. Se procede a identificar a los componentes de la muestra que será tomada en cuenta para el
estudio. Por ejemplo, si el estudio se realiza en personas de 20 a 30 años, se procede a identificar
cuantas personas hay entre esas edades en cada casa seleccionada.
5. Se procede a recoger los datos hasta completar la muestra.
MUESTREO BIETÁPICO:
Es un muestreo por conglomerados, pero
no se recogen observaciones de todos los
elementos, sino que se realiza un muestreo
de éstos.
Se desarrolla en dos etapas.
PRIMERA ETAPA: Se divide el área donde reside la población en áreas geográficas más pequeñas
llamadas Unidades Primarias de Muestreo (UPM), que pueden ser municipios, colonias, manzanas o
segmentos censales, etc. Posteriormente, se elabora una lista de las UPM y se extrae una muestra de
estas de forma aleatoria o sistemática.
El número de las UPM seleccionadas dependen del número total de hogares que se desea incluir en la
muestra y del tamaño de las UPM.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 9
SEGUNDA ETAPA: Se confecciona una lista (marco de muestreo) de la población objetivo (por ejemplo,
hogares) que residen en cada una de las UPM seleccionadas. Este procedimiento se realiza a partir de
la enumeración de todos los hogares de las unidades seleccionadas, o bien a través de consultas a la
administración u organizaciones locales.
Considerando la lista (marco de muestreo) se extrae una muestra aleatoria de cada UPM.
Los hogares son las llamadas Unidades Secundarias de Muestreo (USM).
Cuando las Unidades Primarias de Muestreo (UPM) tienen tamaños similares, se selecciona el mismo
número de hogares de cada una de ellas.
Por el contrario, cuando las Unidades Primarias de Muestreo (UPM) tienen tamaños distintos, el
número de Unidades Secundarias de Muestreo (USM) seleccionadas en cada UPM debe ser
proporcional al número de USM en cada UPM.
Al realizar el muestreo en dos etapas se obtiene una muestra de hogares ubicadas en el mismo área,
disminuyendo los costes. Por otra parte, seleccionar una muestra en dos etapas aumenta la
incertidumbre de los resultados y genera el conocido “efecto de diseño”, teniendo que considerar una
muestra más grande que si se hubiera utilizado un muestreo aleatorio simple.
© MUESTREO NO PROBABILÍSTICO:
Cuando el marco de muestreo preexistente no está
disponible se suele utilizar un método bietápico.
Utilizar técnicas no probabilísticas para la selección de una muestra probablemente genera
resultados más sesgados en comparación con los que se obtienen con técnicas probabilísticas, ya
que en muchas ocasiones algunos grupos no están representados en la muestra.
Por otra parte, es difícil evaluar si una muestra no probabilística es representativa.
No obstante, cuando se utiliza esta técnica con cautela y con medidas adicionales para aumentar la
representatividad, con una muestra más grande, ofrece resultados razonablemente sólidos, a pesar
de que son más inciertos que con un muestreo sistemático o aleatorio.
MUESTREO BOLA DE NIEVE:
Es una de las formas más conocidas del
muestreo no probabilístico. Se basa en las redes
de contactos de la población objetivo.
El método de muestreo implica identificar a algunas personas que pertenezcan a la población
objetivo preguntando si podrían identificar o señalar a otras personas que también pertenezcan a la
población objetivo.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 10
A las personas elegidas por las personas iniciales, a su vez, se les pide que elijan o señalen a otras
personas, y así el proceso continúa y la muestra va creciendo hasta que alcance el tamaño de
muestra necesario (siempre mayor que en un muestreo aleatorio simple) o que se llegue al punto de
saturación (alcanzar un punto donde se asegure que todas las personas de la población objetivo han
sido identificadas y no se reciben nuevas referencias).
Presenta el inconveniente es el hecho de que las personas encuestadas elijan a personas con
características similares a las suyas, disminuyendo la representatividad de la muestra. De otra parte,
personas con redes de contactos amplios en las redes tienen más probabilidad de ser incluidas en la
muestra. En este sentido, se obtiene una muestra más representativa considerando un conjunto
inicial de personas encuestadas que difieran en características importantes (variables demográficas y
socioeconómicas).
Otro inconveniente del método bola de nieve es que presente un enmascaramiento. En algunos
contextos las personas encuestadas no quieran señalar a otras personas de la población por
protección, dado que puede presentar una amenaza al identificarlas como parte de la población
objetivo. Para evitar este enmascaramiento se solicita a las personas encuestadas en primera
instancia que sean ellas mismas quienes elijan a las otras personas, en lugar de que solo
proporcionen nombres e información de contacto al equipo encargado de la caracterización.
MUESTRA DIRIGIDA POR ENCUESTADOS: El método MDE (Método Dirigido por Encuestados)
combina el muestreo bola de nieve con un modelo matemático generando muestras independientes
de las personas con las que el proceso de muestreo se inició, además de evitar diferencias entre el
tamaño de las redes de contacto de esas personas.
El método sugiere que se ofrezcan incentivos (compensación económica) a las personas
encuestadas, tanto por participar como por elegir a más personas.
La elección de nuevas personas para participar en la encuesta debe continuar hasta obtener el
tamaño requerido de la muestra, en el caso de que se conozca el tamaño de la población objetivo,
o hasta alcanzar el llamado equilibrio (cuando las características de las personas encuestadas ya no
influyen sobre la muestra).
El método impone un límite al número de elecciones que puede hacer cada persona (generalmente,
tres referencias), con el propósito de limitar el sesgo relacionado con el tamaño de las redes de
contacto de cada persona. Esta restricción se lleva a cabo entregando a cada persona encuestada
un número limitado de cupones para que los transfiera a otras personas de la población objetivo.
De otra parte, las diferencias entre el tamaño de las redes de contacto se intentan corregir aplicando
un factor de ponderación (respecto con el tamaño de su red) a los datos de las personas
encuestadas. En esta línea, los datos proporcionados por personas con redes de contactos más
reducidas tendrán mayor peso que los datos facilitados por personas con redes de contactos más
amplias. Durante el proceso de recolectar información sobre el tamaño de la red de contacto de
cada persona (se puede incluir una pregunta sobre cuántas personas conoce de la población
objetivo).
El método continúa hasta obtener el tamaño requerido de la muestra en el caso de que se conozca el
tamaño de la población objetivo, o hasta que se llegue al punto de saturación (alcanzar un punto
donde se asegure que todas las personas de la población objetivo han sido identificadas y no se
reciben nuevas referencias).
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 11
El método presenta el inconveniente de que el muestreo dirigido por personas encuestadas se basa
en algunas suposiciones (como puede ser que las personas con redes de contactos más amplias
tienden a ser sobremuestreadas) que deben ser verdaderas para generar muestras representativas.
Además, para analizar los resultados se necesitan utilizar herramientas especializadas de datos
(existen herramientas disponibles en RDSAT: http://www.respondentdrivensampling.org/).
MUESTREO DE CONVENIENCIA:
Según los objetivos, el investigador decide qué
componentes (hábitos, opiniones, etc.) integrarán la
muestra según su percepción, sin importar que sea
representativa.
Un ejemplo de proximidad, en una escuela un docente selecciona las primeras dos filas para
participar en la competencia. También podría ser cuando una ONG selecciona las 20 mejores
ciudades para que presten sus servicios en función de la proximidad de su base.
MUESTREO ACCIDENTAL O POR COMODIDAD:
El investigador acomoda el marco muestral de
acuerdo con unos criterios que tiene para la
investigación.
Por ejemplo, una productora desea saber la opinión general de la población de una ciudad respecto
a su última película. Para ello desplaza a los cines de la ciudad a un equipo de entrevistadores
para preguntar directamente a la gente que sale de la sala si les gustó su película.
MUESTREO POR CUOTAS:
El investigador selecciona el marco muestral
considerando algunos fenómenos o variables
(sexo, raza, religión, áreas de trabajo, etc.).
El muestreo se inicia determinando la cantidad
o cuota de componentes con determinadas
características que deben incluirse.
Por ejemplo, en una encuesta a jóvenes que ven un determinado programa de televisión, el
investigador, sin importar la selección, procede a elegir jóvenes hasta alcanzar la cuota asignada.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 12
MUESTREO ESPAÑA: Se desarrolla en torno al Instituto Nacional de Estadística (INE).
La primera aplicación de la teoría del muestreo fue en 1950 con ocasión de los
"Censos de Edificios, Población y Viviendas".
Dada la dificultad que en aquella época suponía procesar los cuestionarios censales, se optó, por
utilizar un diseño muestral basado en un muestreo estratificado aleatorio, muestreando un 10% del
total de cuestionarios censales.
La primera aplicación de las nuevas técnicas de muestreo se realiza en 1958 en la "Encuesta sobre
Cuentas Familiares", en un muestreo en dos etapas en el que en la primera etapa se seleccionaron
municipios y en la segunda familias, con la estratificación de las unidades de primera etapa y con un
tamaño muestral de 4.192 familias.
En 1963 se genera una infraestructura estadística con la división en secciones estadísticas el
territorio nacional, permitiendo realizar dos grandes encuestas: la "Encuesta de Población Activa",
iniciada en 1964 y sin interrupción hasta la actualidad, y la "Encuesta de Presupuestos Familiares" de
1964 y con posteriores repeticiones en 1967, 1973, 1980 y 1990.
La división administritativa de España comprende la provincia, el municipio y el distrito municipal.
El INE introduce una división más fina, para utilización exclusivamente estadística, denominada
sección estadística, con respaldo de croquis, mapas de localización y callejeros. El resultado final de
la división de España es aproximadamente de 40.000 secciones estadísticas.
En 1969 culmina el diseño muestral de las secciones estadísticas con la "Encuesta General de
Población", abriendo la posibilidad de realizar cualquier tipo de encuestas que vaya dirigida a
viviendas familiares o a las personas o grupos familiares que las habitan.
ENCUESTAS DIRIGIDAS A EMPRESAS: Los registros administrativos no son en general totalmente
idóneos para fundamentar en ellos una investigación por muestreo. Una incorrecta armonización de
usos en lo que aplicaciones estadísticas se refiere, y una incorrecta actualización, invalidan la
representatividad de las muestras que sobre ellos se seleccionan.
En este sentido, la "Encuesta de Salarios en Industria y Servicios" empezó con una metodología no
sujeta a la teoría del muestreo, proporcionando información básica de ganancias por trabajador y
hora trabajada, así como las horas trabajadas en promedio por cada trabajador.
En 1963 se mejora la "Encuesta de Salarios en Industria y Servicios" al aplicar un muestreo aleatorio
estratificado, con datos del Ministerio de Trabajo obtenidos por las Mutualidades Laborales, dando
rigor a las cifras ofrecidas.
El diseño tuvo que modificarse en 1977 porque durante el período (1963‐1977) se observaron
problemas debido a las altas y bajas de las empresas y a cambios de rama de actividad y estrato de
tamaño, y fuertes oscilaciones en las estimaciones de un trimeste a otro.
En 1981 se lleva a cabo una nueva modificación al diseño muestral de 1977 de la Encuesta de
Salarios, observando variaciones excesivas en las estimaciones mensuales de ganancias medias,
número de horas trabajadas y número de trabajadores por rama de actividad.
Similarmente a lo referido en la Encuesta de Salario, se puede establecer a una casuística con
Encuestas de Comercio Interior, Industriales, etc.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 13
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 14
MUESTREO ALEATORIO SIMPLE
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 15
MUESTREO ALEATORIO SIMPLE
El muestreo aleatorio simple es una técnica del museo probabilístico en donde todos los elementos
de la población tienen la misma probabilidad de ser seleccionados en la muestra. Puede ser realizado
con reposición o sin reposición, dependiendo si los individuos de la población pueden ser o no
seleccionados más de una vez en la muestra, siendo más eficiente el muestreo aleatorio simple sin
reposición al obtener la misma precisión con menor tamaño de la muestra.
La ventaja del muestreo aleatorio simple es que la generación de números pseudoaleatorios con la
informática asegura la obtención de muestras representativas, la única fuente de error en los
resultados es el azar, error que puede calcularse de forma precisa o acotarse.
Las desventajas de llevar a cabo un muestreo aleatorio simple para las investigaciones radican en
conocer a todos los individuos de la población y que todos ellos sean potencialmente seleccionados,
circunstancia que no se verifica en estudios de mercado o de opinión.
ESTIMADORES DE LA MEDIA, TOTAL POBLACIONAL Y PROPORCIONES
n
⎛ xi ⎞
⎜ ⎟ n
⎛
⎜
xi ⎞
⎟ ∑ x i
∑ ⎝N⎠ =
∑ ⎝ ⎠ =
N =
i 1
μˆ = x =
=
i 1
πi =
i 1
⎛ n ⎞ n
⎜ ⎟
⎝ N ⎠
n n n
∑ ∑ ∑
xi xi xi
x̂ = = = N. = N. x
=
π i =
⎛n⎞ i =1
n
i 1 i 1
⎜ ⎟
⎝N⎠
n
n
⎛ ai ⎞
⎜ ⎟ n
⎛ ai
⎜N
⎞
⎟ ∑ a i
⎧ 1 con atributo
∑ ⎝N⎠ =
∑ ⎝ ⎠ = =i 1
p̂ = ai = ⎨ ai ∼ B(1 , p)
=
i 1
πi =
i 1
⎛n ⎞ n ⎩ 0 sin atributo
⎜N ⎟
⎝ ⎠
N.(N −n) 2
ˆ =
La varianza del estimador para el total de poblacional X, queda: Var (x) . s
n
n
n ∑ (x 2
i − n x2 )
∑
s2 = 1 =
i 1
(x − x) i
2
ˆs2 =
n−1 =
i 1
n−1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 16
n
La fracción del muestreo f = representa el peso de la muestra respecto a la población, se
N
tiene el "factor de corrección de población finita":
⎛ n⎞ ⎛ N − n⎞
Factor de corrección de población finita: ( 1 − f ) = ⎜ 1 − ⎟ = ⎜ ⎟
⎝ N⎠ ⎝ N ⎠
Cuando su valor es superior a 0,95 se considera la población infinita.
1 N
A la inversa de la fracción del muestreo = se le conoce como "factor de elevación", se
f n
utiliza para adecuar las estimaciones muestrales a la población.
ˆ , se puede obtener el estimador de
Con la varianza del estimador del total de la población Var (x)
la varianza de la media poblacional:
pˆ . qˆ
ˆ =
Para el estimador de la proporción proporcional, con ai ∼ B(1 , p) , la varianza: Var (p)
n
Considerando el factor de corrección para la población finita ( 1 − f ) , la expresión de la
varianza de la proporción queda:
⎛ n ⎞
⎜ ai ⎟
⎜ i =1 ⎟
∑ (1 − f ) (1 − f ) (N − n )
ˆ = ( 1 − f ) . Var ⎜
Var (p) ⎟= 2
. ( n . pˆ . qˆ ) = . pˆ . qˆ = . pˆ . qˆ
⎜ n ⎟ n n n. N
⎜ ⎟
⎝ ⎠
MUESTREO CON INTERVALOS DE CONFIANZA
• Intervalo de confianza para estimar el total τ con varianza poblacional desconocida:
⎡ N. (N − n ) ⎤
I( τ ) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ N . x ± t α / 2 , ( n − 1 ) . s x . ⎥
⎣ n ⎦
N. (N − n )
Error de muestreo: e τ = t α / 2 , ( n − 1 ) . s x .
n
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 17
• Intervalo de confianza de la media μ de una población normal con varianza poblacional
desconocida:
⎡ N−n ⎤
I( μ ) = ⎡⎣ x ± e μ ⎤⎦ = ⎢ x ± t α / 2 , ( n − 1 ) . s x . ⎥
⎣ n.N ⎦
(n − 1) . s2x = n . σ2x
N−n
Error de muestreo: eμ = t α / 2 , ( n − 1 ) . s x .
n.N
(N − n) N−n
Tamaño de la muestra: eμ = t α / 2 , ( n − 1 ) . s x . → e2μ = t 2α / 2 , ( n − 1 ) . s2x .
n.N n.N
N
N . e2μ + t2α / 2 , ( n − 1 ) . s2x = t 2α / 2 , ( n − 1 ) . s2x .
n
t2α / 2 , ( n − 1 ) . s2x . N
n=
N . e2μ + t2α / 2 , ( n − 1 ) . s2x
• Intervalo de confianza para estimar el total τ con varianza poblacional conocida:
⎡ N. (N − n ) ⎤
I( τ ) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ N . x ± z α / 2 . σ . ⎥
⎣ n ⎦
N. (N − n)
Error de muestreo: e τ = z α / 2 . σ .
n
N. (N − n) N. (N − n)
Tamaño de la muestra: e τ = z α / 2 . σ . → e2τ = z 2α / 2 . σ2 .
n n
N2 2 N
2
e2τ = z2α / 2 .σ .
2
− z α / 2 . σ . N → eτ + z α / 2 . σ . N = z α / 2 . σ .
2 2 2 2 2 2
n n
z2α / 2 . σ2 . N2
n=
e2τ + z 2α / 2 . σ2 . N
• Intervalo de confianza de la media μ de una población normal con varianza poblacional conocida:
⎡ (N − n) ⎤
I( μ ) = ⎡⎣ x ± e μ ⎤⎦ = ⎢ x ± z α / 2 . σ . ⎥
⎣ n.N ⎦
(N − n)
Error de muestreo: eμ = z α / 2 . σ .
n.N
(N − n) N−n
Tamaño de la muestra: eμ = z α / 2 . σ . → e2μ = z 2α / 2 . σ2 .
n.N n.N
1 1 N
e2 = z 2 /2 . σ2 . − z2 /2 . σ2 . → N . e2 + z 2 /2 . σ2 = z2 /2 . σ2 .
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 18
z2α / 2 . σ2 . N
n=
N . e2μ + z2α / 2 . σ2
También mediante el tamaño muestral que correspondería a una población infinita y, luego,
realizar la corrección por finitud si ésta fuera necesaria (sí la fracción de muestreo obtenida con
este tamaño superase el 1%) :
z 2α / 2 . σ2
Tamaño muestral de una población infinita: n∞ =
e2μ
n∞
Fracción de muestreo: f =
N
n∞
Corrección por finitud (sí f > 0,01 ) : n =
n
1+ ∞
N
• Intervalo de confianza para la proporción p τ total poblacional:
⎡ (N − n) ⎤
I( p τ ) = ⎢p ± z α / 2 . . p . q⎥
⎣ n.(N − 1) ⎦
(N − n)
Error de muestreo: epτ = z α / 2 . . p.q
n.(N − 1)
(N − n) z 2α / 2 . N . p . q
Tamaño de la muestra: epτ = z α / 2 . . p.q → n = 2
n.(N − 1) epτ . ( N − 1 ) + z 2α / 2 . p . q
Otros investigadores prefieren utilizar el estimador de la varianza en lugar de la varianza del
estimador, con lo que se presenta un pequeño desfase.
⎡ (N − n) ⎤
I(p τ ) = ⎢p ± z α / 2 . . p . q⎥
⎣ N. (n − 1 ) ⎦
(N − n)
Error de muestreo: epτ = z α / 2 . . p.q
N. (n − 1 )
(N − n) N . ( ep2τ + z 2α / 2 . p . q )
Tamaño de la muestra: epτ = z α / 2 . . p.q → n =
N. (n − 1 ) N . ep2τ + z 2α / 2 . p . q
Cuando no hay información sobre el valor de la proporción p se utiliza el valor que proporciona la
máxima variabilidad p = q = 0,5
El tamaño muestral también se puede calcular obteniendo, en primer lugar, el tamaño muestral
que correspondería a una población infinita ( n∞ ) y realizar, en caso necesario ‐ sí la fracción de
muestreo f > 0,01 ‐ la corrección por finitud.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 19
z 2α / 2 . p . q
Tamaño muestral de una población infinita: n∞ =
ep2τ
n∞
Fracción de muestreo: f =
N
n∞
Corrección por finitud (sí f > 0,01 ) : n =
n
1+ ∞
N
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 20
EJERCICIOS RESUELTOS DE MUESTREO ALEATORIO SIMPLE
Una compañía suministradora de gas tiene que cobrar cantidades atrasadas de 20.000 clientes. Para
estimar la cantidad total que se le adeuda, selecciona una muestra aleatoria de 64 clientes, que debían
una cantidad media de 1.600 euros, con una desviación típica de 2.000 euros. Se quiere obtener:
a) Intervalo de confianza del 95% de la cantidad total que se adeuda a la compañía de gas.
b) ¿Cuántos clientes tiene que seleccionar la compañía para estimar la cantidad anterior con un
error de muestreo inferior a 2.400.000 euros?
Solución:
a) Sea la variable aleatoria X = "Cantidad atrasada de pago por un cliente".
20.000
La cantidad total adeuda por los 20.000 clientes es τ = ∑
=
X ,
i 1
i que se estima con
n
N. (N − n)
∑
N
x̂ = N . x = . x i , con un error de muestreo estimado e τ = z α / 2 . σ .
n =
i 1
n
El intervalo de confianza para el total τ poblacional es:
⎡ N. (N − n ) ⎤
I( τ ) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ N . x ± z α / 2 . σ . ⎥
⎣ n ⎦
Por consiguiente ( z α / 2 = z 0,025 = 1,96 ) :
⎡ 20.000 . ( 20.000 − 64 ) ⎤
I( τ ) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ 20.000 . 1.600 ± 1,96 . 2.000 . ⎥ =
⎣ 64 ⎦
= [22.215.692,56 , 41.784.307,44 ]
b) Para obtener una estimación de la cantidad total que se adeuda, con un error inferior a
e τ = 2.400.000 , se tiene que elegir una muestra de tamaño superior de:
z2α / 2 . σ2 . N2 1,962 x 2.000 2 x 20.000 2
n= → n= ≈ 1.013 clientes
e2τ + z 2α / 2 . σ2 . N 2.400.000 2 + 1,962 x 2.000 2 x 20.000
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 21
En una ciudad se desea estimar la cantidad que se gastan los turistas. Con este objetivo, entre los
200.000 turistas que utilizaron el avión como medio de transporte, se entrevistan aleatoriamente a 100
turistas que contestaron a la cantidad en euros que se habían gastado.
Obteniéndose los siguientes datos:
100 100
∑
=
x = 120.000
i 1
i ∑
=
x
i 1
2
i = 146.861.100
a) Obtener un intervalo de confianza al 95% para la cantidad media gastada por turista en la ciudad.
b) ¿Cuántos turistas se deben entrevistar para que con un nivel de confianza del 95% para que el
error de estimación no fuera mayor de 95 céntimos de euro?
c) ¿A cuántos turistas se deben preguntar para estimar la proporción de personas insatisfechas con
los servicios prestados, con un error del 15% y un nivel de confianza del 95%?.
Solución:
a) Sea la variable aleatoria X = "Cantidad que se gasta cada turista"
Intervalo de confianza para la media μ poblacional con varianza desconocida:
⎡ (N − n) ⎤
I( μ ) = ⎡⎣ x ± e μ ⎤⎦ = ⎢ x ± z α / 2 . s x . ⎥
⎣ n.N ⎦
La media y varianza muestral son:
100
∑
1 120.000
x = x i = = 1200 euros
n =
i 1
100
Se calcula la cuasivarianza muestral (estimador insesgado de la varianza poblacional) :
⎡ n ⎛ n ⎞ ⎤
2
∑ ∑
n 1
.⎢
1
n. σ2x
= (n − 1). → = s2x s2xσx =
2
xi −
2
. ⎜ xi ⎟ ⎥
(n − 1) ( n − 1 ) ⎢ i=1 n ⎜ i =1 ⎟ ⎥
⎢⎣ ⎝ ⎠ ⎥⎦
⎡ 100 ⎛ 100 ⎞ ⎤
2
1 ⎡ 2 ⎤
∑ ∑
1
.⎢
1
xi ⎟ ⎥ =
1
s2x = xi2 − . ⎜ x 146.861.100 −
⎢ x (120.000)
⎥⎦ = 28.900
99 ⎢ i=1 n ⎜ i = 1 ⎟ ⎥ 99 ⎣ 100
⎣⎢ ⎝ ⎠ ⎦⎥
sx = 28.900 = 170
Intervalo de confianza para el gasto medio por turista, con una fiabilidad del 95%
( z α / 2 = z 0,025 = 1,96 ) :
⎡ ( 200.000 − 100 ) ⎤
I( μ ) = ⎣⎡ x ± e μ ⎦⎤ = ⎢ 1200 ± 1,96 x 170 x ⎥ = [ 1200 ± 33,31 ]
⎣ 100 x 200.000 ⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 22
b) El tamaño muestral para un error en la estimación de la media de 75 céntimos de euro será:
Se tendría que haber entrevistado al menos a 76.168 turistas.
Se podría haber obtenido el tamaño apropiado calculando, en primer lugar, al tamaño muestral que
correspondería a una población infinita:
z 2α / 2 . s2x 1,962 x 28.900
n∞ = e2μ
=
0,952
123.016
n∞ 123.016
Fracción de muestreo: f = = = 0,61508 > 0,01
N 200.000
n∞ 123.016 123.016
n= = = 76.167 turistas
n
1+ ∞ 1 + 0,61508 1 + 0,61508
N
c) El tamaño muestral necesario para estimar una proporción, con el 95% de confianza y con un error
de muestreo ep = 0,15 , viene dado por la expresión:
z2α / 2 . N . p . q
n =
ep2τ . ( N − 1 ) + z2α / 2 . p . q
Al no tener información sobre el valor de p se toma el valor que proporciona máxima variabilidad, es
decir, p = q = 0,5
Con lo que se obtiene,
Es necesario seleccionar a 43 turistas para conocer la insatisfacción en los servicios prestados.
Se podía haber optado por calcular el tamaño muestral que correspondería a una población infinita:
Siendo la fracción en muestro menor que 0,01 no hay que realizar la corrección por finitud.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 23
Una multinacional se plantea cambiar el paquete contable de gestión. Para obtener información de
sus empleados sobre el cambio informático toma una muestra aleatoria de 1.000 empleados y los envía
un cuestionario. Con un nivel de confianza del 90%, necesita saber:
a) Tamaño muestral apropiado para obtener una estimación sobre la proporción de empleados
favorables a que no se renueve la infraestructura de gestión actual, con un error de muestreo
inferior al 10%.
b) En un planteamiento anterior sobre la cuestión, la proporción de empleados favorables al cambio
del paquete de gestión estuvo entre el 35% y el 55%. Utilizando esta información, ¿cuál debería
ser ahora el tamaño muestral necesario?.
c) Sabiendo que del cuestionario nuevo enviado a los 1000 empleados, 38 empleados no han sido
favorables a cambiar paquete de gestión, estimar la proporción de empleados favorables al
cambio y el error de muestreo.
Solución:
a) Se quiere realizar una estimación de la proporción poblacional, realizando un muestreo aleatorio
simple (m.a.s) en una población N = 1.000 empleados, con un nivel de confianza del 90%
( z α / 2 = z 0,05 = 1,645 ) y un error de muestreo epτ = 0,10 .
El tamaño muestral necesario se puede obtener mediante las fórmulas:
⎡ (N − n) ⎤ 1 n ⎧ 1 Favorable
I( p τ ) = ⎢p ± z α / 2 . . p . q ⎥ p̂ = p = ∑ ai donde ai = ⎨
⎣ n.(N − 1) ⎦ n i =1 ⎩ 0 No favorable
(N − n) z 2α / 2 . N . p . q
epτ = z α / 2 . . p.q → n = 2
n.(N − 1) epτ . ( N − 1 ) + z 2α / 2 . p . q
(p = q = 0,5 máxima variabilidad)
Se necesita realizar la corrección por finitud:
n∞ 67,6506
n= = = 63,3640 64 empleados
n
1+ ∞ 1 + 0,06765
N
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 24
b) Para encontrar el tamaño muestral necesario se toma el valor p = 0,35 que presenta mayor
variabilidad. Siendo epτ = 0,10 , se tiene:
N . ( ep2τ + z 2α / 2 . p . q ) 1000 x ( 0,102 + 1,6452 x 0,35 x 0,65 )
n = = 59 empleados
N . ep2τ + z 2α / 2 . p . q 1000 x 0,102 + 1,6452 x 0,35 x 0,65
n∞ 61,5621
n= = 59 empleados
n
1+ ∞ 1 + 0,06156
N
c) Como de los 100 empleados consultados hay 38 que no estuvieron de acuerdo, la estimación
62
puntual de los empleados favorables al cambio es: p̂ = p = = 0,62
100
Error de muestreo para la proporción total de la población favorable al cambio:
(N − n) ( 1.000 − 100 )
epτ = z α / 2 . . p . q = 1,645 x x 0,62 x 0,38 = 0,0757
n.(N − 1) 100 . ( 1000 − 1 )
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 25
Para estimar el volumen de ventas del millón de comercios de un país se ha
seleccionado una muestra aleatoria, con probabilidades iguales y sin
reemplazamiento, con una fracción de muestreo del medio por ciento extendida a
todas las provincias del país.
La precisión lograda ha sido satisfactoria a nivel nacional. Sin embargo, para una determinada provincia,
con un tamaño de población de 20.000 comercios y una varianza estimada en el volumen de ventas del
80% de la varianza nacional, se desea obtener la estimación provincial con idéntica precisión relativa.
¿Es suficiente la fracción de muestreo del medio por ciento seleccionada para esa provincia?.
En caso contrario, ¿qué fracción de muestreo se precisaría?.
Solución:
Si las precisiones relativas son iguales en la estimación del volumen de ventas nacional y provincial,
suponiendo que no existen diferencias significativas en las medias nacional y provincial, se necesita
igualdad de varianzas del estimador del volumen medio de ventas.
Designando por X la característica volumen de ventas, la población con tamaño N y un subíndice 1, la
provincia con un tamaño n y un subíndice 2.
ˆ xˆ ) = V(
La igualdad de precisiones relativas conlleva a que: V( ˆ xˆ )
1 2
20.000
De otra parte, N2 = . N1 = 0,02 . N1 → f2 > f1
1.000.000
40 . 0,005
f2 = = 0,167 ≈ 17%
1 + 39 . 0,005
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 26
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 27
MUESTREO ALEATORIO ESTRATIFICADO
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 28
MUESTREO ALEATORIO ESTRATIFICADO
Una población U = {1 , , k, , N } atendiendo a un determinado criterio se divide en L
subconjuntos { U1 , , Uh , , UL } llamados estratos.
L
U = ∪ Uh , Uh ∩ Ui = φ
h=1
h = 1 , 2, ,L h≠i
Fijado el tamaño muestral de los estratos, dentro de cada uno de ellos se selecciona aleatoriamente una
muestra de tamaño nh , donde h = 1 , 2, ,L
Los tamaños de estas muestras independientes { n1 , , nh , , nL } forman la muestra definitiva n, es
L
decir, n = n1 + + nh + + nL = ∑ nh
h =1
Para obtener buenos resultados en el muestreo estratificado, los individuos dentro de los estratos deben
ser homogéneos entre ellos y, para que no haya solapamientos, heterogéneos entre estratos. De este
modo, el error de estimación es inferior que en el muestreo aleatorio simple.
i i Intervalo de confianza para la media global μ poblacional:
⎡ L L s2h ⎤ muestras
1
I( μ ) = ⎣ μ ST ± e μ ⎦ = ⎢
⎡ ˆ ⎤
⎢N
∑ Nh . xh ± zα/2 . ∑ Wh2 . ( 1 − fh ) . ⎥
n h ⎥ grandes
n > 30
h =1 h =1
⎣ ⎦
⎡ L L s2h ⎤ muestras
1
I( μ ) = ⎡⎣ μˆ ST ± e μ ⎤⎦ = ⎢
⎢N
∑ Nh . xh ± t α / 2 , (n − 1) . ∑ Wh2 . ( 1 − fh ) . ⎥
n h ⎥ pequeñas
n ≤ 30
h =1 h =1
⎣ ⎦
L L
1
Estimador muestreo aleatorio estratificado: μˆ ST = x ST =
N
∑ Nh . xh = ∑ Wh . xh
h =1 h =1
L s2h
Varianza estimador muestreo aleatorio estratificado: Var ( μˆ ST ) = ∑ Wh2 . ( 1 − fh ) .
nh
h = 1
L s2h
Error de muestreo: e μ = z α / 2 . Var (μˆ ST ) = z α / 2 . ∑ Wh2 . ( 1 − f h ) .
nh
h =1
nh
Fracción del muestreo en el estrato h‐ésimo: fh =
Nh
⎛ n ⎞ ⎛ N − nh ⎞
Factor de corrección de población finita para cada estrato: ( 1 − fh ) = ⎜ 1 − h ⎟ = ⎜ h ⎟
⎝ Nh ⎠ ⎝ Nh ⎠
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 29
Nh
Peso poblacional del estrato h‐ésimo: Wh =
N
En cada estrato:
nh
1
Media muestral del estrato h‐ésimo: xh =
nh
∑ xih
i =1
⎛ N − nh ⎞ 2
Varianza del estrato h‐ésimo: Var ( xh ) = ⎜ h ⎟ . sh
n .
⎝ h h ⎠N
nh nh
1 1
Cuasivarianza del estrato h‐ésimo: s2h =
nh − 1
∑ ( xi h − x h ) = n − 1
2
∑ ( xih2 − n h . x 2h )
i =1 h i =1
nh
Peso del estrato h‐ésimo en relación a toda la muestra (afijación): wh = → nh = n . wh
n
La afijación (wh ) es el reparto, explicando de qué modo se van a repartir las (n) unidades muestrales
entre los L estratos: nh = n . wh
El resultado siempre depende del criterio del reparto (wh ) que se aplique.
La varianza de la media poblacional es la suma ponderada de las varianzas de los estratos:
⎛1 L ⎞ 1 L
Var ( μˆ ST ) = Var ( x ST ) = Var ⎜ ∑
⎜N h = 1
N h . xh ⎟ = 2 ∑ N2h . Var ( xh ) =
⎟ N h=1
⎝ ⎠
1 L 2 ⎛ Nh − n h ⎞ s h
2 L s2h
= 2 ∑ N h . ⎜ ⎟. = ∑ Wh . ( 1 − f h ) .
2
N h=1 ⎜ N ⎟ nh nh
⎝ h ⎠ h =1
Cálculo del tamaño (n) de la muestra para el estimador de la media poblacional:
1 L ⎛ N h − n h ⎞ s2h
eμ = z α / 2 . Var ( μˆ ST ) = z α / 2 . Var ( x ST ) = z α / 2 .
N2
∑ h ⎜ N ⎟⎟ . n
N2
. ⎜
h =1 ⎝ h ⎠ h
Considerando el peso de la muestra de cada estrato con relación a toda la muestra, es decir, el
n
reparto o afijación muestral (wh ) , se tiene, wh = h → nh = n . wh
n
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 30
L N2h
N . e2μ L L s2h
∑ wh
. s2h
h =1
z 2α / 2
+ ∑ N h . s2h = ∑ N2h . n . w → n= 2
N . e2μ L
h =1 h =1
∑ N h . s2h
h
+
z 2α / 2 h =1
i i Intervalo de confianza para el total ( τ ) de la población:
⎡ L L s2h ⎤ muestras
I( τ ) = ⎡ τˆ ST ± e τ ⎤ = ⎢ ∑ N h . x h ± z α / 2 . ∑ N2h . ( 1 − fh ) . ⎥ n > 30
⎣⎢ ⎥ ⎢h=1
ST ⎦
h=1 nh ⎥ grandes
⎣ ⎦
⎡ L L s2h ⎤ muestras
I( τ ) = ⎡ τˆ ST ± e τ ⎤ = ⎢ ∑ N h . x h ± t α / 2 , ( n − 1 ) . ∑ N2h . ( 1 − fh ) . ⎥ n ≤ 30
⎣⎢ ⎥ ⎢h=1
ST ⎦
h=1 nh ⎥ pequeñas
⎣ ⎦
L
Estimador del total poblacional: τˆ ST = xˆ τ ST = ∑ N h . x h
h = 1
L s2h
Varianza del estimador del total: Var( τˆ ST ) = Var( xˆ τ ST ) = ∑ N2h . ( 1 − fh ) .
nh
h =1
L s2h
Error estimación total poblacional: e τ
ST
= zα/2 . Var( τˆ ST ) = z α / 2 . ∑ N2h . ( 1 − fh ) .
nh
h =1
El tamaño muestral (n) para estimar el total poblacional se determina despejando en el error de
estimación total e τ , utilizando el peso de la muestra de cada estrato en relación con toda la muestra:
ST
nh L N2h
wh = → nh = n . wh ∑ . s2h
n h = 1 wh
n =
e2τ L
∑
ST
+ N h . sh2
z 2α / 2 h = 1
i i Intervalo de confianza para la proporción (p) poblacional:
⎡ L L
Nh − nh ⎤
I(p) = ⎡ pˆ ± ep ST ⎤ =
⎣ ⎦
⎢
⎢∑ Wh . pˆ h ± z α / 2 . ∑
h =1
Wh2 .
n h . ( Nh − 1 )
. p h . qh ⎥
ˆ ˆ
⎥
⎣h = 1 ⎦
Estimador de la proporción poblacional:
L
1
pˆ ST =
N
. ( N1 . pˆ 1 + + N h . pˆ h + + N L . pˆ L ) = ∑ Wh . pˆ h
h =1
L
Nh − nh
Varianza del estimador de la proporción poblacional: Var ( pˆ ST ) = ∑W
h =1
2
h .
nh . ( Nh − 1 )
. pˆ h . qˆ h
L
Nh − nh
Otros investigadores consideran: Var ( pˆ ST ) = ∑
h =1
Wh2 .
Nh . ( n h − 1 )
. pˆ h . qˆ h
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 31
Error de estimación para la proporción poblacional:
L
Nh − nh
ep ST = z α / 2 . Var ( pˆ ST ) = zα / 2 . ∑
h =1
Wh2 .
nh . ( Nh − 1 )
. pˆ h . qˆ h
En cada estrato:
1 n ⎧ 1 Con atributo
p̂ h = ∑ aih a ih = ⎨
nh i =1 ⎩ 0 Sin atributo
Nh − nh
Varianza del estimador de la proporción de cada estrato: Var ( pˆ h ) = . pˆ h . qˆ h
nh . ( Nh − 1 )
La afijación es el reparto del tamaño muestral (n) entre los diferentes tamaños muestrales de los
estratos (nh ) , de forma que se van a repartir las (n) unidades muestrales entre los L estratos:
nh = n . wh
Hay distintos criterios para realizar las afijaciones:
Afijación uniforme: A todos los estratos les corresponden el mismo número de observaciones
1 n
muéstrales. Es decir, wh = y nh =
L L
Afijación proporcional: Las (n) unidades muéstrales se selecciona proporcionalmente a los
tamaños de los estratos. Las ponderaciones muéstrales (wh ) coinciden con las ponderaciones
poblacionales (Wh ) :
Nh nh Nh
Wh = = = wh → n h = n .
N n N
Afijación de Neyman o de varianza mínima: Se obtiene minimizando la varianza global sujeta a la
condición de que el tamaño de la muestra coincida con la suma de los tamaños muestrales de los
L
∑n
Nh . s h
estratos: Mín Var( x ST ) sujeto a h = n se obtiene: n h = wh . n = L
.n
h =1
∑N
h =1
h . sh
Afijación óptima: Determina los valores de n h (número de unidades que se extraen del estrato
h‐ésimo para la muestra) de forma que para un coste fijo C la varianza de los estimadores sea
mínima.
L
⎧ch ≡ Coste de muestrear cada unidad en el estrato h
Mín Var( x ST ) sujeto a ∑c
h =1
h . nh = C ⎨
⎩ C ≡ Coste total
Sumando los costes (ch . n h ) para los L estratos resulta el coste total de selección de la muestra
estratificada. La expresión (nh ) , como en el caso anterior, se obtiene utilizando los multiplicadores de
Lagrange, y viene dada por:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 32
Nh . s h
ch c1 = c2 = = cL = c Nh . s h
n h = wh . n = L
.n ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ → nh = L
.n
∑N
h =1
h . sh ∑N
h =1
h . sh
ch
σ2 Poblaciones finitas σ2 ⎛ N − n ⎞
σx = ⎯⎯⎯⎯⎯⎯⎯→ σx = .⎜ ⎟
n n ⎝N − 1⎠
Nh
Peso poblacional estrato h‐ésimo: Wh =
N
nh
Peso de la muestra de cada estrato con relación a toda la muestra: wh = → nh = n . wh
n
nh
Fracción del muestreo en el estrato h‐ésimo: f h =
Nh
⎛ n ⎞ ⎛ N − nh ⎞
Factor de corrección de población finita: ( 1 − fh ) = ⎜ 1 − h ⎟ = ⎜ h ⎟
⎝ Nh ⎠ ⎝ Nh ⎠
L L L
Nh − nh L
pˆ h . qˆ h
P= ∑= Wh . Ph pˆ ST = ∑= w h . pˆ h Var( pˆ ST ) = ∑=
h 1
Wh2 .
nh . ( Nh − 1 )
. pˆ h . qˆ h Var(pˆ ST ) = ∑= W 2
h . ( 1 − fh ) .
nh − 1
h 1 h 1 h 1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 33
EJERCICIOS RESUELTOS DE MUESTREO ALEATORIO ESTRATIFICADO
Una compañía aseguradora quiere analizar el importe de las multas anuales de tráfico en
una ciudad con 9.000 conductores. El estudio se realiza clasificando la población en tres
estratos, tomando muestras aleatorias simples en cada uno de ellos.
Los datos obtenidos fueron:
Utilizando un 95% de confianza:
a) Estimar el importe total del importe de sanciones al año entre los menores de 30 años, reflejando el
error de muestreo cometido.
b) Tamaño muestral necesario para estimar el importe medio de sanciones anuales entre los
conductores mayores de 50 años, con un error de muestreo de 60 euros.
c) Mediante un intervalo de confianza estimar el importe anual de sanciones por conductor.
d) En caso de duplicar el tamaño muestral, realizar el reparto por estratos en la nueva muestra según
diferentes criterios, indicando el reparto más eficiente.
e) Tamaño muestral necesario para que la estimación entre 30 y 50 años tuviera un error de muestreo
inferior al 8%. ¿Cuál sería el tamaño muestral apropiado si un análisis anterior indica que sería al menos
del 60%?
Solución:
a) Sea la variable aleatoria X = "Importe de sanciones anuales por conductor"
Se quiere estimar un total poblacional dentro del primer estrato. En consecuencia, el estimador es el
que corresponde a un muestreo aleatorio estratificado.
b) El importe medio estimado de las sanciones anuales en el tercer estrato, con un error de muestreo
de eμ 3 = 60 euros viene dado por:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 34
c) Para estimar el importe medio de sanciones por conductor de la ciudad se utiliza el estimador de la
media total en el muestreo estratificado. Por tanto, el intervalo de confianza adecuado es:
⎡ L L s2h ⎤ n
⎡ ⎤ 1 ⎥ Wh = N h f h = h
I( μ τ ) = xˆ ST ± e τ
⎢⎣ ST ⎥
= ⎢
⎦ ⎢N
∑ Nh . xh ± zα/2 . ∑ Wh2 . ( 1 − fh ) .
nh ⎥ N Nh
h =1 h =1
⎣ ⎦
L
1 1
x̂ τ ST =
N
∑ N h . x h = 9.000 (4000 x 260 + 3.000 x 185 + 2000 x 190) = 219,44 euros
h =1
3 s2h ⎛ 4.000 ⎞
2
⎛ 120 ⎞ 40.560
Var ( xˆ τ ST ) = ∑ Wh2 . ( 1 − f h ) . = ⎜ ⎟ x ⎜1 − ⎟ x +
h =1 nh ⎝ 9.000 ⎠ ⎝ 4.000 ⎠ 120
2 2
⎛ 3.000 ⎞ ⎛ 90 ⎞ 127.670 ⎛ 2.000 ⎞ ⎛ 60 ⎞ 60.900
+ ⎜ ⎟ x ⎜1 − ⎟ x + ⎜ ⎟ x ⎜1 − ⎟ x = 266,271
⎝ 9.000 ⎠ ⎝ 3.000 ⎠ 90 ⎝ 9.000 ⎠ ⎝ 2.000 ⎠ 60
d) Para duplicar el tamaño muestral hay que al peso de la muestra de cada estrato con relación a toda
nh
la muestra: w h = → nh = n . wh
n
3
El tamaño muestral actual es: n = ∑n
h =1
h = 120 + 90 + 60 = 270 conductores
En cada estrato se tomaría una muestra aleatoria de 180 conductores.
Nh 1 Nh
• Afijación proporcional: wh = = h = 1 , 2 , 3 → nh = .n
N 3 N
N1 4.000
n1 = .n = x 540 = 240 conductores
N 9.000
N 3.000 N3 2.000
n2 = 2 . n = x 540 = 180 conductores n3 = .n = x 540 = 120 conductores
N 9.000 N 9.000
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 35
Nh . σh
• Afijación de Neyman o varianza mínima: wh = L
h = 1, 2, 3 nh = n . wh = 540 . wh
∑N . σ
i =1
h h
∑N . σ
i =1
h h = 4.000 x 40.560 + 3.000 x 127.670 + 2.000 x 60.900 = 2.371.067,21
N1 . σ1 4.000 x 40.560
n1 = 540 . 3
= 540 x = 183,47 184 conductores
∑N . σ
2.371.067,21
h h
i =1
N1 . σ1 3.000 x 127.670
n2 = 540 . 3
= 540 x = 244,13 244 conductores
∑N . σ
2.371.067,21
h h
i =1
N1 . σ1 2.000 x 60.900
n3 = 540 . 3
= 540 x = 112,41 112 conductores
∑N . σ
2.371.067,21
h h
i =1
Es el reparto más eficiente, pues minimiza la varianza del estimador.
e) Se trata de estimar una proporción en un muestreo aleatorio simple (interior del segundo estrato).
El tamaño muestral necesario para obtener un error inferior a ep2 = 0,08 es una cantidad superior a
la que se obtiene mediante la fórmula:
z2α / 2 . N2 . p2 . q2
n= sin información, p2 = q2 = 0,5 máxima variabilidad
2
ep2 . ( N − 1 ) + z 2α / 2 . p2 . q2
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 36
Las granjas de una provincia castellana se dividen en cuatro categorías según su especie.
El número de granjas en cada categoría es de 80, 40, 50 y 10.
Un estudio para estimar el total de vacas productoras de leche en la zona genera una
muestra estratificada de 28 granjas se refleja en la siguiente tabla:
Total de vacas
Categoría I 60 , 45 , 70 , 45 , 50, 55, 100, 35, 54, 76
Categoría II 160, 148, 90, 140, 95
Categoría III 25, 20, 22, 30, 33, 15, 24, 16, 95 , 80
Categoría IV 16, 10, 25
Con un 95% de confianza, estimar el total de vacas productoras y el error de la estimación del total
poblacional.
Solución:
Para estimar el total de vacas productoras de leche en la zona se realiza una estratificación, dividiendo
las granjas en cuatro categorías o estratos con tamaños, respectivamente, N1 = 80 , N2 = 40 , N3 = 50
y N4 = 10. De cada uno de los estratos se selecciona una muestra de tamaños, respectivamente,
n1 = 10 , n2 = 5 , n3 = 10 y n4 = 3.
n1 10 n2 5 n3 10 n4 3
f1 = = = 0,125 f2 = = = 0,125 f3 = = = 0,2 f4 = = = 0,3
N1 80 N2 40 N3 50 N4 10
1 − f1 = 0,875 1 − f2 = 0,875 1 − f3 = 0,8 1 − f4 = 0,7
10 5 10 3
∑ ∑ ∑ ∑x
1 1 1 1
x1 = x1h = 59 x2 = x2h = 126,6 x3 = x 3h = 36 x4 = 4h = 17
10 h =1
5 h =1
10 h =1
3 h =1
Cuasivarianzas muestrales (estimador insesgado de la varianza poblacional):
nh
∑( x
1
sh2 = hi − x h )2
( nh − 1 ) i =1
10 5
∑ ∑( x
1 1
s12 = ( x 1i − 59)2 = 32,11 s22 = 2i − 126,6)2 = 1022,8
9 i=1
4 i=1
5 10
∑( x ∑( x
1 1
s22 = 2i − 126,6) = 1022,8
2
s23 = 3i − 36)2 = 780
4 i =1
9 i =1
Estimador total de vacas productoras de leche:
4
τˆ ST = xˆ τ ST = ∑ Nh . xh = 80 x 59 + 40 x 126,6 + 50 x 36 + 10 x 17 = 11754 vacas
h = 1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 37
Varianza del estimador del total de vacas productoras:
780 57
+ 502 x 0,8 x + 10 2 x 0,7 x = 461.695,6
10 3
El INE realiza un estudio sobre el salario mensual en euros de 20.000 trabajadores del
sector industrial de una provincia. Los trabajadores fueron clasificados por grupos de
edad, seleccionando una muestra aleatoria simple en cada uno de los grupos, anotando
el número de contratos fijos.
Los datos recogidos fueron:
Con una confianza del 95% se desea obtener:
a) Estimación del salario medio de los 20.000 trabajadores del sector industrial y error de muestreo. ¿Es
eficiente el reparto muestral entre los grupos de edad?.
b) Intervalo de confianza de la cantidad total mensual percibida entre los salarios de los empleados de
mediana edad.
c) Proporción de trabajadores con contrato fijo y error de muestreo cometido.
Solución:
∑W
Nh
μˆ ST = h . xh , siendo Wh = la ponderación del estrato h‐ésimo, con lo cual:
h =1
N
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 38
3
μˆ ST = ∑W
h=1
h . xh = 0,3 x 1.400 + 0,52 x 1.850 + 0,18 x 2.200 = 1.778 euros
Error de muestreo:
L s2h nh
eμ = zα/2 . ∑ Wh2 . ( 1 − f h ) .
nh
L = 3 , z α / 2 = z 0,025 = 1,96 , f h =
Nh
h =1
sustituyendo, resulta:
⎛ 1.320 ⎞ 164.025
+ 0,18 2 x ⎜1 − ⎟. = 21,085 euros
⎝ 3.600 ⎠ 1.320
Para obtener el reparto muestral más eficiente hay que emplear el criterio de afijación de Neyman o de
varianza mínima. Observando sí los tamaños muestrales que hay en cada estrato coinciden con los que
proporciona este criterio.
Nh . s h
Con el criterio de afijación de Neyman o de varianza mínima: n h = w h . n = L .n
∑N
h =1
h . sh
∑N
h =1
h . s h = 6.000 x 145.161 + 10.400 x 123.904 + 3.600 x 164.025 = 7.404.800
3
n= ∑n
h=1
h = 1.400 + 2.280 + 1.320 = 5.000 empleados
6.000 x 145.161
n1 = x 5000 = 1.544 empleados
7.404.800
10.400 x 123.904
n2 = x 5000 = 2.472 empleados
7.404.800
3.600 x 164.025
n3 = x 5000 = 984 empleados
7.404.800
En consecuencia, el reparto muestral ofrecido no es el más eficiente.
b) Para construir un intervalo de confianza de la cantidad total mensual percibida por los empleados de
mediana edad se utiliza la fórmula correspondiente a un muestreo aleatorio simple aplicado al segundo
estrato.
⎡ s22 ⎤
I ( τ ) = ⎡ τˆ ± e ⎤ = ⎢N x ± z N2 (1 f ) ⎥
⎢ ⎥
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 39
s22
Varianza del estimador del total segundo estrato: Var( τˆ 2 ) = N22 . ( 1 − f2 ) .
n2
⎛ n 2 ⎞ ⎛ N2 − n2 ⎞
Factor de corrección de población finita segundo estrato: ( 1 − f 2 ) = ⎜ 1 − ⎟= ⎜ ⎟
⎝ N 2 ⎠ ⎜⎝ N2 ⎟
⎠
Por tanto,
s22 ⎛ 2.280 ⎞ ⎛ 123.904 ⎞
Var( τˆ 2 ) = N22 . ( 1 − f2 ) . = 10.4002 x ⎜1 − ⎟ x ⎜ ⎟ = 4.589.230.260
n2 ⎝ 10.400 ⎠ ⎝ 2.280 ⎠
c) La estimación de la proporción poblacional de empleados con contrato fijo en un muestreo
3
estratificado viene dada por: p̂ ST = p ST = ∑ Wh . p h
h =1
3
⎛ 6.000 ⎞ ⎛ 612 ⎞ ⎛ 10.400 ⎞ ⎛ 1.420 ⎞ ⎛ 3.600 ⎞ ⎛ 1.118 ⎞
p̂ ST = p ST = ∑ Wh . p h = ⎜ ⎟x⎜ ⎟ + ⎜ ⎟x⎜ ⎟ + ⎜ ⎟x⎜ ⎟ = 0,6075
h=1 ⎝ 20.000 ⎠ ⎝ 1.400 ⎠ ⎝ 20.000 ⎠ ⎝ 2.280 ⎠ ⎝ 20.000 ⎠ ⎝ 1.320 ⎠
El error de muestreo de la proporción poblacional:
L
Nh − nh
ep ST = z α / 2 . Var ( pˆ ST ) = zα / 2 . ∑W
h=1
2
h .
n h . ( Nh − 1 )
. pˆ h . qˆ h
La varianza del estimador de la proporción poblacional será:
3
Nh − n h 6.000 − 1.400
Var ( pˆ ST ) = ∑W
h =1
2
h .
nh . ( Nh − 1 )
. pˆ h . qˆ h = 0,32 x
1.400 x ( 6.000 − 1 )
x 0,4371 x 0,5629 +
Para otros investigadores:
3
Nh − n h 6.000 − 1.400
Var( pˆ ST ) = ∑= W
h 1
2
h .
Nh . ( n h − 1 )
. pˆ h . qˆ h = 0,32 x
6.000 x ( 1.400 − 1 )
x 0,4371 x 0,5629 +
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 40
Una ciudad monumental tiene 10.000 habitantes que viven en tres zonas (antigua,
comercial y residencial). Para analizar la edad de los habitantes, se toma una muestra
respetando la proporción poblacional de cada uno de los estratos, obteniéndose los
siguientes datos:
Edad de los habitantes
Zona antigua 75 , 55 , 62 , 64 , 40, 49, 35, 37, 24
Zona comercial 27, 52, 46, 33, 57
Zona residencial 28, 72, 52, 48, 24, 64, 34, 53, 30 , 45
Se desea conocer:
a) Estimar la edad media de la ciudad y el error de muestreo cometido.
b) Tamaño de la muestra, con una confianza del 95% , cuando el error de muestreo no puede superar
los cuatro años. Hacer el reparto correspondiente entre los estratos.
Solución:
a) Sea la variable X = "edad de los habitantes de la ciudad"
3
La edad media de la ciudad viene dada por la expresión: xST = ∑w
h =1
h . xh
nh
∑x
1
Las medias dentro de cada uno de los estratos: xh = 1h
nh i = 1
9 5 10
∑ ∑ ∑x
1 1 1
x1 = xi1 = 49 años x2 = xi2 = 43 años x3 = i3 = 45 años
9 i = 1
5 i = 1
10 i = 1
Al tener los estratos muestrales la misma proporción de la proporción, se tiene:
Nh nh
Wh = = = wh → N h = N . w h
N n
Por tanto,
3
n= ∑n
h =1
h = 9 + 5 + 10 = 24
n1 9 n2 5 n3 10
w1 = = = 0,375 w2 = = = 0,208 w3 = = = 0,417
n 24 n 24 n 24
En consecuencia,
3
xST = ∑w
h =1
h . xh = 0,375 x 49 + 0,208 x 43 + 0,417 x 45 46 años
La edad media de la población de la ciudad es de 46 años.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 41
Error de muestreo:
L s2h nh
e μ = t α / 2 , (n − 1) . ∑ Wh2 . ( 1 − fh ) .
nh
L = 3 , t 0,025 , 23 = 2,069 , f h =
Nh
h =1
nh
∑( x
1
Cuasivarianzas muestrales de cada estrato: s2h = ih − x h )2
( nh − 1 ) i=1
9 5 10
∑( x ∑( x ∑( x
1 1 1
s12 = i1 − 49) = 269
2
s22 = i2 − 43) = 160,5
2
s23 = i3 − 45)2 = 254,22
8 i=1
4 i=1
9 i =1
⎛ nh ⎞
Factor de corrección de población finita: ( 1 − f h ) = ⎜ 1 − ⎟
⎜ N ⎟
⎝ h ⎠
⎛ 9 ⎞ ⎛ 5 ⎞
( 1 − f1 ) = ⎜1 − ⎟ = 0,99760 ( 1 − f2 ) = ⎜1 − ⎟ = 0,99759
⎝ 3.750 ⎠ ⎝ 2.080 ⎠
⎛ 10 ⎞
( 1 − f3 ) = ⎜1 − ⎟ = 0,99760
⎝ 4.170 ⎠
Varianza del estimador de la media global:
254,22
+ 0,4172 x 0,99760 x = 9,9884
10
eμ 6,5389
Error de muestreo en porcentaje: % e μ = . 100 = . 100 = 14,215%
x ST 46
El error de muestreo es de 6,5389 años, es decir, del 14,215%
L N2h
∑ wh
. s2h
h =1
b) El tamaño de la muestra viene dado por la fórmula: n =
N2 . e2μ L
z 2α / 2
+ ∑ N h . s2h
h =1
N2 . e2μ 3
10.0002 x 4 2
z 2α / 2
+ ∑ N h . s2h =
1,962
+ 3.750 x 269 + 2.080 x 160,5 + 4.170 x 254,22 =
h =1
= 562.607.162
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 42
N2 . e2μ 3
10.0002 x 4 2
z 2α / 2
+ ∑ Nh . s2h =
1,962
+ 3.750 x 269 + 2.080 x 160,5 + 4.170 x 254,22 =
h =1
= 562.607.162
24.026.874.00
Finalmente, n = 43 personas
562.607.162
En consecuencia, para cometer un error de muestreo no superior a 4 años (inferior al obtenido con los
datos facilitados) habría que aumentar el tamaño de la muestra en ( 43 − 24 = 19 personas ) .
Para repartir las 43 personas entre los tres estratos se utiliza el criterio de afijación proporcional
nh
wh = → n h = n . w h , resultando:
n
n1 = n . w1 = 43 x 0,375 16 personas
n2 = n . w2 = 43 x 0,208 9 personas
n3 = n . w1 = 43 x 0,417 18 personas
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 43
En una población de N = 24 unidades dividida en dos estratos del mismo tamaño se
obtiene una muestra estratificada que proporciona los siguientes valores:
b) Error de muestreo σ̂ x , que se hubiera obtenido sin estratificar la población con un esquema sin
reposición y probabilidades iguales, utilizando los resultados obtenidos con la muestra estratificada.
¿Cuál es la ganancia de precisión expresada en porcentaje?
c) Suponiendo ahora que, en un momento aleatorio simple, los datos muestrales del estrato 1
corresponden a la variable auxiliar que se supone relacionada con la anterior, estimar el valor aproximado
de la componente sistemática del error debido al muestreo al utilizar un estimador de la razón.
Solución:
a) El Intervalo de confianza para la media global poblacional:
⎡ L L s2h ⎤
1
I( μ ) = ⎡⎣ μˆ ST ± eμ ⎤⎦ = ⎢ ∑ Nh . xh ± zα/2 . ∑ w2h . ( 1 − fh ) . ⎥ L = 2 estratos
⎢N h=1 h=1 nh ⎥
⎣ ⎦
nh 1 3
Siendo: w h = → w1 = w2 = , f1 = f2 = , n1 = n2 = 3
n 2 12
nh nh
∑ ∑
1 1
Cuasivarianza del estrato h‐ésimo: sh2 = ( xi h − x h ) =
2
(x 2
ih − n h . x 2h )
nh − 1 i =1
nh − 1 =
i 1
n1 3
∑ ∑
1 1 1
Estrato 1: (3; 2; 4) → s12 = ( x2i1 − n1 . x12 ) = (x 2
i1 − n1 . x12 ) = ( 29 − 27) = 1
n1 − 1 =
i 1
3− 1 =
i 1
2
n2 3
∑ ∑
1 1 1
Estrato 2: (6; 4 ; 5) → s22 = ( x2i2 − n1 . x22 ) = (x 2
i2 − n1 . x22 ) = ( 77 − 75) = 1
n2 − 1 =
i 1
3− 1 =
i 1
2
2
s2h ⎛ 3 ⎞ 1 1 ⎛ 3 ⎞ 1
∑=
1
Var ( x ST ) = w2h . ( 1 − fh ) . = . ⎜1 − ⎟. + . ⎜1 − ⎟. = 0,125
h 1
nh 4 ⎝ 12 ⎠ 3 4 ⎝ 12 ⎠ 3
El error de muestreo: σ
ˆx = 0,125 = 0,35
b) J.N.K. Rao relaciona la varianza en muestras aleatorias simples con resultados obtenidos en muestras
estratificadas: :
⎛ N − n⎞ 1 ⎡1 L
Nh
nh ⎤
V̂( x ) = ⎜
⎝ N − 1
⎟. .
⎠ n
⎢
⎢N
∑n ∑ x2hi − xST
2
+ V( x ST ) ⎥
⎥
⎣ h =1 h i =1 ⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 44
2 2
∑= N ∑= w
1 1
x ST = h . xh = h . xh = (3 + 5) = 4
N h 1 h 1
2
2 nh
Nh
∑= n ∑
12 2
x 2
= ⎡3 + 22 + 4 2 + 62 + 4 2 + 52 ⎤ = 424
3 ⎣ ⎦
hi
h = 1 h i 1
⎛ 24 − 6 ⎞ 1 ⎡ 1 ⎤ 43
V̂( x ) = ⎜ ⎟. . ⎢ . 424 − 4 2 + 0,125 ⎥ = = 0,23
⎝ 24 − 1 ⎠ 6 ⎣ 24 ⎦ 184
En consecuencia, con la estratificación la ganancia en precisión es del 23%.
c) El sesgo del estimador de razón, en un muestreo aleatorio simple, utilizando los valores muestrales de
la variable X como característica de estudio y la variable auxiliar Y, viene dado por la expresión::
⎡1
Bˆ = (1 − f ) . Rˆ ⎢ 2
∑y 2
i − n . y2
−
1 ∑ x . y − n . x . y ⎤⎥ siendo Rˆ = x
i i
⎢⎣ y n . (n − 1) x.y n . (n − 1) ⎥⎦ y
xi yi xi . y i y i2
3 6 18 36
2 4 8 16
4 5 20 25
3 3
∑
=
i 1
xi . y i = 46 ∑
=
i
y
1
2
i = 77
n 3 x 3
f = = = 0,125 Rˆ = = = 0,6
N 24 y 5
⎡ 1 77 − 3 . 25 1 46 − 3 . 3 . 5 ⎤ 7
B̂ = (1 − 0,125) . 0,6 ⎢ . − . ⎥ = = 0,00117
⎣ 25 3.2 3.5 3.2 ⎦ 6.000
sesgo prácticamente nulo.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 45
En una determinada localidad de 500 viviendas se desea hacer un estudio sobre el
hábito de fumar entre las personas mayores de 16 años. Para ello se estratifica la
población en dos estratos, en el estrato I (estrato viviendas de clase alta) se
encuentran clasificadas 200 viviendas, mientras que en el estrato II (estrato de
viviendas de clase baja) existen 300 viviendas. En cada uno de los estratos se selecciona una muestra
aleatoria de 5 viviendas.
La tabla arroja los siguientes resultados:
Estrato 1
Viviendas en la muestra 1 2 3 4 5
Número de personas mayores de 16 años 4 3 2 1 2
Número de fumadores mayores de 16 años 1 1 0 1 1
Estrato 2
Viviendas en la muestra 1 2 3 4 5
Número de personas mayores de 16 años 5 6 4 4 3
Número de fumadores mayores de 16 años 3 3 1 2 2
Se pide:
a) Estimar la proporción total de fumadores, entre las personas mayores de 16 años, en la localidad.
b) Calcular el error de muestreo de la estimación anterior.
Solución:
a) Se trata de un muestreo estratificado, donde la unidad primaria de muestreo es la vivienda o
conglomerado de personas. Al no realizarse submuestreo de personas, en cada estrato se aplica un
muestreo aleatorio simple de conglomerados sin submuestreo.
Para cada vivienda de la muestra se obtiene un apareja de datos:
xih ≡ número de fumadores > 16 años, en la vivienda i‐ésima del estrato h
y ih ≡ número de personas > 16 años, en la vivienda i‐ésima del estrato h
X̂
Un estimador consistente de razón R es: R̂ = ˆ ˆ estimadores insesgados de X e Y,
, siendo X e Y
Ŷ
respectivamente, que se obtienen mediante un muestreo estratificado.
L
L L ∑N h . xh
∑ ∑
X̂ h = 1
Xˆ = N h . xh Yˆ = N h . yh Rˆ = = L
Ŷ
h=1 h=1
∑N
h = 1
h . yh
5 5
∑ ∑x
1 4 1 11
x1 = xi1 = = 0,8 x2 = i2 = = 2,2
5 i =1
5 5 i =1
5
5 5
∑ ∑y
1 12 1 22
y1 = y i1 = = 2,4 y2 = i2 = = 4,4
5 5 5 5
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 46
2
∑N
h = 1
h . xh
200 . 0,8 + 300 . 2,2
R̂ = = = 0,455 ≈ 46%
2
200 . 2,4 + 300 . 4,4
∑N
h = 1
h . yh
Los fumadores en la población son el 46%
ˆ ˆ ≈ 1 ⎡ σˆ 2ˆ + Rˆ 2 . σˆ 2ˆ − 2 . R . σ
b) La varianza se estima mediante: V(R) ˆ Xˆ . Yˆ ⎤
Ŷ 2 ⎣ ⎦
X Y
Estrato 1: Fumadores
2 2
xi1 xi1 xi2 xi2
1 1 3 9
1 1 3 9
0 0 1 1
1 1 2 4
1 1 2 4
∑ xi1 = 4 ∑ x2i1 = 4 ∑ xi2 = 11 ∑ x2i2 = 27
x1 = 0,8 x2 = 2,2
nh nh
∑ ∑
1 1
Cuasivarianza del estrato h‐ésimo: sh2 = ( xi h − x h ) = 2
(x 2
ih − n h . x 2h )
nh − 1 i =1
nh − 1 =
i 1
nh
∑
1 1
s12 = (x 2
− n h . x 21 ) = ⎡ 4 − 5 . 0,8 2 ⎤ = 0,2
5− 1 ⎣ ⎦
i1
n1 − 1 =
i 1
nh
∑
1 1
s22 = (x 2
− n h . x 22 ) = ⎡27 − 5 . 2,22 ⎤ = 0,7
5− 1 ⎣ ⎦
i2
n2 − 1 =
i 1
N1 = 200 N2 = 300 n1 = n2 = 5
L
σ
ˆ 2X̂ = ∑= N
h 1
h ( Nh − n h ) sh2 = 200 . (200 − 5) . 0,2 + 300 . (300 − 5) . 0,7 = 69.750
Estrato 2: Personas
2
2
y i2 y i2
y i1 y i1
5 25
4 16
6 36
3 9
2 4
4 16
1 1 4 16
2 4 3 9
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 47
nh
∑
1 1
s12 = (y 2
− n h . y 21 ) = ⎡34 − 5 . 2,4 2 ⎤ = 1,3
5− 1 ⎣ ⎦
i1
n1 − 1 =
i 1
nh
∑
1 1
s22 = (y 2
− n h . y 22 ) = ⎡102 − 5 . 4,4 2 ⎤ = 1,3
5− 1 ⎣ ⎦
i2
n2 − 1 =
i 1
L
σ
ˆ 2Ŷ =
h
∑= N 1
h ( Nh − n h ) sh2 = 200 . (200 − 5) . 1,3 + 300 . (300 − 5) . 1,3 = 165.750
L
Covarianza (Fumadores, Personas): σ
ˆ 2Xˆ . Yˆ = ∑= N
h 1
h ( Nh − n h ) shh
2
Estrato 1: Fumadores
xi1 y i1 xi1 . y i1
1 4 4
1 3 3
0 2 0
1 1 1
1 2 2
∑ xi1 = 4 ∑ yi1 = 12 ∑ xi1 . yi1 = 10
x1 = 0,8 y1 = 2,4
nh ⎛ nh ⎞
∑ ∑
1 1
2
shh = ( x i h − x h ) . (y i h − y h ) = ⎜ x . y − nh . xh . y h ⎟
nh − 1 n − 1 ⎜ i=1 ih ih ⎟
i=1 h
⎝ ⎠
⎛ nh ⎞
∑
1 1
2
s11 = ⎜ x i 1 . y i 1 − n1 . x1 . y1 ⎟ = ( 10 − 5 . 0,8 . 2,4 ) = 0,1
n1 − 1 ⎜ i =1 ⎟ 5− 1
⎝ ⎠
Estrato 2: Personas
xi2 y i2 xi2 . y i2
3 5 15
3 6 18
1 4 4
2 4 8
2 3 6
∑ xi2 = 11 ∑ yi2 = 22 ∑ xi2 . yi2 = 51
x2 = 2,2 y2 = 4,4
2
Ŷ = ∑N
h = 1
h . yh = 200 . 2,4 + 300 . 4,4 = 1.800
⎛ nh ⎞
∑
1 1
s22 2 = ⎜ x i 2 . y i 2 − n2 . x2 . y2 ⎟ = ( 51 − 5 . 2,2 . 4,4 ) = 0,65
n2 − 1 ⎜ i=1 ⎟ 5− 1
⎝ ⎠
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 48
L
σ
ˆ 2Xˆ . Yˆ = ∑= N
h 1
h ( Nh − n h ) shh
2
= 200 . (200 − 5) . 0,1 + 300 . (300 − 5) . 0,65 = 61.425
Varianza estimada:
ˆ ˆ ≈ 1 ⎡ σˆ 2ˆ + Rˆ 2 . σˆ 2ˆ − 2 . R . σ
V(R) ˆ Xˆ . Yˆ ⎤ =
Ŷ 2 ⎣ ⎦
X Y
1
= ⎡ 69.750 + 0,4552 . 165.750 − 2 . 0,455 . 61.425 ⎤ = 0,0149
2 ⎣
1.800 ⎦
Error de muestreo de Rˆ : σ
ˆ R̂ = 0,0149 = 0,122
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 49
MUESTREO ESTRATIFICADO, PRUEBAS DE EVAU
. a) Se desea tomar una muestra estratificada de las personas mayores de edad de un municipio,
cuyos estratos son los siguientes intervalos de edades, en años: de 18 a 30, de 31 a 45, de 45 a 60 y
mayores de 60. En el primer intervalo hay 7500 personas, en el segundo 8400, en el tercero 5700 y en
el cuarto 3000. Calcula el tamaño de la muestra total y su composición, sabiendo que el muestreo se
hace con afijación proporcional y se han elegido 375 personas del primer estrato.
b) Dada la población {2, 4, 6}, construye todas las muestras posibles de tamaño 2, que puedan formar
mediante muestreo aleatorio simple, y halla la varianza de las medias muestrales de todas las
muestras.
Solución:
a) Como la afijación es proporcional, el peso de cada estrato en la muestra es directamente
proporcional a los individuos de la población correspondiente.
Si en el primer estrato, formado por 7500 personas se han elegido n1 = 375
8400 − 375
En el segundo estrato con 8400 personas se eligen n2 = = 420 personas
7500
5700 − 375
En el tercer estrato con 5700 personas se eligen n3 = = 285 personas
7500
3000 − 375
En el cuarto estrato con 3000 personas se eligen n4 = = 150 personas
7500
4
El tamaño total de la muestra es ∑ n = 375 + 420 + 285 + 150 = 1230 personas
i=1
i
Se elige 1 de cada 20 personas en cada estrato.
b) En el muestreo aleatorio simple se mantiene la probabilidad de extracción en cada caso. Por tanto,
las extracciones deben hacerse con reemplazamiento.
El número de muestras de tamaño 2 que pueden obtenerse de la población {2, 4, 6} son 9:
{2, 2} ; {2, 4} ; {2, 6} ; {4, 2} ; {4, 4} ; {4, 6} ; {6, 2} ; {6, 4} y {6, 6}
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 50
Muestra Elementos Media de la muestras xi (xi − x)2
m1 {2, 2} 2 4
m2 {2, 4} 3 1
m3 {2, 6} 4 0
m4 {4, 2} 3 1
m5 {4, 4} 4 0
m6 {4, 6} 5 1
m7 {6, 2} 4 0
m8 {6, 4} 5 1
m9 {6, 6} 6 4
9 9
∑x = 4 ∑ (x − x)
1
x= i i
2
= 12
9 i=1 i=1
La media y varianza de la población son:
N
2+4+6 (2 − 4)2 + (4 − 4)2 + (6 − 4)2 8
∑
1
μ= = 4 σ2 = (xi − μ)2 = =
3 N i =1
3 3
9
∑x = 9 = 4
1 36
Media de las muestras: x = i
9 i=1
9
∑ (x − x)
1 12 4 2
Varianza de las muestras: σ2x = i
2
= = → σx =
9 i =1
9 3 3
8
σ 3 = 8 4 2
Se verifica que μ = x = 4 ; y que σ x = = = =
n 2 6 3 3
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 51
En una ciudad se desea estimar la proporción de hogares que reciclan sus envases de plástico.
La ciudad está dividida en cuatro barrios (A, B, C y D) con 800, 2000, 1200 y 1000 hogares
respectivamente. Se selecciona mediante muestreo estratificado con afijación proporcional una
muestra de 400 hogares.
a) ¿Cuántos hogares de cada uno de los barrios se incluirán en la muestra?
b) Si en el barrio B, 64 hogares de la muestra reciclan, ¿cuál es la estimación de hogares que reciclan
en ese barrio?
c) Proporcionar un intervalo de confianza al 95% para la estimación puntual anterior.
Solución:
400 n n n n
Muestreo estratificado con afijación proporcional: = (0,08) = 1 = 2 = 3 = 4
5000 800 2000 1200 1000
64
b) p̂B = = 0,4
160
c) Un intervalo de confianza para la estimación puntual del barrio B.
⎡ pˆ B . qˆ B ⎤ ⎡ 0,4 . 0,6 ⎤
I 0,95 (pB ) = ⎢pˆ B ± z α / 2 ⎥ = ⎢ 0,4 ± 1,96 ⎥ = ⎡0,4 ± 0,076 ⎤⎦ = ⎡⎣0,324 , 0,476 ⎤⎦
⎣⎢ n ⎥⎦ ⎣ 160 ⎦ ⎣
Una biblioteca desea estimar el porcentaje de libros infantiles que posee. La biblioteca está
compuesta de 4 salas (Norte, Sur, Este y Oeste) con 2500, 2740, 4000 y 6900 libros, respectivamente.
Se selecciona mediante muestreo estratificado aleatorio una muestra del 5% de los libros con
afijación proporcional.
a) ¿Cuántos libros, de cada una de las salas hay en la muestra?
b) Si en la muestra de la sala Sur hay 30 libros infantiles, ¿Cuál es la estimación de la proporción de
libros infantiles en esa sala?
c) Para un nivel de confianza del 90%, obtener el error máximo cometido con la estimación puntual
anterior. Justificar las respuestas.
Solución:
⎧Norte: 2500 x 0,05 = 125 libros
⎪ Sur: 2740 x 0,05 = 137 libros
⎪
a) Con afijación proporcional la muestra es el 5% de cada sala ⎨
⎪ Este: 4000 x 0,05 = 200 libros
⎪⎩Oeste: 6900 x 0,05 = 345 libros
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 52
30
b) p̂Sur = = 0,219
137
⎡ pˆ Sur . qˆ Sur ⎤
c) Intervalo de confianza para la estimación puntual: I 0,90 (p Sur ) = ⎢pˆ Sur ± z α / 2 ⎥
⎢⎣ n ⎥⎦
Se realiza un estudio sobre el tiempo de reacción de los conductores ante un imprevisto. Se
considera una población de 10000 conductores, de los cuales 5000 tienen una antigüedad superior a
10 años, 3000 tienen una antigüedad entre 3 y 10 años y el resto tienen una antigüedad inferior a los
3 años. Se selecciona una muestra de 500 conductores mediante muestreo estratificado con afijación
proporcional. Se pide, justificando la respuesta:
a) ¿Cuántos conductores de cada uno de los estratos mencionados anteriormente se incluirán en la
muestra?
b) En los conductores con una antigüedad de menos de 3 años que resultan elegidos en la muestra,
se observa que el tiempo medio de reacción es de 1,2 segundos. Supuesta que dicha variable tiene
una distribución normal de desviación típica 0,3, proporcionar un intervalo de confianza al 95% para
el tiempo medio de reacción de estos conductores.
Solución:
500 n n n
a) Muestreo estratificado con afijación proporcional: = (0,05) = 1 = 2 = 3
10000 5000 3000 2000
⎡ σ ⎤ ⎡ 0,3 ⎤
I 0,95 ( μ ) = ⎢ x ± z α 2 ⎥ = ⎢1,2 ± 1,96 ⎥ = ⎣⎡1,2 ± 0,059 ⎦⎤ = ⎣⎡1,141 , 1,259 ⎦⎤
⎣⎢ n ⎦⎥ ⎢⎣ 100 ⎦⎥
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 53
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 54
MUESTREO ALEATORIO POR
CONGLOMERADOS
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 55
MUESTREO POR CONGLOMERADOS
El muestreo por conglomerados es una técnica utilizada cuando en la población estadística hay
agrupamientos "naturales" relativamente homogéneos.
Su utilización se justifica por razones económicas (coste, tiempo y recursos).
La población total se divide en estos grupos o clústeres.
El muestreo por conglomerados se diferencia del muestreo aleatorio simple en que las unidades
muestrales son conglomerados de individuos.
El muestreo por conglomerados se diferencia del muestreo estratificado en que los grupos (estratos)
deben ser homogéneos dentro de ellos y heterogéneos entre ellos.
En esta línea, dado un tamaño muestral fijo, la técnica de conglomerados ofrece resultados más precisos
cuando la mayor parte de la variación en la población es dentro de los grupos y no entre los grupos.
Es deseable que cada grupo (cluster) de conglomerados pueda reproducir las diferencias poblacionales
(heterogeneidad dentro) y que entre los conglomerados las diferencias sean pequeñas (homogeneidad
entre).
El muestreo por conglomerados tiene dos etapas:
Muestreo por conglomerados en una etapa (monoetápico): Las unidades muestrales son grupos
completos de unidades elementales.
Muestreo por conglomerados en dos etapas (bietápico): Dentro de cada conglomerado (unidad
primaria) se realiza una segunda selección de unidades últimas o submuestreo.
CONGLOMERADOS: La población U = {1 , , k, , N } se divide en M subconjuntos
M
{ U1 , , Ui , , UM } llamados conglomerados: U = ∪ U i , U i ∩ U j = φ i ≠ j
i = 1
M = Número de conglomerados en la población
m = Número de conglomerados seleccionados
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 56
M
El número Ni de unidades del conglomerado i‐ésimo es el tamaño del conglomerado: ∑ N i = N ,
i = 1
donde N es el tamaño de la población U.
Se eligen m conglomerados, siendo ( n ) el número de conglomerados seleccionados mediante muestreo
aleatorio simple :
M m
N = ∑ Ni n= ∑ Ni
i = 1 i =1
N
Tamaño promedio del conglomerado en la población: N =
M
n
Tamaño promedio del conglomerado en la selección: n =
m
m
Fracción de muestreo conglomerados: f =
M
M−m
Factor corrección población finita: ( 1 − f ) =
M
Ni
Total del conglomerado i‐ésimo: t i = ∑x i j
i‐ésimo conglomerado y el j‐ésimo individuo
j= 1
m Ni m m
1 1 1
xC =
n
∑ ∑ xij =
n
∑ ti =
n
∑ Ni . xi
i=1 j=1 i=1 i=1
i i Intervalo de confianza para la media poblacional:
⎡1 m
m ⎛ M−m ⎞ 2 ⎤
I ( μ ) = ⎣⎡ μˆ C ± eμ ⎦⎤ = ⎢ ∑ Ni . xi ± zα / 2 . .⎜
n2 ⎝ M ⎠
⎟ . sC ⎥
⎢⎣ n i=1 ⎥⎦
m Ni m m
1 1 1
Estimador puntual: μˆ C = xC =
n
∑ ∑ x ij =
n
∑ ti =
n
∑ Ni . xi
i=1 j=1 i=1 i=1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 57
1 ⎛ M−m ⎞ 2 m ⎛ M−m ⎞ 2
Estimador de la varianza muestral: Var ( xC ) = 2
. ⎜ ⎟ . sC = 2 . ⎜ ⎟ . sC
m. n ⎝ M ⎠ n ⎝ M ⎠
El estimador de la varianza es asintóticamente insesgado, mejora cuando el tamaño de conglomerados
es grande.
El sesgo disminuye cuando los conglomerados son de tamaño parecidos: N 1 = = Ni = = Nm
m ⎛ M−m ⎞ 2
Error de muestreo por conglomerados: eμ = z α / 2 . Var ( xC ) = z α / 2 . .⎜ ⎟ . sC
n2 ⎝ M ⎠
m
1
Cuasivarianza entre conglomerados: s2C =
m−1
∑ N2i . ( x i − xC )2
i = 1
Cuando el número de conglomerados seleccionados es pequeño se utiliza la distribución t de Student con
(m − 1) grados de libertad.
⎡1 m
m ⎛ M−m ⎞ 2 ⎤
I( μ ) = ⎡⎣ xC ± eμ ⎤⎦ = ⎢ ∑ Ni . xi ± tα / 2 , ( m − 1 ) . .⎜
n2 ⎝ M ⎠
⎟ . sC ⎥
⎣⎢ n i =1 ⎥⎦
i i Intervalo de confianza para la media poblacional por conglomerados:
⎡1 m
M ⎛ M−m ⎞ 2 ⎤
I( μ ) = ⎣⎡ μˆ C ± eμ ⎦⎤ = ⎢ ∑ Ni . x i ± tα / 2 , ( m − 1 ) . . ⎜
N2 ⎝ m ⎠
⎟ . sC ⎥
⎣⎢ n i = 1 ⎦⎥
m
1
Estimador puntual: μˆ C = xC =
n
∑ Ni . x i
i=1
N
Tamaño promedio del conglomerado en la población: N =
M
Estimador de la varianza:
M ⎛ M−m ⎞ 2
Error de muestreo: eμ = t α / 2 , ( m − 1 ) . Var ( X C ) = t α / 2 , ( m − 1 ) . . ⎜ ⎟ . sC
N2 ⎝ m ⎠
m
1
Cuasivarianza entre conglomerados: s2C =
m−1
∑ N2i . ( x i − xC )2
i = 1
t2α / 2 , ( m − 1) . M2 . s2C
Tamaño de la muestra: m =
e2μ . N2 + t2α / 2 , ( m − 1) . M . s2C
M ⎛ M−m ⎞ 2
Se despeja del error de muestreo: eμ = t α / 2 , ( m − 1 ) . . ⎜ ⎟ . sC
N2 ⎝ m ⎠
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 58
e2μ . N2 . m = t2α / 2 , ( m − 1) . M . ( M − m ) . s2C
t2α / 2 , ( m − 1) . M2 . s2C
m =
e2μ . N2 + t2α / 2 , ( m − 1) . M . s2C
i i Intervalo de confianza para el total poblacional:
⎡ ⎛ M−m ⎞ 2 ⎤
I( τ ) = ⎡⎣ xˆ τ ± e τ ⎤⎦ = ⎢ N . xC ± t α / 2 , ( m − 1 ) . M. ⎜ ⎟ . sτ ⎥
⎢⎣ ⎝ m ⎠ ⎥⎦
Estimador puntual: μˆ τ = xˆ C = N . x C
Estimador de la varianza del total:
M ⎛ M−m ⎞ 2 ⎛ M−m ⎞ 2
Var ( xˆ τ ) = Var ( N . xC ) = N2 . Var( xC ) = N2 . 2
. ⎜ ⎟ . sC = M . ⎜ ⎟ . sτ
N ⎝ m ⎠ ⎝ m ⎠
⎛ M−m ⎞ 2
Error de muestreo del total: e τ = t α / 2 , ( m − 1 ) . Var ( xˆ C ) = t α / 2 , ( m − 1 ) . M. ⎜ ⎟ . sτ
⎝ m ⎠
t2α / 2 , ( m − 1) . M2 . s2τ
Tamaño de la muestra: m =
e2τ + t2α / 2 , ( m − 1) . M . s2τ
i i Intervalo de confianza para la proporción poblacional:
⎡ 1 m
M ⎛M − m⎞ 2 ⎤
I( p ) = ⎡⎣ pˆ p ± ep ⎤⎦ = ⎢ ∑ N i . p i ± zα / 2 . . ⎜
N2 ⎝ m ⎠
⎟ . sp ⎥
⎢⎣ N i =1 ⎥⎦
m
1
Estimador puntual: p̂p = pp =
N
∑ N i . pi
i =1
1 ⎛ M−m ⎞ 2 M ⎛M − m⎞ 2
Varianza de la proporción: Var ( pˆ p ) = .
2 ⎜ ⎟ . sp = 2 . ⎜ ⎟ . sp
m.N ⎝ M ⎠ N ⎝ m ⎠
m
1
Cuasivarianza entre conglomerados: sp2 =
m−1
∑ N2i . ( pi − pp )2
i =1
M ⎛M − m⎞ 2
Error muestral de la proporción: ep = z α / 2 . Var ( pˆ p ) = z α / 2 . . ⎜ ⎟ . sp
N2 ⎝ m ⎠
z2α / 2 . M2 . sp2
Tamaño de la muestra: m =
ep2 . N2 + z2α / 2 . M . sp2
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 59
EJERCICIOS RESUELTOS DE MUESTREO POR CONGLOMERADOS
La Comunidad de Madrid desarrolla un estudio sobre el consumo de drogas entre los
jóvenes de Enseñanza Secundaria. Entre los 89 Centros que tiene la DAT Capital, se
selecciona una muestra aleatoria simple de seis Centros, realizando una encuesta
anónima a todos los estudiantes de cada Centro.
Los datos recogidos de la encuesta fueron:
a) Construir un intervalo de confianza para el gasto mensual medio en tabaco y alcohol entre los
estudiantes de la ESO, con una confianza del 95%.
b) Construir un intervalo de confianza para alumnos de la ESO que han consumido otras drogas, con una
fiabilidad del 95%.
Solución:
a) Para obtener información sobre la variable X = "Gasto mensual en tabaco y alcohol de un alumno
de la ESO" se ha realizado un muestreo por conglomerados, eligiendo mediante un muestreo aleatorio
simple seis Centros (m = 6) entre los (M = 89) Centros que tiene DAT Capital.
El intervalo de confianza del gasto medio semanal en tabaco y alcohol viene dado por la expresión:
⎡1 m
m ⎛M − m⎞ 2 ⎤
I( μ ) = ⎡⎣ xC ± eμ ⎤⎦ = ⎢ ∑ Ni . xi ± tα / 2 , ( m − 1 ) . .⎜
n2 ⎝ M ⎠
⎟ . sC ⎥
⎢⎣ n i= 1 ⎥⎦
m
n= ∑ Ni M = 89 m= 6
i=1
Para facilitar los cálculos se construye la tabla:
Ni xi Ni . xi x i − xC N2i . ( x i − xC )2
1.272 16,80 21.369,6 1,86 5.597.577,45
974 12,60 12.272,4 ‐2,34 5.194.570,31
889 15,40 13.690,6 0,46 167.231,92
1.207 18,32 22.112,24 3,38 16.643.625,72
1.328 11,80 15.670,4 ‐3,14 17.388.232,81
824 14,42 11.882,08 ‐0,52 183.595,11
6.494 96.997,32 45.174.833,31
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 60
6
n= ∑ Ni = 1.272 + 974 + 889 + 1.207 + 1.328 + 824 = 6.494 alumnos
i= 1
6
1 96.997,32
Estimador puntual: μˆ C = xC =
6.494
∑ Ni . xi =
6.494
= 14,94 euros
i=1
Cuasivarianza entre conglomerados:
6
1 45.174.833,31
s2C =
5
∑ N2i . ( x i − xC )2 =
5
= 9.034.966,66 euros2
h = 1
6 ⎛ 89 − 6 ⎞
Estimador de la varianza: Var ( xC ) = x ⎜ ⎟ x ( 9.034.966,66 ) = 1,198 euros2
6.494 2 ⎝ 89 ⎠
Error de muestreo:
ii Intervalo de confianza del gasto medio semanal poblacional:
b) Para construir un intervalo de confianza para el total de estudiantes de la ESO que han consumido
otras drogas, con una confianza del 95%, sea la variable
⎧1 consume otras drogas
Y = "Alumnos de la ESO que consumen otras drogas" Y≡⎨
⎩0 no consume otras drogas
ii Intervalo de confianza para el total de alumnos que consumen otras drogas:
⎡ ⎛ M − m ⎞ sτ ⎤
2
I( τ ) = ⎡⎣ xˆ τ ± e τ ⎤⎦ = ⎢ M . w C ± t α / 2 , ( m − 1 ) . 2
M .⎜ ⎟. ⎥
⎢⎣ ⎝ M ⎠ m ⎥⎦
m Ni Nj
∑ ∑ ∑
M
Estimador puntual: x̂ τ = Y ij = M . w w i = y i j Total del conglomerado i‐ésimo
m = =
i 1 j 1 =
j 1
⎛ M − m ⎞ sτ
2
Estimador de la varianza total: Var ( xˆ τ ) = M2 . ⎜ ⎟ .
⎝ M ⎠ m
m ⎡ m ⎛ m ⎞
2 ⎤
∑ ∑ ∑
1 1 ⎢ 1 ⎥
Cuasivarianza muestral: s2τ = ( wi − w i )2 = w2i − ⎜ wi ⎟
m −1 i =1 ⎢
m −1 i =1 m ⎜ i =1 ⎟ ⎥
⎢⎣ ⎝ ⎠ ⎥⎦
Error de estimación: e τ = t α / 2 , ( m − 1 ) . Var ( xˆ τ )
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 61
Para facilitar los cálculos se elabora la tabla:
wi w2I
870
182 33.124 wC = = 145 alumnos
6
132 17.424
x̂ τ = M . w = 89 x 145 = 12.905 alumnos
119 14.161
193 37.249
⎡ 6 ⎛ ⎞
2 ⎤ ⎛ ⎞
8702 ⎟
6
∑ ∑
1 ⎢ 1 ⎥ = 1 ⎜
114 12.996 s2τ = w2i − ⎜ wi ⎟ x ⎜ 131.845 − ⎟ = 1.140,8
⎢
5 i =1 6 ⎜ i =1 ⎟ ⎥ 5 ⎜ 6 ⎟⎠
130 16.900 ⎢⎣ ⎝ ⎠ ⎥⎦ ⎝
870 131.854
⎛ 89 − 6 ⎞ 1.140,8
Estimador de la varianza total: Var ( xˆ τ ) = 892 x ⎜ ⎟ x = 1.404.514,93
⎝ 89 ⎠ 6
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 62
En un estudio sobre la desigualdad social del distrito de Tetuán (seis barrios, con
38.000 viviendas estructuradas en 190 manzanas) se analiza el consumo de
electricidad. Se seleccionan aleatoriamente 10 manzanas de viviendas, recogiendo
información sobre el consumo de electricidad, resultando:
a) ¿Cuál es el Intervalo de confianza (95%) del consumo medio de electricidad por manzanas de
viviendas?. ¿Qué tamaño debe tener la muestra para que el error no sea mayor del 5% del consumo
medio en electricidad?.
b) Encontrar el Intervalo de confianza (90%) del consumo total de electricidad. ¿Cuál es la muestra de
conglomerados para que el error de muestreo sea del 5%?.
c) Calcular el Intervalo de confianza (95%) de la proporción estimada de mujeres por vivienda en la
población. ¿Qué tamaño tiene que tener la muestra para que el error de muestreo no supere al 10%
en la proporción de la población?.
Solución:
a) Sea la variable X = "consumo de electricidad por manzanas de viviendas"
Para obtener información sobre esta variable se ha realizado un muestreo por conglomerados
(manzanas de viviendas) eligiendo, mediante un muestreo aleatorio simple, diez manzanas de viviendas
(m = 10) entre las 190 (M = 190) con que cuenta el distrito de Tetuán.
La población objetivo son las 38.000 viviendas.
Para estimar el consumo medio de electricidad por manzanas de viviendas en la población de Tetuán se
utiliza el intervalo de confianza:
⎡1 m
M ⎛ M−m ⎞ 2 ⎤
I( μ ) = ⎣⎡ xC ± eμ ⎦⎤ = ⎢ ∑ Ni . x i ± tα / 2 , ( m − 1 ) . . ⎜
N2 ⎝ m ⎠
⎟ . sC ⎥
⎣⎢ n i = 1 ⎥⎦
190 10
N 38.000
Siendo: N = ∑ N i = 38.000 n= ∑ Ni M = 190 m = 10 N=
M
=
190
= 200
i =1 i=1
Para facilitar los cálculos se construye la tabla:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 63
Ni xi Ni . x i ( x i − xC )2 N2i . ( x i − xC )2
168 1798 302.064 26.569 749.883.456
174 1478 257.172 24.649 746.273.124
177 1693 299.661 3.364 105.390.756
179 1254 224.466 145.161 4.651.103.601
163 2100 342.300 216.225 5.744.882.025
178 1535 273.230 10.000 316.840.000
157 1817 285.269 33.124 816.473.476
163 2067 336.921 186.624 4.958.413.056
174 1364 237.336 73.441 2.223.499.716
181 1348 243.988 82.369 2.698.490.809
1.714 2.802.407 23.011.250.019
10
1 2.802.407
Estimador puntual: μˆ C = xC =
1.714
∑ Ni . x i = 1.714
= 1635 kw/h
i=1
N 38.000
Tamaño promedio del conglomerado en la población: N = = = 200
M 190
10
1 23.011.250.019
Cuasivarianza conglomerados: s2C =
9
∑ N2i . ( x i − xC )2 =
9
= 2.556.805.558
i = 1
Estimador de la varianza:
eμ 176,024
Error de muestreo en términos relativos: % eμ = x 100 = x 100 = 10,76%
xC 1.635
Intervalo de confianza para el consumo medio de electricidad:
Sí el error de muestreo no debe superar el 5% del consumo medio en electricidad, se tiene:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 64
2,2622 x 190 2 x 2.556.805.558
En consecuencia, m = 39 conglomerados
81,752 x 38.000 2 + 2,262 2 x 190 x 2.556.805.558
b) Intervalo de confianza para el consumo total de electricidad de la población:
⎡ ⎛ M−m ⎞ 2 ⎤
I( τ ) = ⎡⎣ xˆ τ ± e τ ⎤⎦ = ⎢ N . xC ± t α / 2 , ( m − 1 ) . M. ⎜ ⎟ . sτ ⎥
⎣⎢ ⎝ m ⎠ ⎥⎦
Estimador de la varianza del consumo total:
eτ 6.688.895
Error de muestreo en términos relativos: % e τ = x 100 = x 100 = 10,76%
xC 62.130.000
Intervalo de confianza para el consumo total de electricidad:
El número de conglomerados (m) que se requieren para un error muestral del 5% del consumo total, es
decir, un error e•τ = xC x 0,05 = 62.130.000 x 0,05 = 3.106.500 , se obtiene despejando:
c) Intervalo de confianza (95%) de la proporción estimada de mujeres por vivienda en la población.
⎡ 1 m
M ⎛M − m⎞ 2 ⎤
I( p ) = ⎡⎣ pˆ p ± ep ⎤⎦ = ⎢ ∑Ni . p i ± zα / 2 . . ⎜
N2 ⎝ m ⎠
⎟ . sp ⎥
⎣⎢ N i =1 ⎦⎥
Para facilitar los cálculos se construye la tabla:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 65
Ni pi Ni . pi ( pi − pp )2 N2i . ( pi − pp )2
168 0,53 89,04 0,0004 11,2896
174 0,79 137,46 0,0576 1.743,8976
177 0,39 69,03 0,0256 802,0224
179 0,44 78,76 0,0121 387,6961
163 0,65 105,95 0,0100 265,69
178 0,28 49,84 0,0729 2.309,7636
157 0,86 135,02 0,0961 2.368,7689
163 0,54 88,02 0,0001 2,6569
174 0,76 132,24 0,0441 1.335,1716
181 0,32 57,92 0,0529 1.733,0569
1.714 943,28 10.960,0136
10
N = 38.000 n= ∑ N i = 1.714 M = 190 m = 10
i=1
10
1 1
Estimador puntual: p̂p = pp =
N
∑ Ni . pi =
1714
x 943,28 = 0,55 mujeres/vivienda
i =1
10
1 10.960,0136
Cuasivarianza entre conglomerados: sp2 =
9
∑ N2i . ( pi − pC )2 =
9
= 1.217,78
i =1
1 ⎛ M−m ⎞ 2 M ⎛M − m⎞ 2
Varianza de la proporción: Var ( pˆ C ) = .⎜ ⎟ . sp = 2 . ⎜ ⎟ . sp
m . N2 ⎝ M ⎠ N ⎝ m ⎠
Varianza de la proporción:
M ⎛ M−m ⎞ 2 190 ⎛ 190 − 10 ⎞
Var ( pˆ p ) = . ⎜ ⎟ . s p = x ⎜ ⎟ x (1.217,78) = 0,002884
N2 ⎝ m ⎠ 38.0002 ⎝ 10 ⎠
Intervalo de confianza para la proporción poblacional de mujeres:
Para que el error de muestreo no supere el 10% en la proporción de mujeres, ep = 0,01
Tamaño de la muestra:
z2α / 2 . M2 . sp2 1,962 x 1902 x 1.217,78
m = = = 164 conglomerados
ep2 . N2 + z 2α / 2 . M . sp2 0,012 x 38.000 2 + 1,962 x 190 x 1.217,78
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 66
De una población formada por N conglomerados se selecciona una muestra de
tamaño n con el procedimiento siguiente: la 1ª extracción se realiza con
N
probabilidades desiguales Pi , siendo ∑ P = 1 , los (n − 1) conglomerados
i
i
restantes de la muestra se eligen con probabilidades iguales. Todas las extracciones se hacen sin
reposición. Se pide:
c) Calcular una estimación insesgada del total poblacional X, siendo N = 50 , n = 4 , Xi el total del
conglomerado i‐ésimo, y conociendo los siguientes datos de los conglomerados de la muestra:
N N N
⎡ n−1 ⎛ N−n ⎞ ⎤ ⎛ n−1 ⎞ ⎛ N−n ⎞
b) ∑πi
i = ∑i
⎢ N − 1 + ⎜ N − 1 ⎟ . Pi ⎥ = N . ⎜ N − 1 ⎟ + ⎜ N − 1 ⎟ .
⎣ ⎝ ⎠ ⎦ ⎝ ⎠ ⎝ ⎠ ∑P
1
i
4 4
∑ ∑ ⎡ n−1
Xi Xi 100
c) X̂ = = = +
πi ⎛ N−n ⎞ ⎤ ⎡ 3 ⎛ 46 ⎞ ⎤
i=1 i=1
⎢ N − 1 + ⎜ N − 1 ⎟ . Pi ⎥ ⎢ 49 + ⎜ 49 ⎟ . 0,026 ⎥
⎣ ⎝ ⎠ ⎦ ⎣ ⎝ ⎠ ⎦
80 120 60
+ + + = 4.487
⎡ 3 ⎛ 46 ⎞ ⎤ ⎡ 3 ⎛ 46 ⎞ ⎤ ⎡ 3 ⎛ 46 ⎞ ⎤
⎢ 49 + ⎜ 49 ⎟ . 0,017 ⎥ ⎢ 49 + ⎜ 49 ⎟ . 0,022 ⎥ ⎢ 49 + ⎜ 49 ⎟ . 0,013 ⎥
⎣ ⎝ ⎠ ⎦ ⎣ ⎝ ⎠ ⎦ ⎣ ⎝ ⎠ ⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 67
MUESTREO CON MUESTRAS COMPLEJAS
Se selecciona una muestra a partir de un diseño muestral que combina diferentes procedimientos
muestrales. Por ejemplo, en encuestas donde el muestreo se realiza en varias etapas
Investigaciones donde el muestreo se realiza en varias etapas, en la primera se estratifica a la
población, en la segunda etapa se seleccionan aleatoriamente conglomerados, y en una tercera etapa
se eligen aleatoriamente a los individuos dentro de los conglomerados.
Una empresa segoviana de porcino vende sus mercancías en el interior y exterior de
España, un auditor desea verificar si la facturación media anual por cliente es de 985
euros.
Para ello, en una primera fase divide a la clientela en dos estratos (interior o o exterior), y dentro de
cada estrato toma una muestra aleatoria de conglomerados (60 en el interior y 40 en el exterior).
Posteriormente, en una segunda fase, dentro de cada conglomerado elige una muestra aleatoria de
las facturas (10 en el interior y 8 en el exterior).
Los datos recogidos figuran en la tabla adjunta:
Estrato 1: Comercio Interior en España Estrato 2: Comercio Exterior fuera de
España
U1i N1i n1i ∑ x1i 2
s1i U2i N2 i n2i ∑ x2i s22i
1 204 22 24972 355229 1 51 7 2382 22822
2 141 15 18956 333384 2 71 9 3068 20275
3 126 13 16879 315661 3 116 15 4593 7435
4 173 18 23267 340769 4 53 8 1890 19381
5 126 14 17222 358772 5 109 14 4015 15429
6 157 17 19204 339507 6 116 15 4364 17078
7 165 18 19026 281421 7 103 13 3392 5748
8 139 15 21135 305978 8 71 9 1796 10131
9 141 15 16093 410228 690 90 25500
10 118 13 15581 371733
1490 160 19233
Solución:
Primero se analizan el estimador de la media y la varianza del estimador de la media dentro de cada
estrato. Posteriormente, se estima la media poblacional atendiendo al peso de los estratos:
Estrato 1: Se selecciona una muestra aleatoria de conglomerados (m1 = 10) y se obtiene el valor
medio de las facturas mediante la expresión:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 68
Para facilitar los cálculos se construye la tabla:
Estrato 1: Comercio Interior en España
⎜ N1i . x1i − x1 ⎟ 2
N1i . ⎜1 − ⎟.
n1i m1 ⎠ ⎜ N1i ⎟ n1i
⎝ ⎝ ⎠
1 204 22 24.972 1.135,1 231.558,55 355.229 2.738.554.479,14 1.079.096.630
2 141 15 18.956 1.263,7 178.186,40 333.384 1.083.567,72 710.748.964,8
3 126 13 16.879 1.298,4 163.596,46 315.661 244.324.536,27 622.298.075,5
4 173 18 23.267 1.292,6 223.621,72 340.769 1.970.860.676,46 913.773.265,3
5 126 14 17.222 1.230,1 154.998,00 358.772 587.061.187,78 650.955.312
6 157 17 19.204 1.129,6 177.354,59 339.507 3.507.220,11 790.131.868,2
7 165 18 19.026 1.057,0 174.405,00 281.421 23.255.017,00 682.586.905
8 139 15 21.135 1.409,0 195.851,00 305.978 276.345.885,90 632.859.957,3
9 141 15 16.093 1.072,9 151.274,20 410.228 781.378.348,44 874.572.804
10 118 13 15.581 1.198,5 141.427,54 371.733 1.428.825.419,04 637.721.877,7
1490 160 192.335 1.792.273,46 8.055.196.337,87 7.594.745.660
10
N1 1490
M1 = 60 m1 = 10 N1 = ∑ N1i = 1490 N1 = = = 149
i=1 m1 10
1 10 1.792.273,46
Valor medio de las facturas de los conglomerados: x1 = . ∑ N1i . x1i = = 1.202,87
N1 i = 1 1.490
Cuasivarianza "entre" los conglomerados:
10 2
1 ⎛ 1490 ⎞ 8.055.196.337,87
2
s1b =
10 − 1
∑ ⎜ N1i . x1i −
⎝ 10
x 1.202,87 ⎟ =
⎠ 9
= 895.021.815,32
i=1
Cuasivarianza "dentro" para el conjunto de conglomerados:
10 ⎛ n1i ⎞ s w1i
2
s12 w =∑ 2
N1i . ⎜1 − ⎟. = 7.594.745.660
⎜ N1i ⎟ n1i
i=1 ⎝ ⎠
Varianza del estimador de la media poblacional (varianzas "entre" y "dentro" de los conglomerados):
M
Var ( x1 ) = . ⎡(M − m ) . sb2 + s2w ⎤⎦ =
2 ⎣
m . N1
10
= . ⎡⎣( 60 − 10) x 895.021.815,32 + 7.594.745.660 ⎤⎦ = 3.929,69
60 x 1,4902
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 69
Estrato 2: Se selecciona una muestra aleatoria de conglomerados (m2 = 8) y se obtiene el valor
medio de las facturas mediante la expresión:
Para facilitar los cálculos se construye la tabla:
Estrato 2: Comercio Exterior
8
N2 690
M2 = 40 m2 = 8 N2 = ∑ N2 i = 690 N2 = = = 86,25
i=1 m2 8
8
1 195.649,56
Valor medio de las facturas de los conglomerados: x2 = . ∑ N2i . x2i = = 283,55
N2 i = 1 690
Cuasivarianza "entre" los conglomerados:
2
⎛ 690 ⎞ 559.648.400,44
⎜ N2i . x2 i − 283,55 ⎟ = = 79.949.771,49
8
1
∑
x
s22 b = ⎝ 8 ⎠ 7
8− 1 i=1
Cuasivarianza "dentro" para el conjunto de conglomerados:
8 ⎛ n2 i ⎞ s w2i
2
La media poblacional anual de las facturas se obtiene a partir de las estimaciones obtenidas para cada
estrato, con su respectiva ponderación.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 70
Estimación de la media poblacional anual de las facturas:
2 Nh 1490 690
x = ∑ N
. xh =
2180
x 1.202,87 +
2180
x 283,55 = 911,89
h=1
Estimación de la varianza del valor medio poblacional anual de las facturas:
2
⎛ Nh ⎞
2
⎛ 1490 ⎞
2
⎛ 690 ⎞
2
Var ( x ) =
h=1
⎜
⎝
∑N
⎟ . Var ( xh ) = ⎜
⎠ ⎝ 2180
⎟ x 3.929,69 + ⎜
⎠ ⎝ 2180
⎟ x 2.213,45 = 2.057,51
⎠
eμ 88,90
Error relativo de muestreo: % eμ = . 100 = . 100 = 9,75 %
x 911,89
Intervalo de confianza para la media poblacional anual de las facturas:
El auditor verifica que la facturación media anual por cliente es de 985 euros, al ser una cantidad
comprendida dentro del intervalo de confianza para la media poblacional de las facturas.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 71
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 72
MUESTREO BIETÁPICO POR
CONGLOMERADOS
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 73
MUESTREO BIETÁPICO POR CONGLOMERADOS
Cuando se realiza un muestreo monoetápico de conglomerados, con unidades elementales de los
conglomerados elegidos para la muestra parecidas entre sí, puede que un pequeño número de ellas
constituya una muestra representativa, sin necesidad de utilizar todas las unidades elementales del
conglomerado muestral.
Sí esto sucede, con el objetivo de ahorrar coste, conviene efectuar un submuestreo en cada
conglomerado seleccionado inicialmente para la muestra. De esta forma, se eligen sólo una parte de sus
unidades para la muestra final.
Se tienen así definidas dos etapas en el muestreo, de ahí el nombre de muestreo bietápico o muestreo
con submuestreo.
En el muestreo de conglomerados bietápico, en una primera etapa se selecciona una muestra aleatoria
de conglomerados. En una segunda etapa se selecciona, independientemente en cada conglomerado de
primera etapa, una submuestra aleatoria de cada conglomerado.
Generalmente, en la segunda etapa se utiliza un muestreo sin reposición y probabilidades iguales.
Un muestreo trietápico de conglomerados es cuando en la segunda etapa se vuelve a realizar un
sub‐submuestreo de unidades elementales.
De este modo se puede generalizar al muestreo polietápico
Ejemplo: En un estudio sobre el consumo de tabaco entre los alumnos de ESO.
En una primera etapa se seleccionan aleatoriamente los Centros y, en una segunda etapa, se seleccionan
aleatoriamente a los alumnos dentro de estos Centros.
VENTAJAS DEL SUBMUESTREO
No es necesario utilizar todas las unidades elementales de los conglomerados seleccionados en la
primera etapa.
Con cierto grado de homogeneidad dentro de los conglomerados muestrales no tiene sentido
seleccionar todas sus unidades elementales para la muestra, basta con elegir solo algunas de ellas
originando el submuestreo.
Se necesitan menos recursos y el coste es menor, al considerar solo algunas de las unidades
elementales de los conglomerados elegidos en primera etapa para la muestra.
INCONVENIENTES DEL SUBMUESTREO
Tiene menor precisión.
Los submarcos dentro de cada conglomerado pueden originar complicaciones al aumentar el número
de etapas del submuestreo.
Aparecen fuentes de variación que complican los cálculos. La primera fuente es debida a la selección
de las unidades primarias (conglomerados) y la segunda fuente de variación es consecuencia del
submuestreo dentro de cada unidad primaria (conglomerados).
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 74
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 75
TEOREMA DE MADOW: Un muestreo de conglomerados bietápico tiene dos conjuntos de unidades de
muestreo cuya selección a su vez origina dos tipos de variación:
La variación correspondiente al muestreo de unidades primarias (conglomerados) que se denota con el
subíndice 1, y la variación debida al muestreo de los individuos dentro de los conglomerados
seleccionados que se distingue con el subíndice 2.
Con esta notación la esperanza de un estimador bietápico θ̂ será:
E( θˆ ) = E1 E2 ( θˆ ) = E1 ⎡⎣E2 ( θˆ ) ⎤⎦
Var ( θˆ ) = E( θˆ − θ )2 = E1 E2 ( θˆ − θ )2
De acuerdo con esta notación, el teorema de Madow proporciona la siguiente expresión para la varianza
de un estimador insesgado en el muestreo bietápico:
Esto es, la varianza de un estimador bietápico es la suma del valor esperado de la varianza entre los
conglomerados y las varianzas dentro de los conglomerados.
En efecto,
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 76
Var ( θˆ ) = E( θˆ − θ )2 = E1 E2 ( θˆ − θ )2 = E1 E2 ( θˆ 2 + θ2 − 2 θ θˆ ) = E1 ⎡⎣E2 ( θˆ 2 ) + θ2 − 2 θ E2 ( θˆ ) ⎤⎦
2
Sustituyendo en esta última expresión el valor de E2 ( θˆ 2 ) = Var2 ( θˆ ) + ⎡⎣E2 ( θˆ ) ⎤⎦ se tiene:
i i Intervalo de confianza para la media poblacional en un muestreo bietápico de conglomerados con
probabilidades iguales:
⎡ m ⎤
⎢ ∑ Ni . xi ⎥
M M
I( μ ) = ⎢ . 2 ⎤⎥
i =1
± zα / 2 . ⎡
. ( M − m ) . sb + s w ⎦
2
⎢N m m . N2 ⎣ ⎥
⎢ ⎥
⎢⎣ ⎥⎦
m
∑ Ni . xi
M i=1
Estimador de la media poblacional: x = .
N m
nj
1
Siendo la media dentro de cada conglomerado: x i =
nj
∑ xi j
j =1
M
Varianza del estimador de la media poblacional: Var ( x ) = . ⎡(M − m) . sb2 + s2w ⎤⎦
2 ⎣
m.N
M
Error de muestreo: eμ = z α / 2 . . ⎡(M − m) . sb2 + s2w ⎤⎦
2 ⎣
m.N
eμ
Error relativo de muestreo: % eμ = . 100
x
La varianza del estimador es la suma de la varianza "entre" conglomerados y la varianza "dentro" de los
conglomerados.
Según el teorema de Madow, la varianza se descompone como:
⎛ m ⎞ ⎛ 1 ⎞ 2 M ⎛M−m ⎞ 2
Variabilidad "entre" los conglomerados: Var 1 ⎣⎡ E2 ( x )⎦⎤ = ⎜ 1 − ⎟.⎜ 2 ⎟
. sb = 2 .⎜ ⎟ . sb
⎝ M ⎠ ⎝ m.N ⎠ N ⎝ m ⎠
2
1 m
⎛ N ⎞
Cuasivarianza "entre" los conglomerados: sb2 =
m−1
∑ ⎜ Ni . xi − x ⎟
⎝ M ⎠
i=1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 77
Variabilidad "dentro" de los conglomerados:
2
M m ⎛ ni ⎞ s wi M
E1 ⎣⎡ Var 2 ( x ) ⎦⎤ =
m . N2
∑ N2i . ⎜1 − ⎟ .
Ni ⎠ ni
= 2
. s2w
i=1 ⎝ m.N
nj
1
Cuasivarianza "dentro" del conglomerado i‐ésimo: s2w i =
nj − 1
∑ ( xi j − xi )2
j=1
2
m
⎛ ni ⎞ s wi
Cuasivarianza "dentro" para el conjunto de conglomerados: s2w = ∑ Ni2 . ⎜1 − ⎟ .
Ni ⎠ ni
i=1 ⎝
Sumando las varianzas "entre" y "dentro" de conglomerados, la varianza del estimador de la media
poblacional resulta:
Cuando no se conoce el tamaño N de la población, la estimación de la media poblacional:
m m
1 N1
x=
N1
∑ Ni . xi N1 = ∑ Ni N1 =
m
i=1 i=1
Intervalo de confianza para la media poblacional:
⎡ 1 m m ⎤
⎡ ⎤
I( μ ) = ⎣ x ± eμ ⎦ = ⎢ . ∑ Ni . xi ± z α / 2 . . ⎡( M − m) . sb2 + s2w ⎤ ⎥
⎢⎣ N1 i = 1 M . N12 ⎣ ⎦⎥
⎦
1 m
Estimador de la media poblacional: x = . ∑ Ni . xi
N1 i = 1
(N . x )
m
1 2
Cuasivarianza "entre" los conglomerados: sb2 =
m−1
∑ i i − N1 x
i=1
m ⎛ n i ⎞ sw i
2
Error muestral: eμ = z α / 2 . Var ( x )
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 78
i i Intervalo de confianza para el total poblacional en un muestreo bietápico de conglomerados con
probabilidades iguales:
⎡M m M ⎤
I( τ ) = ⎢ . ∑ Ni . xi ± z α / 2 . . ⎡⎣(M − m ) . sb2 + s2w ⎤⎦ ⎥
⎣⎢ m i = 1 m ⎥⎦
m
∑ Ni . xi
M i=1 M m
Estimador poblacional: x̂ = N . x = N . . = . ∑ Ni . xi
N m m i=1
Varianza del total poblacional:
M
Var ( xˆ ) = Var ( N . x ) = N2 . Var ( x ) = N2 . . ⎡(M − m ) . sb2 + s2w ⎤⎦ =
2 ⎣
m.N
M
= . ⎡⎣(M − m ) . sb2 + s2w ⎤⎦
m
M
Error de muestreo: e τ = z α / 2 . Var ( x ) = z α / 2 . . ⎡⎣(M − m ) . sb2 + s2w ⎤⎦
m
eτ
Error relativo de muestreo: % e τ = . 100
x̂
i i Intervalo de confianza para la proporción poblacional un muestreo bietápico de conglomerados.
⎡ 1 m ⎤
∑
m
I(p) = ⎡⎣ pˆ ± z α / 2 . Var ( pˆ ) ⎤⎦ = ⎢ . Ni . pˆ i ± z α / 2 . . ⎡(M − m ) . sb2 + s2w ⎤ ⎥
⎢ N1 M . N12 ⎣ ⎦⎥
⎣ =
i 1 ⎦
m m
∑ ∑
1
Estimador de la proporción poblacional: pˆ = . N . pˆ i i donde N1 = N i
N1 =
i 1 =
i 1
nj
⎧ 1 Con atributo
∑= a
1
Estimador de la proporción de cada conglomerado: p̂i = ij ai j = ⎨
nj j 1 ⎩ 0 Sin atributo
m 2
⎛ n ⎞
∑
1
Cuasivarianza de la proporción "entre" los conglomerados: sb2 = ⎜ N i . pˆ i − pˆ ⎟
m−1 =
i 1 ⎝ m ⎠
m
⎛ ni ⎞ pˆ i . qˆ i
Cuasivarianza proporción "dentro" para el conjunto de conglomerados: s2w = ∑
=
i
N . ⎜1 −
⎝ 1
2
i⎟.
N ⎠ i ni
m
Varianza del estimador de la proporción poblacional: Var ( pˆ ) = . ⎡(M − m ) . sb2 + s2w ⎤⎦
M . N12 ⎣
m ⎛M−m⎞ 2 m
Var ( pˆ ) = Var 1 ⎡⎣ E2 ( pˆ ) ⎤⎦ + E1 ⎡⎣ Var 2 ( pˆ ) ⎤⎦ = 2 . ⎜ ⎟ . sb + 2
. s2w =
N1 ⎝ M ⎠ M . N1
m
= . ⎡(M − m ) . sb2 + s2w ⎤⎦
2 ⎣
M . N1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 79
m
Error de muestreo: ep = z α / 2 . . ⎡(M − m ) . sb2 + s2w ⎤⎦
2 ⎣
M . N1
COSTE DE UN CONGLOMERADO BIÉTAPICO:
Con un presupuesto C y costes individuales del trabajo de campo c1 y c2 , para determinar el valor óptimo
de n para todos los conglomerados que se pueden estimar, se utiliza la función de coste de campo:
C = c1 . m + c 2 m . n
Se asume que los conglomerados son del mismo tamaño, donde c1 y c 2 son los costes individuales
respectivos, esto es, c1 es el coste de muestrear a "m" conglomerados en una primera etapa y, después,
c 2 es el coste de muestrear a ( m . n ) individuos dentro de cada conglomerado.
N . s2w . c1
El valor de n que minimiza la varianza de la media muestral para un coste fijo es: n =
M . sb2 . c 2
Despejando m se obtiene el número "m" de conglomerados apropiado para la muestra:
C
C = c1 . m + c 2 m . n → m =
c1 + c 2 . n
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 80
EJERCICIOS RESUELTOS DE MUESTREO BIETÁPICO POR CONGLOMERADOS
En el distrito de Tetuán (seis barrios, con 37.464 familias estructuradas en 190 manzanas
de viviendas) se ha seleccionado una muestra piloto de seis manzanas de viviendas y
dentro de ellas se han tomado muestras aleatorias de familias recogiendo la renta
familiar. En la tabla adjunta se muestran los datos recogidos:
Manzanas de Ni ni Renta familiar (miles de euros)
viviendas
1 20 4 924 5.120 2.696 3.912
2 10 3 3.527 4.519 5.976
3 20 5 1.446 2.550 2.944 2.270 4.890
4 20 4 1.884 3.108 2.730 2.430
5 10 4 3.012 4.710 3.750 3.784
6 15 5 1.350 2.045 4.068 2.412 3.220
Se pide:
a) Intervalo de confianza para la media poblacional y error relativo de muestreo.
b) ¿Cuántos conglomerados hay que analizar con un presupuesto de 6.920 euros, sabiendo que el coste
de seleccionar las manzanas de viviendas es de 3 euros por conglomerado, mientras que el coste de
muestrear a las familias dentro de cada conglomerado es de 10 euros?
c) Intervalo de confianza para el total de la población.
Solución:
a) La población objetivo es las 37.464 familias del distrito de Tetuán, con un método de selección
muestral en dos etapas. En la primera etapa se seleccionan las manzanas de viviendas, y en la segunda
etapa se seleccionan las familias.
Intervalo de confianza para la media poblacional:
⎡ m ⎤
⎢ ∑ Ni . xi ⎥
I( μ ) = ⎢ M i=1
. ± zα / 2 .
M
. ⎡( M − m ) . sb + s w ⎤⎦ ⎥
2 2
⎢N 2 ⎣ ⎥
m m.N
⎢ ⎥
⎣⎢ ⎦⎥
En un primer paso, se calcula la media muestral de cada conglomerado, el promedio poblacional
estimado y la cuasivarianza dentro de cada conglomerado.
nj
∑
N 37.464 1
M = 190 m=6 N = 37.464 N= = = 197,179 s2w i = (x ij − xi )2
M 190 nj − 1 =
j 1
Para facilitar los cálculos se recurre a la tabla:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 81
nj
C i Ni ni Renta familiar (miles de euros) xi N i . xi ∑ ( xi j − xi )2 s2w i
j=1
294.585
nj
1
Media dentro de cada conglomerado: x i =
nj
∑ xi j
j =1
6
∑ Ni . xi
M i=1 190 294.585
Promedio poblacional estimado: x = . = . = 249
N m 37.464 6
La varianza del estimador de la media poblacional es la suma de las varianzas entre y dentro de los
conglomerados, resultando:
M
Var ( x ) = . ⎡( M − m ) . sb2 + s2w ⎤⎦
m . N2 ⎣
m 2
1 ⎛ N ⎞
Cuasivarianza "entre" los conglomerados: sb2 =
m−1
∑ ⎜Ni . xi − x ⎟
⎝ M ⎠
i=1
2
m
⎛ ni ⎞ s wi
Cuasivarianza "dentro" para el conjunto de conglomerados: s2w = ∑ Ni2 . ⎜1 − ⎟ .
Ni ⎠ ni
i=1 ⎝
2
⎛ N ⎞
( )
2
M = 190 m=6 N = 37.464 ⎜Ni . xi − . x ⎟ = N i . x i − 197,179 x 249
⎝ M ⎠
En la tabla se presentan las operaciones necesarias para realizar los cálculos:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 82
⎛ N ⎞
2
⎛ n ⎞ ⎛
2
ni ⎞ s wi
Ci Ni ni xi Ni . xi s2w i ⎜ Ni . xi − x ⎟ ⎜ 1 − i ⎟ N2i . ⎜1 − ⎟ .
⎝ M ⎠ ⎝ Ni ⎠ ⎝ Ni ⎠ ni
Cuasivarianza "entre" los conglomerados:
2
1 6
⎛ N ⎞ 478.576.587,5
sb2 =
5
∑ ⎜Ni . xi − x ⎟ =
⎝ M ⎠ 5
= 95.715.317,51
i=1
Cuasivarianza "dentro" para el conjunto de conglomerados:
6 ⎛ n i ⎞ s2w i
s2w = ∑ N2i . ⎜1 −
⎜ N
⎟.
⎟ ni
= 452.393.070
i=1 ⎝ i ⎠
Varianza del estimador de la media poblacional (varianzas "entre" y "dentro" de los conglomerados):
M
Var ( x ) = . ⎡(M − m ) . sb2 + s2w ⎤⎦ =
2 ⎣
m.N
190
= x ⎡⎣( 190 − 6 ) x 95.715.317,51 + 452.393.070 ⎤⎦ = 407,557
6 x 37.464 2
El error muestral, asumiendo normalidad, con un 95% de fiabilidad:
eμ 39,569
Error de muestreo en términos relativos: % eμ = . 100 = x 100 = 15,89 %
x 249
Intervalo de confianza para la media poblacional:
N . s2w . c1
b) El valor de n que minimiza la varianza de la media muestral para un coste fijo es: n =
M . sb2 . c 2
37.464 x 452.393.070 x 3
n = = 16,72 17 familias
190 x 95.715.317,51 x 10
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 83
Con un presupuesto de 6.920 euros, los conglomerados que se pueden estimar son:
C 6920
m = = = 40 conglomerados
c1 + c 2 . n 3 + 10 x 17
c) Intervalo de confianza para el total poblacional:
⎡M m M ⎤
I( τ ) = ⎣⎡ xˆ ± z α / 2 . Var ( x ) ⎦ = ⎢ . ∑ N i . x i ± z α / 2 .
ˆ ⎤ . ⎡⎣(M − m ) . sb2 + s2w ⎤⎦ ⎥
⎣⎢ m i = 1 m ⎥⎦
M m 190 6 190
Estimador poblacional: x̂ = . ∑ Ni . xi = . ∑ Ni . xi = x 294.585 = 9.328.525
m i=1 6 i=1 6
Varianza del total poblacional:
M
Var ( xˆ ) = . ⎡⎣(M − m ) . sb2 + s2w ⎤⎦ =
m
190
= x ⎡⎣( 190 − 6 ) x 95.715.317,51 + 452.393.070 ⎤⎦ = 572.027.000.000
6
eτ 1.482.396,384
Error relativo de muestreo: % e τ = . 100 = x 100 = 15,89 %
x 9.328.525
Intervalo de confianza para el total poblacional:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 84
Los arbolitos recientemente plantados en una región de España se encuentran
distribuidos en 50 conglomerados variando en especie y características. Un ingeniero
agrónomo considera que las alturas de los arbolitos (en pulgadas castellanas) son
muy parecidas en cada conglomerado pero pueden variar considerablemente de un
conglomerado a otro. Por este motivo, el agrónomo utilizando conglomerados en dos etapas, con el
objetivo de obtener un intervalo de confianza de la altura promedio de los arbolitos con una confianza
del 95%, muestrea el 10% de los arbolitos dentro de 10 conglomerados elegidos.
Los datos recogidos se muestran en la tabla adjunta.
Ci Ni ni Altura arbolitos xi s2i
1 68 7 13, 12, 12, 10, 14, 11, 12 12 2
2 51 5 11, 10, 8, 7, 9 9 2,5
3 64 6 7, 6, 8, 5, 7, 6 6,5 1,1
4 52 5 7, 8, 7, 7, 6 7 0,5
5 60 6 12, 13, 14, 11, 9, 10 11,5 3,5
6 54 5 12, 10, 13, 12, 11, 11 11,5 1,1
7 53 5 15, 11, 16, 13, 14 13,8 3,7
8 57 6 5, 8, 6, 8, 7 6,8 1,7
9 61 6 9, 10, 10, 9, 8, 8 9 0,8
10 51 5 13, 10, 12, 11, 12 11,6 1,3
571 56
Construir un intervalo de confianza (95%) para la altura promedio poblacional de los arbolitos.
Solución:
Intervalo de confianza para la media poblacional:
⎡ 1 m m ⎤
I( μ ) = ⎡⎣ x ± eμ ⎤⎦ = ⎢ . ∑ Ni . xi ± z α / 2 . . ⎡( M − m) . sb2 + s2w ⎤ ⎥
⎢⎣ N1 i = 1 M . N12 ⎣ ⎦⎥
⎦
Al no conocerse el tamaño N de la población, la estimación de la media poblacional se realiza mediante
la expresión:
m m
1 N1
x=
N1
∑ Ni . xi N1 = ∑ Ni N1 =
m
i=1 i=1
Para facilitar los cálculos se construye la tabla:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 85
2
⎛ N1 ⎞ ⎛ n i ⎞ sw i
2
Ci Ni ni xi s2i Ni . xi ⎜Ni . xi − x⎟ N2i . ⎜1 − ⎟.
⎝ m ⎠ ⎜ Ni ⎟ ni
⎝ ⎠
1 68 7 12 2 816 64.231,83 1.185,14
2 51 5 9 2,5 459 10.724,67 1.173,00
3 64 6 6,5 1,1 416 21.479,83 680,53
4 52 5 7 0,5 364 39.426,07 244,40
5 60 6 11,5 3,5 690 16.240,95 1.890
6 54 5 11,5 1,1 621 3.415,23 582,12
7 53 5 13,8 3,7 731,4 28.506,95 1.882,56
8 57 6 6,8 1,7 387,6 30.611,00 823,65
9 61 6 9 0,8 549 183,87 447,33
10 51 5 11,6 1,3 591,6 843,32 609,96
571 56 5.625,6 215.663,74 9.518,70
10
N1 571
M = 50 m = 10 N1 = ∑ N i = 571 N1 = = = 57,1
i=1 m 10
1 10 1
Estimador de la media poblacional: x = . ∑ Ni . xi = x 5.625,6 = 9,85 pulgadas castellanas
571 i = 1 571
Cuasivarianza "entre" los conglomerados:
2
( )
m 10
1 ⎛ 2 N ⎞ 1 215.663,74
sb2 =
m−1
∑ ∑ ⎜⎝ N i . x i − m1 x ⎟⎠ =
N i . x i − N1 x =
9 9
= 23.962,64
i=1 i=1
10 ⎛ n i ⎞ sw i
2
Cuasivarianza "dentro" para el conjunto de conglomerados: s w = ∑ N i . ⎜ 1 −
2 2
⎟. = 9.518,70
i=1
⎜ Ni ⎟ n i
⎝ ⎠
Varianza del estimador de la media poblacional (varianzas "entre" y "dentro" de los conglomerados):
M
Var ( x ) = . ⎡(M − m ) . sb2 + s2w ⎤⎦ =
2 ⎣
m . N1
50
= . ⎡⎣( 50 − 10) x 23.962,64 + 9.518,70 ⎤⎦ = 0,594
10 x 5712
El error muestral, asumiendo normalidad, con un 95% de fiabilidad:
eμ 0,69
Error de muestreo en términos relativos: % eμ = . 100 = x 100 = 7%
x 9,85
Intervalo de confianza para al altura promedio poblacional de los arbolitos:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 86
En un distrito del Ayuntamiento de Madrid, formado por 90 manzanas de viviendas,
para estimar la proporción de viviendas que no están al corriente con el pago del IBI
(Impuesto sobre Bienes Inmuebles), se ha utilizado la siguiente selección muestral:
En una primera etapa se eligieron muestras de 10 manzanas.
En una segunda etapa se eligieron muestras aleatorias de viviendas dentro de cada manzana seleccionada.
En la tabla adjunta figuran los datos con que se ha trabajado y el atributo a i ≡ no han pagado el IBI
Manzanas Ni ni ai
de viviendas
1 56 11 3
2 40 8 2
3 66 13 4
4 42 8 3
5 58 12 3
6 52 10 5
7 48 10 3
8 45 9 2
9 65 13 5
10 30 10 4
Se pide:
a) Intervalo de confianza (95%) para la proporción poblacional de viviendas que no han pagado el IBI.
b) Con un presupuesto de 3.000 euros, sabiendo que el coste por conglomerado es de cinco euros y 8
euros por vivienda, ¿cuántos conglomerados y cuántas viviendas se pueden muestrear?
Solución:
a) El tamaño medio poblacional se puede estimar a partir de los tamaños de los conglomerados que
forman la muestra.
Intervalo de confianza para la proporción poblacional en un muestreo bietápico:
⎡ 1 m ⎤
∑
m
I(p) = ⎡⎣ pˆ ± z α / 2 . ˆ ⎤
Var ( p ) ⎦ = ⎢ . Ni . pˆ i ± z α / 2 . ⎡ 2 ⎤
. (M − m ) . sb + s w ⎦ ⎥
2
⎢ N1 M . N12 ⎣ ⎥
⎣ =
i 1 ⎦
La tabla adjunta recoge los resultados para calcular el estimador de la proporción poblacional:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 87
Manzanas de Ni ni ai ai N i . pˆ i
p̂i =
viviendas ni
1 56 11 3 0,2727 15,27
2 40 8 2 0,2500 10,00
3 66 13 4 0,3077 20,31
4 42 8 3 0,3750 15,75
5 58 12 3 0,2500 14,50
6 52 10 5 0,5000 26,00
7 48 10 3 0,3000 14,40
8 45 9 2 0,2222 10,00
9 65 13 5 0,3846 25,00
10 30 10 4 0,4000 12,00
502 163,23
10
∑
1 1
Estimador de la proporción poblacional: pˆ = . N . pˆ i i = x 163,23 = 0,325
N1 =
i 1
502
El 32,5 % de las viviendas no han pagado el IBI
Ci Ni ni p̂i q̂i Ni . pˆ i ⎛ n ⎞
2
⎛ n ⎞ ⎛ n ⎞ pˆ . qˆ
⎜ Ni . pˆ i − pˆ ⎟ ⎜1 − i ⎟
⎜
N2i . ⎜ 1 − i ⎟ . i i
⎝ m ⎠
⎝ N i ⎟⎠ ⎜
⎝ N i ⎟⎠ ni
1 56 11 0,2727 0,7273 15,27 1,1032 0,8036 45,4395
2 40 8 0,2500 0,7500 10,00 39,9809 0,8000 30,0000
3 66 13 0,3077 0,6923 20,31 15,8774 0,8030 57,3182
4 42 8 0,3750 0,6250 15,75 0,3284 0,8095 41,8359
5 58 12 0,2500 0,7500 14,50 3,3235 0,7931 41,6875
6 52 10 0,5000 0,5000 26,00 93,6435 0,8077 54,6000
7 48 10 0,3000 0,7000 14,40 3,6981 0,7917 38,3040
8 45 9 0,2222 0,7778 10,00 39,9809 0,8000 31,1111
9 65 13 0,3846 0,6154 25,00 75,2896 0,8000 61,5385
10 30 10 0,4000 0,6000 12,00 18,6887 0,6667 14,4000
502 163,23 291,9141 416,2347
Cuasivarianza de la proporción "entre" los conglomerados:
m 2 10 2
⎛ n ⎞ ⎛ n ⎞
∑ ∑
1 1 291,9141
sb2 = ⎜ N i . pˆ i − pˆ ⎟ = ⎜ N i . pˆ i − pˆ ⎟ = = 32,4349
m−1 i=1⎝
m ⎠ 9 =
i 1 ⎝ m ⎠ 9
Cuasivarianza de la proporción "dentro" para el conjunto de conglomerados:
10
⎛ ni ⎞ pˆ i . qˆ i
s2w = ∑
=
i
N . ⎜⎜ 1 − ⎟⎟ .
1 ⎝
2
i
N ⎠ i ni
= 416,2347
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 88
La varianza del estimador de la proporción poblacional es la suma de las varianzas "entre" y "dentro" de
los conglomerados:
m
Var ( pˆ ) = . ⎡(M − m ) . sb2 + s2w ⎤⎦ =
2 ⎣
M . N1
10
= . ⎡⎣(90 − 10 ) . 32,4349 + 416,2347 ⎤⎦ = 0,00132
90 . 5022
Error de muestreo: ep = z α / 2 . ˆ = 1,96 x
Var ( p) 0,00132 = 0,071 (7,1 %)
Para obtener un error de muestreo menor habría que aumentar el tamaño de la muestra, tanto de
conglomerados como de viviendas.
Intervalo de confianza para la proporción de viviendas de la población que no han pagado el IBI
C 3.000
Conglomerados que se pueden estimar: m = = = 18 conglomerados
c1 + c 2 . n 5 + 8 x 20
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 89
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 90
MUESTREO SISTEMÁTICO
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 91
MUESTREO SISTEMÁTICO
Para aplicar un muestreo sistemático la población de la que se va a seleccionar la muestra debe estar
ordenada por algún criterio.
Se considera una población de tamaño N, agrupando los elementos en n zonas de tamaño k (N = n.k ) .
Para extraer una muestra de tamaño (n) se elige al azar una unidad de la primera zona. Para seleccionar
las (n − 1) unidades restantes para la muestra, en cada zona se toma la unidad que ocupa el mismo lugar
que el que ocupaba la primera unidad seleccionada dentro de la primera zona.
j
1 2 3 j k
i
1 u11 u12 u13 u1 j u1k
2 u21 u22 u2 3 u2 j u2k
Cuando se han clasificado las unidades de la población en (n) zonas (filas) de tamaño k, se enumeran de
izquierda a derecha. Se comienza por la primera unidad de la primera fila y cuando se haya terminado la
primera fila se pasa a la primera unidad de la segunda fila y se va repitiendo el proceso.
Enumeradas las N = n . k unidades, resulta:
j
1 2 3 j k
i
1 u1 u2 u3 uj uk
2 uk + 1 uk + 2 uk + 3 uk + j uk + k
3 u2k + 1 u2k + 2 u2k + 3 u2k + j u2k + k
i u(i − 1)k + 1 u(i − 1)k + 2 u(i − 1)k + 3 u(i − 1)k + j u(i − 1)k + k
n u(n − 1)k + 1 u(n − 1)k + 2 u(n − 1)k + 3 u(n − 1)k + j u(n − 1)k + k ûN
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 92
Se selecciona una unidad en la primera zona por muestreo aleatorio simple con probabilidad 1 / k . Si esta
primera unidad es X j , en el resto de las zonas se eligen las unidades que ocupan el lugar j‐ésimo. Al hacer
variar j desde 1 hasta k se obtienen las posibles muestras sistemáticas.
En definitiva, las posibles muestras sistemáticas serán las columnas mostradas en la tabla.
ESPACIO MUESTRAL: Formado por las k muestras uˆ 1 , uˆ 2 , { , uˆ j , , uˆ k }
MUESTRAS CON PROBABILIDADES IGUALES: Todas las muestras tienen la misma probabilidad de la
primera unidad seleccionada por muestreo aleatorio simple, es decir, tendrán la probabilidad
1 n n
= =
k k . N N
MUESTREO SISTEMÁTICO DE MADOV: Es más rígido, conocido como muestreo sistemático centrado.
Consiste en seleccionar para la muestra las unidades que ocupan el punto medio de cada zona de k
elementos consecutivos (de cada fila).
El resultado de Madow no difiere mucho del que se obtendría utilizando un origen aleatorio, señalando
que el muestreo deja de ser probabilístico para convertirse en intencional.
OTRA MODALIDAD DE MUESTREO SISTEMÁTICO: Consiste en sustituir el recuento por una medición, con
ello se facilita la selección. De este modo, se pueden seleccionar fichas u hojas de papel superpuestas en
número elevado, utilizando una cinta métrica y tomando como intervalo de muestreo una cierta
distancia. Señalar que el grosor de las hojas puede originar algún error, pero facilita mucho la selección.
Para seleccionar a 12 alumnos de una clase por muestreo sistemático se ordenan a las 60
N 60
alumnos, el intervalo fijado es k = = =5
n 12
Entre 1 y 5 se selecciona un numero aleatorio, sale el número 2.
Los estudiantes que forman la muestra sistemática ocupan el
lugar:
2 , 7 , 12 , 17, 22 , 27 , 32 , 37 , 42 , 47 , 52, 57
VENTAJAS
Extiende la muestra a toda la población: El muestreo sistemático
puede ser más representativo que el muestreo aleatorio simple,
puesto que no hay grupos grandes de elementos de la población con
propiedades similares que queden sin representación.
Rapidez y facilidad para la selección de unidades muestrales.
Si la disposición de los elementos de la población es aleatoria, la selección sistemática equivale a un
muestreo aleatorio simple.
El error de muestreo suele ser inferior que en el muestreo aleatorio simple o incluso que en el
estratificado.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 93
Tiene un efecto de extensión o estratificación: Se puede dividir la población en n estratos, constituidos
cada uno de ellos por una fila de la tabla anterior en donde se han representado los elementos de la
población numerados consecutivamente. En esta línea, obtener una muestra sistemática sería
equivalente a obtener una muestra estratificada con una unidad por estrato.
Señalando que en el muestreo estratificado aleatorio la selección se efectúa independientemente en
cada estrato, mientras que en el muestreo sistemático todos los elementos seleccionados ocupan el
mismo lugar o número de orden de cada zona de k elementos, con lo que no existe aleatoriedad de
selección.
Por otra parte, en el muestreo estratificado los estratos han de ser homogéneos dentro de sí
y heterogéneos entre ellos, con lo que sería conveniente que las n zonas sistemáticas de k elementos
cada una sean lo más homogéneas posibles dentro de ellas y heterogéneas entre ellas.
Es un caso particular del muestreo por conglomerados: Considerando por conglomerados cada columna
de la tabla anterior. De esta forma, seleccionar la muestra sistemática es equivalente a seleccionar una
muestra por conglomerados de tamaño uno, ya que cada columna de la tabla que resume los elementos
de la población numerados es una muestra sistemática posible.
En este caso, conviene que cada columna forme un grupo de unidades lo más heterogéneas posibles y
con propiedades similares a las de toda la población, de tal forma que una única columna (conglomerado)
puede representar bien a toda la población. Es deseable tener columnas con heterogeneidad dentro de
las columnas y homogeneidad entre ellas.
INVONVENIENTES
Posibilidad de aumento de la varianza del estimador si existe periodicidad o ciertas variaciones cíclicas
en la población.
No hay independencia en la selección de unidades en las distintas zonas, ya que las unidades extraídas
en cada zona dependen de la seleccionada en la primera zona.
En general sólo hay selección aleatoria para la primera unidad de la muestra.
i i Intervalo de confianza de la media poblacional en el muestreo sistemático con varianza desconocida:
⎡ (N − n) ⎤
I(μ ) = ⎡⎣ x ± eμ ⎤⎦ = ⎢ x ± t α / 2 , (n − 1) . s x . ⎥
⎣ n.N ⎦
Seleccionada la muestra sistemática, se utilizan los mismos estimadores que en el muestreo aleatorio
simple. En consecuencia, las expresiones utilizadas son las mismas.
n N
∑ ∑
1 1
La media muestral x = xi es el estimador de la media poblacional μ = xi
n i =1
N i =1
n
La fracción del muestreo f = representa el peso de la muestra respecto a la población.
N
⎛ n ⎞ ⎛ N−n ⎞
Factor de corrección de población finita: (1 − f ) = ⎜ 1 − ⎟ = ⎜ ⎟
⎝ N⎠ ⎝ N ⎠
n
∑= ( x − x )
1
Cuasivarianza muestral: s2x = i
2
(n − 1) i 1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 94
(N − n)
Estimador de la varianza de la media: Var ( x ) = s2x .
n.N
(N − n)
Error de estimación de la media: eμ = t α / 2 , (n − 1) . Var ( x ) = t α / 2 , (n − 1) . s x .
n.N
i i Intervalo de confianza de la media poblacional en el muestreo sistemático con varianza conocida:
⎡ (N − n) ⎤
I(μ ) = ⎣⎡ x ± eμ ⎦⎤ = ⎢ x ± z α / 2 . σ . ⎥
⎣ n.N ⎦
n N
∑ ∑
1 1
La media muestral x = xi es el estimador de la media poblacional μ = xi
n i =1
N i =1
⎛ n ⎞ ⎛ N−n ⎞
Factor de corrección de población finita: (1 − f ) = ⎜ 1 − ⎟ = ⎜ ⎟
⎝ N⎠ ⎝ N ⎠
(N − n)
El estimador de la varianza de la media: Var ( x ) = σ 2 .
n.N
⎛ n ⎞ ⎛ N−n ⎞
Factor de corrección de población finita: (1 − f) = ⎜ 1 − ⎟ = ⎜ ⎟
⎝ N⎠ ⎝ N ⎠
(N − n)
Error de estimación de la media: eμ = z α / 2 . Var ( x ) = z α / 2 . σ .
n.N
i i Intervalo de confianza del total poblacional en el muestreo sistemático con varianza desconocida:
⎡ N . (N − n) ⎤
I( τ ) = ⎣⎡ x ± e τ ⎦⎤ = ⎢ N . x ± t α / 2 , (n − 1) . s x . ⎥
⎣ n ⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 95
i i Intervalo de confianza para la proporción poblacional:
⎡ (N − n) ⎤
I( p) = ⎡⎣pˆ ± ep ⎤⎦ = ⎢pˆ ± z α / 2 . . pˆ . qˆ ⎥
⎣ n.(N − 1) ⎦
⎡ (N − n) ⎤
Otros investigadores: I( p) = ⎡⎣pˆ ± ep ⎤⎦ = ⎢pˆ ± z α / 2 . . pˆ . qˆ ⎥
⎣ N. (n − 1 ) ⎦
Considerando el factor de corrección para la población finita ( 1 − f ) , la expresión de la varianza de la
proporción queda:
⎛ 1 n ⎞ (1 − f ) (1 − f ) (N − n )
Var ( pˆ ) = ( 1 − f ) . Var ⎜
⎜ n ∑ ai ⎟ =
⎟ n 2
. ( n . ˆ
p . ˆ
q ) =
n
. ˆ
p . ˆ
q =
n . N
. pˆ . qˆ
⎝ i =1 ⎠
Error de estimación de la media:
(N − n) z2α / 2 . N . pˆ . qˆ
ep = z α / 2 . . p.q → n = 2
ˆ ˆ
n.(N − 1) ep . ( N − 1 ) + z2α / 2 . pˆ . qˆ
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 96
EJERCICIOS RESUELTOS DE MUESTREO SISTEMÁTICO
El Ayuntamiento de Fuenterrebollo quiere determinar el gasto medio y total de agua de los
habitantes del pueblo. Se ha confeccionado un listado de las facturas trimestrales de los
paisanos en euros, representando por 1 los habitantes que residen de continuo en el pueblo
y por 0 los que tienen su residencia como segunda vivienda.
FACTURA DEL AGUA DE FUENTERREBOLLO
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 97
ID Gasto Control ID Gasto Control ID Gasto Control
85 85,93 1 121 77,64 1 157 90,73 1
86 23,48 0 122 31,41 0 158 56,65 1
87 15,67 0 123 61,29 1 159 7,77 0
88 27,39 0 124 42,36 1 160 85,11 1
89 86,83 1 125 8,42 0 161 97,42 1
90 98,18 1 126 64,02 1 162 11,98 0
91 8,49 0 127 18,32 0 163 74,34 1
92 96,34 1 128 89,77 1 164 23,26 0
93 39,52 0 129 85,67 1 165 17,96 0
94 54,68 1 130 84,49 1 166 67,38 1
95 83,08 1 131 85,21 1 167 41,44 1
96 17,64 0 132 79,86 1 168 4,95 0
97 55,45 1 133 76,29 1 169 83,96 1
98 50,73 1 134 77,29 1 170 37,86 1
99 8,97 0 135 88,49 1 171 88,54 1
100 46,34 1 136 14,75 0 172 14,15 0
101 24,35 0 137 7,28 0 173 55,45 1
102 91,36 1 138 45,87 1 174 40,32 1
103 54,09 1 139 45,34 1 175 79,04 1
104 85,86 1 140 63,52 1 176 55,37 1
105 14,31 0 141 20,02 0 177 29,84 1
106 82,37 1 142 39,53 0 178 76,08 1
107 52,18 1 143 34,64 1 179 90,69 1
108 24,36 0 144 16,75 0 180 39,54 1
109 47,37 1 145 43,72 1 181 84,68 1
110 53,35 1 146 32,08 1 182 85,39 1
111 31,06 0 147 72,04 1 183 83,24 1
112 17,83 0 148 96,63 1 184 78,87 1
113 81,89 1 149 94,42 1 185 95,24 1
114 66,73 1 150 9,78 1 186 77,39 1
115 11,45 0 151 8,84 0 187 23,84 0
116 73,18 1 152 65,12 1 188 5,31 0
117 13,64 0 153 93,64 1 189 92,38 1
118 73,89 1 154 79,06 1 190 27,76 0
119 32,13 0 155 30,56 1 191 51,94 1
120 9,24 0 156 21,24 0 192 87,49 1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 98
ID Gasto Control ID Gasto Control ID Gasto Control
193 82,68 1 196 13,74 0 199 97,66 1
194 39,72 1 197 15,76 0 200 8,48 0
195 64,81 1 198 43,52 1
Con una muestra sistemática de 20 viviendas, se pide:
a) Intervalo de confianza para el gasto medio poblacional.
b) Intervalo de confianza para el gasto total poblacional.
c) Intervalo de confianza para la proporción poblacional de viviendas ocupadas.
Solución:
a) Intervalo de confianza sistemático para el gasto medio poblacional, en muestras pequeñas (n ≤ 30)
⎡ (N − n) ⎤
I(μ ) = ⎡⎣ x ± eμ ⎤⎦ = ⎢ x ± t α / 2 , (n − 1) . s x . ⎥
⎣ n.N ⎦
N 200
Patrón sistemático: k = = = 10
n 20
Se elige un número aleatorio (ID) del 1 hasta el 10. Sale el número 4. Obteniendo la muestra:
ID Gasto
4 23,67
20
∑
14 24,15 1 1.101,49
Estimador del gasto medio poblacional: x = . xi = = 55,07
24 84,32 20 i = 1 20
34 56,28 Cuasivarianza del gasto medio sistemático:
44 64,83
20
∑
54 42,25 1 9552,8663
s2x = . ( xi − x )2 = = 502,78
64 54,14 ( 20 − 1 ) i = 1 19
74 74,19
Varianza estimada del gasto medio poblacional:
84 72,76
94 54,68
⎛ N − n ⎞ sx ⎛ 200 − 20 ⎞ 502,78
2
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 99
b) Intervalo de confianza sistemático para el total poblacional, en muestras pequeñas (n ≤ 30)
⎡ N. (N − n) ⎤
I( τ ) = ⎣⎡ xˆ ± e τ ⎦⎤ = ⎢ N . x ± t α / 2 , (n − 1) . s x . ⎥
⎣ n ⎦
Varianza estimada del total poblacional:
eτ 1.991,10
Error relativo de estimación: % e τ = . 100 = x 100 = 18,08 %
x̂ 11.014
El error muestral del gasto total en agua es de 1.991,10 euros, valor que representa el 18,08 % del
estimador del gasto total en agua.
Intervalo de confianza para el gasto total poblacional:
b) Intervalo de confianza sistemático para la proporción poblacional de viviendas ocupadas:
⎡ (N − n) ⎤
I( p) = ⎡⎣pˆ ± ep ⎤⎦ = ⎢pˆ ± z α / 2 . . pˆ . qˆ ⎥
⎣ n.(N − 1) ⎦
⎡ (N − n) ⎤
Otros investigadores: I( p) = ⎡⎣pˆ ± ep ⎤⎦ = ⎢pˆ ± z α / 2 . . pˆ . qˆ ⎥
⎣ N. (n − 1 ) ⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 100
ID Control
4 0
Para elaborar el intervalo de confianza de la proporción poblacional de viviendas
14 0
24 1 ocupadas de continuo (1):
34 1
44 1 Estimador de la proporción poblacional:
n 10
⎧ 1 ocupada de continuo
∑ ∑
54 1 1 1 16
p̂ = . ai = . ai = = 0,8 a i ≡ ⎨
64 1 n i =1 10 i = 1 20 ⎩ 0 segunda residencia
74 1
84 1 Varianza estimada de la proporción poblacional:
94 1
⎛ N − n ⎞ pˆ . qˆ ⎛ 200 − 20 ⎞ 0,8 x 0,2
104 1 Var ( pˆ ) = ⎜ ⎟. = ⎜ ⎟ x = 0,00723
114 1 ⎝ N−1 ⎠ n ⎝ 200 − 1 ⎠ 20
124 1 Otros investigadores:
134 1
⎛ N − n ⎞ pˆ . qˆ ⎛ 200 − 20 ⎞ 0,8 x 0,2
144 0 Var ( pˆ ) = ⎜ ⎟. = ⎜ ⎟ x = 0,00758
154 1 ⎝ N ⎠ n −1 ⎝ 200 ⎠ 19
164 0
Error de muestreo con una fiabilidad del 95%:
174 1
184 1 epˆ = z α / 2 . Var ( pˆ ) = 1,96 x 0,00723 = 0,1667 (16,67%)
194 1
Intervalo de confianza proporción poblacional:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 101
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 102
MUESTREO SISTEMÁTICO
REPLICADO
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 103
MUESTREO SISTEMÁTICO REPLICADO
Este diseño muestral consiste en hacer varias réplicas de una muestra aleatoria sistemática básica, es
decir, se seleccionan varias muestras sistemáticas
En la práctica, se ha comprobado que el número de muestras sistemáticas que se deben seleccionar,
deben de ser alrededor de 10 (ns = 10) , las cuales van a permitir obtener suficientes medias muestrales
para obtener una estimación satisfactoria de los parámetros poblacionales.
El diseño sistemático replicado no necesita hacer ningún supuesto sobre la naturaleza de la población,
lo cual constituye su gran ventaja y lo convierte en una excelente técnica para obviar la perturbadora
variación cíclica de las poblaciones periódicas.
Además, en este diseño muestral se logra obtener una muestra con representación adecuada de la
población, que es la condición esencial del éxito en el muestreo.
Para aplicar el diseño muestral sistemático replicado, se dan los siguientes pasos:
N
a) Se calcula el patrón sistemático k = , esto significa que si se toma una única muestra sistemática,
n
se eligiría como arranque aleatorio un número entre 1 y k.
b) Se calcula el valor del patrón sistemático replicado k • = ns . k
d) El segundo elemento de cada muestra sistemática se obtiene sumando k • al primer elemento. El
tercer elemento se obtiene sumando k • al segundo elemento, y así sucesivamente hasta completar
el tamaño de la muestra.
i i Intervalo de confianza sistemático replicado para la media poblacional con varianza poblacional
desconocida en muestras pequeñas (n ≤ 30) :
⎡ ⎛N − n⎞ ⎤
I( μ ) = ⎢ x ± t α / 2 , (n − 1) . s xi . ⎜ ⎟ ⎥
⎢⎣ ⎝ N . ns ⎠ ⎥⎦
ns
∑
1
Estimador de la media poblacional: x = . x i ns ≡ muestras sistemáticas , siendo
ns i = 1
m
∑
1 n
xi = . xi j donde m = ≡ Número de observaciones dentro de cada muestra.
m j=1 ns
ns
∑
1
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
ns − 1 i =1
2
1 ⎛⎜ ⎞
ns ns ns
∑ (xi − x) =
2
∑ xi −
2
. ∑
xi ⎟
ns ⎜ i = 1 ⎟
i =1 i =1 ⎝ ⎠
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 104
2
⎛ N − n ⎞ s xi
Varianza estimada de la media muestral poblacional: Var ( x ) = ⎜ ⎟.
⎝ N ⎠ ns
2
⎛ N − n ⎞ s xi
Error estimación de la media: e μ = t α / 2 , (n − 1) . Var ( x ) = t α / 2 , (n − 1) . ⎜ ⎟.
⎝ N ⎠ ns
El error es aproximado, en el muestreo sistemático no existe un estimador insesgado de la varianza
Var ( x ) .
eμ
Error de estimación relativo: % e μ = x 100
x
N−n
Tamaño de la muestra: e μ = t α / 2 , (n − 1) . Var ( x ) = t α / 2 , (n − 1) . s xi .
N . ns
N−n t 2α / 2 , (n − 1) . s2xi . ( N − n )
e2μ = t2α / 2 , (n − 1) . s2xi . → ns =
N . ns N . e2μ
i i Intervalo de confianza sistemático replicado para la media poblacional con varianza poblacional
desconocida en muestras grandes (n > 30) :
⎡ 2 ⎤
⎛ N − n ⎞ s xi
I( μ ) = ⎣⎡ x ± e μ ⎦⎤ = ⎢ x ± z α / 2 . ⎜ ⎟.
⎥
⎢ ⎝ N ⎠ ns ⎥
⎢⎣ ⎥⎦
ns
∑
1
Estimador de la media poblacional: x = . x i ns ≡ muestras sistemáticas , siendo
ns i = 1
m
∑
1 n
xi = . xi j donde m = ≡ Número de observaciones dentro de cada muestra.
m j=1 ns
ns
∑
1
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
ns − 1 i =1
2
1 ⎛⎜ ⎞
ns ns ns
∑ (x − x) = ∑
i
2
xi2 − . ∑
xi ⎟
ns ⎜ i = 1 ⎟
i =1 i =1 ⎝ ⎠
2
⎛ N − n ⎞ s xi
Varianza estimada de la media muestral poblacional: Var ( x ) = ⎜ ⎟.
⎝ N ⎠ ns
2
⎛ N − n ⎞ s xi
Error estimación de la media: e μ = z α / 2 . Var ( x ) = z α / 2 . ⎜ ⎟.
⎝ N ⎠ ns
El error es aproximado, en el muestreo sistemático no existe un estimador insesgado de la varianza
Var ( x ) .
eμ
Error de estimación relativo: % e μ = x 100
x
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 105
N−n
Tamaño de la muestra: e μ = z α / 2 . Var ( x ) = z α / 2 . s xi .
N . ns
N−n z 2α / 2 . s2xi . ( N − n )
e2μ = z2α / 2 . s2xi . → ns =
N . ns N . e2μ
i i Intervalo de confianza sistemático replicado para el total poblacional con varianza poblacional
desconocida en muestras pequeñas (n ≤ 30) :
⎡ s2xi ⎤
I( τ ) = ⎡⎣ x ± e τ ⎤⎦ = ⎢ N . x ± t α / 2 , (n − 1) . N . (N − n) . ⎥
⎢ ns ⎥
⎣⎢ ⎦⎥
ns
∑
N
Estimador del total poblacional: x̂ = N . x = . x i ns ≡ muestras sistemáticas , siendo
ns i = 1
m
∑
1 n
xi = . xi j donde m = ≡ Número de observaciones dentro de cada muestra.
m j=1 ns
ns
∑
1
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
ns − 1 i =1
2
1 ⎛⎜ ⎞
ns ns ns
∑ ( xi − x ) =
2
∑
xi −
2
n
.
⎜
xi ⎟
⎟ ∑
i =1 i =1 s
⎝ i =1 ⎠
Varianza estimada del total poblacional:
ns ns
⎛N − n⎞
∑
i =1
(x − x)
i
2
∑
i =1
(x − x)
i
2
Error de estimación del total poblacional:
s2xi
e τ = t α / 2 , (n − 1) . Var ( x ) = t α / 2 , (n − 1) . N . (N − n) .
ns
eτ
Error de estimación relativo: % e τ = x 100
x̂
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 106
i i Intervalo de confianza sistemático replicado para el total poblacional con varianza poblacional
desconocida en muestras grandes (n > 30) :
⎡ s2xi ⎤
I( τ ) = ⎣⎡ x ± e τ ⎦⎤ = ⎢ N . x ± z α / 2 . N . (N − n) . ⎥
⎢ ns ⎥
⎢⎣ ⎥⎦
ns
∑
N
Estimador del total poblacional: x̂ = N . x = . x i ns ≡ muestras sistemáticas , siendo
ns i = 1
m
∑
1 n
xi = . xi j donde m = ≡ Número de observaciones dentro de cada muestra.
m j=1 ns
ns
∑
1
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
ns − 1 i =1
2
1 ⎛⎜ ⎞
ns ns ns
∑ (x − x) = ∑
i
2
xi2 − . ∑ xi ⎟
ns ⎜ i = 1 ⎟
i =1 i =1 ⎝ ⎠
s2xi
Varianza estimada del total poblacional: Var ( xˆ ) = N . (N − n) .
ns
s2xi
Error de estimación del total poblacional: e τ = z α / 2 . Var ( x ) = z α / 2 . N . (N − n) .
ns
eτ
Error de estimación relativo: % e τ = x 100
x̂
i i Intervalo de confianza sistemático replicado para la proporción poblacional:
⎡ 2 ⎤
⎛ N − n ⎞ sp
I(p) = ⎡⎣ pˆ ± e p ⎤⎦ = ⎢ pˆ ± z α / 2 . ⎜ ⎟ . ⎥
⎢ ⎝ N ⎠ ns ⎥
⎣ ⎦
m
⎧ 1 con atributo
∑
1
Proporciones dentro de cada muestra sistemática: p̂i = . a i j a i j = ⎨
m j =1 ⎩ 0 sin atributo
m ≡ Tamaño de la muestra replicada
ns
∑
1
Estimador de la proporción poblacional: pˆ = p = . pˆ i
ns i = 1
ns
∑
1
Cuasivarianza de las proporciones muestrales: : s2p = . (pˆ i − p )2
ns − 1 i = 1
2
N − n ⎞ sp
ˆ = ⎛⎜
Varianza estimada de la proporción poblacional: Var (p) ⎟ .
⎝ N ⎠ ns
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 107
Error muestral de la proporción poblacional: ep = z α / 2 . ˆ
Var (p)
ep
Error de estimación relativo: % e p = x 100
p
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 108
EJERCICIOS RESUELTOS DE MUESTREO SISTEMÁTICO REPLICADO
El Ayuntamiento de Fuenterrebollo analiza el gasto medio y total del agua de los habitantes
del pueblo con un muestreo sistemático replicado. Para obtener una representación
adecuada de la población toma una muestra de 40 viviendas, obviando la perturbadora
variación cíclica de ocupaciones periódicas de viviendas.
Se pide:
a) Intervalo de confianza (95%) para la media poblacional del gasto de viviendas.
b) Intervalo de confianza (95%) para el gasto total del agua de Fuenterrebollo.
c) Intervalo de confianza (95%) para la proporción de viviendas ocupadas del pueblo.
Solución:
a) El técnico del Ayuntamiento dispone del listado del gasto de agua por vivienda y diseña el muestro
replicado. Para ello, realiza los cálculos:
Muestras sistemáticas: ns = 10
N 200
Patrón sistemático: k = = =5
n 40
Valor del patrón sistemático replicado: k • = ns . k = 10. 5 = 50
n 40
Número de viviendas de cada muestra: = = 4
ns 10
Genera 10 números aleatorios entre 1 y k • = 50 , que son los puntos de inicio aleatorio para las ns = 10
muestras sistemáticas de viviendas.
Los resultados fueron: 10 , 38 , 3 , 42 , 24 , 9 , 49 , 47, 50 y 34 , que son los puntos de inicio aleatorios de
las 10 muestras sistemáticas de viviendas de 4 elementos cada una.
Las filas de la tabla contienen los elementos de las muestras replicadas de tamaño 4 asociadas con las
posiciones que ocupan en el listado.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 109
En la tabla adjunta, obtenida la información de las 10 muestras, se estima las medias dentro de cada
muestra sistemática de tamaño 4.
∑
1
Estimador de la media poblacional: x = . x i = 50,166
10 i = 1
10
∑
1
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
= 327,848
9 i =1
Varianza estimada de la media muestral poblacional:
2
⎛ N − n ⎞ s xi ⎛ 200 − 40 ⎞ 327.848
Var ( x ) = ⎜ ⎟. = ⎜ ⎟x = 26,228
⎝ N ⎠ ns ⎝ 200 ⎠ 10
Intervalo de confianza (95%) del sistemático replicado para la media poblacional del gasto de vivienda:
⎡ s2xi ⎤
⎛ N − n ⎞
I( μ ) = ⎢ x ± t α / 2 , (n − 1) . ⎜ ⎟.
⎥ = ⎡ 50,166 ± 2,262 .
⎣ 26,228 ⎤⎦ =
⎢ ⎝ N ⎠ ns ⎥
⎢⎣ ⎥⎦
= ⎡⎣ 38,582 , 61,750 ⎤⎦
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 110
b) Intervalo de confianza sistemático replicado para el gasto total del pueblo:
⎡ N . (N − n) ⎤
I( τ ) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ N . x ± t α / 2 , (n − 1) . s xi . ⎥
⎣ ns ⎦
ˆ = Var (N . x)
Varianza estimada del total: Var ( x) ˆ = N2 . Var ( x ) = 200 2 x 26,228 = 1.049,120
eτ 2.316,89
Error de estimación relativo del gasto total: % e τ = x 100 = x 100 = 23%
x̂ 10.033,2
El error de estimación representa un 23% del gasto total.
Intervalo de confianza sistemático replicado para el gasto total del pueblo:
c) Intervalo de confianza sistemático replicado para la proporción de viviendas ocupadas del pueblo:
Las filas de la tabla contienen los elementos de las muestras replicadas de tamaño m = 4 asociadas con
las posiciones que ocupan en el listado.
⎧ 1 vivienda ocupada de continuo
ai j = ⎨
⎩ 0 segunda residencia
Se estiman las proporciones de viviendas ocupadas de continuo dentro de cada muestra sistemática.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 111
m
⎧ 1 con atributo
∑
1
Proporciones dentro de cada muestra sistemática: p̂i = . a i j a i j = ⎨
m j =1 ⎩ 0 sin atributo
∑
i=1
p̂ = 7,25
i ∑
i=1
(pˆ − p )
i
2
= 0,43125
4 4 4
∑ ∑ ∑
1 4 1 2 1 3
p̂1 = . a ij = = 1 p̂2 = . a i j = = 0,5 p̂7 = . a i j = = 0,75
4 j =1 4 4 j =1 4 4 j =1 4
Intervalo de confianza sistemático replicado para la proporción del pueblo:
⎡ ns ⎤
⎢
⎢
⎛ N − n ⎞ i=1
∑(pˆ i − p ) 2 ⎥
⎥ ⎡
⎛ N − n ⎞ sp
2 ⎤
I(p) = ⎡⎣ pˆ ± e p ⎤⎦ = ⎢ pˆ ± z α / 2 . ⎜ ⎟. ⎥ = ⎢ pˆ ± z α / 2 . ⎜ ⎟ . ⎥
⎢ ⎝ N ⎠ ns . (ns − 1) ⎥ ⎢ ⎝ N ⎠ ns ⎥
⎢ ⎥ ⎣ ⎦
⎢ ⎥
⎣ ⎦
10
∑
1 7,25
Estimador de la proporción poblacional: pˆ = p = . pˆ i = = 0,725
10 i = 1 10
10
∑
1 0,43125
Cuasivarianza de las proporciones muestrales: s2p = . (pˆ i − p )2 = = 0,0479167
9 i =1 9
Varianza estimada de la proporción poblacional:
2
⎛ N − n ⎞ sp ⎛ 200 − 40 ⎞ 0,0479167
ˆ =⎜
Var (p) ⎟. =⎜ ⎟ x = 0,00383
⎝ N ⎠ ns ⎝ 200 ⎠ 10
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 112
Error muestral (95% confianza) de la proporción poblacional:
ep = z 0,025 . ˆ = 1,96 x
Var (p) 0,00383 = 0,1213 (12,13%)
Intervalo de confianza sistemático replicado para la proporción del pueblo:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 113
El auditor de una asociación de comerciantes decide aplicar un muestreo sistemático
replicado para estimar el promedio y el total de ventas diarias (en miles de euros) de
los 500 afiliados.
En el estudio sistemático replicado toma una muestra preliminar piloto de 5 elementos cada una. La
información aparece en la tabla adjunta.
Con un error de estimación del 5%, ¿cuál será el tamaño de la muestra con un nivel de confianza del 95%?
Solución:
N 500
El patrón sistemático es k = = = 100
n 5
Para determinar los puntos de inicio aleatorio (ID) para las cinco muestras sistemáticas se han generado 5
números aleatorios entre 1 y 100, cuyos resultados han sido: 19 , 74 , 7 , 83 , 38
∑= x
i 1
i = 1.787,2 ∑
i =1
(x − x)
i
2
= 3.679,632
Intervalo de confianza sistemático replicado para la media poblacional con varianza poblacional
desconocida en muestras pequeñas (n ≤ 30) :
⎡ ⎛N − n⎞ ⎤
I( μ ) = ⎡⎣ x ± e μ ⎤⎦ = ⎢ x ± t α / 2 , (n − 1) . s xi . ⎜ ⎟ ⎥
⎢⎣ ⎝ N . ns ⎠ ⎥⎦
5
∑
1 1.787,2
Estimador de la media poblacional: x = . xi = = 357,440
5 i =1 5
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 114
5
∑
1 3.679,632
Cuasivarianza entre las medias muestrales: s2x i = . (x − x)
i
2
= = 919,908
4 i =1
4
Varianza estimada de la media muestral poblacional:
2
⎛ N − n ⎞ s xi ⎛ 500 − 25 ⎞ 919,908
Var ( x ) = ⎜ ⎟. = ⎜ ⎟x = 174,7825
⎝ N ⎠ ns ⎝ 500 ⎠ 5
eμ 27,286
Error de estimación relativo: % e μ = x 100 = x 100 = 7,634 %
x 357,440
El error debido al muestreo es de 27,286 (miles de euros), representando el 7,634 % de las facturas
medias. Para reducir el error a un 5% habrá que aumentar el tamaño n = 25 de la muestra, con lo que al
ser muestras grandes ( n > 30 ) se utiliza z α / 2 = z 0,025 = 1,96
El tamaño de la muestra necesario para un error del 5% (confianza del 95%), se obtiene despejando el
número de muestras sistemáticas ( ns ) en el error de estimación:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 115
La publicación de las puntuaciones de unas oposiciones ha sido realizada en 10 hojas
con 30 opositores en cada una de ellas, estando éstos ordenados alfabéticamente.
Una inspección, sin copiar las puntuaciones de los 300 opositores, desea conocer cuál ha
sido la puntuación media obtenida y su error de muestreo aproximado.
Para ello, selecciona un opositor al azar entre los que figuran en la primera hoja, y recoge su puntuación
y la de los opositores que, en el resto de las hojas, ocupaban la misma posición que éste.
10 10
Las puntuaciones recogidas han sido: ∑ x = 65 ∑ x
i=1
i
i=1
2
i = 532,75
Solución:
Sea X = "Puntuación obtenida por un opositor". Para obtener información sobre la puntuación media de
los 300 opositores (media poblacional) , la inspección ha realizado un muestreo sistemático seleccionando
10 puntuaciones con un intervalo de muestreo:
N 300
k = = = 30 (elige un opositor de cada hoja ns = 10 )
ns 10
Intervalo de confianza sistemático replicado para la media poblacional con varianza poblacional
desconocida, en muestras pequeñas ( n ≤ 30) :
⎡ ⎛N − n⎞ ⎤
I( μ ) = ⎢ x ± t α / 2 , (n − 1) . s xi . ⎜ ⎟ ⎥
⎢⎣ ⎝ N . ns ⎠ ⎥⎦
ns 10
∑ ∑
1 1 65
Estimador de la media poblacional: x = . xi = . xi = = 6,5
ns i = 1 10 i = 1 10
Cuasivarianza de las medias muestrales sistemáticas:
⎡ 10 2⎤
1 ⎛ ⎞
ns 10
⎥ = 1 . ⎡532,75 − 65 ⎤ = 12,25
2
∑ . ⎢ xi2 − ∑ ∑
1 1
s2xi = . ( xi − x ) =
2
.⎜ xi ⎟ ⎢ ⎥
( ns − 1 ) i = 1 ( ns − 1 ) ⎢ i = 1 ns ⎜ ⎟ ⎥ 9 ⎣ 10 ⎦
⎢⎣ ⎝ i=1 ⎠ ⎥⎦
Error aproximado de estimación de la media:
N−n 300 − 10
eμ = t α / 2 , (n − 1) . s xi . = 2,2622 . 12,25 . = 2,466
N . ns 300 . 10
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 116
En la población dada se obtienen las dos muestras sistemáticas posibles de 4 unidades:
ui u1 u2 u3 u4 u5 u6 u7 u8
xi 1 3 5 2 4 6 2 7
Se pide:
a) Calcular V( xi )
b) Estimar V( xi ) con cada muestra utilizando V̂( x )
c) Estimar V( xst ) considerando las dos primeras unidades de S1 procedentes del estrato (u1 u2 u3 u4 )
y las dos unidades restantes S2 obtenidas del segundo estrato (u5 u6 u7 u8 )
Solución:
a) Media poblacional y estimaciones basadas en cada muestra sistemática posible:
8
1+ 5+ 4 +2 3+2+ 6+ 7
∑x
N 8 1
k = = = 2 x1i = =3 x2i = = 4,5 x = i = 3,75
n 4 4 4 8 i=1
1 1
V( xi ) = ⎡ ( x1i − x )2 + ( x2i − x )2 ⎤ = ⎡ (3 − 3,75)2 + (4,5 − 3,75)2 ⎤ = 0,5625
2⎣ ⎦ 2⎣ ⎦
b) Utilizando como estimador la varianza correspondiente al muestreo aleatorio simple:
4
∑
1 1
ŝ12 = (x − x1i )2 = ⎡(1 − 3)2 + (5 − 3)2 + (4 − 3)2 + (2 − 3)2 ⎤ = 3,33
3⎣ ⎦
1i
4 −1 =
i 1
∑
1 1
ŝ22 = (x − x2i )2 = ⎡(3 − 4,5)2 + (2 − 4,5)2 + (6 − 4,5)2 + (7 − 4,5)2 ⎤ = 5,67
3⎣ ⎦
2i
4 −1 =
i 1
⎛ N − n ⎞ ˆs1 ⎛ 8 −4 ⎞
2
3,33
V̂1 ( x ) = ⎜ ⎟ . = ⎜ ⎟ x = 0,41625
⎝ N ⎠ n ⎝ 8 ⎠ 4
⎛ N − n ⎞ ˆs2 ⎛ 8 −4 ⎞
2
5,67
V̂2 ( x ) = ⎜ ⎟. = ⎜ ⎟ x = 0,7087
⎝ N ⎠ n ⎝ 8 ⎠ 4
1
c) Las ponderaciones de los estratos son w1 = w2 =
2
Las varianzas estimadas para cada subestrato:
2
∑
1
(u1 u3 ) : ˆs12 = (x 1i − x1i )2 = ⎡⎣(1 − 3)2 + (5 − 3)2 ⎤⎦ = 8
2 −1 =
i 1
∑
1
(u5 u7 ) : ˆs22 = (x 2i − x2i )2 = ⎡⎣(4 − 3)2 + (2 − 3)2 ⎤⎦ = 2
2 −1 =
i 1
2
⎛ N − nh ⎞ ˆsh2 2
⎛1⎞ ⎛4 −2⎞ 8 ⎛1⎞ ⎛4 −2⎞ 2
2
V( xst ) = ∑
h=1
wh2 .⎜ h
⎝ Nh ⎠ nh
⎟. = ⎜ ⎟ .⎜ ⎟ .
⎝2⎠ ⎝ 4 ⎠ 2
+ ⎜ ⎟ .⎜ ⎟ .
⎝2⎠ ⎝ 4 ⎠ 2
= 0,625
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 117
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 118
MÉTODOS INDIRECTOS DE ESTIMACIÓN
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 119
MÉTODOS INDIRECTOS DE ESTIMACIÓN
Métodos que aprovechan la información conocida relativa a una variable auxiliar Y (variable de apoyo),
correlacionada con la variable en estudio X , para obtener estimaciones más precisas para X que las
calculadas únicamente a partir de la muestra de la variable que se estudia.
La información conocida relativa a la variable auxiliar Y puede ser probabilistica o no probabilistica.
Generalmente, las fuentes de información auxiliar (valores de la variable Y) suelen ser variables obtenidas
en un censo anterior, variables relativas a la población en estudio pero de fechas anteriores, estimaciones
relativas a una población diferente pero correlacionada con la variable X que se estudia.
Entre los métodos clásicos de estimación indirecta más utilizados se encuentran el método de "estimación
por razón" (basado en la razón entre X e Y) y el método de "estimación por regresión" (basado en la
regresión entre X e Y).
ESTIMACIÓN NO LINEAL: ESTIMADORES DE LA RAZÓN
Método que trata de mejorar la precisión de un estimador simple (obtenido, como ejemplo, por
muestreo aleatorio simple o por muestreo aleatorio estratificado) utilizando información sobre una
variable auxiliar Y supuestamente correlacionada con la variable en estudio X.
Sean (xi , y i ) los diferentes pares de valores relativos a la variable en estudio X y la variable auxiliar Y,
respectivamente. Para obtener los mejores resultados en las estimaciones es necesario que ambas
variables presenten correlaciones elevadas y positivas.
N
∑ xi
i=1
Razón: R = N
∑ yi
i=1
A partir de una muestra aleatoria simple de tamaño "n" se puede estimar el estimador de la razón:
n
∑ xi
i=1
r = n
∑ yi
i=1
ESTIMACIÓN POR REGRESIÓN
La estimación por regresión es otro método indirecto de estimación. Se utiliza para aumentar la precisión
de las estimaciones sobre una variable X mediante el uso de una variable auxiliar Y en el caso más general
de que la recta de regresión no pase por el origen.
El uso de estimación por razón es más efectivo cuando la relación entre las variables X e Y es lineal y
pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
El uso de estimación por razón es más efectivo cuando la relación entre las variables X e Y es lineal y
pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
Se toma una muestra constituida por (n) pares de datos: (x1 , y1 ) , (x2 , y 2 ) , .... , (xn , yn )
A partir de los datos muestrales se puede estimar la relación existente entre ambas variables. Existen
distintos diseños de muestreo en la estimación con información auxiliar.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 120
Estimadores de la razón: x = b. y con otra notación x = r. y
Estimadores de regresión: x = a + b. y
Estimadores de diferencia: x = a + y con otra notación: x = d + y
ESTIMACIÓN LINEAL POR LA RAZÓN
Se supone que entre las variables X e Y existe una alta correlación positiva y que el modelo lineal, donde
X es la variable explicada e Y la variable explicativa, pasa por el origen de coordenadas.
x = b. y en este contexto se denota b = r dado su significado, x = r. y
i i Intervalo de confianza para la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ x ) = ⎣⎡ μˆ x ± er μ ⎦⎤ = ⎢ r . μ y ± t α / 2 , (n − 1) . ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
x
Razón: r = (Y variable auxiliar)
y
Estimador de la media: μˆ x = r. μ y
1 ⎛ ⎞
n n n n
1
=
Cuasivarianza muestral: sr2 . ∑ (xi − r. y i ) =
2
. ∑ xi + r . ∑ y i − 2r. ∑ xi . y i ⎟
⎜ 2 2 2
n−1 i=1 n−1 ⎜i=1 ⎟
⎝ i=1 i=1 ⎠
ˆ μˆ ) = V(r.
ˆ μ ) = μ2 . V(r) ⎛N− n⎞ 2
Varianza estimada de la media: V( x y y
ˆ =⎜ ⎟ . sr
⎝ N . n ⎠
Error medio de la estimación: er μ = t α / 2 , (n − 1) . ˆ μˆ )
V( x
i i Intervalo de confianza para el total poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( τ X ) = ⎡⎣ r. τ y ± er t ⎤⎦ = ⎢ r. τ y ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ n ⎠ ⎥⎦
Estimador del total: τˆ x = r. τ y donde, τ y = N . μ y
ˆ τˆ ) = V(r.
ˆ τ ) = τ2 . V(r) 1 ⎛N−n⎞ 2 ⎛N−n⎞ 2
Varianza del estimador del total: V( x y y
ˆ = τ2y . 2 ⎜ ⎟ . sr = N . ⎜ ⎟ . sr
μ y ⎝ N.n ⎠ ⎝ n ⎠
La expresión de la varianza del estimador del total no se puede utilizar cuando se desconoce N y μ y .
N−n τ2 2
Entonces si N → ∞ ˆ τˆ ) = y . sr
= 1 y aproximando μ y por y se tiene: V( x
N y2 n
Error total de la estimación: er t = t α / 2 , (n − 1) . ˆ τˆ )
V( X
Se tiene: er t = N . er μ
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 121
MUESTREO ALEATORIO SIMPLE
i i Intervalo de confianza para el estimador de la razón:
⎡ n ⎤
⎢ ∑ xi ⎥
⎢ i=1 ⎛N−n⎞ 1 2 ⎥
I(R) = ⎡⎣ r ± er ⎤⎦ = ⎢ n ± t α / 2 , (n − 1) . ⎜ ⎟ . 2 . sr ⎥ Y ≡ variable auxiliar
⎝ N . n ⎠ y
⎢ i∑
⎢ yi ⎥
⎥
⎣ = 1 ⎦
n
∑ xi
i=1
Estimador de la media poblacional: r = n
( x = r . y )
∑ yi
i=1
n
∑ (xi − r. yi )2
i=1
Cuasivarianza muestral: sr2 =
n−1
n
⎛ N − n ⎞ 1 i=1
∑ (xi − r. yi )2 ⎛N−n⎞ 1 2
Varianza del estimador: Var (r ) = ⎜ ⎟. 2 . =⎜ ⎟ . 2 . sr
⎝ N.n ⎠ y n−1 ⎝ N.n ⎠ y
Error medio de la estimación: er = t α / 2 , (n − 1) . Var (r )
i i Intervalo de confianza para el total poblacional:
⎡ ⎛N− n⎞ 2 ⎤
I(X) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ r . yˆ ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sr ⎥ Y ≡ variable auxiliar ( xˆ = r. y)
ˆ
⎣⎢ ⎝ n ⎠ ⎦⎥
Estimador de la media: xˆ = r. yˆ
n
∑ (xi − r. yi )2
i=1
Cuasivarianza muestral: sr2 =
n−1
⎛N−n⎞ 2 ⎛N− n⎞ 2
ˆ = Var (r. y)
ˆ x)
Varianza del estimador: V( ˆ = N2 . ⎜ ⎟ . sr = N . ⎜ ⎟ . sr
⎝ N.n ⎠ ⎝ n ⎠
Error total de la estimación: e τ = t α / 2 , (n − 1) . ˆ x)
V( ˆ
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 122
ESTIMACIÓN DE LA REGRESIÓN
Cuando la relación lineal entre dos variables X e Y (variable auxiliar) no pasa por el origen de coordenadas
es preferible utilizar estimadores de la regresión.
En el modelo lineal simple X = a + b. Y , el método de los mínmos cuadrados permite estimar "a" y "b":
n
σ xy
∑ (xi − x) . (yi − y)
i=1
Pendiente recta regresión: b = = a = x − b. y
σ2y n
∑ (yi − y) 2
i=1
donde,
n n n
1 1 1
σ2y = . ∑ (y i − y)2 σ 2xy = . ∑ (xi − x) . (y i − y) = . ∑ xi . y i − x . y
n i=1 n i=1 n i=1
n ⎛ 2 σ xy ⎞ ⎛ σ xy ⎞
n 2
. ∑ ( ( xi − (x + b. (y i − y) ) ) =
1 2 n
σr2 = . ⎜ σx − 2 ⎟ = . σ 2x . (1 − rxy
2
) ⎜ rxy = ⎟⎟
n−2 i=1 n − 2 ⎝⎜ σ y ⎠⎟ n−2 ⎜ σx . σy
⎝ ⎠
i i Intervalo de confianza de la regresión para la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ) = ⎣⎡ μˆ x ± erμ ⎦⎤ = ⎢ x + b. (μ y − y) ± t α / 2 , (n − 1) . ⎜ ⎟ . σr ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
Estimador de la media: μˆ x = a + b. μ y = x − b. y + b. μ y = x + b. (μ y − y)
ˆ μˆ ) = ⎛⎜ N − n ⎞⎟ . σ 2
Estimador de la varianza: V( x r
⎝ N.n ⎠
Error medio de la estimación: erμ = t α / 2 , (n − 1) . ˆ μˆ )
V( x
Tamaño muestral:
⎛N−n⎞ 2 ⎛N− n⎞ 2
erμ = t α / 2 , (n − 1) . ⎜ ⎟ . σr → er2μ = t 2α / 2 , (n − 1 . ⎜ ⎟ . σr
⎝ N.n ⎠ ⎝ N.n ⎠
t2α / 2 , (n − 1) . N . σr2
N . n . er2μ = t 2α / 2 , (n − 1) . (N − n) . σr2 → n=
N . er2μ + t2α / 2 , (n − 1) . σr2
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 123
i i Intervalo de confianza de la regresión para el total poblacional:
⎡ ⎛N− n⎞ 2 ⎤
I( τ x ) = ⎣⎡ τˆ x ± erτ ⎦⎤ = ⎢ N . μˆ x ± t α / 2 , (n − 1) . N. ⎜ ⎟ . σr ⎥
⎣⎢ ⎝ n ⎠ ⎦⎥
Estimador del total: τˆ x = N . μˆ x = N . (a + b. μ y ) = N . (x − b. y + b. μ y ) = N . x + b. (μ y − y) ( )
ˆ μˆ ) = V(N
Estimador de la varianza total: V( ˆ μˆ ) = N2 . ⎛⎜ N − n ⎞⎟ . σ 2 = N . ⎛ N − n ⎞ . σ 2
ˆ . μˆ ) = N2 . V(
τ x x r ⎜ ⎟ r
⎝ N.n ⎠ ⎝ n ⎠
Error total de la estimación: er τ = t α / 2 , (n − 1) . ˆ τˆ ) (e = N . e )
V( τ rt rμ
Tamaño muestral:
⎛N−n⎞ 2 ⎛N−n⎞ 2
erτ = t α / 2 , (n − 1) . N. ⎜ ⎟ . σr → er2τ = t 2α / 2 , (n − 1) . N . ⎜ ⎟ . σr
⎝ n ⎠ ⎝ n ⎠
t2α / 2 , (n − 1) . N2 . σr2
n . er2τ = t 2α / 2 , (n − 1) . N . (N − n) . σr2 → n=
er2τ + N . t2α / 2 , (n − 1) . σr2
ESTIMACIÓN LINEAL POR LA DIFERENCIA
El estimador de la diferencia tiene un buen comportamiento (cota de error es más baja) cuando la
relación entre las variables X e Y (variable auxiliar) es lineal y la pendiente b = 1.
Modelo lineal simple: X = a + Y ó x = x + (y − y) , a = x − y = d , di = xi − y i
Tiene una gran utilización en auditorías.
n
1
Cuasivarianza de las diferencias: s2d = . ∑ (di − d)2
n−1 i=1
i i Intervalo de confianza de la diferencia para la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ x ) = ⎡⎣ μˆ d x ± ed μ ⎤⎦ = ⎢ x + (μ y − y) ± t α / 2 , (n − 1) . ⎜ ⎟ . sd ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
Estimador de la media: μˆ d x = x + (μ y − y) = μ y + d
Para estimar μ̂ d x se necesita conocer el verdadero valor de μ y , no sirve la estimación μ y y
ˆ μˆ ) = ⎜⎛ N − n ⎟⎞ . s2
Estimador de la varianza: V( dx d
⎝ N.n ⎠
Error medio de la estimación: ed μ = t α / 2 , (n − 1) . ˆ μˆ )
V( dx
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 124
i i Intervalo de confianza de la diferencia para el total poblacional:
⎡ ⎛N− n⎞ 2 ⎤
⎢⎣
(
I( τ x ) = ⎣⎡ τˆ d x ± ed τ ⎦⎤ = ⎢ N . x + ( μ y − y ) ) ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sd ⎥
⎥⎦
⎝ n ⎠
( )
Estimador del total: τˆ dx = N . μˆ dx = N . x + ( μ y − y ) = N . ( μ y + d)
Para estimar τ̂ d x se necesita conocer el tamaño N de la población, no se puede estimar como
τˆ dx = x + ( τ y − y ) = τ y + d
ˆ τˆ ) = N2 . ⎛⎜ N − n ⎞⎟ . s2 = N . ⎛⎜ N − n ⎞⎟ . s2
ˆ τˆ ) = N2 . V(
Estimador de la varianza: V( dx dx d d
⎝ N.n ⎠ ⎝ n ⎠
Error total de la estimación: ed τ = t α / 2 , (n − 1) . ˆ τˆ )
V( dx
SUBMUESTREO EN LOS INVESTIGADORES
Cuando la información se obtiene mediante encuestas, mediante submuestras se puede averiguar si
existen posibles errores no muestrales debido al sesgo del investigador.
Los errores debidos al investigador pueden ser producidos por diferentes causas: falta de preparación
del investigador, distintos modelos de entrevistar, preguntas subjetivas, etc.
El método del submuestreo reparte la muestra de individuos a encuestar entre k investigadores,
obteniendo k submuestras del mismo tamaño. A continuación, se realizan las estimaciones para las
submuestras.
Cuando los valores de las estimaciones son parecidos, el error debido al investigador es despreciable.
En otro caso, hay que analizar por qué para algunos investigadores los resultados son diferentes.
n
El método asigna a cada investigador una submuestra de tamaño m = y estima la media poblacional
k
k
1
a partir de las medias de las submuestras: x = . ∑ xi
k i=1
i i Intervalo de confianza de la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ ) = ⎡⎣ x ± eμ ⎤⎦ = ⎢ x ± t α / 2 , (n − 1) . ⎜ ⎟ . ˆsk ⎥
⎢⎣ ⎝ N.k ⎠ ⎥⎦
m
1 n
Media de cada submuestra: xi = . ∑ xi j m = ≡ Tamaño submuestras
m j=1 k
m
1
Cuasivarianza entre submuestras: ŝk2 = . ∑ (xi − x)2
k −1 j=1
k
1
Estimador media poblacional: x = . ∑ xi
k i=1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 125
⎛N−n⎞ 2
Varianza estimada de la media: V( x ) = ⎜ ⎟ . ˆsk
⎝ N.k ⎠
Error de la muestra: E = t α / 2 , (n − k ) . V(x)
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 126
La población está formada por un paquete de 50 acciones que cotizan en la bolsa.
Se dispone de información completa sobre las cotizaciones antes de la pandemia (2020),
año en que la cotización media de la cartera fue de 215 € por acción.
En la tabla adjunta se dispone de una muestra piloto:
Estimar la razón de la apreciación o depreciación de la cartera.
Solución:
Al tratarse de un estimador de la razón de la proporción, se comparan las acciones en términos relativos,
esto es, en qué porcentaje han aumentado o disminuido las cotizacciones de las acciones en la actualidad
respecto a los valores que tuvieron en 2020.
Como primer paso, para estudiar la variabilidad del estimador de la razón (insesgado) conviene hacer un
gráfico de dispersión entre ambas variables y observar cómo existe una relación de proporcionalidad
entre las dos variables.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 127
La relación entre los precios de las acciones en los dos periodos (x ,y) está próxima a la línea de tendencia
que pasa por el origen. En el caso de no pasar, se utiliza la estimación por regresión.
Para facilitar los cálculos se elabora la tabla:
15
∑ xi 4.932,35
La razón estimada es de 1,26 > 1 , con lo que las
i=1 acciones se han apreciado un 26% , a pesar de la
Razón estimada: r = 15
= = 1,26
3.915,02 pandemia.
∑ yi
i=1
n
∑ (xi − r. yi )2 28.700,84
i=1
Cuasivarianza muestral: sr2 = = = 2.050,06
n−1 14
⎛N− n⎞ 1 2 ⎛ 50 − 15 ⎞ 1
Varianza del estimador: Var (r ) = ⎜ ⎟ . 2 . sr =⎜ ⎟. 2
. 2050,06 = 0,00206
⎝ N.n ⎠ y ⎝ 50 x 15 ⎠ 215
Intervalo de confianza (95%) para el estimador de la razón:
En consecuencia, las acciones se han revalorizado entre un 16,27% y un 35,73%
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 128
Un agricultor quiere conocer la producción total de fresas en una plantación de 10.000
m2 . La plantación se estructura en 100 áreas no iguales, con superficies conocidas.
Para conocer la producción total y la producción media estimada de fresas por área,
selecciona una muestra aleatoria simple de 15 áreas.
Los resultados de la muestra piloto han sido:
Para estudiar la variabilidad del estimador de la razón (insesgado) se hace un diagrama de dispersión
entre las variables (xi , y i ) , observando cómo existe una relación de proporcionalidad.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 129
Se elabora la tabla:
Intervalo de confianza para la producción total de fresas:
⎡ ⎛N− n⎞ 2 ⎤
I(X) = ⎡⎣ xˆ ± e τ ⎤⎦ = ⎢ r . yˆ ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ n ⎠ ⎥⎦
15
∑ xi 27.000
i=1 2
Razón estimada: r = 15
= = 25 La producción de fresas es de 25 kg / m
1.080
∑ yi
i=1
N− n⎞ 2 ⎛ 100 − 15 ⎞ 411.876
ˆ = N . ⎛⎜
Varianza del estimador: Var ( x) ⎟ . sr = 100 . ⎜ ⎟. = 16.671.171,43
⎝ n ⎠ ⎝ 15 ⎠ 14
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 130
Intervalo de confianza para la producción total de fresas:
Como la variable auxiliar Y es conocida para toda la población, la producción media poblaional:
N
∑ yi 10.000
i=1
μy = = = 200
N 50
Producción media estimada de fresas por área: x = r. μ y = 25 x 200 = 5.000 kg
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 131
Mediante una tasación previa se desea estimar la producción media y la producción total de
los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de
3840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les
preguntó por la superficie plantada y se les tasó su producción.
Los resultados fueron:
Estimar la producción media y total mediante los estimadores de la razón y de muestreo aleatorio simple.
Calcular y comparar los respectivos límites para el error de estimación.
Solución:
Se elabora la tabla: (X = producción en toneladas e Y = superficie plantada en hectáreas)
xi yi x2i y 2i xi . y i
12 3,7 144 13,69 44,4
14 4,3 196 18,49 60,2
11 4,1 121 16,81 45,1
15 5 225 25 75
16 5,5 256 30,25 88
12 3,8 144 14,44 45,6
24 8 576 64 192
15 5,1 225 26,01 76,5
18 5,7 324 32,49 102,6
20 6 400 36 120
8 3 64 9 24
20 7 400 49 140
16 5,4 256 29,16 86,4
14 4,4 196 19,36 61,6
18 5,5 324 30,25 99
15 5 225 25 75
18 5,9 324 34,81 106,2
17 5,6 289 31,36 95,2
15 5 225 25 75
22 7,2 484 51,84 158,4
320 105,2 5.398 581,96 1.770,2
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 132
N = 750 socios n = 20 τ y = 3.840 ha
20 20 20 20 20
20 20 20
∑ yi 320
∑ (xi − x) 2
∑ xi2 5.398
i=1 i=1 i=1
x = = = 16 σ 2x = = − x2 = − 162 = 13,9
20 20 20 20 20
20 20 20
∑ yi 105,2
∑ (yi − y) 2
∑ yi2 581,96
i=1 i=1 i=1
y = = = 5,26 σ2y = = − y2 = − 5,262 = 1,4304
20 20 20 20 20
n 20 n 20
s2x = . σ2x = . 13,9 = 14,6316 s2y = . σ 2y = . 1,4304 = 1,5057
n−1 19 n−1 19
20 20
ESTIMADORES POR LA RAZÓN:
20
∑ xi 320
i=1
r = 20
= = 3,042 tm/ha
105,2
∑ yi
i=1
Intervalo de confianza para la producción media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ x ) = ⎣⎡ μˆ x ± er μ ⎦⎤ = ⎢ r . μ y ± t α / 2 , (n − 1) . ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
τy 3.840
τy = N . μy → μy = = = 5,12 ha/socio
N 750
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 133
1 ⎛ ⎞
20 20 20 20
1
sr2 = . ∑ (xi − r. y i )2 = . ⎜ ∑ xi2 + r 2 . ∑ y i2 − 2r. ∑ xi . y i ⎟ =
19 i = 1 19 ⎜ i = 1 ⎟
⎝ i=1 i=1 ⎠
=
1
19
(
. 5.398 + 3,0422 . 581,96 − 2 . 3,042 . 1770,2 = 0,7065 )
ˆ μˆ ) = ⎜⎛ N − n ⎟⎞ . s2 = ⎜⎛ 750 − 20 ⎟⎞ . 0,7065 = 0,0344
Varianza del estimador de la media: V( x r
⎝ N.n ⎠ ⎝ 750 . 20 ⎠
Error medio de la estimación (t 0,025 , 19 = 2,093) :
Intervalo de confianza para la producción media poblacional:
Intervalo de confianza para la producción total poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( τ X ) = ⎡⎣ r. τ y ± er t ⎤⎦ = ⎢ r. τ y ± t α / 2 , (n − 1) . N . ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ n ⎠ ⎥⎦
Estimador del total: τˆ x = r. τ y = 3,042 x 3.840 = 11.681,28 tm
Varianza del estimador del total:
ESTIMACIÓN POR MUESTREO ALEATORIO SIMPLE:
• Intervalo de confianza para la produccón media poblacional, con varianza poblacional desconocida:
⎡ N−n ⎤
I( μ ) = ⎡⎣ x ± e μ ⎤⎦ = ⎢ x ± t α / 2 , ( n − 1 ) . s x . ⎥
⎣ n.N ⎦
20 20
∑ xi 320
∑ (xi − x)2
i=1 i=1
x = = = 16 s2x = = 14,6316
20 20 n−1
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 134
Error medio (t 0,025 , 19 = 2,093) : eμ = t α / 2 , ( n − 1 ) . ˆ x) = 2,093 .
V( 0,7121 = 1,7662
Intervalo de confianza para la producción media:
⎡ N. (N − n ) 2 ⎤
I( τ ) = ⎣⎡ xˆ ± e τ ⎦⎤ = ⎢ N . x ± t α / 2 , ( n − 1 ) . . sx ⎥
⎣ n ⎦
x̂ = N . x = 750 . 16 = 12.000 tm
N. (N − n ) 2 750 . ( 750 − 20 )
e τ = t α / 2 , (n − 1) . . s x = 2,093 . . 14,6316 = 1.324,65
n 20
Se observa, e τ = N . eμ → e τ = 750 x 1,7662 = 1.324,65
Señalar que el límite del error de estimación, tanto para la media como para el total, es mucho mayor
que el cometido utilizando estimadores de razón.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 135
Para un grupo de 500 pequeños establecimientos se desea realizar un estudio sobre las
ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de
6 euros. Se elige al azar una muestra de 15 establecimientos y se toman datos de su gasto
en publicidad y ventas diarios en euros. Los resultados han sido:
Ventas Gastos
diarias publicidad
144 4,26
168 4,95
162 4,72
180 5,75
192 6,33
144 4,37
192 9,20
180 5,87
150 6,56
156 6,90
96 3,45
180 8,05
180 6,21
144 5,06
168 6,33
Utlizando los estimadores de regresión:
a) Estimar la media poblacional y el tamaño de la muestra para que el error de estimación sea de 8 euros.
b) Estimar total de ventas diarias.
Solución:
Se elabora la tabla: (X = Ventas diarias e Y = Gastos diarios en publicidad)
xi yi x2i y 2i xi . y i
144 4,26 20.736 18,11 612,72
168 4,95 28.224 24,45 830,76
162 4,72 26.244 22,23 763,83
180 5,75 32.400 33,06 1035
192 6,33 36.864 40,01 1.214,4
144 4,37 20.736 19,10 629,28
192 9,20 36.864 84,64 1.766,4
180 5,87 32.400 34,40 1.055,7
150 6,56 22.500 42,97 983,25
156 6,90 24.336 47,61 1.076,4
96 3,45 9.216 11,90 331,2
180 8,05 32.400 64,80 1449
180 6,21 32.400 38,56 1.117,8
144 5,06 2.0736 25,60 728,64
168 6,33 28.224 40,01 1.062,6
2.436 87,98 404.280 547,45 14.656,98
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 136
N = 500 establecimientos n = 15 μ y = 6 euros
15 15 15 15 15
15 15 15
∑ xi 2.436
∑ (xi − x)2 ∑ xi2 404.280
i=1 i=1 i=1
x = = = 162,4 σ2x = = − x2 = − 162,4 2 = 578,24
15 15 15 15 15
15 15 15
∑ yi 87,98
∑ (yi − y)2 ∑ xi2 547,50
i=1 i=1 i=1
y = = = 5,865 σ2y = = − x2 = − 5,8652 = 2,10
15 15 15 15 15
15 15
n 15
Varianza residual: σr2 = . σ2x . (1 − rxy
2
)= x 578,24 x (1 − 0,7075 ) = 333,229
2
n−2 13
σ xy 24,656
Pendiente de la recta regresión: b = = = 11,741
σ2y 2,10
a) Intervalo de confianza de la regresión para la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ) = ⎣⎡ μˆ x ± erμ ⎦⎤ = ⎢ x + b. (μ y − y) ± t α / 2 , (n − 1) . ⎜ ⎟ . σr ⎥
⎢⎣ ⎝ N . n ⎠ ⎥⎦
El tamaño de la muestra necesario para un error de estimación de 8 euros (confianza del 95%), se obtiene
despejando el número de muestras (n) en el error de estimación:
t2α / 2 , (n − 1) . N . σr2 2,1452 x 500 x 333,229
Tamaño de la muestra: n = = 20 muestras
N . er2μ + t2α / 2 , (n − 1) . σr2 500 x 82 + 2,1452 x 333,229
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 137
b) Intervalo de confianza de la regresión para el total poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( τ x ) = ⎣⎡ τˆ x ± erτ ⎦⎤ = ⎢ N . μˆ x ± t α / 2 , (n − 1) . N. ⎜ ⎟ . σr ⎥
⎣⎢ ⎝ n ⎠ ⎦⎥
Estimador del total: τˆ x = N . μˆ x = 500 x 163,985 = 81.992,5
ˆ μˆ ) = V(N
Estimador de la varianza total: V( ˆ . μˆ ) = N2 . V(
ˆ μˆ ) = 500 2 x 21,549 = 5.387.250
τ x x
Error total de la estimación: er τ = t α / 2 , (n − 1) . ˆ μˆ ) = 2,145 x
V( τ 5.387.250 = 4.978,6415
Intervalo de confianza del total:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 138
Para un grupo de 500 establecimientos se realiza un estudio sobre el gasto diario.
Sabiendo que los ingresos medios diarios son de 1.000 euros. Se elige al azar una muestra
de 10 establecimientos y se obtienen datos de ingresos y gastos:
Ingresos Gastos
564 486
780 702
852 780
360 288
570 492
606 522
732 660
456 384
648 576
624 552
Estimar el gasto medio y el gasto total diario para los 500 establecimientos utilizando muestreo aleatorio
simple, estimadores de razón, regresión y diferencia.
Obtener el límite para el error de estimación en cada caso.
Solución:
Se elabora la tabla: (variable auxiliar X = Ingresos diarios e Y = Gastos medios)
y 544,2
N = 500 establecimientos n = 10 establecimientos μ x = 1.000 euros r = = = 0,88
x 619,2
Covarianza:
10 10
∑ yi 5.442
∑ (yi − y)2 ∑ yi2 3.154.428
i=1 i=1 i=1
y = = = 544,2 σ 2y = = − y2 = − 544,22 = 19.289,16
10 10 10 10 10
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 139
10 10 10
∑ xi 6.192
∑ (xi − x)2 ∑ xi2 4.027.176
i=1 i=1 i=1
x = = = 619,2 σ2x = = − x2 = − 619,22 = 19.308,96
10 10 10 10 10
n 10
Cuasivarianza muestral: s2y = . σy = x 19.289,16 = 21.432,4
n−1 9
σ xy 19.289,16
La relación entre las variables es muy fuerte: rxy = = = 0,9995
σx . σy 19.308,96 x 19.289,16
σ xy
Pendiente recta regresión: b = =1
σ2y
Las variables tienen una relación muy fuerte y la pendiente es 1, se estima por la diferencia.
MUESTREO ALEATORIO: X (variable auxiliar)
⎡ N−n ⎤
Intervalo confianza gasto medio: I( μ ) = ⎡⎣ y ± e μ ⎤⎦ = ⎢ y ± t α / 2 , ( n − 1 ) . s y . ⎥
⎣ n.N ⎦
Intervalo de confianza para el gasto medio:
⎡ N. (N − n ) 2 ⎤
Intervalo confianza gasto total: I( τ ) = ⎣⎡ yˆ ± e τ ⎦⎤ = ⎢ N . y ± t α / 2 , ( n − 1 ) . . sy ⎥
⎣ n ⎦
ŷ = N . y = 500 x 544,2 = 272.100 euros
Varianza del estimador del total:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 140
MUESTREO DE LA RAZÓN: X (variable auxiliar)
Intervalo de confianza para el gasto medio poblacional:
⎡ ⎛N−n⎞ 2⎤
I( μ y ) = ⎡⎣ μˆ y ± er μ ⎤⎦ = ⎢ r . μ x ± t α / 2 , (n − 1) . ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
er μ = t α / 2 , (n − 1) . ˆ μˆ ) = 2,262 x
V( x 2.175,56 = 105,51
Intervalo de confianza para el gasto medio:
⎡ ⎛N−n⎞ 2 ⎤
Intervalo confianza gasto total: I( τ y ) = ⎣⎡ τˆ y ± er t ⎦⎤ = ⎢ r. μ x ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sr ⎥
⎢⎣ ⎝ n ⎠ ⎥⎦
Estimador del total: τˆ y = N . μ x = 500 x 1.000 = 500.000 euros
er t = t α / 2 , (n − 1) . ˆ τˆ ) = 2,262 x
V( X 543.890 = 52.755
Intervalo de confianza para el gasto total:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 141
MUESTREO DE LA DIFERENCIA: X (variable auxiliar)
10
1 −750
d = . ∑ (y i − xi ) = = − 75
n i=1 10
10
1 162
Cuasivarianza de las diferencias: s2d = . ∑ (di − d)2 = = 18
10 − 1 i = 1 9
Intervalo de confianza de la diferencia del gasto medio poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ y ) = ⎡⎣ μˆ d y ± ed μ ⎤⎦ = ⎢ y + (μ x − x) ± t α / 2 , (n − 1) . ⎜ ⎟ . sd ⎥
⎢⎣ ⎝ N.n ⎠ ⎥⎦
ˆ μˆ ) = ⎛⎜ N − n ⎞⎟ . s2 = ⎛⎜ 500 − 10 ⎞⎟ x 18 = 1,764
Estimador de la varianza media: V( dy d
⎝ N.n ⎠ ⎝ 500 . 10 ⎠
Error medio (t 0,025 , 9 = 2,262) de la estimación:
ed μ = t α / 2 , (n − 1) . ˆ μˆ ) = 2,262 x
V( dy 1,764 = 3
Intervalo de confianza de la diferencia del gasto total poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( τ y ) = ⎣⎡ τˆ d y ± ed τ ⎦⎤ = ⎢ N . ( y + ( μ x − x ) ) ± t α / 2 , (n − 1) . N. ⎜ ⎟ . sd ⎥
⎢⎣ ⎝ n ⎠ ⎥⎦
ˆ τˆ ) = N2 . V(
Estimador de la varianza total: V( ˆ τˆ ) = 500 2 x 1,764 = 441.000
dy dy
ed τ = t α / 2 , (n − 1) . ˆ τˆ ) = 2,262 x
V( dy 441.000 = 1.500
Intervalo de confianza para el gasto total:
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 142
Se analiza una muestra de 1.000 consumidores. Para verificar si las puntuaciones varian
dependiendo del encuestador, se selecciona una muestra aleatoria de 120 encuestas de
tamaño 10 cada una. En la tabla adjunta se presenta la información muestral con la
puntuación media para encuestador:
10
1
Encuestador xi = . ∑ xi j
10 j = 1
1 77,8
2 79,1
3 77,4
4 77,3
5 76,6
6 79,1
7 77,4
8 77,3
9 76,6
10 75,8
11 69,4
12 76,7
Con un 95% de fiabilidad, ¿difieren las puntuaciones en función del encuestador?
Solución:
Se elabora la tabla: N = 1.000 n = 120 k = 12
10
1
Encuestador . ∑ xi j (xi − x)
2
xi =
10 j = 1
1 77,8 1,19
2 79,1 5,71
3 77,4 0,48
4 77,3 0,35
5 76,6 0,01
6 79,1 5,71
7 77,4 0,48
8 77,3 0,35
9 76,6 0,01
10 75,8 0,83
11 69,4 53,44
12 76,7 0,00
920,5 68,55
i i Intervalo de confianza de la media poblacional:
⎡ ⎛N−n⎞ 2 ⎤
I( μ ) = ⎡⎣ x ± eμ ⎤⎦ = ⎢ x ± t α / 2 , (n − 1) . ⎜ ⎟ . ˆsk ⎥
⎢⎣ ⎝ N.k ⎠ ⎥⎦
12
1 1
Cuasivarianza entre submuestras: ŝk2 = . ∑ (xi − x)2 = x 68,55 = 6,232
12 − 1 j = 1 11
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 143
12
1 1
Estimador media poblacional: x = . ∑ xi = x 920,5 = 76,71
12 i = 1 12
⎛ N − n ⎞ 2 ⎛ 1.000 − 120 ⎞
Varianza estimada de la media: V( x ) = ⎜ ⎟ . ˆsk = ⎜ ⎟ x 6,232 = 0,457
⎝ N . k ⎠ ⎝ 1.000 x 12 ⎠
Los encuestadores 2, 6 y 11 no se encuentran en el intervalo de la media poblacional. Antes de realizar
inferencias es recomendable analizar los motivos de dichas desviaciones evitando las consecuencias
derivadas del sesgo del encuestador.
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 144
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 145
Portal Estadística Aplicada: Técnicas de Muestreo Poblaciones Finitas 146