Pérez Carballido Sofía
Pérez Carballido Sofía
Pérez Carballido Sofía
2020 / 2021
2020 / 2021
Este trabajo tiene por objetivo hacer una revisión exhaustiva de los diferentes pro-
cedimientos de muestreo, sus características y sus usos.
Comenzaremos por una revisión histórica que nos permita establecer una imagen
global del origen y la evolución de esta rama de la Estadística a lo largo de los
años. Una vez establecido el marco histórico formalizaremos qué es un proceso
de muestreo y pasaremos a detallar los distintos tipos. En esta parte trataremos
también los criterios existentes para la selección de un plan de muestreo, así como
las distintas técnicas de determinación del tamaño muestral.
Para finalizar intentaremos explotar un aspecto más aplicado de este área llevando
a la práctica, a pequeña escala y dentro de nuestras posibilidades, un estudio en el
que se implementen algunos de los esquemas anteriormente descritos.
III
Índice general
Resumen VI
2. EL PROBLEMA DE MUESTREO 5
2.1. CONCEPTOS BÁSICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. MÉTODOS DE MUESTREO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. ESTIMADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1. Distribución en el muestreo de un estimador . . . . . . . . . . . . . . . . . . 12
2.3.2. Propiedades de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3. Construcción de estimadores insesgados. Estimador de Horvitz-Thompson y
Hansen-Hurwitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5. MUESTREO SISTEMÁTICO 35
5.1. ESTIMADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
V
VI ÍNDICE GENERAL
Agradecimientos 57
Apéndice 58
Referencias 77
Resumen
Imaginemos un trabajo tan “sencillo” como un estudio sobre una determinada población. Para
ello, se necesita, en la mayoría de los casos, la selección de una muestra y es aquí donde surgen las
primeras cuestiones: ¿cómo seleccionar la muestra?, ¿de qué tamaño?, ¿qué importancia tienen los
individuos de la población en este proceso?
Las solución a estas y otras preguntas similares le corresponden al Muestreo. En 1934 el profesor
J. Neyman publica en Londres lo que se considera el primer trabajo científico sobre muestreo. Hoy,
87 años después, el uso de las técnicas de muestreo está extendido a diversos campos de estudio
y gracias a las nuevas tecnologías, en los últimos años las técnicas de muestreo han evolucionado
notablemente.
En el Capítulo 1 de este trabajo se recorre un pequeño viaje a través de la historia del Muestreo.
En el Capítulo 2 se aborda el problema de muestreo en general, definiendo los conceptos más bá-
sicos, clasificando los distintos tipos de Muestro y mostrado la construcción de los estimadores de
Horvitz-Thompson y Hansen-Hurwitz. En los Capítulos 3, 4, 5 y 6 estudiaremos el muestreo aleatorio
simple, el muestreo aleatorio estratificado, el muestreo sistemático y el muestreo por conglomerados,
respectivamente.
Finalmente en el Capítulo 7 presentamos una aplicación a datos reales de una base de datos del
alumnado del Máster Interuniversitario en Técnicas Estadísticas con la que ilustramos los distintos
métodos de muestreo. Incluimos además un pequeño estudio de simulación para comparar el error
cometido por estos métodos en ciertas situaciones.
Abstract
Let us imagine a simple task: a study on a population. Such an study requires, in most cases, the
selection of a sample, and here the first question arise: how to select the sample?, not only how, but
which size should it be? or how important are the individuals of the population in this process?.
The solutions to these and other similar questions can be answered using the sampling theory. In
1934, Professor J. Neyman published in London the first scientific work about sampling. Today, 87
years later, the use of sampling techniques is widespread in various fields of study and thanks to new
technologies, sampling techniques have evolved considerably in recent years.
Chapter 1 includes a short journey through the history of sampling. Chapter 2 deals with the sam-
pling problem itself, its formalisation, defining the most basic concepts, classifying the different types
VII
VIII ÍNDICE GENERAL
of sampling procedures and showing the construction of Horvitz-Thompson and Hansen-Hurwitz es-
timators. In Chapters 3, 4, 5 and 6 we will study simple random sampling, stratified random sampling,
systematic sampling and cluster sampling, respectively.
Finally, in Chapter 7 we present a real data application, where we use a database of the students
of the Master’s Degree in Statistical Techniques to illustrate the different sampling procedures. We
also include in this chapter a small simulation study to compare the error derived from the methods
in some specific situations.
Capítulo 1
Estas palabras que Cynthia Crossen escribió en 1994 reflejan a la perfección la relación del ser
humano con los números y las matemáticas. Ya en la prehistoria esta relación es palpable: el hueso
de Ishango (Paleolítico superior, aprox. 20 000 a.C.), constituye el primer utensilio de conteo del ser
humano. Muchos años después, civilizaciones como la egipcia o mesopotámica, desarrollaron sus
propios sistemas de numeración y cálculo.
Otro de los primeros conceptos estadísticos, aunque en aquellas épocas no fueran considerado
como tal, fueron los censos. En la época babilónica se realizaron censos en agricultura; en la antigua
China censos de la población para controlar los ingresos y la fuerza militar de sus provincias; en
Roma se hacían censos con regularidad de las personas y sus propiedades, que se utilizaban para
determinar su estatus e incluso también en el Imperio Inca realizaban tareas estadísticas: cada tribu
1
2 CAPÍTULO 1. CONTEXTO HISTÓRICO DEL MUESTREO
contaba con un estadístico al que llamaban Quipucamayoc. Uno de los censos más famosos fue
realizado por el Rey de Inglaterra Guillermo El Conquistador, que se recoge en el libro de 1086 “The
Domesday Book”.
Como se indica en Bethlehem (2009), no es hasta 1662 cuando se dio un paso más y se introdujo
una primera ideal del concepto de Inferencia. Fue J. Graunt el primero en dar información sobre una
población utilizando solo parte de ella, intentando determinar la población total de Londres. Este
trabajo puede consultarse en su obra “Natural and political observations upon the bills of mortality”.
El segundo fue P. S. Laplace, que en 1812, casi dos siglos después, publicó “Théorie analytique des
probabilités. Oevres complètes” donde estimaba la población francesa. Laplace se dio cuenta de que
era importante tener un indicador de la exactitud de la estimación, esto es, una especie de criterio de
error, por lo que empleando herramientas más elaboradas como el del Teorema Central del Límite,
demostró que su estimador seguía una distribución Normal.
En 1895 el noruego A.N. Kiaer publicó su trabajo “Observations et expériences concernant les
dénombrements representatifs” donde defendía los métodos representativos (obtener información po-
blacional a partir de muestras que representan a toda la población) frente a los métodos exhaustivos
defendidos por el alemán G. Von Mayr (obtener información poblacional a partir de censos que exa-
minan exhaustivamente todos los elementos de la población). Como muchas otras veces en la historia
ambas corrientes tenían opiniones a favor y en contra, aunque en aquel momento era más popular el
uso de los métodos exhaustivos. Finalmente, los métodos representativos recibieron reconocimiento
cuando en 1924 el Instituto Internacional de Estadística constituyó una comisión encargada del estu-
dio de éstos, formada por los estadísticos A.L. Bowley, C. Gini, L. March y C. A. Verrijn Stuart entre
otros.
Lo que a día de hoy se considera como el primer trabajo sobre muestreo de poblaciones finitas,
“One of the two different aspects of the representative method: the method of stratified sampling and
the method of pruposive selection” fue publicado en 1934 por el profesor J. Neyman en la revista de
la Royal Statistical Society de Londres.
A partir de entonces los trabajos sobre muestreo fueron cada vez más frecuentes y su uso dentro
de la Estadística y otras ciencias se hizo cada vez más común. En 1947, se estableció la Subcomisión
de Muestreo Estadístico de la que formaban parte los estadísticos G. Darmois, P. Ch. Mahalanobis, F.
Yates, R. Fisher y W. E. Deming. La Subcomisión publicó su primera obra en 1950, “The preparation
of sampling survey reports”, donde se defiende el uso del muestreo probabilístico, se dan una serie de
directrices para elaborar informes de encuestas y se trata el uso de una terminología técnica común
para los métodos de muestreo.
La teoría clásica del muestreo se considera consolidada en torno a 1952 cuando D.G. Horvitz
y D.J. Thompson presentan, en la obra “A generalization of sampling without replacement from a
finite universe”, la construcción de estimadores insesgados.
Desde finales de los 40 y hasta la década de los 60 se publicaron numerosas obras relevantes
donde se empezaron a desarrollar diferentes métodos de muestreo. Uno de estos métodos es el mues-
treo estratificado, algunos autores que influyeron en el desarrollo de este método son J. Neyman,
M.H. Hansen y W.N. Hurwitz. Otra contribución importante es el trabajo de M.H. Hansen y W.N.
3
Hurwitz en donde desarrollan el muestreo por conglomerados,“On the theory of sampling for finite
populations” y “On the determination of the optimun probabilities in sampling”. Otros autores que
realizaron aportaciones al muestreo por conglomerados fueron D.G. Horvitz y D.J. Thompson en la
obra “A generalization of sampling without replacement from a finite universe”, J.Durbin en “Some
results in sampling theory when the units are selected with uhequal probabilities” y D. Raj en “On the
estimate of variance in sampling with probabilitie proportionate to size”. El muestreo sistemático fue
estudiado por primera vez de “forma seria” por W.G. Cochran y L.H. Madow en 1949 en la obra “On
the theory of systematic sampling” y ya posteriormente por autores como F.Yates o K.R.W. Brewer.
Desde entonces, ya en la década de los 70, se comienza a estudiar y calcular errores de muestreo
y errores ajenos al mismo. Se buscaba mejorar la calidad de las encuestas y en 1978 D.G. Horvitz
impulsó el Sistema de Información para el Diseño por Muestreo (SIDEM), el sistema proponía una
homogeneización de definiciones y términos, favoreció la aplicación del concepto de diseño y es-
tablecía estándares para comparar errores . Durante los años 80 tuvieron gran importancia trabajos
sobre control y calidad del muestreo.
Ya en la actualidad, el uso del muestreo está extendido a diversas áreas como biología, economía,
marketing... así como en la realización de todo tipo de encuestas en numerosos ámbitos. El mayor
avance y mejora de las técnicas de muestreo se sustenta en el uso de las nuevas tecnologías, así como
al análisis de datos y la gestión de grandes bases de datos, a lo que contribuyen notablemente las
técnicas de “Big Data” y de la gestión de computadores.
4 CAPÍTULO 1. CONTEXTO HISTÓRICO DEL MUESTREO
Capítulo 2
EL PROBLEMA DE MUESTREO
A lo largo de este trabajo haremos referencia en múltiples ocasiones a una serie de conceptos
básicos con los que necesitamos familiarizarnos. Por ello procedemos a su definición, para lo que
hemos tomado como base la formalización de los mismos presentada en Mendenhall, Scheaffer, y
Lyman Ott (2006) y en Pérez-López (2010).
• población objetivo: es el conjunto de elementos sobre los que se desea realizar tareas de
Inferencia. Nótese que trabajar con la población objetivo no siempre es posible, ya que
podemos tener dificultades para obtener la información necesaria de todos los elementos;
Elemento: es un objeto sobre el que se realiza una medición. Denotaremos de ahora en adelante
a un elemento como Ui , i ∈ {1, ..., N}, N ∈ N y siendo N el tamaño de la población.
Se denotará, por tanto, a una población de tamaño N como U = {U1 , ...,UN }, i.e., el tamaño
de la población es el número de elementos que la constituyen.
Unidad de muestreo: es cada uno de los conjuntos disjuntos de la población que cubren la
población objetivo. Podemos tener unidades elementales, que son las unidades de muestreo
más simples; o unidades compuestas, formadas por varias unidades elementales. Se denota
a la unidad de muestreo como ui , i ∈ {1, ..., n}, n ∈ N y n ≤ N, indistintamente según nos
refiramos a unidades elementales o compuestas dependiendo del contexto de estudio. Cabe
señalar que el orden de índices de la muestra no necesariamente representa el mismo orden
que en la población, es decir, en general Ui ̸= ui , ver Cid-Cid, Delgado-Manríquez, y Leguey-
Galán (1999).
5
6 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
Marco: lista de las unidades de muestreo. Será más completo cuanto mejor cubra la población
objetivo, i.e., la diferencia entre la población objetivo y el marco deberá ser lo suficientemente
pequeña para permitir que se haga Inferencia acerca de la población objetivo a partir de una
muestra obtenida del marco. Esta diferencia se denomina error de cobertura.
Espacio muestral: conjunto de todas las posibles muestras que se pueden obtener, se denota
por S.
Para ilustrar y facilitar la comprensión de todos estos conceptos, utilizaremos el siguiente ejem-
plo: imaginemos que queremos realizar un estudio sobre adolescentes de entre 12 y 18 años del
ayuntamiento de Narón, esta sería nuestra población objetivo. Cada uno/a de los/as jóvenes es un
elemento sobre el que se realizarán las mediciones. Como es habitual en este tipo de estudios no
se establece contacto con toda la población, por lo que se reduce el número de jóvenes sobre los/as
que podremos tomar las mediciones, esta es ahora la población investigada. Es decir, la población
investigada será el subconjunto de la población objetivo al que tenemos acceso para realizar las me-
diciones (si por ejemplo decidimos tener acceso a estos/as jóvenes a través de los/as matriculados/as
en los institutos, podría haber jóvenes no escolarizados/as; o si tenemos acceso a ellos/as a través de
redes sociales, podría haber jóvenes que no participen en ninguna red social). Si decidimos acceder
a ellos a través los institutos, los/as jóvenes, en este caso alumnos/as, estarán agrupados/as por ins-
tituto, estas serán nuestras unidades compuestas, cada unidad compuesta está constituida por varias
unidades elementales, i.e., por varios/as alumnos/as. La lista de las unidades constituye el marco,
en este ejemplo un listado de los/as alumnos/as, si se tienen unidades elementales o los institutos,
si se tienen unidades compuestas. Las unidades que seleccionemos, bajo unos criterios establecidos,
formarán la muestra sobre la que se desarrollará el estudio. Para resumir, en este ejemplo, tenemos:
Espacio muestral: conjunto de todas las posibles muestras, es decir, de todas las posibles for-
mas de escoger alumnos/as o institutos (dependiendo del tipo de unidad de muestreo de inte-
rés).
2.2. MÉTODOS DE MUESTREO 7
Ante la diversidad de poblaciones que nos podemos encontrar, según como queramos o necesi-
temos enfrentarnos a ellas y en base al estudio que se pretenda realizar, surgen varios métodos de
muestreo.
Para clasificar los diferentes métodos de muestreo, podemos atender a varios criterios: si la po-
blación de estudio es finita o infinita, si el mecanismo empleado para obtener una muestra es pro-
babilístico o no probabilístico, y si la forma de selección de las unidades para formar parte de la
muestra es con o sin reemplazamiento. Si consideramos toda esta casuística tenemos las siguientes
categorías:
2. Probabilístico o no probabilístico.
llan otros métodos, que como veremos más adelante, en ocasiones requieren de este
muestreo aleatorio simple para su funcionamiento.
Dentro de esta clasificación podemos atender a dos criterios. El primero de ellos se basa en la
probabilidad de selección en cada extracción de las unidades para formar parte de la muestra,
que puede ser igual o desigual. Ya hemos visto que en el caso de que los elementos de una
población tengan la misma probabilidad de ser seleccionados para una muestra, dicha muestra
será representativa de la población.
El segundo criterio se basa en la mecánica de selección de las unidades, que puede ser con o
sin reemplazamiento. Con reemplazamiento consiste en que una vez extraída una unidad es
10 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
devuelta a la población, por lo que cada unidad podrá aparecer más de una vez en la muestra y
mientras que sin reemplazamiento, consiste en que una vez extraída la unidad no es devuelta a
la población, por lo que cada unidad solo podrá aparecer una única vez en la muestra.
Combinando las cuatro características, tenemos estos métodos de muestreo:
Atendiendo a los criterios anteriormente mencionados, para nuestro trabajo nos enfrentaremos al
muestreo en poblaciones finitas y de carácter probabilístico. Garantizar que la muestra sea represen-
tativa de la población, nos permitirá obtener unos resultados rigurosos.
Ilustramos en el siguiente esquema la clasificación de los métodos de muestreo. Resaltamos en
el mismo, los métodos de muestreo que abordaremos a lo largo del trabajo.
MUESTREO
Probabilístico No probabilístico
2.3. ESTIMADORES
Una de las principales tareas e intereses de la Inferencia Estadística es la estimación. La estima-
ción consiste en, dada una población que sigue una cierta distribución de probabilidad dependiente
de uno o varios parámetros, aproximar los posibles valores que pueden tomar estos parámetros po-
blacionales a partir de la información proporcionada por la muestra.
2.3. ESTIMADORES 11
Sea U = {U1 ,U2 , ...,UN } la población; una muestra de tamaño n extraída de una población U
de tamaño N, se denotará como s = {u1 , u2 , ..., un }. Y el espacio muestral de tamaño ns como S =
{s1 , ..., sns }, siendo ns el número de posibles muestras de tamaño n que se pueden formar en la
población de tamaño N.
Sobre el espacio muestral definimos la distribución de probabilidad, que denominaremos como
distribución conjunta de la muestra. Esta distribución asigna a cada muestra la probabilidad que tiene
de ser elegida:
P : S → [0, 1],
que verifica:
ns
P(si ) ≥ 0 ∀i ∈ {1, ..., ns } y ∑ P(si ) = 1.
i=1
El hecho de poder calcular esta probabilidad es lo que define que un muestreo sea probabilístico,
ver Sánchez-Crespo (1984) para más detalles.
Una variable aleatoria X es cualquier característica de interés que se puede medir sobre los ele-
mentos de la población. Los parámetros poblacionales son valores uni o multidimensionales que
caracterizan el comportamiento de la variable de interés en algún aspecto relevante (media, varianza,
probabilidad de éxito, proporción...). Nuestro objetivo en esta sección será estudiar como estimar un
parámetro poblacional que denotaremos genéricamente por θ, a partir de la información contenida
en la muestra.
Suponiendo que la variable X es continua, los parámetros más comunes a estimar son:
En el caso de que la variable X sea discreta, como por ejemplo si una unidad de la muestra
pertenece o no a una determinada clase A, podemos definir los siguientes parámetros poblacionales:
proporción de clase (proporción de elementos de la población que pertenecen a la clase A) y total de
clase (total de elementos de la población que pertenecen a la clase A). Supongamos que Ai toma el
valor 1 si una unidad pertenece a la clase A y 0 si no pertenece a la clase A, entonces nos interesa:
Para más información acerca de la elección de estos parámetros como los más relevantes puede
consultarse Pérez-López (2010) , Cid-Cid y cols. (1999) o Alba y Ruiz (2006).
12 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
Resumimos en la siguiente tabla los parámetros que serán de aquí en adelante los parámetros de
interés para cada uno de los métodos de muestreo que desarrollaremos:
X es continua X es discreta
N N
Ai
Total poblacional: T = ∑ Xi Proporción de clase: B = ∑
i=1 i=1 N
N N
1
Media poblacional: µ = ∑ Xi Total de clase: A = ∑ Ai
N i=1 i=1
Tabla 2.1: parámetros poblacionales de interés según la variable X sea continua o discreta.
A partir de los datos y/o características observadas de la variable X sobre las unidades de la mues-
tra, construimos los estadísticos. Los estadísticos son funciones de variables aleatorias. Un estimador,
θ, es un estadístico que se utiliza para inferir el valor del parámetro poblacional θ desconocido, es
b
decir, el que queremos estimar.
Formalizamos el concepto de estimador, b θ, para el parámetro poblacional, θ, como la función que
θ(s(X)) = b
asocia a cada muestra s el valor numérico b θ(X1 , X2 , ..., Xn ), donde s(X) = {X1 , X2 , ..., Xn }
denota el conjunto de los valores que toma la variable X sobre las unidades de la muestra. Conside-
rando el espacio muestral S, obtenemos el conjunto S(X) = {s(X), s ∈ S} y podemos formalizar el
estimador como la aplicación:
θ : S(X) ⊂ Rn → R p
b
(X1 , ..., Xn ) → b
θ(s(X)) = b
θ(X1 , ..., Xn ) = t,
donde p será la dimensión del parámetro (si p = 1 será unidimensional, si p = 2 bidimensional, ...,
si p = n n-dimensional).
Con la necesidad de conocer más los estimadores estudiamos en este apartado sus distribuciones
en el muestreo. Se define la distribución de probabilidad de una variable aleatoria como la función
que asigna una probabilidad a los valores que puede tomar dicha variable, Pérez-López (2010). Cada
estimador b
θ toma determinados valores a partir de cada una de las muestras del espacio muestral, la
probabilidad de que tome un cierto valor depende de la probabilidad asociada a las muestras. Obten-
dremos la distribución de probabilidad en el muestreo para nuestro estimador cuando conozcamos
todos los valores que puede tomar y sus probabilidades asociadas.
Definimos como
Dado que diferentes muestras si del espacio muestral S puedan dar lugar al mismo valor del
estimador, la probabilidad de que el estimador tome dicho valor se define como la suma de las
probabilidades de las muestras que dan lugar a ese valor para el estimador:
PW (b
θ(X1 , X2 , ..., Xn ) = t) = ∑{si /bθ(si (X))=t} P(si ).
Una vez que ya sabemos qué es un estimador, estamos interesados en encontrar un estimador
preciso.
Se define la precisión de un estimador como lo bien (o mal) que las estimaciones realizadas se
ajustan a los verdaderos valores de los parámetros. Con el fin de estudiar la precisión del estimador,
definimos las siguientes características:
θ) = ∑S b
E(b θ(si )P(si ),
θ))2 = E(b
θ − E(b
θ) = E(b
Var(b θ2 ) − E(b
θ)2 ,
error de muestreo q
σ(θ) = + Var(b
b θ). (2.1)
σ(b
θ)
CV (b
θ) = ,
E(b
θ)
θ) − θ y
θ) = E(b
Sesgo(b
θ − θ| < ε) = 1 ∀ε < 0.
lı́m P(|b
n→N
Así, un estimador será consistente si cuando se observa toda la población la estimación coincide
exactamente con el valor del parámetro a estimar. En tal caso, si se incrementa el tamaño muestral
hasta N la muestra coincidirá con la población y el error cuadrático será cero, ver Cid-Cid y cols.
(1999).
Definición 2.3. Diremos que un estimador es más, menos o igual de eficiente en comparación con
otro, si el cociente de sus respectivas varianzas es superior, menor o igual a la unidad, ver Azorín-
Poch (1969).
Un buen estimador es aquel que cumple las propiedades de insesgadez, consistencia y eficiencia.
Según Alba y Ruiz (2006), si queremos comparar estimadores insesgados, será mejor b θi que b
θj
para estimar θ si Var(θi ) < Var(θ j ); mientras que si queremos comparar estimadores sesgados, será
b b
mejor b
θi que b θi ) < ECM(b
θ j para estimar θ si ECM(b θ j ).
Como ya hemos comentado anteriormente, y podemos observar en la tabla 2.1, los parámetros
más comunes a estimar y sobre los que ponemos atención en este trabajo son: el total poblacional, la
media poblacional, el total de clase y la proporción de clase.
Atendiendo a la naturaleza de estos parámetros, vamos a expresar de forma general un parámetro
poblacional como θ = ∑Ni=1 Yi , siendo N el tamaño de la población. Para cada caso, Yi viene dado por
Xi para el total poblacional,
Xi para la media poblacional,
N
Yi = (2.3)
Ai para el total de clase,
Ai para la proporción de clase.
N
que sean insesgados y donde los valores ωi , denominados pesos, se caracterizan por:
medir la importancia del efecto que añade cada unidad muestral ui al estimador,
si las unidades de muestreo son compuestas, los pesos ωi regulan el efecto que añaden al esti-
mador asociándolo al número de unidades elementales que contiene cada una de las unidades
compuestas,
2.3. ESTIMADORES 15
además del tamaño de la unidad compuesta, en caso de serlo, los pesos también pueden depen-
der del orden de colocación de las unidades en la muestra y de la probabilidad que tiene cada
unidad de pertenecer a la misma según el método de muestreo empleado.
Para construir los estimadores tenemos que tener en cuenta si la selección de la muestra se hace
mediante un diseño muestral sin o con reemplazamiento. Por este motivo surgen los estimadores de
Horvitz-Thompson (sin reemplazamiento) y Hansen-Hurwitz (con reemplazamiento), que explica-
mos a continuación.
Estimador de Horvitz-Thompson
Consideremos una población de tamaño N y una muestra s = {u1 , ..., un } seleccionada mediante
un diseño muestral sin reemplazamiento, i.e., cada unidad solo puede pertenecer a la muestra como
máximo una vez.
Para representar la pertenencia a la muestra de una unidad ui se define para cada i ∈ {1, ..., N} el
indicador de pertenencia, Ii , como la variable aleatoria dada por:
1 si ui ∈ s con probabilidad πi ,
Ii =
0 si u ∈/ s con probabilidad 1 − π .
i i
Obsérvese que Ii ∈ Ber(πi ), con πi = P(ui ∈ s). De forma análoga, para un par de unidades {ui , u j }
con i ̸= j se define para cada i, j ∈ {1, ..., N}, el indicador de pertenencia como:
1 si {ui , u j } ∈ s con probabilidad πi j ,
Ii · I j =
0 si {u , u } ∈ / s con probabilidad 1 − π .
i j ij
2. E(Ii2 ) = 12 πi + 02 (1 − πi ) = πi .
θ) = θ.
Para que el estimador lineal dado en (2.4) sea insesgado, se tiene que cumplir que E(b
Veámoslo:
1) Introducimos el indicador de pertenencia, trasladando de este modo la aleatoriedad de Yi a Ii y
empleando la linealidad de la esperanza:
1 Como podemos ver en Cid-Cid y cols. (1999) se define la covarianza entre dos variables aleatorias X e Y como
Cov(X,Y ) = E[(X − E[X])(Y − E[Y ])] = E[X ·Y ] − E[X]E[Y ]
16 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
! !
n N N N
θ) = E
E(b ∑ ωiYi =E ∑ ωiYi Ii = ∑ ωiYi E(Ii ) = ∑ ωiYi πi .
i=1 i=1 i=1 i=1
2) Exigiendo ahora la condición de insesgadez y suponiendo que todas las unidades añaden el
mismo peso al estimador, ωi = 1, expresamos
N N
1
θ) = θ =⇒ ∑ ωiYi πi = ∑ Yi =⇒ ωi πi = 1 =⇒ ωi = .
E(b
i=1 i=1 πi
n n
1
θ = ∑ ωiYi = ∑ Yi . Esta clase de estimadores fueron introducidos
Así obtenemos la expresión b
i=1 i=1 πi
por Horvitz y Thompson (1952) y son denotados habitualmente de la forma:
n
Yi
θHT = ∑ .
b (2.5)
i=1 πi
N N N
Yi Yi Y j
Var(θHT ) = ∑ Var
b Ii + 2 ∑ ∑ Cov Ii , I j .
i=1 πi i=1 j>i πi π j
N N N N N N
Y2 Yi Y j Y2 Yi Y j
θHT ) = ∑ i2 Var(Ii ) + 2 ∑ ∑
Var(b Cov(Ii , I j ) = ∑ i2 πi (1 − πi ) + 2 ∑ ∑ (πi j − πi π j ).
i=1 πi i=1 j>i πi π j i=1 πi i=1 j>i πi π j
N N N
Y2 Yi Y j
θHT ) = ∑ i (1 − πi ) + 2 ∑ ∑
Var(b (πi j − πi π j ). (2.7)
π
i=1 i i=1 j>i πi π j
2 La varianza de la suma es la suma de todos los elementos de la matriz de covarianzas, i.e., la suma de los elementos
de la diagonal más dos veces la suma de los elementos triangulares superiores, ver Sheldon (2010) para más detalles.
2.3. ESTIMADORES 17
Estimador de Hansen-Hurwitz
Consideremos ahora una población de tamaño N y fijemos una muestra s = {u1 , ..., un } seleccio-
nada mediante un diseño muestral con reemplazamiento, en este caso, una unidad cualquiera puede
pertenecer a la muestra hasta n veces.
En esta situación, para cada i ∈ {1, ..., N} definimos la variable aleatoria, contador de pertenencia,
como el número de veces que la unidad ui aparece en la muestra:
ei : U → {0, ..., n}
ui ; e(ui ) ∈ {0, ..., n}.
Este contador de pertenencia, ei sigue una distribución Bi(n, Pi ), donde Pi denota la probabilidad
de que la unidad ui pertenezca a la muestra s. Entonces el vector e = (e1 , ..., ei , ..., en ) sigue una
distribución multinomial de parámetros (n, P1 , ..., Pi , ..., Pn ). Tenemos así las siguientes propiedades
para el contador de pertenencia:
1. E(ei ) = nPi.
2. Var(ei ) = nPi (1 − Pi ) 3 .
De nuevo para que el estimador lineal dado en (2.4) sea insesgado, se tiene que cumplir que
θ) = θ. Con un procedimiento análogo al empleado para el caso anterior sin reemplazamiento,
E(b
tenemos:
1) Introducimos el contador de pertenencia, trasladando de este modo la aleatoriedad de Yi a ei ,
y aplicando la linealidad de la esperanza:
! !
n N N N
E(bθ) = E ∑ ωiYi = E ∑ ωiYi ei = ∑ ωiYi E(ei ) = ∑ ωiYi nPi .
i=1 i=1 i=1 i=1
θ) = θ, entonces
2) Para que sea insesgado tendríamos que E(b
N N
∑ ωiYi nPi = ∑ Yi .
i=1 i=1
Para que se cumpla la condición de insesgadez pedimos que
1
ωi nPi = 1 =⇒ ωi = nPi .
n n
1
θ = ∑ ωiYi = ∑
Obtenemos de esta manera la expresión b Yi . Esta clase de estimadores fueron
i=1 i=1 nPi
introducidos por Hansen y Hurwitz (1943) y se denota:
n
Yi
θHH = ∑
b . (2.8)
i=1 nPi
3 Si Y es una variable aleatoria discreta tal que Y ∼ Bi(n, p) entonces su media es E(Y ) = np y su varianza Var(Y ) =
np(1 − p).
4 Sea X una variable aleatoria. Si el vector X = (X , ..., X ) sigue una distribución multinomial con parámetros n y p,
i 1 k
donde p = (p1 , ..., pk ), entonces su media es E(Yi ) = np, su varianza Var(Yi ) = np(1 − p) y su covarianza Cov(Yi ,Y j ) =
−nPi Pj (i ̸= j).
18 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
2) Aplicando la propiedad de la suma de varianza para variables correladas vista en (2.6), tenemos
N n n
Yi Yi Yj
θHH ) = ∑ Var
Var(b ei + 2 ∑ ∑ Cov ei , ej =
i=1 nPi i=1 j>i nPi nPj
N N
Yi Yi Yj
= ∑ Var ei + ∑ Cov ei , ej .
i=1 nPi j̸=i nPi nPj
1 N Yi2 1 N 2 1 N
= ∑ Pi − n ∑ Yi − n ∑ YiY j .
n i=1 i=1 i̸= j
!2 !2
N N N N N N N
∑ Yi = ∑ Yi2 + ∑ YiY j =⇒ − ∑ YiY j = ∑ Yi2 − ∑ Yi = ∑ Yi2 − θ2 . (2.9)
i=1 i=1 i̸= j i̸= j i̸= j i=1 i=1
5) Ahora sustituyendo en la expresión de la varianza del paso 3) el valor obtenido para − ∑Ni̸= j YiY j
en el paso anterior , tenemos
" #
N 2 N N N 2
1 Y 1 1 1 1 Y
θHH ) = ∑ i − ∑ Yi2 + ∑ Yi2 − θ2 =
Var(b ∑ Pii − θ2 (a)=
n i=1 Pi n i=1 n i=1 n n i=1
" # " #
1 N Yi2 1 N
Y 2 N
Yi
N
= ∑ Pi − 2θ2 + θ2 (b)
n i=1
= ∑ Pi2 Pi − 2θ ∑ Pi Pi + θ2 ∑ Pi (c)
n i=1
=
i i=1 i=1
" # 2
1 N Yi2 1 N Yi
Yi 2
= ∑ P2 − 2θ Pi + θ Pi (d)
n i=1
= ∑
n i=1 Pi
− θ Pi .
i
En la tabla 2.2 hemos resumido las notaciones y varianzas de los dos tipos de estimadores pre-
sentados.
Estimador Varianza
Horvitz-Thompson
n N N N
Yi Yi2 Yi Y j
θHT = ∑
b ∑ πi (1 − πi ) + 2 ∑ ∑ πi π j (πi j − πi π j )
i=1 πi i=1 i=1 j>i
Hansen-Hurwitz
n 2
1 N Yi
Yi
θHH = ∑
b ∑ Pi − θ Pi
i=1 nP i n i=1
En este capítulo hablaremos del muestreo aleatorio simple haciendo distinción según el número
de veces que cada unidad aparezca en la muestra, dándose así los casos de muestreo sin, o con
reemplazamiento. Recordemos que este método de muestreo, con tamaño muestral fijo, nos garantiza
que todas las muestras que se pueden obtener tendrán la misma probabilidad y, en consecuencia todos
los elementos de la población tienen la misma probabilidad de ser elegidos para formar parte de la
muestra.
elementos distintos sin repetición entre los N posibles. Así mismo, como las probabilidades de
selección son iguales, aplicando la regla de Laplace, la probabilidad de obtener una muestra
cualquiera es
casos favorables 1 1
P({u1 , ..., un }) = = = N .
casos posibles CN,n n
21
22 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE
Probabilidad igual de selección de una unidad: como acabamos de ver en el espacio mues-
tral, el número de muestras posibles de tamaño n es CN,n = Nn . Fijando una unidad ui de la
muestra, las posibles muestras que podemos tener vienen de seleccionar n − 1 elementos de
los N − 1 elementos que quedan en la población. Así, el número de muestras posibles que se
pueden formar bajo está condición es CN−1,n−1 = N−1
n−1 . Podemos calcular entonces que la
probabilidad de una unidad de ser seleccionada es
N−1
casos favorables n−1 n
πi = P(ui ∈ s) = = N
= .
casos posibles n
N
N
Probabilidad de que un par de unidades (ui , u j ) sea seleccionado: siendo CN,n = n el tamaño
del espacio muestral, sabemos que el número de muestras posibles que se pueden formar de
manera que contenga el par de unidades (ui , u j ) es CN−2,n−2 = N−2
n−2 . Ya que para este caso
fijando el par de unidades (ui , u j ), las posibles muestras que podemos tener vienen de seleccio-
nar n − 2 elementos de los N − 2 elementos restantes de la población. Entonces la probabilidad
de que un par de unidades sea seleccionado es
N−2
casos favorables n−2 n(n − 1)
πi j = P((ui , u j ) ∈ s) = = N = .
N(N − 1)
casos posibles n
Recordemos que el estimador insesgado óptimo para un muestreo sin reemplazamiento del pa-
N
Yi
rámetro poblacional θ = ∑Ni=1 Yi es el estimador de Horvitz-Thompson, bθHT = ∑ , siendo πi la
i=1 πi
probabilidad de que una unidad pertenezca a la muestra, que tiene un valor de πi = Nn , ver sección
2.3.3 para más detalles.
A partir del estimador de Horvitz-Thompson, podemos deducir los estimadores para los paráme-
tros de interés introducidos en la sección 2.3.3.
Total:
N n n
Xi Xi 1 n
θ = T = ∑ Xi =⇒ Yi = Xi =⇒ b
θ = Tb = ∑ = ∑ = N ∑ Xi . (3.1)
i=1 i=1 πi i=1 n/N n i=1
Media:
N n n
Xi Xi Xi /N Xi /N 1 n
θ=µ=∑ =⇒ Yi = =⇒ b
θ=b
µ=∑ =∑ = ∑ Xi . (3.2)
i=1 N N i=1 πi i=1 n/N n i=1
Proporción:
N n
Ai Ai Ai /N 1 n
θ=B=∑ =⇒ Yi = =⇒ b
θ == ∑ = ∑ Ai . (3.3)
i=1 N N i=1 n/N n i=1
Total de clase:
N n n
θ = A = ∑ Ai =⇒ Yi = Ai =⇒ b b = ∑ Ai = N 1 ∑ Ai = N B.
θ=A b (3.4)
i=1 i=1 n/N n i=1
3.1. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZAMIENTO 23
n n(n−1)
A partir de (2.7) y sustituyendo los valores de πi = N , πi j = N(N−1) e Yi correspondiente para
cada caso (véase (2.3) para mas detalles), podemos calcular la varianza para los estimadores (3.1),
(3.2), (3.3) y (3.4):
Total:
N 2 N N
X n Xi X j n(n − 1) n n
Var(Tb) = ∑ ni 1− +2∑ ∑ n n − .
i=1 N N i=1 j>i N N N(N − 1) N N
n n n(n − 1) n n n n n−N
Operando 1 − / =y − / = , podemos escribir la ex-
N N N(N − 1) N N NN n(N − 1)
presión de la varianza de una forma más sencilla:
n N 2 n−N N N
Var(Tb) = ∑ Xi + 2 ∑ ∑ Xi X j .
N i=1 n(N − 1) i=1 j>i
N −n N 2 n−N N N
Var(Tb) = (X
∑ i − µ) + 2 ∑ ∑(Xi − µ)(X j − µ).
n i=1 n(N − 1) i=1 j>i
Haciendo uso de la expresión vista en (2.9), en este caso Yi = Xi −µ y sabiendo que 2 ∑Ni=1 ∑Nj>i YiY j =
− ∑Nj̸=i Yi , entonces −2 ∑Ni=1 ∑Nj>i (Xi − µ)(X j − µ) = − ∑Nj̸=i (Xi − µ)(X j − µ) = ∑Ni=1 (Xi − µ)2 −
(∑Ni=1 (Xi − µ))2 = ∑Ni=1 (Xi − µ)2 ya que (∑Ni=1 (Xi − µ))2 = (∑Ni=1 Xi − Nµ)2 = 0. Podemos ahora
expresar
!
N N N
N − n ∑ i=1 ∑ j>i (X i − µ)(X j − µ)
Var(Tb) =
n ∑ (Xi − µ)2 − 2 N −1
=
i=1
!
N
N −n N ∑ (X i − µ) 2
=
n ∑ (Xi − µ)2 + i=1N − 1 .
i=1
N
Sacando factor común ∑ (Xi − µ)2 se escribe
i=1
" N #
N −n 1 2 N(N − n) 1 N
Var(Tb) =
n
1+ (X
∑ i
N − 1 i=1
− µ) =
n ∑ (Xi − µ)2 =
N − 1 i=1
N(N − n) 2 n Sc2
= Sc = N 2 1 − ,
n N n
donde
1 N
Sc2 = ∑ (Xi − µ)2 , (3.5)
N − 1 i=1
es la cuasivarianza. Así la varianza para el estimador del total es
n Sc2
Var(Tb) = N 2 (1 − ) . (3.6)
N n
24 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE
Media:
!
1 2
Tb = N b µ = =⇒ Var(b
µ =⇒ b
Tb
µ) = Var
Tb
= Var(Tb) = 1 N 2 (1 − n ) Sc .
N N N2 N2 N n
Según la información sobre los parámetros de interés recogida en la Tabla 2.1, nos quedaría por
calcular los estimadores de la proporción y el total de clase, para los que necesitamos desarrollar la
fórmula de la cuasivarianza Sc2 .
Partimos de la fórmula de Sc2 que hemos visto en (3.5),
1 N 1 N
Sc2 = ∑ (Xi − µ)2
= ∑ (Ai − B)2 .
N − 1 i=1 N − 1 i=1
Aplicando la identidad notable (a − b)2 y la propiedad de asociatividad de la suma, se tiene:
!
N N N N
1 1
Sc2 = ∑ (A2i − 2BAi + B2 ) = N − 1 ∑ A2i − 2 ∑ BAi + ∑ B2 .
N − 1 i=1 i=1 i=1 i=1
∑Ni=1 A2i = ∑Ni=1 Ai ya que Ai = 0 ó Ai = 1 (veáse la sección 2.3 para más información), por
tanto ∑Ni=1 Ai = NB ya que B = N1 ∑Ni=1 Ai ,
∑Ni=1 B2 = NB2 ,
tenemos
1
Sc2 = (NB − 2NB2 + NB2 ).
N −1
Seguimos operando y llegamos al valor final para la cuasivarianza:
1 1 1 1
Sc2 = (NB − 2NB2 + NB2 ) = (NB − NB2 ) = NB(1 − B) = NBQ. (3.8)
N −1 N −1 N −1 N −1
Estamos ya en condiciones de calcular la varianza para los estimadores de la proporción y el total
de clase. Partiendo de las expresiones de las varianzas de los estimadores del total (3.6), de la media
(3.7) y del valor para la cuasivarianza (3.8), obtenemos:
Proporción:
1
n Sc2 n NBQ N 1 n
b = (1 −
Var(B) ) = (1 − ) N−1 = (1 − )BQ.
N n N n N −1 n N
Total de clase:
1
n Sc2 n NBQ N3 1 n
b = N 2 (1 −
Var(A) ) = N 2 (1 − ) N−1 = (1 − )BQ.
N n N n N −1 n N
3.2. MUESTREO ALEATORIO SIMPLE CON REEMPLAZAMIENTO 25
Recordemos que en este caso el estimador insesgado óptimo para un muestreo con reemplaza-
N
Yi
miento del parámetro poblacional θ = ∑Ni=1 Yi es el estimador de Hansen-Hurwitz, b
θHH = ∑ ,
i=1 nP i
siendo Pi la probabilidad de que una unidad pertenezca a la muestra, que como acabamos de ver
tiene un valor de Pi = N1 , ver sección 2.3.3 para más detalles.
Según los valores que toma Yi dados en (2.3) deducimos los siguientes estimadores:
Total:
N n n
Xi Xi 1 n
θ = T = ∑ Xi =⇒ Yi = Xi =⇒ b
θ = Tb = ∑ =∑ = N ∑ Xi . (3.9)
i=1 i=1 nPi i=1 n/N n i=1
Media:
N n n
Xi Xi Xi /N Xi /N 1 n
θ=µ=∑ =⇒ Yi = =⇒ b
θ=b
µ=∑ =∑ = ∑ Xi . (3.10)
i=1 N N i=1 nPi i=1 n/N n i=1
Proporción:
N n
Ai Ai Ai /N 1 n
θ=B=∑ =⇒ Yi = =⇒ b
θ = Bb = ∑ = ∑ Ai . (3.11)
i=1 N N i=1 n/N n i=1
Total de clase:
N n
Ai 1 n
θ = A = ∑ Ai =⇒ Yi = Ai =⇒ b
θ=A
b= ∑ = N ∑ Ai = N B.
b (3.12)
i=1 i=1 n/N n i=1
En (2.10) hemos visto que la fórmula de la varianza del estimador de Hansen-Hurwitz, viene dada
por
N 2
1 Yi
θHH ) = ∑
Var(b − θ Pi .
n i=1 Pi
A partir de ella y sustituyendo los valores de Pi = N1 , θ e Yi correspondiente para cada caso, pode-
mos deducir la varianza para los estimadores (3.9), (3.10), (3.11) y (3.12) de los distintos parámetros
de interés:
26 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE
Total:
N 2 N 2
1 Xi 1 Xi 1 1 N 1
Var(Tb) = ∑ − T Pi = ∑ −T = ∑ (NXi − T )2 =
n i=1 Pi n i=1 1/N N n i=1 N
1 N 1 1 N 1 N2 1 N
= ∑ (NXi − Nµ)2 = ∑ N 2 (Xi − µ)2 = ∑ (Xi − µ)2 ,
n i=1 N n i=1 N n N i=1
donde denotamos
1 N
S2 = ∑ (Xi − µ)2 (3.13)
N i=1
S2
Var(Tb) = N 2 . (3.14)
n
Media:
!
1 2
Tb = N b
µ =⇒ b
Tb
µ = =⇒ Var(b
µ) = Var
Tb
= Var(Tb) = 1 N 2 (1 − n ) S .
N N N2 N2 N n
S2
µ) =
Var(b . (3.15)
n
1
Sabiendo que Sc2 = ∑Ni=1 (Xi − µ)2 (3.5) y que S2 = N1 ∑Ni=1 (Xi − µ)2 (3.13). Entonces Sc2 =
N−1
N 2 2 1 2
N−1 S y como Sc = N−1 BQ (3.8) podemos escribir S = BQ.
Ahora a partir de las fórmulas de la varianza para los estimadores del total (3.14) y la media
(3.15) podemos calcular ahora las varianzas para los estimadores de:
Proporción:
2 N−1 2 N−1 NBQ
b =S = N Sc N N−1 BQ
Var(B) = = .
n n n n
Total de clase:
N−1 2 N−1 NBQ
b = N2 S2 Sc N N−1 BQ
Var(A) = N2 N = N2 = N2 .
n n n n
Usaremos la notación VarSR y VarCR para referirnos a la varianza del método sin reemplazamien-
to y con reemplazamiento respectivamente.
Veamos ahora en primer lugar lo que ocurre con la varianza del estimador de la media:
2 2
S N−n S2
µ) (1 − Nn ) nc
VarSR (b
N S
(1 − Nn ) N−1 n N−1 n N −n
= S2
= S2
= S2
=⇒ < 1.
VarCR (b
µ) N −1
n n n
Para la proporción:
N 1 n N−n BQ
VarSR (B) N−1 n (1 − N )BQ N−1 n N −n
b
= BQ
= BQ
=⇒ < 1.
VarCR (B)
b
n n
N −1
N3 1 n BQ
VarSR (A)
b N−1 n (1 − N )BQ N 2 N−n
N−1 n N −n
= = =⇒ < 1.
VarCR (A)
b N 2 BQ
n N 2 BQ
n
N −1
Podemos concluir entonces que el muestreo aleatorio sin reemplazamiento ofrece mejores resul-
tados, en términos de error de muestreo, que con reemplazamiento.
Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
simple presentamos un resumen en las siguientes tablas:
Estimador Varianza
n
1 n Sc2
Total Tb = N ∑ Xi Var(Tb) = N 2 (1 − )
n i=1 N n
1 n n Sc2
Media µ=
b ∑ Xi µ) = (1 −
Var(b )
n i=1 N n
1 n N 1 n
Proporción Bb = ∑ Ai b =
Var(B) (1 − )BQ
n i=1 N −1 n N
N3 1 n
Total de clase b = N Bb
A b =
Var(A) (1 − )BQ
N −1 n N
Tabla 3.1: estimadores y varianzas para el muestreo aleatorio simple sin reemplazamiento.
28 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE
Estimador Varianza
n
1 S2
Total Tb = N ∑ Xi Var(Tb) = N 2
n i=1 n
1 n S2
Media µ=
b ∑ Xi µ) =
Var(b
n i=1 n
1 n BQ
Proporción Bb = ∑ Ai b =
Var(B)
n i=1 n
b = N Bb b = BQ
Total de clase A Var(A)
n
Tabla 3.2: estimadores y varianzas para el muestreo aleatorio simple con reemplazamiento.
Capítulo 4
MUESTREO ALEATORIO
ESTRATIFICADO
Cuando se desea realizar muestreo sobre una población heterogénea, dividirla en subpoblacio-
nes lo más homogéneas posibles podría facilitar la construcción de la muestra. Entendiendo como
población heterogénea aquella en la que la totalidad de individuos no presenta una característica
de estudio común y entendiendo como subpoblaciones homogéneas, subconjuntos cuyos elementos
tienen al menos una característica común, que cubren a la población por completo y que son dis-
juntos entre sí. Este proceso de subdivisión de la población es la idea sobre la que nace el muestreo
estratificado y que busca homogeneizar la población, Mendenhall y cols. (2006).
Sea U = {U1 ,U2 , ...,UN } una población heterogénea de tamaño N; se divide en L subpoblacio-
nes homogéneas disjuntas, que se denominarán estratos Eh = {Uh1 ,Uh2 , ...,UhNh } = {Uhi }h=1,...,L de
tamaños N1 , ..., NL tales que N = ∑Lh=1 Nh . De cada estrato se extrae de forma independiente una
submuestra, que denotaremos por mh con h = 1, ..., L y tamaño nh , i.e., en cada submuestra habrá nh
unidades de cada uno de los L estratos en los que se ha subdividido la población. Entonces, una mues-
SL
tra estratificada s, está formada por la unión de las mL submuestras s = h=1 mh tal que n = ∑Lh=1 nh .
En la Figura 4.1 hemos elaborado un esquema que ilustra el proceso de selección de una muestra
aleatoria estratificada.
29
30 CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
Población U
tamaño N
E1
tamaño N1
E2
tamaño N2 tamaño N3
E3 ... EL
tamaño Nh
m1 m2
tamaño n1 tamaño n2
... mL
tamaño nh
Muestra estratificada s
tamaño n
En este contexto, el parámetro poblacional θ puede expresarse como la suma de los valores de la
variable de estudio en cada uno de los estratos, por lo que tenemos la expresión
L Nh
θ = ∑ ∑ Yhi .
h i
Total:
nh L nh
L
Xhi Xhi L
1 nh
θ = T =⇒ Yhi = Xhi =⇒ b
θ = Tbst = ∑∑ = ∑∑ = ∑ nh ∑ Xhi .
Nh (4.2)
h=1 i=1 πhi h=1 i=1 nh /Nh h=1 i=1
4.1. MUESTREO ALEATORIO ESTRATIFICADO SIN REEMPLAZAMIENTO 31
Media:
Xhi L
1 nh Xhi L
1 nh Xhi
θ = µ =⇒ Yhi = =⇒ b
θ=b
µst = ∑ ∑ =∑ ∑ =
N h=1 N i=1 πhi h=1 N i=1 nh /Nh
L
Nh 1 nh L
1 nh
∑ ∑ Xhi = ∑ nh ∑ Xhi .
Wh (4.3)
h=1 N nh i=1 h=1 i=1
Proporción:
Ahi L
1 nh Ahi
θ = B =⇒ Yhi = =⇒ b
θ = Bbst = ∑ ∑ =
N h=1 N i=1 πhi
L
1 nh Ahi L
Nh 1 nh L
=
∑ N ∑ nh /Nh ∑ N nh ∑ A hi = ∑ Wh Bbh . (4.4)
h=1 i=1 h=1 i=1 h=1
Total de clase:
L nh L nh
Ahi Ahi
θ = A =⇒ Yhi = Ahi =⇒ b
θ=A
bst = ∑ ∑ πhi = ∑ ∑ nh /Nh =
h=1 i=1 h=1 i=1
L
1 nh L
∑ Nh ∑ Ahi = ∑ Nh Bbh . (4.5)
h=1 nh i=1 h=1
La varianza de los estimadores total, media, proporción y total de clase, será la suma de las va-
rianzas de las estimaciones para cada estrato, ya que el muestreo es realizado de forma independiente
en cada uno de los estratos. Para calcular estas varianzas, solo necesitamos partir de las fórmulas de
la varianza para los estimadores en el caso de muestreo aleatorio simple sin reemplazamiento que
podemos encontrar en la Tabla 3.1 y de las expresiones de los estimadores que acabamos de calcular
en (4.2), (4.3), (4.4) y (4.5). Siendo Qh = 1 − Bh .
Total:
L 2
nh Sch
Var(Tbst ) = ∑ Nh2 (1 − ) .
Nh nh
h=1
Media:
L
nh S 2
µst ) =
Var(b ∑ Wh2 (1 − Nh ) nchh .
h=1
Proporción:
L
Nh nh Bh Qh
Var(Bbst ) = ∑ Wh2 Nh − 1 (1 − Nh ) nh
.
h=1
Total de clase:
L
Nh nh Bh Qh
bst ) =
Var(A ∑ Nh2 Nh − 1 (1 − Nh ) nh
.
h=1
32 CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
Una vez dividida la población en estratos, de forma independiente en cada uno de ellos seleccio-
namos mediante muestreo aleatorio simple con reemplazamiento cada submuestra mh . En este caso
estaremos ante el muestreo aleatorio estratificado con reemplazamiento.
Al igual que para el caso sin reemplazamiento, el parámetro poblacional θ puede expresarse
como la suma de los valores de la variable de estudio en cada uno de los estratos
L Nh
θ = ∑ ∑ Yhi .
h i
Entonces podemos concluir que los estimadores para el total, media, proporción y total de clase
serán los mismos que para el caso sin reemplazamiento.
Total:
L nh
1
θ = Tbst =
b ∑ Nh nh ∑ Xhi . (4.7)
h=1 i=1
Media:
L nh
1
θ=b
b µst = ∑ Wh nh ∑ Xhi . (4.8)
h=1 i=1
Proporción:
L
Nh 1 nh L
θ = Bbst =
b ∑ ∑ hi ∑ Wh Bbh .
A = (4.9)
h=1 N nh i=1 h=1
Total de clase:
L
θ=A
b bst = ∑ Nh Bbh . (4.10)
h=1
4.3. AFIJACIÓN 33
Total:
L
Sh2
Var(Tbst ) = ∑ Nh2 nh
.
h=1
Media:
L
S2
µst ) =
Var(b ∑ Wh2 nhh .
h=1
Proporción:
L
Bh Qh
Var(Bbst ) = ∑ Wh2 nh
.
h=1
Total de clase:
L
Bh Qh
bst ) =
Var(A ∑ Nh2 nh
.
h=1
4.3. AFIJACIÓN
El procedimiento mediante el cual se asignan o reparten los ”sub-tamaños“ muestrales, nh , entre
los diferentes estratos recibe el nombre de afijación; consiste en escoger los valores de nh que deben
de verificar n1 +n2 +...+nL = n. El reparto de la muestra entre los estratos puede realizarse mediante
diversos procedimientos, detallamos a continuación los más comunes.
Afijación uniforme: se asigna el mismo número de unidades muestrales a cada estrato, es decir,
n
nh = L ∀ h ∈ {1, ..., L}.
Afijación óptima: se determina el tamaño de la submuestra de forma que para un coste fijo
C = ∑Lh=1 ch nh la varianza de los estimadores sea mínima. Siendo ch el coste de la selección
de cada unidad de muestreo en el estrato h, entonces el coste total de las nh unidades en dicho
estrato será ch nh . Por lo tanto C es la suma de los costes de los L estratos, i.e., el coste total de
la muestra estratificada. El problema consiste en hacer mínima la expresión de la varianza bajo
la condición de un coste fijo, estamos entonces ante el problema de optimización dado por:
min Var,
L
∑ ch nh = C.
h=1
Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
estratificado presentamos en las siguientes tablas un resumen.
Estimador Varianza
L nh L
1 nh S 2
Total T
cst = ∑ Nh nh ∑ Xhi Var(T
cst ) = ∑ Nh2 (1 − Nh ) nchh
h=1 i=1 h=1
1 nh L
nh S 2
Media st =
µc ∑ Xhi
nh i=1
µst ) =
Var(c ∑ Wh2 (1 − Nh ) nchh
h=1
L L
Nh nh Bh Qh
Proporción cst =
B ∑ Wh Bbh cst ) =
Var(B ∑ Wh2 Nh − 1 (1 − Nh nh
h=1 h=1
L L
Nh nh Bh Qh
Total de clase cst =
A ∑ Nh Bbh b =
Var(A) ∑ Nh2 Nh − 1 (1 − Nh ) nh
h=1 h=1
Tabla 4.1: estimadores y varianzas para el muestreo aleatorio estratificado sin reemplazamiento.
Estimador Varianza
L nh L
1 S2
Total T
cst = ∑ Nh nh ∑ Xhi Var(Tb) = ∑ Nh2 nhh
h=1 i=1 h=1
nh L
1 S2
Media st =
µc ∑ Xhi
nh i=1
µ) =
Var(b ∑ Wh2 nhh
h=1
L L
Bh Qh
Proporción cst =
B ∑ Wh Bbh b =
Var(B) ∑ Wh2 nh
h=1 h=1
L L
Bh Qh
Total de clase cst =
A ∑ Nh Bbh b =
Var(A) ∑ Nh2 nh
h=1 h=1
Tabla 4.2: estimadores y varianzas para el muestreo aleatorio estratificado con reemplazamiento.
Capítulo 5
MUESTREO SISTEMÁTICO
En ocasiones nos enfrentaremos a una población grande y ordenada, el mejor método de muestreo
en este caso será el denominado muestreo sistemático.
Para aplicar este método de muestreo hay que llevar a cabo una regla sistemática que consiste en
enumerar las N unidades de la población del 1 al N y seleccionar de forma aleatoria un número δ
entre los k primeros números tal que δ ∈ {1, 2, 3, .., k}, siendo N = nk, donde N es el tamaño de la
población y n el tamaño muestral. Este valor de k define el salto de la regla sistemática. El valor de δ
recibe el nombre de semilla, la cual permite obtener la primera unidad que pertenecerá a la muestra.
El resto de unidades se obtienen sumando k unidades (o dando un salto de k unidades) a la primera,
k unidades a la segunda y así sucesivamente.
En la Figura 5.1 hemos ilustrado el proceso de selección de una muestra sistemática para facilitar
la comprensión del mismo.
Población U
........................
uδ uδ+k uδ+2k uδ+(n−2)k uδ+(n−1)k
Muestra s j
Con este procedimiento solo pueden obtenerse k muestras diferentes que serán disjuntas (no
tendrán ningún elemento en común). Cada muestra se denota por s j , j = 1, 2, ..., k y tal y como puede
verse en Alba y Ruiz (2006) tienen la siguiente estructura,
35
36 CAPÍTULO 5. MUESTREO SISTEMÁTICO
1
La probabilidad de seleccionar una muestra entre las k muestras posibles es k = Nn , ya que N = nk.
Y las probabilidades de que una unidad ui o un par de unidades {ui , u j } con i ̸= j pertenezcan a la
1
muestra son respectivamente πi = n
N = k y πi j = 1k .
Este método de muestreo ofrece según Cid-Cid y cols. (1999) y Pérez-López (2010) varias ven-
tajas frente a los métodos de muestreo que hemos visto hasta ahora:
y por último Mendenhall y cols. (2006) nos dicen que una muestra sistemática es preferible
cuando la población esta ordenada y su tamaño es grande.
5.1. ESTIMADORES
Debido a que el muestreo sistemático se realiza sin reemplazamiento, el estimador b
θ del pa-
rámetro poblacional θ utilizado para este método de muestreo es el estimador lineal insesgado de
Horvitz-Thompson definido en (2.5). En este contexto el parámetro poblacional toma la forma:
n 1
θ = ∑ ∑ Yi j
i=1 j=1
n 1
Yi j
θ=∑∑ 1 ,
b (5.1)
i=1 j=1 k
Total: n n n
Xi j 1 n
θ = T =⇒ Yi j = Xi j =⇒ b
θ = Tb = ∑ ∑ 1 = ∑ kXi j = N ∑ Xi j . (5.2)
i j=1 k i=1 n i=1
5.1. ESTIMADORES 37
Media: n n
Xi j Xi j /nk 1 n
θ = µ =⇒ Yi j = =⇒ b
θ=b
µ=∑∑ = ∑ Xi j . (5.3)
nk i j=1 1/k n i=1
Proporción:
n n
Ai j Ai j /nk 1 n
θ = B =⇒ Yi j = =⇒ b
θ = Bb = ∑ ∑ = ∑ Ai j = Bb j . (5.4)
nk i j=1 1/k n i=1
Total de clase:
n n n n
θ = A =⇒ Yi j = Ai j =⇒ b b = ∑ ∑ Ai j = ∑ kAi j = N 1 ∑ Ai j = N Bb j .
θ=A (5.5)
i j=1 1/k i=1 n i=1
38 CAPÍTULO 5. MUESTREO SISTEMÁTICO
Capítulo 6
MUESTREO POR
CONGLOMERADOS
bietápico: una vez seleccionados los conglomerados de forma aleatoria, se divide cada con-
glomerado en subconglomerados y posteriormente se seleccionan algunos de ellos de forma
aleatoria para formar parte de la muestra. En este procedimiento, se obtiene una muestra for-
mada por las submuestras de cada uno de los subconglomerados. La muestra contendrá solo
algunas de las unidades elementales de cada conglomerado;
Sea U = {U1 ,U2 , ...,UN } una población de tamaño N, tenemos los elementos de la población
agrupados en M conglomerados, que denotamos por CM . Una muestra por conglomerados, s, de
tamaño n estará formada por m conglomerados, Cm , que se seleccionan de forma aleatoria entre los
CM conglomerados en los que hemos dividido a la población. Suponiendo todos los conglomerados
de igual tamaño, nc , se tiene que la población es de tamaño N = Mnc . De forma análoga una muestra
39
40 CAPÍTULO 6. MUESTREO POR CONGLOMERADOS
. ... . . . . .. . C1
. C
. . .. . .
5 . . . .. .
C1
. . ...
CM−1
.
. . . .. . . C4
C2 . . . . ..
C2 . .. .. CM C3
.. . . . ..
C3 . . . . .. . Cm . ..
.
Llegados a este punto se hace necesario establecer las diferencias entre estrato y conglomerado,
y por tanto entre el muestreo aleatorio estratificado y el muestreo por conglomerados, ya que ambos
conllevan la subdivisión de la población en grupos. Veamos las principales diferencias según Pérez-
López (2010) y Mendenhall y cols. (2006):
se busca que los estratos sean lo más homogéneos posible, pero que difieran lo máximo posible
de los demás estratos, es decir que sean heterogéneos entre ellos (heterogéneos “entre” y
homogéneos “dentro”);
para el caso de los conglomerados se busca lo contrario, que sean heterogéneos para repre-
sentar a la población lo máximo posible y homogéneos entre ellos para que no importe qué
conglomerado escoger (heterogéneos “dentro” y homogéneos “fuera”).
6.2. ESTIMADORES Y SUS VARIANZAS 41
▲ • ♦ ♦ ■ ■
■⋆ ♦ ⋆ ■
■
▲ ♦■ ♦ ⋆
♦ ♦ ⋆
⋆ ⋆• ▲
▲ ⋆ ▲
• • ▲
• • •
■ ▲
Se ha elaborado la Figura 6.2 para ilustrar y facilitar la comprensión por parte del lector de las
diferencias anteriormente explicadas entre estratos y conglomerados.
Suponiendo que se realiza muestreo aleatorio sin reemplazamiento para la elección de los con-
glomerados, el parámetro poblacional θ será aproximado por el estimador de Horvitz-Thompson
definido en (2.8), que toma la forma:
m ∑nc Y
j ij 1 m nc
θ=∑
b = ∑ ∑ Yi j ,
i πi πi i j
m
donde πi = M es la probabilidad de que el conglomerado Ci pertenezca a la muestra s formada por m
conglomerados escogidos entre los M conglomerados de la población.
A partir de este estimador y con cálculos análogos a los realizados para los muestreos vistos
anteriormente, presentamos los estimadores para los parámetros de interés: el total, la media, la
proporción y el total de clase.
Total:
M m nc M m 1 nc
θ = T =⇒ Yi j = Xi j =⇒ b
θ = Tb = ∑ ∑ Xi j = nc ∑ ∑ Xi j =
m i j m i nc j
(6.1)
1 m
= Mnc ∑ µi .
m i
Media:
Xi j M m nc Xi j 1 m 1 nc
θ = µ =⇒ Yi j = =⇒ b
θ=b
µ = ∑∑ = ∑ ∑ Xi j =
Mnc m i j Mnc m i nc j
(6.2)
1 m
= ∑ µi .
m i
42 CAPÍTULO 6. MUESTREO POR CONGLOMERADOS
Proporción:
Ai j M m nc Ai j 1 m 1 nc
θ = B =⇒ Yi j = =⇒ b
θ = Bb = ∑ ∑ = ∑ ∑ Ai j =
Mnc m i j Mnc m i nc j
(6.3)
1 m
= ∑ Bi .
m i
Total de clase:
m nc m nc
θ = A =⇒ Yi j = Ai =⇒ b b = M ∑ ∑ Ai j = Mnc ∑ 1 ∑ Ai j =
θ=A
m i j m i nc j
(6.4)
1 m
= Mnc ∑ Bi = Mnc B.
b
m i
Como hemos dicho anteriormente para la selección de los conglomerados empleamos muestreo
aleatorio sin reemplazamiento, por lo tanto las fórmulas de las varianzas de los estimadores para los
parámetros de interés vistos en (6.1) y (6.2) vienen derivadas de las fórmulas de las varianzas para
dicho muestreo que podemos encontrar en la Tabla 3.1. Para este caso sustituimos el valor de Sc2 , que
n
∑M c
i ∑ j (µi −µ)
2
para este muestreo recibe el nombre de cuasivarianza entre conglomerados, por Sc2 = M−1 .
Total:
m Sc2
Var(Tb) = M 2 n2c (1 − ) . (6.5)
M mnc
Media:
m Sc2
µ) = (1 −
Var(b ) . (6.6)
M mnc
A partir de las fórmulas de la varianza de los estimadores del total (6.5) y la media (6.6) de-
ducimos las varianzas de los estimadores (6.3) y (6.4), donde ahora la cuasivarianza toma el valor
nc
Sc2 = M−1 ∑M 2
i (Bi − B) .
Proporción:
nc
m M−1 ∑M
i (Bi − B)
2
m ∑M (Bi − B)2
b = (1 −
Var(B) ) = (1 − ) i .
M mnc M m(M − 1)
Total de clase:
m ∑M (Bi − B)2
b = M 2 n2c (1 −
Var(A) ) i .
M m(M − 1)
Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
sistemático presentamos un resumen en la siguiente tabla:
6.2. ESTIMADORES Y SUS VARIANZAS 43
Estimador Varianza
m
1 m Sc2
Total Tb = Mnc ∑ µi Var(Tb) = M 2 n2c (1 − )
m i M mnc
1 m m Sc2
Media µ= µi µ) = (1 −
Var(b )
m∑
b
i M mnc
1 m m ∑M (Bi − B)2
Proporción Bb = ∑ Bi b = (1 −
Var(B) ) i
m i M m(M − 1)
m ∑M (Bi − B)2
Total de clase b = N Bb
A b = M 2 n2c (1 −
Var(A) ) i
M m(M − 1)
En este Capítulo presentamos un estudio sobre un conjunto de datos con el que vamos a ilustrar
los diferentes métodos de muestreo vistos a lo largo de este trabajo. Para poder realizar esta tarea
hemos tenido que llevar a cabo una serie de procedimientos previos, como son la obtención de la
base de datos, la depuración de los datos facilitados, la creación/definición de variables de interés
a partir de los datos iniciales y finalmente la implementación y aplicación de los distintos métodos
de muestreo. Además, para finalizar, se realiza un pequeño estudio de simulación y se presentan las
conclusiones y resultados junto con un breve apartado de opciones de mejora.
45
46 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
• materia: asignaturas cursadas cuyos posibles valores son: Estadística Aplicada, Introduc-
ción a la Teoría de Juegos, Modelos de Probabilidad, Modelos de Regresión, Muestreo,
Programación Lineal y Entera y el Trabajo de Fin de Máster,
• nota: calificación numérica y/o información acerca de las materias cursadas (convalidada,
matrícula de honor, no presentado, ...).
La primera tarea antes de realizar el estudio fue depurar estos ficheros y unificarlos en una única
base de datos que cubriese nuestras necesidades. Para ello se siguió el procedimiento que detallamos
a continuación:
1. Comprobar que tenemos el mismo número y los mismos individuos en todos los ficheros
(arrange por id_persona). No fue es así, por lo que se solicitó nueva información para com-
pletarla.
a) Para cada individuo se separa la calificación en dos columnas, una con la calificación
numérica (7.6) y otra con la descripción (Notable).
b) Se sustituyen los valores faltantes en las calificaciones por NA.
c) Se crea una función para eliminar calificaciones repetidas de una misma asignatura y un
mismo individuo, dicha función consiste en los siguientes pasos:
1) localiza las filas repetidas por id_persona,
2) si hay varias calificaciones numéricas, elige la más alta,
3) si todas son NA, se deja NA,
4) si hay algún NA a la vez que calificación numérica, se deja la calificación numérica
más alta.
3. Una vez depurado el fichero de calificaciones, se fusionó con el fichero de información perso-
nal, creando una base de datos usando la función merge . Se vuelve a comprobar que tenemos
la información para todos los individuos.
4. Depurar el fichero de los TFM: solo nos interesa la universidad asociada al TFM, para ello
utilizaremos los/as tutores/as, es decir, la universidad del TFM será la del tutor/a o la del/a
tutor/a principal si hubiese varios. Para ello:
7.1. LA BASE DE DATOS Y SU DEPURACIÓN 47
a) se crea una base de datos con los/as alumnos/as y se separa en dos grupos, uno con los
que tienen un/a único/a tutor/a, en cuyo caso la universidad del TFM será la del tutor y
otro con los/as que tienen varios/as tutores/as.
b) En el grupo de varios/as tutores/as se computa el número de tutores/as que tiene cada
individuo usando la función table, concluyendo que todos los individuos tienen dos
tutores.
1) Todos los individuos salvo ocho tienen dos tutores/as de la misma universidad. Para
esos casos ésa será la universidad asociada al TFM.
2) Para los ocho casos restantes, como tenemos la base de datos ordenada por id_persona,
estamos ante la siguiente situación:
id_persona 1 id_tutor 1 uiversidad 1
id_persona 1 id_tutor 2 uiversidad 2
id_persona 2 id_tutor 3 uiversidad 1
id_persona 2 id_tutor 4 uiversidad 2
... ... ...
Así, elegimos como la universidad asociada a los TFM para ellos la universidad que
aparece asociada al primer tutor de cada individuo.
3) Una vez establecida la universidad asociada a los TFM para los individuos del grupo
de varios/as tutores/as se junta esta información con la obtenida en 4. a) de tutores/as
únicos/as.
5. Se realiza una última fusión de la base de datos de los TFM con la base de datos del punto 3.
Finalmente ya tenemos la base de datos preparada y depurada para poder trabajar con ella y
aplicar distintos procedimientos. Se pueden ver las primeras filas de la base de datos en la Figura 7.1.
Figura 7.1: primeras filas de la base de datos final, ya depurada y estructurada sobre la que se realizará
todo el estudio.
48 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
5. ¿Cuál es la calificación media obtenida en las distintas materias incluidas en la base de datos?
en cuenta tanto la calificación de individuos que las cursaron como de los que las convalidaron, se
recogen en la Tabla 7.2. Por último, mencionar que un 12.46 % de los individuos decidieron o deciden
cursan la materia optativa de Muestreo.
Figura 7.2: porcentajes de individuos de cada universidad de procedencia (primera fila); distribución
de número de egresados/as y alumnos/as (segunda fila); y porcentaje de uso de cada dominio de
correo electrónico (tercera fila).
Tabla 7.2: calificaciones medias de las asignaturas, donde Intro. Teoría de Juegos: Introducción a
la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de
Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.
Muestra sistemática.
Para aplicar el muestreo sistemático, debemos numerar la población y seleccionar de forma
aleatoria una semilla δ entre los k primeros números tal que δ ∈ {1, 2, 3, ..., k} siendo N = n/k.
En nuestro caso el tamaño de la población es N = 401, la muestra que deseamos construir es
de tamaño n = 100, por lo tanto k = 4. El valor de la semilla ha sido δ = 2. Así seleccionamos
como primera unidad para formar parte de la muestra la que ocupa el lugar 2 y las 99 unidades
restantes se obtienen dando un salto de k = 4 unidades respecto de la primera, k = 4 unidades
respecto de la segunda y así sucesivamente, esto es, los individuos que ocupan las posiciones
2, 6, 10, 14... en la base de datos final.
52 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
Los conglomerados deben ser heterogéneos dentro de cada uno (individuos diferentes), homo-
géneos entre sí (todos los conglomerados son similares entre sí y a la población). Así en nuestro
caso, cada uno de los conglomerados que constituimos deberá tener la misma proporción de
individuos de cada universidad que la población. Tras los cálculos pertinentes, llegamos a que
los conglomerados deberán estar formados por 16 individuos de la Universidade de Santiago
de Compostela, 1 individuo de la Universidade de A Coruña, 1 individuo de la Universidade de
Vigo y 7 individuos de otras universidades. Dada la forma de nuestros datos, podemos cons-
tituir 15 conglomerados de tamaño 25 y un conglomerado donde se incluyen los individuos
restantes sin respetar las proporciones. Este conglomerado fue desechado para hacer la selec-
ción aleatoria de 4 conglomerados para formar la muestra estratificada de tamaño n = 100.
Una vez construidas todas las muestras procedimos a realizar los cálculos y estimaciones para
responder a las preguntas planteadas en la sección anterior.
Como puede verse en la Tabla 7.4 más del 50 % de los/as alumnos/as proceden de la Universi-
dade de Santiago de Compostela (valor poblacional).
7.3. APLICACIÓN DE LOS MÉTODOS DE MUESTREO 53
Cabe destacar que en el caso de las muestras estratificadas sin y con reemplazamiento, se
obtiene un 60 % como era lo esperado. Para la construcción de cada una de las muestras se
tuvo en cuenta que las cuatro submuestras que las forman tienen un tamaño proporcional a
cada uno de los estratos y recordemos que para el estrato de la Universidade de Santiago de
240 · 100
Compostela se tenía un tamaño para la submuestra correspondiente de = 60
401
En la Tabla 7.6 vemos el porcentaje de individuos que cursan la materia de Muestreo, como
podemos comprobar, el porcentaje poblacional es bajo y además las estimaciones obtenidas
infraestiman ese valor.
Muestra Porcentaje
Valor poblacional 12.46 %
Aleatoria simple sin reemplazamiento 3.99 %
Aleatoria simple con reemplazamiento 2.74 %
Aleatoria estratificada sin reemplazamiento 2.99 %
Aleatoria estratificada con reemplazamiento 2.49 %
Sistemática 2.99 %
Por conglomerados 2.99 %
Mostramos las estimaciones de las notas medias para cada uno de los métodos de muestreo en
la Tabla 7.7 y sus errores cuadráticos medios en la Tabla 7.8, cuya definición puede verse en
(2.2).
Tabla 7.7: calificaciones medias de las materias, donde MAS: Muestreo aleatorio simple sin reem-
plazamiento, MASR: Muestreo aleatorio simple con reemplazamiento, MAE: Muestreo aleatorio
estratificado sin reemplazamiento, MAER: Muestreo aleatorio estratificado con reemplazamiento,
MS: Muestreo sistemático , MC: Muestreo por conglomerados, Intro. Teoría de Juegos: Introducción
a la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de
Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 55
Tabla 7.8: errores cuadráticos medios cometidos en las calificaciones medias de las materias, mul-
tiplicados por 100, donde MAS: Muestreo aleatorio simple sin reemplazamiento, MASR: Muestreo
aleatorio simple con reemplazamiento, MAE: Muestreo aleatorio estratificado sin reemplazamien-
to, MAER: Muestreo aleatorio estratificado con reemplazamiento, MS: Muestreo sistemático, MC:
Muestreo por conglomereados, Intro. Teoría de Juegos: Introducción a la Teoría de Juegos, Mod.
Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de Regresión y Prog. Lin. y En-
tera: Programación Lineal y Entera.
Tabla 7.9: estimación de la calificación media de Muestreo en las 500 muestras, junto con la desvia-
ción típica y el error cuadrático medio computado con muestras de tamaño n = 100.
56 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
A la vista de la Figura 7.4, en general, estamos obteniendo estimaciones para la media centradas
en el valor poblacional de la misma. No ocurre esto para el muestreo sistemático, que como podemos
comprobar en su gráfica, este método de muestreo solo estima 4 valores para la media debido a los
posibles valores que puede tomar la semilla δ ∈ {1, 2, 3, 4} (ver Sección 7.3, muestra sistemática).
A pesar de ello podemos observar en la Tabla 7.9 que es el método de muestreo con menor error
cuadrático medio. Le siguen con menor error cuadrático medio ambos muestreos estratificados y las
“peores estimaciones” para la media vendrían dadas por el muestreo por conglomerados, cuyo error
cuadrático medio es el más alto.
Figura 7.4: histograma de calificaciones medias de la materia Muestreo para cada una de las 500
muestras simuladas de tamaño n = 100.
Opciones de mejora
Para ver el comportamiento de los distintos métodos podríamos hacer el estudio de simulación
para diferentes tamaños muestrales (n = 20, 50, 100, 500, 1000), así comprobaríamos también si al-
guno tiene especiales problemas para muestras pequeñas o si al variar los tamaños muestrales se
reduce el error, aproximándose según este aumente, el estimador al valor poblacional.
Por otra parte, podríamos considerar más variables y estimadores como el de la proporción o el
de la varianza. Un estudio más amplio permitiría profundizar más sobre las características de cada
tipo de muestreo.
También se podrían proponer otros criterios de error para validar los resultados, además del error
cuadrático medio, como puede ser el error absoluto.
Agradecimientos
Me gustaría agradecer en primer lugar, a mi tutora, Maribel Borrajo García, por aceptar mi pro-
puesta, por guiarme y ayudarme con tanta paciencia a lo largo de este trabajo, así como su ayuda
para conseguir la base de datos utilizada.
También quiero agradecer a Julio González Díaz, coordinador del Máster Interuniversitario en
Técnicas Estadísticas (MTE) por permitirme emplear datos del mismo y a María José Ginzo Villama-
yor por el trabajo realizado en anonimizar y proporcionarme los datos que me han permitido aplicar
las técnicas de muestreo aprendidas.
57
Código de R para el análisis de datos
realizado en el Capítulo 7
################################################################################
### ANALISIS DE LA BASE DE DATOS ###############################################
#Egresados
length(which(datos$egresado==1))
length(which(datos$egresado==0))
#Notas medias
notas_medias = colMeans((datos %>% select(starts_with("Nota"))), na.rm = TRUE)
#Especialidades
(table(datos$especialidad))
df_especialidades <- data.frame(Categoria =c("Matemáticas",
59
60 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
#Tendencia tfg
length(which(datos$universidad == "USC" &
datos$uniprod == "Universidad de Santiago de Compostela")) /
length((which(datos$uniprod==’Universidad de Santiago de Compostela’)))*100
datos$uniprod==’Universidad de Coruña’)) /
length((which(datos$uniprod==’Universidad de Coruña’)))*100
length(which(datos$universidad == "UVIGO"
& datos$uniprod==’Universidade de Vigo’)) /
length((which(datos$uniprod==’Universidade de Vigo’))) *100
################################################################################
### MUESTREO ALEATORIO SIMPLE SIN REMPLAZAMIENETO###############################
nrow(datos)
set.seed(2304)
muestreo_AS <- sample_n(datos,size = 100)
#Notas medias
notas_medias_AS = colMeans((muestreo_AS %>% select(starts_with("Nota"))),
na.rm = TRUE)
for (c in colnames(infos_notas_AS)){
cat(c, ":",length(which( infos_notas_AS[,c] == "CONV"))/nrow(matematicas_AS)*100,
"\n")}
cursan_muestreo_AS=(100-sum(is.na(muestreo_AS$Info.Nota.M)))/
length(datos$Nota.M)*100
################################################################################
### MUESTREO ALEATORIO SIMPLE CON REMPLAZAMIENETO###############################
nrow(datos)
set.seed(2304)
muestreo_ASR <- sample_n(datos,size = 100, replace=TRUE)
table(muestreo_ASR$id_persona) #unidades repetidas
#Notas medias
notas_medias_ASR = colMeans((muestreo_ASR %>% select(starts_with("Nota"))),
na.rm = TRUE)
for (c in colnames(infos_notas_ASR)){
cat(c, ":",length(which( infos_notas_ASR[,c] == "CONV"))/nrow(matematicas_ASR) *100,
"\n")}
################################################################################
### MUESTREO ALEATORIO ESTRATIFICADO SIN REMPLAZAMIENTO#########################
#Notas medias
notas_medias_E = colMeans((muestreo_E %>% select(starts_with("Nota"))),
na.rm = TRUE)
64 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
for (c in colnames(infos_notas_E)){
cat(c, ":", length(which( infos_notas_E[,c] == "CONV" )) /nrow(matematicas_E)*100,
"\n")}
################################################################################
### MUESTREO ALEATORIO ESTRATIFICADO CON REMPLAZAMIENTO#########################
#Muestra estratificada
muestreo_ER <- rbind(s1_R,s2_R,s3_R,s4_R)
#Notas medias
notas_medias_ER = colMeans((muestreo_ER %>% select(starts_with("Nota"))),
na.rm = TRUE)
for (c in colnames(infos_notas_ER)){
cat(c, ":", length(which( infos_notas_ER[,c] == "CONV" )) /nrow(matematicas_ER)*100
"\n")}
################################################################################
### MUESTREO SISTEMATICO #######################################################
#Muestra sistematica
muestreo_S =datos[unidades_sistematicas,]
#Notas medias
notas_medias_S = colMeans((muestreo_S %>% select(starts_with("Nota"))),
na.rm = TRUE)
for (c in colnames(infos_notas_S)){
cat(c, ":", length(which( infos_notas_S[,c] == "CONV" )) /nrow(matematicas_S)*100,
"\n")}
################################################################################
### MUESTREO POR CONGLOMERADOS #################################################
C1 = rbind(USC[1:16,], UDC[1,],UVIGO[1,],OTRAS[1:7,])
C2 = rbind(USC[17:32,], UDC[2,],UVIGO[2,],OTRAS[8:14,])
C3 = rbind(USC[33:48,], UDC[3,],UVIGO[3,],OTRAS[15:21,])
C4 = rbind(USC[49:64,], UDC[3,],UVIGO[4,],OTRAS[22:28,])
C5 = rbind(USC[65:80,], UDC[5,],UVIGO[5,],OTRAS[29:35,])
C6 = rbind(USC[81:96,], UDC[6,],UVIGO[6,],OTRAS[36:42,])
68 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
C7 = rbind(USC[97:112,], UDC[7,],UVIGO[7,],OTRAS[43:49,])
C8 = rbind(USC[113:128,], UDC[8,],UVIGO[8,],OTRAS[50:56,])
C9 = rbind(USC[129:144,], UDC[9,],UVIGO[9,],OTRAS[57:63,])
C10 = rbind(USC[145:160,], UDC[10,],UVIGO[10,],OTRAS[64:70,])
C11 = rbind(USC[161:176,], UDC[11,],UVIGO[11,],OTRAS[71:77,])
C12 = rbind(USC[177:192,], UDC[12,],UVIGO[12,],OTRAS[78:84,])
C13 = rbind(USC[193:208,], UDC[13,],UVIGO[13,],OTRAS[85:91,])
C14 = rbind(USC[209:224,], UDC[14,],UVIGO[14,],OTRAS[92:98,])
C15 = rbind(USC[225:240,], UDC[15,],UVIGO[15,],OTRAS[99:105,])
C16_basura = rbind( UDC[16:28,],UVIGO[16:22,],OTRAS[106:111,])
conglomerados = list(C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,
C11,C12,C13,C14,C15)
#Notas medias
notas_medias_C = colMeans((muestreo_C %>% select(starts_with("Nota"))),
na.rm = TRUE)
for (c in colnames(infos_notas_C)){
cat(c, ":", length(which( infos_notas_C[,c] == "CONV" )) /nrow(matematicas_C)*100
,"\n")}
cursan_muestreo_C=(100-sum(is.na(muestreo_C$Info.Nota.M)))/length(datos$Nota.M)*100
################################################################################
### ERRORES DE MUESTREO ########################################################
#Errores cuadraticos
e_cuadratico_AS_medias = abs(notas_medias - notas_medias_AS)^2*100
e_cuadratico_ASR_medias = abs(notas_medias - notas_medias_ASR)^2*100
e_cuadratico_E_medias = abs(notas_medias - notas_medias_E)^2*100
e_cuadratico_ER_medias = abs(notas_medias - notas_medias_ER)^2*100
e_cuadratico_S_medias = abs(notas_medias - notas_medias_S)^2*100
e_cuadratico_C_medias = abs(notas_medias - notas_medias_C)^2*100
################################################################################
### SIMULACION DE 500 MUESTRAS Y SUS ERRORES PARA ANALIZAR LA NOTA DE MUESTREO##
###################################################
#500 muestras aleatorias simples sin remplazamiento
set.seed(2304)
matAS <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
idx <- sample(1:(dim(datos)[1]),size = 100, replace=FALSE )
medias_500_mas = apply(matAS,2,mean,na.rm=TRUE)
mean(medias_500_mas)
sd(medias_500_mas)
mu = mean(datos$Nota.EA, na.rm=TRUE)
70 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
###################################################
#500 muestras aleatorias simples con remplazamiento
set.seed(2304)
matASR <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
idx <- sample(1:(dim(datos)[1]),size = 100, replace=TRUE )
medias_500_masr = apply(matASR,2,mean,na.rm=TRUE)
mean(medias_500_masr)
sd(medias_500_masr)
mu = mean(datos$Nota.M, na.rm=TRUE)
##########################################################
#500 muestras aleatorias estratificadas sin remplazamiento
set.seed(2304)
matE <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
#Estratos
s1=sample(1:(dim(USC)[1]),size = tamano_s1, replace=FALSE)
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 71
medias_500_mae = apply(matE,2,mean,na.rm=TRUE)
mean(medias_500_mae)
sd(medias_500_mae)
mu = mean(datos$Nota.M, na.rm=TRUE)
##########################################################
#500 muestras aleatorias estratificadas con remplazamiento
set.seed(2304)
matER <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
#Estratos
s1=sample(1:(dim(USC)[1]),size = tamano_s1, replace=TRUE)
s2=sample(1:(dim(UDC)[1]),size = tamano_s2, replace=TRUE)
s3=sample(1:(dim(UVIGO)[1]),size = tamano_s3, replace=TRUE)
s4=sample(1:(dim(OTRAS)[1]),size = tamano_s4, replace=TRUE)
medias_500_maer = apply(matER,2,mean,na.rm=TRUE)
mean(medias_500_maer)
sd(medias_500_maer)
mu = mean(datos$Nota.M, na.rm=TRUE)
##########################
#500 muestras sistematicas
set.seed(2304)
matS <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
#N tamano de la poblacion
N = length(datos$id_persona)
#n tamano de la muestra 100
n=100
#salto
k = floor(N/n)
#semilla
delta_valores = seq(1,k,1)
delta = sample(delta_valores, size=1)
medias_500_ms= apply(matS,2,mean,na.rm=TRUE)
mean(medias_500_ms)
sd(medias_500_ms)
mu = mean(datos$Nota.M, na.rm=TRUE)
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 73
###########################
#500 muestras conglomerados
set.seed(2304)
matC <- matrix(NA, nrow = 100, ncol = 500)
j=16 #datos$Nota.M
for (i in 1:500) {
#Conglomerados
congl <- sample(1:length(conglomerados),4)
medias_500_mc = apply(matC,2,mean,na.rm=TRUE)
mean(medias_500_mc)
sd(medias_500_mc)
mu = mean(datos$Nota.M, na.rm=TRUE)
###############################################################
######################## Graficas #############################
axis.ticks.x = element_blank())
#Fila 2
table(datos$egresado)
df2 <- data.frame(Egresado=c("Egresados/as", "Alumnos/as"),
total=c(191,210))
#Fila 3
table(datos$correo)
df3 <- data.frame(Correo=c("gmail.com", "hotmail.com","usc.es","udc.es",
"uvigo.es","Otros"), total=c(204,71,58,24,3,41))
grid.arrange(plot1,plot2,plot3)
#Histogramas simulación
medias_simulacion <- c(medias_500_mas, medias_500_masr, medias_500_mae,
medias_500_maer, medias_500_ms, medias_500_mc)
muestreos_simulacion <- c(
rep("Muestreo aleatorio simple sin reemplazamiento",500),
rep("Muestreo aleatorio simple con reemplazamiento",500),
rep("Muestreo aleatorio estratificado sin reemplazamiento",500),
rep("Muestreo aleatorio estratificado con reemplazamiento",500),
rep("Muestreo sistemático",500),
rep("Muestreo por conglomerados",500))
df_simulacion <- data.frame(calificaciones = medias_simulacion,
tipos = factor(muestreos_simulacion,
levels = c( "Muestreo aleatorio simple sin reemplazamiento",
"Muestreo aleatorio simple con reemplazamiento",
"Muestreo aleatorio estratificado sin reemplazamiento",
"Muestreo aleatorio estratificado con reemplazamiento",
76 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO
"Muestreo sistemático",
"Muestreo por conglomerados")))
################################################################################
Referencias
Alba, V., y Ruiz, N. (2006). Muestreo estadístico en poblaciones finitas. Septem Ediciones.
Graunt, J. (1662). Natural and political observations upon the bills of mortality. Martyn, London.
Hansen, M. H., y Hurwitz, W. N. (1943). On the theory of sampling from finite populations. The
Annals of Mathematical Statistics, 14(4), 333–362.
Mendenhall, W., Scheaffer, R. L., y Lyman Ott, R. (2006). Elementos de muestreo. Editorial
Paraninfo.
Neyman, J. (1934). On the two different aspects of the representative method: the method of strati-
faied sampling and the metohd of purprosive selection. Journal of the Royal Statistical Society,
97, 558–606.
77