Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Pérez Carballido Sofía

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 87

Traballo Fin de Grao

Una introducción a las


técnicas de muestreo
Sofía Pérez Carballido

2020 / 2021

UNIVERSIDADE DE SANTIAGO DE COMPOSTELA


GRAO DE MATEMÁTICAS

Traballo Fin de Grao

Una introducción a las


técnicas de muestreo
Sofía Pérez Carballido

2020 / 2021

UNIVERSIDADE DE SANTIAGO DE COMPOSTELA


Trabajo propuesto

Área de Conocimiento: Estadística e Investigación Operativa

Título: Una introducción a las técnicas de muestreo

Breve descrición del contenido

Este trabajo tiene por objetivo hacer una revisión exhaustiva de los diferentes pro-
cedimientos de muestreo, sus características y sus usos.
Comenzaremos por una revisión histórica que nos permita establecer una imagen
global del origen y la evolución de esta rama de la Estadística a lo largo de los
años. Una vez establecido el marco histórico formalizaremos qué es un proceso
de muestreo y pasaremos a detallar los distintos tipos. En esta parte trataremos
también los criterios existentes para la selección de un plan de muestreo, así como
las distintas técnicas de determinación del tamaño muestral.
Para finalizar intentaremos explotar un aspecto más aplicado de este área llevando
a la práctica, a pequeña escala y dentro de nuestras posibilidades, un estudio en el
que se implementen algunos de los esquemas anteriormente descritos.

III
Índice general

Resumen VI

1. CONTEXTO HISTÓRICO DEL MUESTREO 1

2. EL PROBLEMA DE MUESTREO 5
2.1. CONCEPTOS BÁSICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. MÉTODOS DE MUESTREO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. ESTIMADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1. Distribución en el muestreo de un estimador . . . . . . . . . . . . . . . . . . 12
2.3.2. Propiedades de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3. Construcción de estimadores insesgados. Estimador de Horvitz-Thompson y
Hansen-Hurwitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. MUESTREO ALEATORIO SIMPLE 21


3.1. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZAMIENTO . . . . . . . . . 21
3.1.1. Estimadores y sus varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2. MUESTREO ALEATORIO SIMPLE CON REEMPLAZAMIENTO . . . . . . . . . 25
3.2.1. Estimadores y sus varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3. COMPARACIÓN ENTRE MUESTREO ALEATORIO SIMPLE SIN Y CON RE-
EMPLAZAMIENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4. MUESTREO ALEATORIO ESTRATIFICADO 29


4.1. MUESTREO ALEATORIO ESTRATIFICADO SIN REEMPLAZAMIENTO . . . . 30
4.1.1. Estimadores y sus varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2. MUESTREO ALEATORIO ESTRATIFICADO CON REEMPLAZAMIENTO . . . 32
4.2.1. Estimadores y sus varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3. AFIJACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5. MUESTREO SISTEMÁTICO 35
5.1. ESTIMADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

V
VI ÍNDICE GENERAL

6. MUESTREO POR CONGLOMERADOS 39


6.1. Diferencias entre conglomerado y estrato . . . . . . . . . . . . . . . . . . . . . . . 40
6.2. Estimadores y sus varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

7. ESTUDIO DE UN CASO PRÁCTICO 45


7.1. La base de datos y su depuración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2. Objetivos del estudio y análisis de la base de datos . . . . . . . . . . . . . . . . . . 48
7.3. Aplicación de los métodos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . 50
7.4. Pequeño estudio de simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Agradecimientos 57

Apéndice 58

Referencias 77
Resumen

Imaginemos un trabajo tan “sencillo” como un estudio sobre una determinada población. Para
ello, se necesita, en la mayoría de los casos, la selección de una muestra y es aquí donde surgen las
primeras cuestiones: ¿cómo seleccionar la muestra?, ¿de qué tamaño?, ¿qué importancia tienen los
individuos de la población en este proceso?
Las solución a estas y otras preguntas similares le corresponden al Muestreo. En 1934 el profesor
J. Neyman publica en Londres lo que se considera el primer trabajo científico sobre muestreo. Hoy,
87 años después, el uso de las técnicas de muestreo está extendido a diversos campos de estudio
y gracias a las nuevas tecnologías, en los últimos años las técnicas de muestreo han evolucionado
notablemente.
En el Capítulo 1 de este trabajo se recorre un pequeño viaje a través de la historia del Muestreo.
En el Capítulo 2 se aborda el problema de muestreo en general, definiendo los conceptos más bá-
sicos, clasificando los distintos tipos de Muestro y mostrado la construcción de los estimadores de
Horvitz-Thompson y Hansen-Hurwitz. En los Capítulos 3, 4, 5 y 6 estudiaremos el muestreo aleatorio
simple, el muestreo aleatorio estratificado, el muestreo sistemático y el muestreo por conglomerados,
respectivamente.
Finalmente en el Capítulo 7 presentamos una aplicación a datos reales de una base de datos del
alumnado del Máster Interuniversitario en Técnicas Estadísticas con la que ilustramos los distintos
métodos de muestreo. Incluimos además un pequeño estudio de simulación para comparar el error
cometido por estos métodos en ciertas situaciones.

Abstract

Let us imagine a simple task: a study on a population. Such an study requires, in most cases, the
selection of a sample, and here the first question arise: how to select the sample?, not only how, but
which size should it be? or how important are the individuals of the population in this process?.
The solutions to these and other similar questions can be answered using the sampling theory. In
1934, Professor J. Neyman published in London the first scientific work about sampling. Today, 87
years later, the use of sampling techniques is widespread in various fields of study and thanks to new
technologies, sampling techniques have evolved considerably in recent years.
Chapter 1 includes a short journey through the history of sampling. Chapter 2 deals with the sam-
pling problem itself, its formalisation, defining the most basic concepts, classifying the different types

VII
VIII ÍNDICE GENERAL

of sampling procedures and showing the construction of Horvitz-Thompson and Hansen-Hurwitz es-
timators. In Chapters 3, 4, 5 and 6 we will study simple random sampling, stratified random sampling,
systematic sampling and cluster sampling, respectively.
Finally, in Chapter 7 we present a real data application, where we use a database of the students
of the Master’s Degree in Statistical Techniques to illustrate the different sampling procedures. We
also include in this chapter a small simulation study to compare the error derived from the methods
in some specific situations.
Capítulo 1

CONTEXTO HISTÓRICO DEL


MUESTREO

Somos bastante escépticos acerca de la in-


formación estadística y de los informes, pe-
ro no tanto como creemos... respetamos a
los números y no podemos vivir sin ellos.

Cynthia Crossen en “Tainted truht: The


manipulation of fact in America”

Estas palabras que Cynthia Crossen escribió en 1994 reflejan a la perfección la relación del ser
humano con los números y las matemáticas. Ya en la prehistoria esta relación es palpable: el hueso
de Ishango (Paleolítico superior, aprox. 20 000 a.C.), constituye el primer utensilio de conteo del ser
humano. Muchos años después, civilizaciones como la egipcia o mesopotámica, desarrollaron sus
propios sistemas de numeración y cálculo.

Figura 1.1: hueso de Ishango.


https://commons.wikimedia.org/wiki/File:Huesos_de_ishango.jpg 13/05/2021

Otro de los primeros conceptos estadísticos, aunque en aquellas épocas no fueran considerado
como tal, fueron los censos. En la época babilónica se realizaron censos en agricultura; en la antigua
China censos de la población para controlar los ingresos y la fuerza militar de sus provincias; en
Roma se hacían censos con regularidad de las personas y sus propiedades, que se utilizaban para
determinar su estatus e incluso también en el Imperio Inca realizaban tareas estadísticas: cada tribu

1
2 CAPÍTULO 1. CONTEXTO HISTÓRICO DEL MUESTREO

contaba con un estadístico al que llamaban Quipucamayoc. Uno de los censos más famosos fue
realizado por el Rey de Inglaterra Guillermo El Conquistador, que se recoge en el libro de 1086 “The
Domesday Book”.
Como se indica en Bethlehem (2009), no es hasta 1662 cuando se dio un paso más y se introdujo
una primera ideal del concepto de Inferencia. Fue J. Graunt el primero en dar información sobre una
población utilizando solo parte de ella, intentando determinar la población total de Londres. Este
trabajo puede consultarse en su obra “Natural and political observations upon the bills of mortality”.
El segundo fue P. S. Laplace, que en 1812, casi dos siglos después, publicó “Théorie analytique des
probabilités. Oevres complètes” donde estimaba la población francesa. Laplace se dio cuenta de que
era importante tener un indicador de la exactitud de la estimación, esto es, una especie de criterio de
error, por lo que empleando herramientas más elaboradas como el del Teorema Central del Límite,
demostró que su estimador seguía una distribución Normal.
En 1895 el noruego A.N. Kiaer publicó su trabajo “Observations et expériences concernant les
dénombrements representatifs” donde defendía los métodos representativos (obtener información po-
blacional a partir de muestras que representan a toda la población) frente a los métodos exhaustivos
defendidos por el alemán G. Von Mayr (obtener información poblacional a partir de censos que exa-
minan exhaustivamente todos los elementos de la población). Como muchas otras veces en la historia
ambas corrientes tenían opiniones a favor y en contra, aunque en aquel momento era más popular el
uso de los métodos exhaustivos. Finalmente, los métodos representativos recibieron reconocimiento
cuando en 1924 el Instituto Internacional de Estadística constituyó una comisión encargada del estu-
dio de éstos, formada por los estadísticos A.L. Bowley, C. Gini, L. March y C. A. Verrijn Stuart entre
otros.
Lo que a día de hoy se considera como el primer trabajo sobre muestreo de poblaciones finitas,
“One of the two different aspects of the representative method: the method of stratified sampling and
the method of pruposive selection” fue publicado en 1934 por el profesor J. Neyman en la revista de
la Royal Statistical Society de Londres.
A partir de entonces los trabajos sobre muestreo fueron cada vez más frecuentes y su uso dentro
de la Estadística y otras ciencias se hizo cada vez más común. En 1947, se estableció la Subcomisión
de Muestreo Estadístico de la que formaban parte los estadísticos G. Darmois, P. Ch. Mahalanobis, F.
Yates, R. Fisher y W. E. Deming. La Subcomisión publicó su primera obra en 1950, “The preparation
of sampling survey reports”, donde se defiende el uso del muestreo probabilístico, se dan una serie de
directrices para elaborar informes de encuestas y se trata el uso de una terminología técnica común
para los métodos de muestreo.
La teoría clásica del muestreo se considera consolidada en torno a 1952 cuando D.G. Horvitz
y D.J. Thompson presentan, en la obra “A generalization of sampling without replacement from a
finite universe”, la construcción de estimadores insesgados.
Desde finales de los 40 y hasta la década de los 60 se publicaron numerosas obras relevantes
donde se empezaron a desarrollar diferentes métodos de muestreo. Uno de estos métodos es el mues-
treo estratificado, algunos autores que influyeron en el desarrollo de este método son J. Neyman,
M.H. Hansen y W.N. Hurwitz. Otra contribución importante es el trabajo de M.H. Hansen y W.N.
3

Hurwitz en donde desarrollan el muestreo por conglomerados,“On the theory of sampling for finite
populations” y “On the determination of the optimun probabilities in sampling”. Otros autores que
realizaron aportaciones al muestreo por conglomerados fueron D.G. Horvitz y D.J. Thompson en la
obra “A generalization of sampling without replacement from a finite universe”, J.Durbin en “Some
results in sampling theory when the units are selected with uhequal probabilities” y D. Raj en “On the
estimate of variance in sampling with probabilitie proportionate to size”. El muestreo sistemático fue
estudiado por primera vez de “forma seria” por W.G. Cochran y L.H. Madow en 1949 en la obra “On
the theory of systematic sampling” y ya posteriormente por autores como F.Yates o K.R.W. Brewer.
Desde entonces, ya en la década de los 70, se comienza a estudiar y calcular errores de muestreo
y errores ajenos al mismo. Se buscaba mejorar la calidad de las encuestas y en 1978 D.G. Horvitz
impulsó el Sistema de Información para el Diseño por Muestreo (SIDEM), el sistema proponía una
homogeneización de definiciones y términos, favoreció la aplicación del concepto de diseño y es-
tablecía estándares para comparar errores . Durante los años 80 tuvieron gran importancia trabajos
sobre control y calidad del muestreo.
Ya en la actualidad, el uso del muestreo está extendido a diversas áreas como biología, economía,
marketing... así como en la realización de todo tipo de encuestas en numerosos ámbitos. El mayor
avance y mejora de las técnicas de muestreo se sustenta en el uso de las nuevas tecnologías, así como
al análisis de datos y la gestión de grandes bases de datos, a lo que contribuyen notablemente las
técnicas de “Big Data” y de la gestión de computadores.
4 CAPÍTULO 1. CONTEXTO HISTÓRICO DEL MUESTREO
Capítulo 2

EL PROBLEMA DE MUESTREO

2.1. CONCEPTOS BÁSICOS

A lo largo de este trabajo haremos referencia en múltiples ocasiones a una serie de conceptos
básicos con los que necesitamos familiarizarnos. Por ello procedemos a su definición, para lo que
hemos tomado como base la formalización de los mismos presentada en Mendenhall, Scheaffer, y
Lyman Ott (2006) y en Pérez-López (2010).

Población: es el conjunto de elementos sobre el que se desea realizar un estudio. Distinguire-


mos:

• población objetivo: es el conjunto de elementos sobre los que se desea realizar tareas de
Inferencia. Nótese que trabajar con la población objetivo no siempre es posible, ya que
podemos tener dificultades para obtener la información necesaria de todos los elementos;

• población investigada: es el conjunto de elementos sobre los que realmente se realizarán


las tareas de Inferencia; puede coincidir o no con la población objetivo.

Elemento: es un objeto sobre el que se realiza una medición. Denotaremos de ahora en adelante
a un elemento como Ui , i ∈ {1, ..., N}, N ∈ N y siendo N el tamaño de la población.

Se denotará, por tanto, a una población de tamaño N como U = {U1 , ...,UN }, i.e., el tamaño
de la población es el número de elementos que la constituyen.

Unidad de muestreo: es cada uno de los conjuntos disjuntos de la población que cubren la
población objetivo. Podemos tener unidades elementales, que son las unidades de muestreo
más simples; o unidades compuestas, formadas por varias unidades elementales. Se denota
a la unidad de muestreo como ui , i ∈ {1, ..., n}, n ∈ N y n ≤ N, indistintamente según nos
refiramos a unidades elementales o compuestas dependiendo del contexto de estudio. Cabe
señalar que el orden de índices de la muestra no necesariamente representa el mismo orden
que en la población, es decir, en general Ui ̸= ui , ver Cid-Cid, Delgado-Manríquez, y Leguey-
Galán (1999).

5
6 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

Marco: lista de las unidades de muestreo. Será más completo cuanto mejor cubra la población
objetivo, i.e., la diferencia entre la población objetivo y el marco deberá ser lo suficientemente
pequeña para permitir que se haga Inferencia acerca de la población objetivo a partir de una
muestra obtenida del marco. Esta diferencia se denomina error de cobertura.

Muestra: colección de unidades de muestreo obtenidas a partir de un marco o marcos. Deno-


tamos una muestra de tamaño n por s = {u1 , ..., un }. Recordemos que cada ui puede ser una
unidad elemental o compuesta dependiendo del método de muestreo escogido.

Espacio muestral: conjunto de todas las posibles muestras que se pueden obtener, se denota
por S.

Para ilustrar y facilitar la comprensión de todos estos conceptos, utilizaremos el siguiente ejem-
plo: imaginemos que queremos realizar un estudio sobre adolescentes de entre 12 y 18 años del
ayuntamiento de Narón, esta sería nuestra población objetivo. Cada uno/a de los/as jóvenes es un
elemento sobre el que se realizarán las mediciones. Como es habitual en este tipo de estudios no
se establece contacto con toda la población, por lo que se reduce el número de jóvenes sobre los/as
que podremos tomar las mediciones, esta es ahora la población investigada. Es decir, la población
investigada será el subconjunto de la población objetivo al que tenemos acceso para realizar las me-
diciones (si por ejemplo decidimos tener acceso a estos/as jóvenes a través de los/as matriculados/as
en los institutos, podría haber jóvenes no escolarizados/as; o si tenemos acceso a ellos/as a través de
redes sociales, podría haber jóvenes que no participen en ninguna red social). Si decidimos acceder
a ellos a través los institutos, los/as jóvenes, en este caso alumnos/as, estarán agrupados/as por ins-
tituto, estas serán nuestras unidades compuestas, cada unidad compuesta está constituida por varias
unidades elementales, i.e., por varios/as alumnos/as. La lista de las unidades constituye el marco,
en este ejemplo un listado de los/as alumnos/as, si se tienen unidades elementales o los institutos,
si se tienen unidades compuestas. Las unidades que seleccionemos, bajo unos criterios establecidos,
formarán la muestra sobre la que se desarrollará el estudio. Para resumir, en este ejemplo, tenemos:

Elemento: joven adolescente entre 12 y 18 años de Narón.

Población objetivo: total de jóvenes del ayuntamiento.

Población investigada: jóvenes matriculados/as en institutos.

Unidad elemental: alumno/a.

Unidad compuesta: instituto.

Marco: listado de alumnos/as y/o institutos.

Muestra: alumnos/as y/o institutos seleccionados.

Espacio muestral: conjunto de todas las posibles muestras, es decir, de todas las posibles for-
mas de escoger alumnos/as o institutos (dependiendo del tipo de unidad de muestreo de inte-
rés).
2.2. MÉTODOS DE MUESTREO 7

2.2. MÉTODOS DE MUESTREO

Ante la diversidad de poblaciones que nos podemos encontrar, según como queramos o necesi-
temos enfrentarnos a ellas y en base al estudio que se pretenda realizar, surgen varios métodos de
muestreo.
Para clasificar los diferentes métodos de muestreo, podemos atender a varios criterios: si la po-
blación de estudio es finita o infinita, si el mecanismo empleado para obtener una muestra es pro-
babilístico o no probabilístico, y si la forma de selección de las unidades para formar parte de la
muestra es con o sin reemplazamiento. Si consideramos toda esta casuística tenemos las siguientes
categorías:

1. Población finita e infinita.


La clasificación más sencilla y trivial según el tamaño de la población objetivo. Existen enton-
ces dos posibles métodos de muestreo:

Muestreo para poblaciones finitas: se conoce el tamaño total de la población.


Muestreo para poblaciones infinitas: se desconoce el tamaño de la población.

2. Probabilístico o no probabilístico.

Muestreo probabilístico: se da cuando puede calcularse previamente la probabilidad de


obtener cada una de las muestras que es posible seleccionar. Para ello es necesario que
esta selección pueda ser considerada como un experimento aleatorio. Esta aleatoriedad
no es una característica que pertenece a la muestra, sino al proceso de muestreo que se
utiliza para obtenerla, ver Azorín-Poch (1969). En el muestreo probabilístico se pueden
controlar o medir los errores así como la representatividad de la muestra. También se
conoce la probabilidad que tienen los elementos de ser seleccionados para formar parte
de una muestra. Dentro del muestreo probabilístico podemos encontrar los siguientes
tipos:
• Muestreo aleatorio simple: en este método de muestreo se establece un tamaño
muestral fijo, n, que garantiza que la probabilidad de obtener cualquier muestra de
tamaño n es la misma y consecuentemente, todas las unidades tienen la misma pro-
babilidad de ser seleccionadas para formar parte de la muestra, ver Azorín-Poch
(1969) y Cid-Cid y cols. (1999).
Si en el ejemplo ilustrativo que planteamos en la sección anterior sobre los jóvenes
del ayuntamiento de Narón, aplicásemos este método de muestreo, para un tamaño
muestral fijado, seleccionaríamos de forma aleatoria a los/as alumnos/as de todos
los institutos a partir de un listado conjunto.
Pese a ser el método más utilizado, tener un tamaño muestral fijo hace que sea nece-
sario disponer de un marco de las unidades muy concreto y detallado, lo que dificulta
en ocasiones la obtención de la muestra. Para solventar estas dificultades se desarro-
8 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

llan otros métodos, que como veremos más adelante, en ocasiones requieren de este
muestreo aleatorio simple para su funcionamiento.

• Muestreo aleatorio estratificado: para aplicar este método de muestreo, se divide a


la población en conjuntos llamados estratos, caracterizados porque en cada uno de
ellos los elementos son homogéneos entre sí, pero heterogéneos con los demás estra-
tos. Se entiende como elementos homogéneos aquellos que tienen una determinada
característica común, y elementos heterogéneos cuando esa característica difiere.
Denominamos el muestreo estratificado como aleatorio porque dentro de cada uno
de los estratos se seleccionan las unidades de forma aleatoria simple, se verá en
profundidad este método en el Capítulo 4.
En el mismo ejemplo de los jóvenes, si se desea por ejemplo realizar un estudio sobre
la aceptación de actividades extraescolares entre el alumnado, nos puede interesar
dividir a los alumnos en estratos, siendo la característica común de cada estrato
el número de actividades a las que asiste cada alumno, por ejemplo, tenemos un
estrato para cero actividades, otro estrato para una, otro estrato para dos y por último
un estrato para alumnos que asisten a más de dos actividades extraescolares. Una
vez definidos los estratos, se escogería un número (generalmente proporcional al
tamaño del estrato) n1 , n2 , ..., nh de alumnos en cada estrato para formar la muestra,
de manera que n1 + n2 + ... + nh = n.

• Muestreo sistemático: con este método, a partir de la selección aleatoria de la prime-


ra unidad, y aplicando lo que se conoce una regla sistemática, se seleccionan el resto
de unidades para la muestra. Esta regla consiste en, una vez seleccionada la primera
unidad, la segunda se obtiene sumando k unidades (o dando un salto de k unidades)
a la posición de la primera y así sucesivamente.
Para el ejemplo empleado hasta ahora, se elabora una lista por orden alfabético de los
jóvenes del ayuntamiento matriculados en algún instituto y se selecciona un alumno
al azar. El siguiente se selecciona sumando k unidades, y así sucesivamente. Cómo
seleccionar la primera unidad y cómo seleccionar k, lo veremos en detalle en el
Capítulo 5.

• Muestreo por conglomerados: en este método de muestreo la población está agru-


pada en conjuntos llamados conglomerados, dentro de los cuales las unidades son
heterogéneas, pues se busca que un conglomerado represente a la población. Esta
es la principal diferencia entre estrato y conglomerado, se explica en detalle en la
Sección 6.1.
La agrupación de las unidades en conglomerados se realiza generalmente por crite-
rios de proximidad geográfica o divisiones territoriales, de las cuales ya se conoce
información. De forma aleatoria se seleccionan los conglomerados para formar parte
de la muestra, este caso sirve de ilustración de un muestreo realizado sobre unidades
compuestas, los conglomerados.
2.2. MÉTODOS DE MUESTREO 9

En el ejemplo sobre el que estamos trabajando, realizar un muestreo por conglo-


merados consistiría en elegir, por ejemplo, como conglomerados los institutos, se-
rían nuestras unidades compuestas pues cada conglomerado está formado por varios
alumnos, las unidades elementales. Se cumple que esta agrupación de las unidades
en conglomerados está establecida previa al muestreo y que un instituto pueda re-
presentar a la población, en él encontraremos diversidad de jóvenes de entre 12 y 18
años.
Muestreo no probabilístico: no conocemos la probabilidad que tienen los elementos de
ser seleccionados para formar parte de la muestra. Debido a ello, no se tiene la certeza
de que las muestras sean representativas y no se pueden realizar procedimientos infe-
renciales adecuados sobre la población. Dentro del muestreo no probabilístico podemos
encontrar entre otros los siguientes tipos:
• Muestreo por cuotas: para este método de muestreo se seleccionan las unidades
muestrales considerando las variables que se van a estudiar, y se determina la can-
tidad o cuota de unidades que cumplen unas características previamente fijadas en
base únicamente al conocimiento ”experto“ que el investigador tiene de la población.
Es importante que cada unidad se encuentre en uno y solo uno de los subgrupos que
forman las cuotas.
• Muestreo bola de nieve: este método de muestreo es aplicado en poblaciones peque-
ñas y difíciles de localizar. Para seleccionar la muestra se parte de una unidad sobre
la que se pueden medir las variables objeto de estudio. A partir de esta unidad se
localizan las demás unidades de la población. Si queremos realizar un estudio acer-
ca de los jóvenes de Narón que practican natación, una vez seleccionado un/a joven
nadador/a con su ayuda se localizan los/as demás jóvenes que practican este deporte.
• Muestreo por conveniencia: este método de muestreo se caracteriza por seleccionar
las unidades de la muestra por la facilidad de acceso a ellas. Un estadístico desea
hacer un estudio sobre el uso de las tecnologías para enseñar Matemáticas, contacta
con un/a amigo/a que es profesor de Matemáticas en un instituto de Narón para
utilizar a sus alumnos/as como muestra, esta situación sería un claro ejemplo de uso
del muestreo por conveniencia.

3. Forma de selección de las unidades.

Dentro de esta clasificación podemos atender a dos criterios. El primero de ellos se basa en la
probabilidad de selección en cada extracción de las unidades para formar parte de la muestra,
que puede ser igual o desigual. Ya hemos visto que en el caso de que los elementos de una
población tengan la misma probabilidad de ser seleccionados para una muestra, dicha muestra
será representativa de la población.

El segundo criterio se basa en la mecánica de selección de las unidades, que puede ser con o
sin reemplazamiento. Con reemplazamiento consiste en que una vez extraída una unidad es
10 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

devuelta a la población, por lo que cada unidad podrá aparecer más de una vez en la muestra y
mientras que sin reemplazamiento, consiste en que una vez extraída la unidad no es devuelta a
la población, por lo que cada unidad solo podrá aparecer una única vez en la muestra.
Combinando las cuatro características, tenemos estos métodos de muestreo:

muestreo con reemplazamiento y probabilidades iguales;


muestreo con reemplazamiento y probabilidades desiguales;
muestreo sin reemplazamiento y probabilidades iguales y
muestreo sin reemplazamiento y probabilidades desiguales.

Atendiendo a los criterios anteriormente mencionados, para nuestro trabajo nos enfrentaremos al
muestreo en poblaciones finitas y de carácter probabilístico. Garantizar que la muestra sea represen-
tativa de la población, nos permitirá obtener unos resultados rigurosos.
Ilustramos en el siguiente esquema la clasificación de los métodos de muestreo. Resaltamos en
el mismo, los métodos de muestreo que abordaremos a lo largo del trabajo.

MUESTREO

Población infinita Población finita

Probabilístico No probabilístico

· Muestreo aletatorio simple


· Muestreo aleatorio estratificado
· Muestreo por conglomerados
· Muestreo sistemático

Figura 2.1: clasificación de los métodos de muestreo.

2.3. ESTIMADORES
Una de las principales tareas e intereses de la Inferencia Estadística es la estimación. La estima-
ción consiste en, dada una población que sigue una cierta distribución de probabilidad dependiente
de uno o varios parámetros, aproximar los posibles valores que pueden tomar estos parámetros po-
blacionales a partir de la información proporcionada por la muestra.
2.3. ESTIMADORES 11

Sea U = {U1 ,U2 , ...,UN } la población; una muestra de tamaño n extraída de una población U
de tamaño N, se denotará como s = {u1 , u2 , ..., un }. Y el espacio muestral de tamaño ns como S =
{s1 , ..., sns }, siendo ns el número de posibles muestras de tamaño n que se pueden formar en la
población de tamaño N.
Sobre el espacio muestral definimos la distribución de probabilidad, que denominaremos como
distribución conjunta de la muestra. Esta distribución asigna a cada muestra la probabilidad que tiene
de ser elegida:

P : S → [0, 1],

que verifica:
ns
P(si ) ≥ 0 ∀i ∈ {1, ..., ns } y ∑ P(si ) = 1.
i=1

El hecho de poder calcular esta probabilidad es lo que define que un muestreo sea probabilístico,
ver Sánchez-Crespo (1984) para más detalles.
Una variable aleatoria X es cualquier característica de interés que se puede medir sobre los ele-
mentos de la población. Los parámetros poblacionales son valores uni o multidimensionales que
caracterizan el comportamiento de la variable de interés en algún aspecto relevante (media, varianza,
probabilidad de éxito, proporción...). Nuestro objetivo en esta sección será estudiar como estimar un
parámetro poblacional que denotaremos genéricamente por θ, a partir de la información contenida
en la muestra.
Suponiendo que la variable X es continua, los parámetros más comunes a estimar son:

total poblacional: T = θ(X1 , ..., XN ) = ∑Ni=1 Xi y


1
media poblacional: µ = θ(X1 , ..., XN ) = N ∑Ni=1 Xi .

En el caso de que la variable X sea discreta, como por ejemplo si una unidad de la muestra
pertenece o no a una determinada clase A, podemos definir los siguientes parámetros poblacionales:
proporción de clase (proporción de elementos de la población que pertenecen a la clase A) y total de
clase (total de elementos de la población que pertenecen a la clase A). Supongamos que Ai toma el
valor 1 si una unidad pertenece a la clase A y 0 si no pertenece a la clase A, entonces nos interesa:

proporción de clase: B = θ(A1 , ..., AN ) = ∑Ni=1 ANi y

total de clase: A = θ(A1 , ..., AN ) = ∑Ni=1 Ai .

Para más información acerca de la elección de estos parámetros como los más relevantes puede
consultarse Pérez-López (2010) , Cid-Cid y cols. (1999) o Alba y Ruiz (2006).
12 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

Resumimos en la siguiente tabla los parámetros que serán de aquí en adelante los parámetros de
interés para cada uno de los métodos de muestreo que desarrollaremos:

X es continua X es discreta
N N
Ai
Total poblacional: T = ∑ Xi Proporción de clase: B = ∑
i=1 i=1 N
N N
1
Media poblacional: µ = ∑ Xi Total de clase: A = ∑ Ai
N i=1 i=1

Tabla 2.1: parámetros poblacionales de interés según la variable X sea continua o discreta.

A partir de los datos y/o características observadas de la variable X sobre las unidades de la mues-
tra, construimos los estadísticos. Los estadísticos son funciones de variables aleatorias. Un estimador,
θ, es un estadístico que se utiliza para inferir el valor del parámetro poblacional θ desconocido, es
b
decir, el que queremos estimar.
Formalizamos el concepto de estimador, b θ, para el parámetro poblacional, θ, como la función que
θ(s(X)) = b
asocia a cada muestra s el valor numérico b θ(X1 , X2 , ..., Xn ), donde s(X) = {X1 , X2 , ..., Xn }
denota el conjunto de los valores que toma la variable X sobre las unidades de la muestra. Conside-
rando el espacio muestral S, obtenemos el conjunto S(X) = {s(X), s ∈ S} y podemos formalizar el
estimador como la aplicación:

θ : S(X) ⊂ Rn → R p
b
(X1 , ..., Xn ) → b
θ(s(X)) = b
θ(X1 , ..., Xn ) = t,

donde p será la dimensión del parámetro (si p = 1 será unidimensional, si p = 2 bidimensional, ...,
si p = n n-dimensional).

2.3.1. Distribución en el muestreo de un estimador

Con la necesidad de conocer más los estimadores estudiamos en este apartado sus distribuciones
en el muestreo. Se define la distribución de probabilidad de una variable aleatoria como la función
que asigna una probabilidad a los valores que puede tomar dicha variable, Pérez-López (2010). Cada
estimador b
θ toma determinados valores a partir de cada una de las muestras del espacio muestral, la
probabilidad de que tome un cierto valor depende de la probabilidad asociada a las muestras. Obten-
dremos la distribución de probabilidad en el muestreo para nuestro estimador cuando conozcamos
todos los valores que puede tomar y sus probabilidades asociadas.
Definimos como

W = {t ∈ R / ∃ s(X) = (X1 , X2 , ..., Xn ) ∈ S(X) que cumple b


θ(s(X)) = t}

el conjunto de todos los valores posibles del estimador.


2.3. ESTIMADORES 13

Dado que diferentes muestras si del espacio muestral S puedan dar lugar al mismo valor del
estimador, la probabilidad de que el estimador tome dicho valor se define como la suma de las
probabilidades de las muestras que dan lugar a ese valor para el estimador:

PW (b
θ(X1 , X2 , ..., Xn ) = t) = ∑{si /bθ(si (X))=t} P(si ).

Al par {W, PW } se le denomina distribución del estimador en el muestreo.

2.3.2. Propiedades de un estimador

Una vez que ya sabemos qué es un estimador, estamos interesados en encontrar un estimador
preciso.
Se define la precisión de un estimador como lo bien (o mal) que las estimaciones realizadas se
ajustan a los verdaderos valores de los parámetros. Con el fin de estudiar la precisión del estimador,
definimos las siguientes características:

media del estimador

θ) = ∑S b
E(b θ(si )P(si ),

varianza del estimador

θ))2 = E(b
θ − E(b
θ) = E(b
Var(b θ2 ) − E(b
θ)2 ,

error de muestreo q
σ(θ) = + Var(b
b θ). (2.1)

error relativo de muestro o coeficiente de variación

σ(b
θ)
CV (b
θ) = ,
E(b
θ)

sesgo del estimador

θ) − θ y
θ) = E(b
Sesgo(b

error cuadrático medio del estimador

ECM(b θ − θ)2 = Var(b


θ) = E(b θ)2 .
θ) + Sesgo(b (2.2)

Definición 2.1. Diremos que el estimador b


θ es insesgado si: sesgo(b θ) − θ = 0
θ) = 0, esto es si E(b
o equivalentemente E(θ) = θ. En caso contrario diremos que el estimador es sesgado, ver Cid-Cid y
b
cols. (1999).

Definición 2.2. Diremos que estimador b


θ de θ es consistente si b
θ converge en probabilidad a θ
cuando el tamaño de la muestra tiende al tamaño de la población, esto es,
14 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

θ − θ| < ε) = 1 ∀ε < 0.
lı́m P(|b
n→N

Así, un estimador será consistente si cuando se observa toda la población la estimación coincide
exactamente con el valor del parámetro a estimar. En tal caso, si se incrementa el tamaño muestral
hasta N la muestra coincidirá con la población y el error cuadrático será cero, ver Cid-Cid y cols.
(1999).

Definición 2.3. Diremos que un estimador es más, menos o igual de eficiente en comparación con
otro, si el cociente de sus respectivas varianzas es superior, menor o igual a la unidad, ver Azorín-
Poch (1969).

Un buen estimador es aquel que cumple las propiedades de insesgadez, consistencia y eficiencia.

Según Alba y Ruiz (2006), si queremos comparar estimadores insesgados, será mejor b θi que b
θj
para estimar θ si Var(θi ) < Var(θ j ); mientras que si queremos comparar estimadores sesgados, será
b b
mejor b
θi que b θi ) < ECM(b
θ j para estimar θ si ECM(b θ j ).

2.3.3. Construcción de estimadores insesgados. Estimador de Horvitz-Thompson y


Hansen-Hurwitz

Como ya hemos comentado anteriormente, y podemos observar en la tabla 2.1, los parámetros
más comunes a estimar y sobre los que ponemos atención en este trabajo son: el total poblacional, la
media poblacional, el total de clase y la proporción de clase.
Atendiendo a la naturaleza de estos parámetros, vamos a expresar de forma general un parámetro
poblacional como θ = ∑Ni=1 Yi , siendo N el tamaño de la población. Para cada caso, Yi viene dado por



Xi para el total poblacional,


 Xi para la media poblacional,

N
Yi = (2.3)



Ai para el total de clase,

 Ai para la proporción de clase.

N

Según Pérez-López (2010) los estimadores b


θ con mejores propiedades para estimar θ son esti-
madores lineales de la forma
n
θ = ∑ ωiYi ,
b (2.4)
i=1

que sean insesgados y donde los valores ωi , denominados pesos, se caracterizan por:

medir la importancia del efecto que añade cada unidad muestral ui al estimador,

ωi = 1 si todas las unidades añaden el mismo efecto a la formación del estimador,

si las unidades de muestreo son compuestas, los pesos ωi regulan el efecto que añaden al esti-
mador asociándolo al número de unidades elementales que contiene cada una de las unidades
compuestas,
2.3. ESTIMADORES 15

además del tamaño de la unidad compuesta, en caso de serlo, los pesos también pueden depen-
der del orden de colocación de las unidades en la muestra y de la probabilidad que tiene cada
unidad de pertenecer a la misma según el método de muestreo empleado.

Para construir los estimadores tenemos que tener en cuenta si la selección de la muestra se hace
mediante un diseño muestral sin o con reemplazamiento. Por este motivo surgen los estimadores de
Horvitz-Thompson (sin reemplazamiento) y Hansen-Hurwitz (con reemplazamiento), que explica-
mos a continuación.

Estimador de Horvitz-Thompson

Consideremos una población de tamaño N y una muestra s = {u1 , ..., un } seleccionada mediante
un diseño muestral sin reemplazamiento, i.e., cada unidad solo puede pertenecer a la muestra como
máximo una vez.
Para representar la pertenencia a la muestra de una unidad ui se define para cada i ∈ {1, ..., N} el
indicador de pertenencia, Ii , como la variable aleatoria dada por:

1 si ui ∈ s con probabilidad πi ,
Ii =
0 si u ∈/ s con probabilidad 1 − π .
i i

Obsérvese que Ii ∈ Ber(πi ), con πi = P(ui ∈ s). De forma análoga, para un par de unidades {ui , u j }
con i ̸= j se define para cada i, j ∈ {1, ..., N}, el indicador de pertenencia como:

1 si {ui , u j } ∈ s con probabilidad πi j ,
Ii · I j =
0 si {u , u } ∈ / s con probabilidad 1 − π .
i j ij

Donde πi y πi j denotan, respectivamente, la probabilidad de que la unidad ui pertenezca a la


muestra y que las unidades {ui , u j } pertenezcan simultáneamente a la muestra.
Estos indicadores de pertenencia verifican las siguientes propiedades:

1. E(Ii ) = 1πi + 0(1 − πi ) = πi .

2. E(Ii2 ) = 12 πi + 02 (1 − πi ) = πi .

3. Var(Ii ) = E(Ii2 ) − E(Ii )2 = πi (1 − πi ).

4. E(Ii · I j ) = 1πi j + 0(1 − πi j ) = πi j con i ̸= j.

5. Cov(Ii , I j ) = E(Ii · I j ) − E(Ii )E(I j ) = πi j − πi π j con i ̸= j. 1 .

θ) = θ.
Para que el estimador lineal dado en (2.4) sea insesgado, se tiene que cumplir que E(b
Veámoslo:
1) Introducimos el indicador de pertenencia, trasladando de este modo la aleatoriedad de Yi a Ii y
empleando la linealidad de la esperanza:
1 Como podemos ver en Cid-Cid y cols. (1999) se define la covarianza entre dos variables aleatorias X e Y como
Cov(X,Y ) = E[(X − E[X])(Y − E[Y ])] = E[X ·Y ] − E[X]E[Y ]
16 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
! !
n N N N
θ) = E
E(b ∑ ωiYi =E ∑ ωiYi Ii = ∑ ωiYi E(Ii ) = ∑ ωiYi πi .
i=1 i=1 i=1 i=1

2) Exigiendo ahora la condición de insesgadez y suponiendo que todas las unidades añaden el
mismo peso al estimador, ωi = 1, expresamos

N N
1
θ) = θ =⇒ ∑ ωiYi πi = ∑ Yi =⇒ ωi πi = 1 =⇒ ωi = .
E(b
i=1 i=1 πi

n n
1
θ = ∑ ωiYi = ∑ Yi . Esta clase de estimadores fueron introducidos
Así obtenemos la expresión b
i=1 i=1 πi
por Horvitz y Thompson (1952) y son denotados habitualmente de la forma:

n
Yi
θHT = ∑ .
b (2.5)
i=1 πi

Para calcular la varianza del estimador de Horvitz-Thompson seguimos este desarrollo:


1) Introducimos de nuevo la variable aleatoria Ii (el indicador de pertenencia):
! !
n N
Yi Yi
θHT ) = Var ∑
Var(b = Var ∑ Ii .
i=1 πi i=1 πi

2) Aplicamos la propiedad de la suma de varianza para variables correladas2 :


!
n n n n
Var ∑ Xi = ∑ Var(Xi ) + 2 ∑ ∑ Cov(Xi , X j ). (2.6)
i=1 i=1 i=1 j>i

Tenemos entonces que

N   N N  
Yi Yi Y j
Var(θHT ) = ∑ Var
b Ii + 2 ∑ ∑ Cov Ii , I j .
i=1 πi i=1 j>i πi π j

3) La aleatoridad de la variable Yi fue trasladada al indicador de pertenencia Ii . Podemos aplicar


la las propiedades habituales del operador varianza y covarianza junto con las propiedades 3. y 5. de
los indicadores de pertenencia, obteniendo:

N N N N N N
Y2 Yi Y j Y2 Yi Y j
θHT ) = ∑ i2 Var(Ii ) + 2 ∑ ∑
Var(b Cov(Ii , I j ) = ∑ i2 πi (1 − πi ) + 2 ∑ ∑ (πi j − πi π j ).
i=1 πi i=1 j>i πi π j i=1 πi i=1 j>i πi π j

La varianza del estimador de Horvitz-Thompson viene dada por tanto por:

N N N
Y2 Yi Y j
θHT ) = ∑ i (1 − πi ) + 2 ∑ ∑
Var(b (πi j − πi π j ). (2.7)
π
i=1 i i=1 j>i πi π j

2 La varianza de la suma es la suma de todos los elementos de la matriz de covarianzas, i.e., la suma de los elementos
de la diagonal más dos veces la suma de los elementos triangulares superiores, ver Sheldon (2010) para más detalles.
2.3. ESTIMADORES 17

Estimador de Hansen-Hurwitz

Consideremos ahora una población de tamaño N y fijemos una muestra s = {u1 , ..., un } seleccio-
nada mediante un diseño muestral con reemplazamiento, en este caso, una unidad cualquiera puede
pertenecer a la muestra hasta n veces.
En esta situación, para cada i ∈ {1, ..., N} definimos la variable aleatoria, contador de pertenencia,
como el número de veces que la unidad ui aparece en la muestra:

ei : U → {0, ..., n}
ui ; e(ui ) ∈ {0, ..., n}.

Este contador de pertenencia, ei sigue una distribución Bi(n, Pi ), donde Pi denota la probabilidad
de que la unidad ui pertenezca a la muestra s. Entonces el vector e = (e1 , ..., ei , ..., en ) sigue una
distribución multinomial de parámetros (n, P1 , ..., Pi , ..., Pn ). Tenemos así las siguientes propiedades
para el contador de pertenencia:

1. E(ei ) = nPi.

2. Var(ei ) = nPi (1 − Pi ) 3 .

3. Cov(ei , e j ) = −nPi Pj con i ̸= j 4 .

De nuevo para que el estimador lineal dado en (2.4) sea insesgado, se tiene que cumplir que
θ) = θ. Con un procedimiento análogo al empleado para el caso anterior sin reemplazamiento,
E(b
tenemos:
1) Introducimos el contador de pertenencia, trasladando de este modo la aleatoriedad de Yi a ei ,
y aplicando la linealidad de la esperanza:
! !
n N N N
E(bθ) = E ∑ ωiYi = E ∑ ωiYi ei = ∑ ωiYi E(ei ) = ∑ ωiYi nPi .
i=1 i=1 i=1 i=1

θ) = θ, entonces
2) Para que sea insesgado tendríamos que E(b
N N
∑ ωiYi nPi = ∑ Yi .
i=1 i=1
Para que se cumpla la condición de insesgadez pedimos que
1
ωi nPi = 1 =⇒ ωi = nPi .
n n
1
θ = ∑ ωiYi = ∑
Obtenemos de esta manera la expresión b Yi . Esta clase de estimadores fueron
i=1 i=1 nPi
introducidos por Hansen y Hurwitz (1943) y se denota:
n
Yi
θHH = ∑
b . (2.8)
i=1 nPi
3 Si Y es una variable aleatoria discreta tal que Y ∼ Bi(n, p) entonces su media es E(Y ) = np y su varianza Var(Y ) =
np(1 − p).
4 Sea X una variable aleatoria. Si el vector X = (X , ..., X ) sigue una distribución multinomial con parámetros n y p,
i 1 k
donde p = (p1 , ..., pk ), entonces su media es E(Yi ) = np, su varianza Var(Yi ) = np(1 − p) y su covarianza Cov(Yi ,Y j ) =
−nPi Pj (i ̸= j).
18 CAPÍTULO 2. EL PROBLEMA DE MUESTREO

Calculamos la varianza del estimador de Hansen-Hurwitz, con un procedimiento análogo al em-


pleado para el estimador de Hurwitz-Thompson:
1) Introducimos la variable aleatoria ei , el contador de pertenencia
! !
n N
Y i Yi
Var(bθHH ) = Var ∑ = Var ∑ ei .
i=1 nPi i=1 nPi

2) Aplicando la propiedad de la suma de varianza para variables correladas vista en (2.6), tenemos
N  n n  
Yi Yi Yj
θHH ) = ∑ Var
Var(b ei + 2 ∑ ∑ Cov ei , ej =
i=1 nPi i=1 j>i nPi nPj
N   N  
Yi Yi Yj
= ∑ Var ei + ∑ Cov ei , ej .
i=1 nPi j̸=i nPi nPj

3) Utilizando las propiedades 2 y 3 del contador de pertenencia, y el hecho de que la aleatoriedad


de la variable Yi fue trasladada al contador de pertenencia ei , operamos y tenemos:
N N
Y2 Yi Y j
θHH ) = ∑ 2 i 2 Var(ei ) + ∑
Var(b Cov(ei , e j ) =
i=1 n Pi j̸=i nPi nPj
N N
Yi2 YiY j
=∑ 2 2
nPi (1 − Pi ) + ∑ 2
(−nPi Pj ) =
i=1 n Pi j̸=i n Pi Pj

1 N Yi2 1 N 2 1 N
= ∑ Pi − n ∑ Yi − n ∑ YiY j .
n i=1 i=1 i̸= j

4) Queremos simplificar el último sumando de la expresión anterior, para ello emplearemos lo


siguiente:

!2 !2
N N N N N N N
∑ Yi = ∑ Yi2 + ∑ YiY j =⇒ − ∑ YiY j = ∑ Yi2 − ∑ Yi = ∑ Yi2 − θ2 . (2.9)
i=1 i=1 i̸= j i̸= j i̸= j i=1 i=1

5) Ahora sustituyendo en la expresión de la varianza del paso 3) el valor obtenido para − ∑Ni̸= j YiY j
en el paso anterior , tenemos
" #
N 2 N N N 2
1 Y 1 1 1 1 Y
θHH ) = ∑ i − ∑ Yi2 + ∑ Yi2 − θ2 =
Var(b ∑ Pii − θ2 (a)=
n i=1 Pi n i=1 n i=1 n n i=1
" # " #
1 N Yi2 1 N
Y 2 N
Yi
N
= ∑ Pi − 2θ2 + θ2 (b)
n i=1
= ∑ Pi2 Pi − 2θ ∑ Pi Pi + θ2 ∑ Pi (c)
n i=1
=
i i=1 i=1
"   # 2
1 N Yi2 1 N Yi

Yi 2
= ∑ P2 − 2θ Pi + θ Pi (d)
n i=1
= ∑
n i=1 Pi
− θ Pi .
i

(a) sumando y restando θ,


Y12
(b) usando Pi , ∑Ni=1 Yi = θ y ∑Ni=1 Pi = 1,
(c) sacando factor común y aplicando la asociatividad de la suma,
(d) aplicando la definición del binomio (a − b)2 .
2.3. ESTIMADORES 19

Llegamos así a la expresión de la varianza del estimador de Hansen-Hurwitz


2
1 N Yi

Var(θHH ) = ∑
b − θ Pi . (2.10)
n i=1 Pi

En la tabla 2.2 hemos resumido las notaciones y varianzas de los dos tipos de estimadores pre-
sentados.

Estimador Varianza
Horvitz-Thompson
n N N N
Yi Yi2 Yi Y j
θHT = ∑
b ∑ πi (1 − πi ) + 2 ∑ ∑ πi π j (πi j − πi π j )
i=1 πi i=1 i=1 j>i
Hansen-Hurwitz
n 2
1 N Yi

Yi
θHH = ∑
b ∑ Pi − θ Pi
i=1 nP i n i=1

Tabla 2.2: estimadores de Horvitz-Thompson y Hansen-Hurwitz con sus respectivas varianzas.


20 CAPÍTULO 2. EL PROBLEMA DE MUESTREO
Capítulo 3

MUESTREO ALEATORIO SIMPLE

En este capítulo hablaremos del muestreo aleatorio simple haciendo distinción según el número
de veces que cada unidad aparezca en la muestra, dándose así los casos de muestreo sin, o con
reemplazamiento. Recordemos que este método de muestreo, con tamaño muestral fijo, nos garantiza
que todas las muestras que se pueden obtener tendrán la misma probabilidad y, en consecuencia todos
los elementos de la población tienen la misma probabilidad de ser elegidos para formar parte de la
muestra.

3.1. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZAMIEN-


TO
El objetivo del muestreo aleatorio simple sin reemplazamiento, es obtener una muestra de unida-
des seleccionadas aleatoriamente una a una sin reemplazamiento de la población. Una muestra con
las mismas unidades que otra muestra se consideran iguales, pues el orden de los elementos en las
muestras no importa. Así mismo una muestra con elementos repetidos es imposible.
En este caso la probabilidad de que cualquier unidad sea seleccionada para la muestra es π =
n
N, siendo n el tamaño de la muestra y N el tamaño de la población. Para todas las unidades esta
probabilidad es la misma. En consecuencia, cada una de las posibles muestras serán equiprobables.
Veamos a continuación de forma más detallada por qué las muestras son equiprobables y la
probabilidad igual de selección de una unidad.

Muestras equiprobables: el espacio muestral asociado a la selección de una muestra aleatoria


simple sin reemplazamiento y sin importar la colocación de las unidades en la muestra, tiene
un total de CN,n = Nn muestras. Este valor numérico expresa las posibilidades de coger n


elementos distintos sin repetición entre los N posibles. Así mismo, como las probabilidades de
selección son iguales, aplicando la regla de Laplace, la probabilidad de obtener una muestra
cualquiera es

casos favorables 1 1
P({u1 , ..., un }) = = = N .
casos posibles CN,n n

21
22 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE

Probabilidad igual de selección de una unidad: como acabamos de ver en el espacio mues-
tral, el número de muestras posibles de tamaño n es CN,n = Nn . Fijando una unidad ui de la


muestra, las posibles muestras que podemos tener vienen de seleccionar n − 1 elementos de
los N − 1 elementos que quedan en la población. Así, el número de muestras posibles que se
pueden formar bajo está condición es CN−1,n−1 = N−1

n−1 . Podemos calcular entonces que la
probabilidad de una unidad de ser seleccionada es
N−1

casos favorables n−1 n
πi = P(ui ∈ s) = = N
 = .
casos posibles n
N

N

Probabilidad de que un par de unidades (ui , u j ) sea seleccionado: siendo CN,n = n el tamaño
del espacio muestral, sabemos que el número de muestras posibles que se pueden formar de
manera que contenga el par de unidades (ui , u j ) es CN−2,n−2 = N−2

n−2 . Ya que para este caso
fijando el par de unidades (ui , u j ), las posibles muestras que podemos tener vienen de seleccio-
nar n − 2 elementos de los N − 2 elementos restantes de la población. Entonces la probabilidad
de que un par de unidades sea seleccionado es
N−2

casos favorables n−2 n(n − 1)
πi j = P((ui , u j ) ∈ s) = = N = .
N(N − 1)

casos posibles n

3.1.1. Estimadores y sus varianzas

Recordemos que el estimador insesgado óptimo para un muestreo sin reemplazamiento del pa-
N
Yi
rámetro poblacional θ = ∑Ni=1 Yi es el estimador de Horvitz-Thompson, bθHT = ∑ , siendo πi la
i=1 πi
probabilidad de que una unidad pertenezca a la muestra, que tiene un valor de πi = Nn , ver sección
2.3.3 para más detalles.
A partir del estimador de Horvitz-Thompson, podemos deducir los estimadores para los paráme-
tros de interés introducidos en la sección 2.3.3.

Total:
N n n
Xi Xi 1 n
θ = T = ∑ Xi =⇒ Yi = Xi =⇒ b
θ = Tb = ∑ = ∑ = N ∑ Xi . (3.1)
i=1 i=1 πi i=1 n/N n i=1

Media:
N n n
Xi Xi Xi /N Xi /N 1 n
θ=µ=∑ =⇒ Yi = =⇒ b
θ=b
µ=∑ =∑ = ∑ Xi . (3.2)
i=1 N N i=1 πi i=1 n/N n i=1

Proporción:
N n
Ai Ai Ai /N 1 n
θ=B=∑ =⇒ Yi = =⇒ b
θ == ∑ = ∑ Ai . (3.3)
i=1 N N i=1 n/N n i=1

Total de clase:
N n n
θ = A = ∑ Ai =⇒ Yi = Ai =⇒ b b = ∑ Ai = N 1 ∑ Ai = N B.
θ=A b (3.4)
i=1 i=1 n/N n i=1
3.1. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZAMIENTO 23

n n(n−1)
A partir de (2.7) y sustituyendo los valores de πi = N , πi j = N(N−1) e Yi correspondiente para
cada caso (véase (2.3) para mas detalles), podemos calcular la varianza para los estimadores (3.1),
(3.2), (3.3) y (3.4):

Total:
N 2 N N  
X  n Xi X j n(n − 1) n n
Var(Tb) = ∑ ni 1− +2∑ ∑ n n − .
i=1 N N i=1 j>i N N N(N − 1) N N
 
 n n n(n − 1) n n n n n−N
Operando 1 − / =y − / = , podemos escribir la ex-
N N N(N − 1) N N NN n(N − 1)
presión de la varianza de una forma más sencilla:

n N 2 n−N N N
Var(Tb) = ∑ Xi + 2 ∑ ∑ Xi X j .
N i=1 n(N − 1) i=1 j>i

Ahora como la varianza es invariante ante cambios de localización, tenemos:

N −n N 2 n−N N N
Var(Tb) = (X
∑ i − µ) + 2 ∑ ∑(Xi − µ)(X j − µ).
n i=1 n(N − 1) i=1 j>i

Haciendo uso de la expresión vista en (2.9), en este caso Yi = Xi −µ y sabiendo que 2 ∑Ni=1 ∑Nj>i YiY j =
− ∑Nj̸=i Yi , entonces −2 ∑Ni=1 ∑Nj>i (Xi − µ)(X j − µ) = − ∑Nj̸=i (Xi − µ)(X j − µ) = ∑Ni=1 (Xi − µ)2 −
(∑Ni=1 (Xi − µ))2 = ∑Ni=1 (Xi − µ)2 ya que (∑Ni=1 (Xi − µ))2 = (∑Ni=1 Xi − Nµ)2 = 0. Podemos ahora
expresar
!
N N N
N − n ∑ i=1 ∑ j>i (X i − µ)(X j − µ)
Var(Tb) =
n ∑ (Xi − µ)2 − 2 N −1
=
i=1
!
N
N −n N ∑ (X i − µ) 2
=
n ∑ (Xi − µ)2 + i=1N − 1 .
i=1

N
Sacando factor común ∑ (Xi − µ)2 se escribe
i=1
"  N #
N −n 1 2 N(N − n) 1 N
Var(Tb) =
n
1+ (X
∑ i
N − 1 i=1
− µ) =
n ∑ (Xi − µ)2 =
N − 1 i=1
N(N − n) 2  n  Sc2
= Sc = N 2 1 − ,
n N n
donde
1 N
Sc2 = ∑ (Xi − µ)2 , (3.5)
N − 1 i=1
es la cuasivarianza. Así la varianza para el estimador del total es

n Sc2
Var(Tb) = N 2 (1 − ) . (3.6)
N n
24 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE

Media:
!
1 2
Tb = N b µ = =⇒ Var(b
µ =⇒ b
Tb
µ) = Var
Tb
= Var(Tb) = 1 N 2 (1 − n ) Sc .
N N N2 N2 N n

Así la varianza para el estimador de la media es


n Sc2
µ) = (1 −
Var(b ) . (3.7)
N n

Según la información sobre los parámetros de interés recogida en la Tabla 2.1, nos quedaría por
calcular los estimadores de la proporción y el total de clase, para los que necesitamos desarrollar la
fórmula de la cuasivarianza Sc2 .
Partimos de la fórmula de Sc2 que hemos visto en (3.5),

1 N 1 N
Sc2 = ∑ (Xi − µ)2
= ∑ (Ai − B)2 .
N − 1 i=1 N − 1 i=1
Aplicando la identidad notable (a − b)2 y la propiedad de asociatividad de la suma, se tiene:
!
N N N N
1 1
Sc2 = ∑ (A2i − 2BAi + B2 ) = N − 1 ∑ A2i − 2 ∑ BAi + ∑ B2 .
N − 1 i=1 i=1 i=1 i=1

Utilizando ahora que:

∑Ni=1 A2i = ∑Ni=1 Ai ya que Ai = 0 ó Ai = 1 (veáse la sección 2.3 para más información), por
tanto ∑Ni=1 Ai = NB ya que B = N1 ∑Ni=1 Ai ,

−2B ∑Ni=1 Ai = −2B(NB) = −2NB2 y

∑Ni=1 B2 = NB2 ,

tenemos
1
Sc2 = (NB − 2NB2 + NB2 ).
N −1
Seguimos operando y llegamos al valor final para la cuasivarianza:
1 1 1 1
Sc2 = (NB − 2NB2 + NB2 ) = (NB − NB2 ) = NB(1 − B) = NBQ. (3.8)
N −1 N −1 N −1 N −1
Estamos ya en condiciones de calcular la varianza para los estimadores de la proporción y el total
de clase. Partiendo de las expresiones de las varianzas de los estimadores del total (3.6), de la media
(3.7) y del valor para la cuasivarianza (3.8), obtenemos:

Proporción:
1
n Sc2 n NBQ N 1 n
b = (1 −
Var(B) ) = (1 − ) N−1 = (1 − )BQ.
N n N n N −1 n N

Total de clase:
1
n Sc2 n NBQ N3 1 n
b = N 2 (1 −
Var(A) ) = N 2 (1 − ) N−1 = (1 − )BQ.
N n N n N −1 n N
3.2. MUESTREO ALEATORIO SIMPLE CON REEMPLAZAMIENTO 25

3.2. MUESTREO ALEATORIO SIMPLE CON REEMPLAZAMIEN-


TO
En este caso, el objetivo del muestreo aleatorio simple con reemplazamiento es obtener una mues-
tra de unidades seleccionadas aleatoriamente con reemplazamiento de la población. Estas unidades
son unidades elementales y una vez extraída una unidad se devuelve a la población, pudiendo ser
elegida más de una vez. En este caso una muestra con elementos repetidos sí es posible.
1
La probabilidad de que una unidad sea seleccionada para la muestra es Pi = N, siendo N el
tamaño de la población. Para todas las unidades esta probabilidad es la misma. Por este motivo,
todas las muestras serán equiprobables, i.e., la probabilidad de obtener una muestra cualquiera es
1
P(u1 , ..., un ) = ∏ni=1 Pi = Nn .

3.2.1. Estimadores y sus varianzas

Recordemos que en este caso el estimador insesgado óptimo para un muestreo con reemplaza-
N
Yi
miento del parámetro poblacional θ = ∑Ni=1 Yi es el estimador de Hansen-Hurwitz, b
θHH = ∑ ,
i=1 nP i
siendo Pi la probabilidad de que una unidad pertenezca a la muestra, que como acabamos de ver
tiene un valor de Pi = N1 , ver sección 2.3.3 para más detalles.
Según los valores que toma Yi dados en (2.3) deducimos los siguientes estimadores:

Total:
N n n
Xi Xi 1 n
θ = T = ∑ Xi =⇒ Yi = Xi =⇒ b
θ = Tb = ∑ =∑ = N ∑ Xi . (3.9)
i=1 i=1 nPi i=1 n/N n i=1

Media:
N n n
Xi Xi Xi /N Xi /N 1 n
θ=µ=∑ =⇒ Yi = =⇒ b
θ=b
µ=∑ =∑ = ∑ Xi . (3.10)
i=1 N N i=1 nPi i=1 n/N n i=1

Proporción:
N n
Ai Ai Ai /N 1 n
θ=B=∑ =⇒ Yi = =⇒ b
θ = Bb = ∑ = ∑ Ai . (3.11)
i=1 N N i=1 n/N n i=1

Total de clase:
N n
Ai 1 n
θ = A = ∑ Ai =⇒ Yi = Ai =⇒ b
θ=A
b= ∑ = N ∑ Ai = N B.
b (3.12)
i=1 i=1 n/N n i=1

En (2.10) hemos visto que la fórmula de la varianza del estimador de Hansen-Hurwitz, viene dada
por
N  2
1 Yi
θHH ) = ∑
Var(b − θ Pi .
n i=1 Pi
A partir de ella y sustituyendo los valores de Pi = N1 , θ e Yi correspondiente para cada caso, pode-
mos deducir la varianza para los estimadores (3.9), (3.10), (3.11) y (3.12) de los distintos parámetros
de interés:
26 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE

Total:
N  2 N  2
1 Xi 1 Xi 1 1 N 1
Var(Tb) = ∑ − T Pi = ∑ −T = ∑ (NXi − T )2 =
n i=1 Pi n i=1 1/N N n i=1 N
1 N 1 1 N 1 N2 1 N
= ∑ (NXi − Nµ)2 = ∑ N 2 (Xi − µ)2 = ∑ (Xi − µ)2 ,
n i=1 N n i=1 N n N i=1

donde denotamos
1 N
S2 = ∑ (Xi − µ)2 (3.13)
N i=1

Entonces la fórmula para la varianza del estimador del total es:

S2
Var(Tb) = N 2 . (3.14)
n

Media:
!
1 2
Tb = N b
µ =⇒ b
Tb
µ = =⇒ Var(b
µ) = Var
Tb
= Var(Tb) = 1 N 2 (1 − n ) S .
N N N2 N2 N n

Entonces la varianza para el estimador de la media es:

S2
µ) =
Var(b . (3.15)
n

1
Sabiendo que Sc2 = ∑Ni=1 (Xi − µ)2 (3.5) y que S2 = N1 ∑Ni=1 (Xi − µ)2 (3.13). Entonces Sc2 =
N−1
N 2 2 1 2
N−1 S y como Sc = N−1 BQ (3.8) podemos escribir S = BQ.
Ahora a partir de las fórmulas de la varianza para los estimadores del total (3.14) y la media
(3.15) podemos calcular ahora las varianzas para los estimadores de:

Proporción:
2 N−1 2 N−1 NBQ
b =S = N Sc N N−1 BQ
Var(B) = = .
n n n n
Total de clase:
N−1 2 N−1 NBQ
b = N2 S2 Sc N N−1 BQ
Var(A) = N2 N = N2 = N2 .
n n n n

3.3. COMPARACIÓN ENTRE MUESTREO ALEATORIO SIMPLE


SIN Y CON REEMPLAZAMIENTO
Para comparar el muestreo aleatorio simple sin y con reemplazamiento, lo haremos atendiendo
al error de muestreo. q
θ) = + Var(b
Recordemos la definición vista en (2.1) para el error de muestreo: σ(b θ). Ofrecerá
mejores resultados el método de muestreo con un error de muestreo menor, i.e., aquel que tenga una
varianza del estimador menor.
3.3. COMPARACIÓN ENTRE MUESTREO ALEATORIO SIMPLE SIN Y CON REEMPLAZAMIENTO27

Usaremos la notación VarSR y VarCR para referirnos a la varianza del método sin reemplazamien-
to y con reemplazamiento respectivamente.
Veamos ahora en primer lugar lo que ocurre con la varianza del estimador de la media:
2 2
S N−n S2
µ) (1 − Nn ) nc
VarSR (b
N S
(1 − Nn ) N−1 n N−1 n N −n
= S2
= S2
= S2
=⇒ < 1.
VarCR (b
µ) N −1
n n n

Deducimos que VarSR (b


µ) < VarCR (b
µ).
Para el resto de estimadores ocurrirá lo mismo, así, la varianza siempre será menor en el muestreo
sin reemplazamiento.
Para el total:
2 2
S N−n S2
VarSR (Tb) N 2 (1 − Nn ) nc (1 − Nn ) N−1
N S
n N−1 n N −n
= 2 = 2 = S2
=⇒ < 1.
VarCR (T )
b 2
N n S S N −1
n n

Para la proporción:

N 1 n N−n BQ
VarSR (B) N−1 n (1 − N )BQ N−1 n N −n
b
= BQ
= BQ
=⇒ < 1.
VarCR (B)
b
n n
N −1

Para el total de clase:

N3 1 n BQ
VarSR (A)
b N−1 n (1 − N )BQ N 2 N−n
N−1 n N −n
= = =⇒ < 1.
VarCR (A)
b N 2 BQ
n N 2 BQ
n
N −1

Podemos concluir entonces que el muestreo aleatorio sin reemplazamiento ofrece mejores resul-
tados, en términos de error de muestreo, que con reemplazamiento.

Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
simple presentamos un resumen en las siguientes tablas:

Estimador Varianza

n
1 n Sc2
Total Tb = N ∑ Xi Var(Tb) = N 2 (1 − )
n i=1 N n
1 n n Sc2
Media µ=
b ∑ Xi µ) = (1 −
Var(b )
n i=1 N n
1 n N 1 n
Proporción Bb = ∑ Ai b =
Var(B) (1 − )BQ
n i=1 N −1 n N
N3 1 n
Total de clase b = N Bb
A b =
Var(A) (1 − )BQ
N −1 n N

Tabla 3.1: estimadores y varianzas para el muestreo aleatorio simple sin reemplazamiento.
28 CAPÍTULO 3. MUESTREO ALEATORIO SIMPLE

Estimador Varianza

n
1 S2
Total Tb = N ∑ Xi Var(Tb) = N 2
n i=1 n
1 n S2
Media µ=
b ∑ Xi µ) =
Var(b
n i=1 n
1 n BQ
Proporción Bb = ∑ Ai b =
Var(B)
n i=1 n

b = N Bb b = BQ
Total de clase A Var(A)
n

Tabla 3.2: estimadores y varianzas para el muestreo aleatorio simple con reemplazamiento.
Capítulo 4

MUESTREO ALEATORIO
ESTRATIFICADO

Cuando se desea realizar muestreo sobre una población heterogénea, dividirla en subpoblacio-
nes lo más homogéneas posibles podría facilitar la construcción de la muestra. Entendiendo como
población heterogénea aquella en la que la totalidad de individuos no presenta una característica
de estudio común y entendiendo como subpoblaciones homogéneas, subconjuntos cuyos elementos
tienen al menos una característica común, que cubren a la población por completo y que son dis-
juntos entre sí. Este proceso de subdivisión de la población es la idea sobre la que nace el muestreo
estratificado y que busca homogeneizar la población, Mendenhall y cols. (2006).

Sea U = {U1 ,U2 , ...,UN } una población heterogénea de tamaño N; se divide en L subpoblacio-
nes homogéneas disjuntas, que se denominarán estratos Eh = {Uh1 ,Uh2 , ...,UhNh } = {Uhi }h=1,...,L de
tamaños N1 , ..., NL tales que N = ∑Lh=1 Nh . De cada estrato se extrae de forma independiente una
submuestra, que denotaremos por mh con h = 1, ..., L y tamaño nh , i.e., en cada submuestra habrá nh
unidades de cada uno de los L estratos en los que se ha subdividido la población. Entonces, una mues-
SL
tra estratificada s, está formada por la unión de las mL submuestras s = h=1 mh tal que n = ∑Lh=1 nh .
En la Figura 4.1 hemos elaborado un esquema que ilustra el proceso de selección de una muestra
aleatoria estratificada.

29
30 CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO

Población U
tamaño N

E1
tamaño N1
E2
tamaño N2 tamaño N3
E3 ... EL
tamaño Nh

m1 m2
tamaño n1 tamaño n2
... mL
tamaño nh

Muestra estratificada s
tamaño n

Figura 4.1: proceso de selección de una muestra estratificada.

4.1. MUESTREO ALEATORIO ESTRATIFICADO SIN REEMPLA-


ZAMIENTO
Una vez dividida la población en estratos, de forma independiente en cada uno de ellos seleccio-
namos mediante muestreo aleatorio simple sin reemplazamiento cada submuestra mh . En este caso
estaremos ante el muestreo aleatorio estratificado sin reemplazamiento.

4.1.1. Estimadores y sus varianzas

En este contexto, el parámetro poblacional θ puede expresarse como la suma de los valores de la
variable de estudio en cada uno de los estratos, por lo que tenemos la expresión
L Nh
θ = ∑ ∑ Yhi .
h i

Este parámetro poblacional será aproximado por el estimador, b


θ, expresado como la suma de las
estimaciones realizadas mediante muestreo aleatorio simple en cada uno de los estratos, es decir, la
suma extendida a todos los estratos del estimador lineal insesgado de Horvitz-Thompson:
L nh
Yhi
θ = ∑∑ ,
b (4.1)
h i πhi
nh
donde πhi = Nh es la probabilidad de que la unidad uhi pertenezca a la submuestra mh de nh unidades
elegidas entre las Nh del estrato h-ésimo, Eh .
A partir del estimador dado en (4.1) y según los valores de Yhi dada en (2.3) para cada caso,
podemos construir los siguientes estimadores:

Total:
nh L nh
L
Xhi Xhi L
1 nh
θ = T =⇒ Yhi = Xhi =⇒ b
θ = Tbst = ∑∑ = ∑∑ = ∑ nh ∑ Xhi .
Nh (4.2)
h=1 i=1 πhi h=1 i=1 nh /Nh h=1 i=1
4.1. MUESTREO ALEATORIO ESTRATIFICADO SIN REEMPLAZAMIENTO 31

Media:
Xhi L
1 nh Xhi L
1 nh Xhi
θ = µ =⇒ Yhi = =⇒ b
θ=b
µst = ∑ ∑ =∑ ∑ =
N h=1 N i=1 πhi h=1 N i=1 nh /Nh

L
Nh 1 nh L
1 nh
∑ ∑ Xhi = ∑ nh ∑ Xhi .
Wh (4.3)
h=1 N nh i=1 h=1 i=1

El término Wh = Nh /N recibe el nombre de coeficientes de ponderación que cumplen ∑Lh=1 Wh =


Nh ∑Lh=1 Nh
∑Lh=1 N = N = N/N = 1.

Proporción:
Ahi L
1 nh Ahi
θ = B =⇒ Yhi = =⇒ b
θ = Bbst = ∑ ∑ =
N h=1 N i=1 πhi

L
1 nh Ahi L
Nh 1 nh L
=
∑ N ∑ nh /Nh ∑ N nh ∑ A hi = ∑ Wh Bbh . (4.4)
h=1 i=1 h=1 i=1 h=1

Total de clase:
L nh L nh
Ahi Ahi
θ = A =⇒ Yhi = Ahi =⇒ b
θ=A
bst = ∑ ∑ πhi = ∑ ∑ nh /Nh =
h=1 i=1 h=1 i=1

L
1 nh L
∑ Nh ∑ Ahi = ∑ Nh Bbh . (4.5)
h=1 nh i=1 h=1

La varianza de los estimadores total, media, proporción y total de clase, será la suma de las va-
rianzas de las estimaciones para cada estrato, ya que el muestreo es realizado de forma independiente
en cada uno de los estratos. Para calcular estas varianzas, solo necesitamos partir de las fórmulas de
la varianza para los estimadores en el caso de muestreo aleatorio simple sin reemplazamiento que
podemos encontrar en la Tabla 3.1 y de las expresiones de los estimadores que acabamos de calcular
en (4.2), (4.3), (4.4) y (4.5). Siendo Qh = 1 − Bh .

Total:
L 2
nh Sch
Var(Tbst ) = ∑ Nh2 (1 − ) .
Nh nh
h=1

Media:
L
nh S 2
µst ) =
Var(b ∑ Wh2 (1 − Nh ) nchh .
h=1

Proporción:
L
Nh nh Bh Qh
Var(Bbst ) = ∑ Wh2 Nh − 1 (1 − Nh ) nh
.
h=1

Total de clase:
L
Nh nh Bh Qh
bst ) =
Var(A ∑ Nh2 Nh − 1 (1 − Nh ) nh
.
h=1
32 CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO

4.2. MUESTREO ALEATORIO ESTRATIFICADO CON REEMPLA-


ZAMIENTO

Una vez dividida la población en estratos, de forma independiente en cada uno de ellos seleccio-
namos mediante muestreo aleatorio simple con reemplazamiento cada submuestra mh . En este caso
estaremos ante el muestreo aleatorio estratificado con reemplazamiento.

4.2.1. Estimadores y sus varianzas

Al igual que para el caso sin reemplazamiento, el parámetro poblacional θ puede expresarse
como la suma de los valores de la variable de estudio en cada uno de los estratos
L Nh
θ = ∑ ∑ Yhi .
h i

Al estar ante el caso con reemplazamiento, el estimador b


θ del parámetro poblacional, se estimará
mediante la suma extendida a todos los estratos del estimador lineal insesgado de Hansen-Hurwitz
en cada estrato
L nh
Yhi
θ = ∑∑
b , (4.6)
h i nh Phi
1
donde Phi = Nh es la probabilidad de selección de la unidad uhi para la submuestra mh de nh unidades
elegidas entre las Nh del estrato h-ésimo.
La expresión del estimador con y sin reemplazamiento son iguales, ya que:
L nh L nh L nh
Yhi Yhi Yhi b
θHH = ∑ ∑
b = ∑∑ = ∑∑ = θHT .
h i n P
h hi h i n h /Nh h i πhi

Entonces podemos concluir que los estimadores para el total, media, proporción y total de clase
serán los mismos que para el caso sin reemplazamiento.

Total:
L nh
1
θ = Tbst =
b ∑ Nh nh ∑ Xhi . (4.7)
h=1 i=1

Media:
L nh
1
θ=b
b µst = ∑ Wh nh ∑ Xhi . (4.8)
h=1 i=1

Proporción:
L
Nh 1 nh L
θ = Bbst =
b ∑ ∑ hi ∑ Wh Bbh .
A = (4.9)
h=1 N nh i=1 h=1

Total de clase:
L
θ=A
b bst = ∑ Nh Bbh . (4.10)
h=1
4.3. AFIJACIÓN 33

Con un procedimiento análogo al empleado para el caso sin reemplazamiento, la varianza de


los estimadores total, media, proporción y total de clase para el muestreo aleatorio estratificado con
reemplazamiento, será la suma de las varianzas de las estimaciones para cada estrato. Por lo tanto,
para el cálculo de la varianza, partimos de las varianzas de los estimadores del muestreo aleatorio
simple con reemplazamiento que podemos encontrar en la Tabla 3.2 y de las expresiones de los
estimadores (4.7), (4.8), (4.9) y (4.10). Siendo Qh = 1 − Bh .

Total:
L
Sh2
Var(Tbst ) = ∑ Nh2 nh
.
h=1

Media:
L
S2
µst ) =
Var(b ∑ Wh2 nhh .
h=1

Proporción:
L
Bh Qh
Var(Bbst ) = ∑ Wh2 nh
.
h=1

Total de clase:
L
Bh Qh
bst ) =
Var(A ∑ Nh2 nh
.
h=1

4.3. AFIJACIÓN
El procedimiento mediante el cual se asignan o reparten los ”sub-tamaños“ muestrales, nh , entre
los diferentes estratos recibe el nombre de afijación; consiste en escoger los valores de nh que deben
de verificar n1 +n2 +...+nL = n. El reparto de la muestra entre los estratos puede realizarse mediante
diversos procedimientos, detallamos a continuación los más comunes.

Afijación uniforme: se asigna el mismo número de unidades muestrales a cada estrato, es decir,

n
nh = L ∀ h ∈ {1, ..., L}.

Afijación proporcional: se distribuye el tamaño de la submuestra de forma proporcional al


tamaño de cada estrato en la población total.

nh = Nn Nh ∀ h ∈ {1, ..., L}.

Afijación de mínima varianza o afijación de Neyman: se determina nh , el tamaño de la sub-


muestra, de forma que para un tamaño muestral fijo, la varianza de los estimadores sea mínima.
Este procedimiento consiste en resolver el problema de optimización siguiente:

min Var,

L
 ∑ nh = n.

h=1
34 CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO

Afijación óptima: se determina el tamaño de la submuestra de forma que para un coste fijo
C = ∑Lh=1 ch nh la varianza de los estimadores sea mínima. Siendo ch el coste de la selección
de cada unidad de muestreo en el estrato h, entonces el coste total de las nh unidades en dicho
estrato será ch nh . Por lo tanto C es la suma de los costes de los L estratos, i.e., el coste total de
la muestra estratificada. El problema consiste en hacer mínima la expresión de la varianza bajo
la condición de un coste fijo, estamos entonces ante el problema de optimización dado por:

min Var,

L
 ∑ ch nh = C.

h=1

Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
estratificado presentamos en las siguientes tablas un resumen.

Estimador Varianza

L nh L
1 nh S 2
Total T
cst = ∑ Nh nh ∑ Xhi Var(T
cst ) = ∑ Nh2 (1 − Nh ) nchh
h=1 i=1 h=1

1 nh L
nh S 2
Media st =
µc ∑ Xhi
nh i=1
µst ) =
Var(c ∑ Wh2 (1 − Nh ) nchh
h=1
L L
Nh nh Bh Qh
Proporción cst =
B ∑ Wh Bbh cst ) =
Var(B ∑ Wh2 Nh − 1 (1 − Nh nh
h=1 h=1
L L
Nh nh Bh Qh
Total de clase cst =
A ∑ Nh Bbh b =
Var(A) ∑ Nh2 Nh − 1 (1 − Nh ) nh
h=1 h=1

Tabla 4.1: estimadores y varianzas para el muestreo aleatorio estratificado sin reemplazamiento.

Estimador Varianza

L nh L
1 S2
Total T
cst = ∑ Nh nh ∑ Xhi Var(Tb) = ∑ Nh2 nhh
h=1 i=1 h=1
nh L
1 S2
Media st =
µc ∑ Xhi
nh i=1
µ) =
Var(b ∑ Wh2 nhh
h=1
L L
Bh Qh
Proporción cst =
B ∑ Wh Bbh b =
Var(B) ∑ Wh2 nh
h=1 h=1
L L
Bh Qh
Total de clase cst =
A ∑ Nh Bbh b =
Var(A) ∑ Nh2 nh
h=1 h=1

Tabla 4.2: estimadores y varianzas para el muestreo aleatorio estratificado con reemplazamiento.
Capítulo 5

MUESTREO SISTEMÁTICO

En ocasiones nos enfrentaremos a una población grande y ordenada, el mejor método de muestreo
en este caso será el denominado muestreo sistemático.
Para aplicar este método de muestreo hay que llevar a cabo una regla sistemática que consiste en
enumerar las N unidades de la población del 1 al N y seleccionar de forma aleatoria un número δ
entre los k primeros números tal que δ ∈ {1, 2, 3, .., k}, siendo N = nk, donde N es el tamaño de la
población y n el tamaño muestral. Este valor de k define el salto de la regla sistemática. El valor de δ
recibe el nombre de semilla, la cual permite obtener la primera unidad que pertenecerá a la muestra.
El resto de unidades se obtienen sumando k unidades (o dando un salto de k unidades) a la primera,
k unidades a la segunda y así sucesivamente.
En la Figura 5.1 hemos ilustrado el proceso de selección de una muestra sistemática para facilitar
la comprensión del mismo.

Población U

........................
uδ uδ+k uδ+2k uδ+(n−2)k uδ+(n−1)k

Muestra s j

Figura 5.1: proceso de selección de una muestra sistemática.

Con este procedimiento solo pueden obtenerse k muestras diferentes que serán disjuntas (no
tendrán ningún elemento en común). Cada muestra se denota por s j , j = 1, 2, ..., k y tal y como puede
verse en Alba y Ruiz (2006) tienen la siguiente estructura,

s1 = {u1 , u1+k , u1+2k , ..., u1+(n−1)k }


s2 = {u2 , u2+k , u2+2k , ..., u2+(n−1)k }
...
sk = {uδ , uδ+k , uδ+2k , ..., uδ+(n−1)k }.

35
36 CAPÍTULO 5. MUESTREO SISTEMÁTICO

1
La probabilidad de seleccionar una muestra entre las k muestras posibles es k = Nn , ya que N = nk.
Y las probabilidades de que una unidad ui o un par de unidades {ui , u j } con i ̸= j pertenezcan a la
1
muestra son respectivamente πi = n
N = k y πi j = 1k .
Este método de muestreo ofrece según Cid-Cid y cols. (1999) y Pérez-López (2010) varias ven-
tajas frente a los métodos de muestreo que hemos visto hasta ahora:

selección rápida y sencilla de la muestra,

no es necesario distinguir entre con o sin reemplazamiento,

el error de muestreo suele ser menor que en otros métodos de muestreo,

si el orden de los elementos de la población es aleatorio, la muestra será muy representativa y


mostrará un resultado similar al muestreo aleatorio simple,

si el orden de los elementos de la población está relacionado con la característica objeto de


estudio se produce un efecto similar a la estratificación. De hecho, salvo por la independencia
el muestreo sistemático se puede considerar un caso particular de muestreo estratificado (los
estratos estarían formados por los intervalos de k unidades y se selecciona una unidad de cada
estrato),

y por último Mendenhall y cols. (2006) nos dicen que una muestra sistemática es preferible
cuando la población esta ordenada y su tamaño es grande.

5.1. ESTIMADORES
Debido a que el muestreo sistemático se realiza sin reemplazamiento, el estimador b
θ del pa-
rámetro poblacional θ utilizado para este método de muestreo es el estimador lineal insesgado de
Horvitz-Thompson definido en (2.5). En este contexto el parámetro poblacional toma la forma:
n 1
θ = ∑ ∑ Yi j
i=1 j=1

y se expresa el estimador de Horvitz-Thompson como:

n 1
Yi j
θ=∑∑ 1 ,
b (5.1)
i=1 j=1 k

donde πi toma el valor 1/k.


Estamos ahora en condiciones de presentar los estimadores y sus varianzas para los parámetros
de interés que venimos analizando. Con unos cálculos análogos a los hechos hasta ahora en los
anteriores métodos de muestreo, tenemos los estimadores:

Total: n n n
Xi j 1 n
θ = T =⇒ Yi j = Xi j =⇒ b
θ = Tb = ∑ ∑ 1 = ∑ kXi j = N ∑ Xi j . (5.2)
i j=1 k i=1 n i=1
5.1. ESTIMADORES 37

Media: n n
Xi j Xi j /nk 1 n
θ = µ =⇒ Yi j = =⇒ b
θ=b
µ=∑∑ = ∑ Xi j . (5.3)
nk i j=1 1/k n i=1

Proporción:
n n
Ai j Ai j /nk 1 n
θ = B =⇒ Yi j = =⇒ b
θ = Bb = ∑ ∑ = ∑ Ai j = Bb j . (5.4)
nk i j=1 1/k n i=1

Total de clase:
n n n n
θ = A =⇒ Yi j = Ai j =⇒ b b = ∑ ∑ Ai j = ∑ kAi j = N 1 ∑ Ai j = N Bb j .
θ=A (5.5)
i j=1 1/k i=1 n i=1
38 CAPÍTULO 5. MUESTREO SISTEMÁTICO
Capítulo 6

MUESTREO POR
CONGLOMERADOS

Enfrentarnos a un proceso de muestreo en ocasiones genera demasiado coste (económico o de


recursos) para obtener un marco que liste los elementos de la población, por ello previamente se
recurre a la opción de dividirla en subconjuntos llamados conglomerados, para los cuales es más fácil
obtener un marco que los liste. La idea, es que estos subconjuntos de la población, los conglomerados,
sean heterogéneos, de tal forma que presenten una diversidad similar a la de la población, Cid-Cid y
cols. (1999), y sean a la vez homogéneos entre ellos, pues da igual el conglomerado que se observe,
se busca que todos representen fielmente a la población. Por lo general la división de la población
en conglomerados no depende de la característica objeto de estudio sino de divisiones geográficas o
territoriales para las cuales ya se conoce información, ver Pérez-López (2010). Existen varios tipos
de muestreo por conglomerados:

monoetápico: se obtiene la muestra seleccionando ciertos conglomerados de forma aleatoria,


por lo tanto la muestra contendrá la totalidad de las unidades elementales de cada conglome-
rado;

bietápico: una vez seleccionados los conglomerados de forma aleatoria, se divide cada con-
glomerado en subconglomerados y posteriormente se seleccionan algunos de ellos de forma
aleatoria para formar parte de la muestra. En este procedimiento, se obtiene una muestra for-
mada por las submuestras de cada uno de los subconglomerados. La muestra contendrá solo
algunas de las unidades elementales de cada conglomerado;

polietápico: generalización del caso bietápico a un número mayor de dos etapas.

Sea U = {U1 ,U2 , ...,UN } una población de tamaño N, tenemos los elementos de la población
agrupados en M conglomerados, que denotamos por CM . Una muestra por conglomerados, s, de
tamaño n estará formada por m conglomerados, Cm , que se seleccionan de forma aleatoria entre los
CM conglomerados en los que hemos dividido a la población. Suponiendo todos los conglomerados
de igual tamaño, nc , se tiene que la población es de tamaño N = Mnc . De forma análoga una muestra

39
40 CAPÍTULO 6. MUESTREO POR CONGLOMERADOS

es de tamaño n = mnc , el número de conglomerados en la muestra por su tamaño. Se entiende así


que por ser los conglomerados grupos de unidades elementales, son unidades compuestas.

En la Figura 6.1 se ilustra la división de la población en conglomerados y el proceso de selección


de una muestra por conglomerados.

. ... . . . . .. . C1
. C
. . .. . .
5 . . . .. .
C1

. . ...
CM−1

.
. . . .. . . C4
C2 . . . . ..
C2 . .. .. CM C3
.. . . . ..
C3 . . . . .. . Cm . ..
.

Población U, de tamaño N Muestra s, de tamaño n


dividida en CM conglomerados formada por Cm conglomerados

Figura 6.1: proceso de selección de una muestra por conglomerados.

6.1. Diferencias entre conglomerado y estrato

Llegados a este punto se hace necesario establecer las diferencias entre estrato y conglomerado,
y por tanto entre el muestreo aleatorio estratificado y el muestreo por conglomerados, ya que ambos
conllevan la subdivisión de la población en grupos. Veamos las principales diferencias según Pérez-
López (2010) y Mendenhall y cols. (2006):

un único conglomerado representa a la población, un estrato no;

todos los estratos tienen representación en la muestra, los conglomerados no;

se busca que los estratos sean lo más homogéneos posible, pero que difieran lo máximo posible
de los demás estratos, es decir que sean heterogéneos entre ellos (heterogéneos “entre” y
homogéneos “dentro”);

para el caso de los conglomerados se busca lo contrario, que sean heterogéneos para repre-
sentar a la población lo máximo posible y homogéneos entre ellos para que no importe qué
conglomerado escoger (heterogéneos “dentro” y homogéneos “fuera”).
6.2. ESTIMADORES Y SUS VARIANZAS 41

▲ • ♦ ♦ ■ ■
■⋆ ♦ ⋆ ■

▲ ♦■ ♦ ⋆
♦ ♦ ⋆
⋆ ⋆• ▲
▲ ⋆ ▲
• • ▲
• • •
■ ▲

Figura 6.2: población subdividida en conglomerados (izquierda) y en estratos (derecha).

Se ha elaborado la Figura 6.2 para ilustrar y facilitar la comprensión por parte del lector de las
diferencias anteriormente explicadas entre estratos y conglomerados.

6.2. Estimadores y sus varianzas


Por simplificar y por sencillez analizaremos el caso en que los conglomerados son todos del mis-
mo tamaño y el muestreo se realiza en una etapa, es decir, muestreo por conglomerados monoetápico.
Para este método de muestreo, el parámetro poblacional θ se expresa de forma genérica como:
M nc
θ = ∑ ∑ Yi j .
i j

Suponiendo que se realiza muestreo aleatorio sin reemplazamiento para la elección de los con-
glomerados, el parámetro poblacional θ será aproximado por el estimador de Horvitz-Thompson
definido en (2.8), que toma la forma:
m ∑nc Y
j ij 1 m nc
θ=∑
b = ∑ ∑ Yi j ,
i πi πi i j
m
donde πi = M es la probabilidad de que el conglomerado Ci pertenezca a la muestra s formada por m
conglomerados escogidos entre los M conglomerados de la población.
A partir de este estimador y con cálculos análogos a los realizados para los muestreos vistos
anteriormente, presentamos los estimadores para los parámetros de interés: el total, la media, la
proporción y el total de clase.

Total:
M m nc M m 1 nc
θ = T =⇒ Yi j = Xi j =⇒ b
θ = Tb = ∑ ∑ Xi j = nc ∑ ∑ Xi j =
m i j m i nc j
(6.1)
1 m
= Mnc ∑ µi .
m i

Media:
Xi j M m nc Xi j 1 m 1 nc
θ = µ =⇒ Yi j = =⇒ b
θ=b
µ = ∑∑ = ∑ ∑ Xi j =
Mnc m i j Mnc m i nc j
(6.2)
1 m
= ∑ µi .
m i
42 CAPÍTULO 6. MUESTREO POR CONGLOMERADOS

Proporción:

Ai j M m nc Ai j 1 m 1 nc
θ = B =⇒ Yi j = =⇒ b
θ = Bb = ∑ ∑ = ∑ ∑ Ai j =
Mnc m i j Mnc m i nc j
(6.3)
1 m
= ∑ Bi .
m i

Total de clase:
m nc m nc
θ = A =⇒ Yi j = Ai =⇒ b b = M ∑ ∑ Ai j = Mnc ∑ 1 ∑ Ai j =
θ=A
m i j m i nc j
(6.4)
1 m
= Mnc ∑ Bi = Mnc B.
b
m i

Como hemos dicho anteriormente para la selección de los conglomerados empleamos muestreo
aleatorio sin reemplazamiento, por lo tanto las fórmulas de las varianzas de los estimadores para los
parámetros de interés vistos en (6.1) y (6.2) vienen derivadas de las fórmulas de las varianzas para
dicho muestreo que podemos encontrar en la Tabla 3.1. Para este caso sustituimos el valor de Sc2 , que
n
∑M c
i ∑ j (µi −µ)
2
para este muestreo recibe el nombre de cuasivarianza entre conglomerados, por Sc2 = M−1 .

Total:
m Sc2
Var(Tb) = M 2 n2c (1 − ) . (6.5)
M mnc

Media:
m Sc2
µ) = (1 −
Var(b ) . (6.6)
M mnc

A partir de las fórmulas de la varianza de los estimadores del total (6.5) y la media (6.6) de-
ducimos las varianzas de los estimadores (6.3) y (6.4), donde ahora la cuasivarianza toma el valor
nc
Sc2 = M−1 ∑M 2
i (Bi − B) .

Proporción:

nc
m M−1 ∑M
i (Bi − B)
2
m ∑M (Bi − B)2
b = (1 −
Var(B) ) = (1 − ) i .
M mnc M m(M − 1)

Total de clase:
m ∑M (Bi − B)2
b = M 2 n2c (1 −
Var(A) ) i .
M m(M − 1)

Para tener una visión general de todos los desarrollos realizados acerca del muestreo aleatorio
sistemático presentamos un resumen en la siguiente tabla:
6.2. ESTIMADORES Y SUS VARIANZAS 43

Estimador Varianza

m
1 m Sc2
Total Tb = Mnc ∑ µi Var(Tb) = M 2 n2c (1 − )
m i M mnc
1 m m Sc2
Media µ= µi µ) = (1 −
Var(b )
m∑
b
i M mnc
1 m m ∑M (Bi − B)2
Proporción Bb = ∑ Bi b = (1 −
Var(B) ) i
m i M m(M − 1)
m ∑M (Bi − B)2
Total de clase b = N Bb
A b = M 2 n2c (1 −
Var(A) ) i
M m(M − 1)

Tabla 6.1: estimadores y varianzas para el muestreo por conglomerados.


44 CAPÍTULO 6. MUESTREO POR CONGLOMERADOS
Capítulo 7

ESTUDIO DE UN CASO PRÁCTICO

En este Capítulo presentamos un estudio sobre un conjunto de datos con el que vamos a ilustrar
los diferentes métodos de muestreo vistos a lo largo de este trabajo. Para poder realizar esta tarea
hemos tenido que llevar a cabo una serie de procedimientos previos, como son la obtención de la
base de datos, la depuración de los datos facilitados, la creación/definición de variables de interés
a partir de los datos iniciales y finalmente la implementación y aplicación de los distintos métodos
de muestreo. Además, para finalizar, se realiza un pequeño estudio de simulación y se presentan las
conclusiones y resultados junto con un breve apartado de opciones de mejora.

7.1. La base de datos y su depuración


Para realizar el estudio utilizamos datos del Máster Interuniversitario en Técnicas Estadísticas
(MTE) impartido por la Universidade de Santiago de Compostela, la Universidade de A Coruña y la
Universidade de Vigo. Estos datos fueron previamente anonimizados por la organización del MTE,
y la información se nos proporciono en tres ficheros que describimos a continuación, listando las
distintas variables y explicando la información que contienen:

Fichero con información personal

• id_persona: código único que identifica a cada individuo,


• correo: dominio de correo electrónico utilizado por cada individuo,
• egresado: si el individuo es alumno/a o egresado/a,
• titulación: titulación de acceso al MTE,
• especialidad: especialidad de la titulación de acceso al MTE,
• uniprod: universidad de procedencia del alumno/a,
• unimat: universidad en la que el/la alumno/a formalizó la matrícula en el MTE.

Fichero con calificaciones

• id_persona: código único que identifica a cada individuo,

45
46 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

• materia: asignaturas cursadas cuyos posibles valores son: Estadística Aplicada, Introduc-
ción a la Teoría de Juegos, Modelos de Probabilidad, Modelos de Regresión, Muestreo,
Programación Lineal y Entera y el Trabajo de Fin de Máster,
• nota: calificación numérica y/o información acerca de las materias cursadas (convalidada,
matrícula de honor, no presentado, ...).

Fichero con datos del TFM

• id_persona: código único que identifica a cada individuo,


• id_tutor: código único que identifica a cada un de los/as tutores/as de Trabajos de Fin de
Máster,
• universidad: universidad o empresa a la que está vinculado/a el/la tutor/a.

La primera tarea antes de realizar el estudio fue depurar estos ficheros y unificarlos en una única
base de datos que cubriese nuestras necesidades. Para ello se siguió el procedimiento que detallamos
a continuación:

1. Comprobar que tenemos el mismo número y los mismos individuos en todos los ficheros
(arrange por id_persona). No fue es así, por lo que se solicitó nueva información para com-
pletarla.

2. Depurar el fichero de calificaciones.

a) Para cada individuo se separa la calificación en dos columnas, una con la calificación
numérica (7.6) y otra con la descripción (Notable).
b) Se sustituyen los valores faltantes en las calificaciones por NA.
c) Se crea una función para eliminar calificaciones repetidas de una misma asignatura y un
mismo individuo, dicha función consiste en los siguientes pasos:
1) localiza las filas repetidas por id_persona,
2) si hay varias calificaciones numéricas, elige la más alta,
3) si todas son NA, se deja NA,
4) si hay algún NA a la vez que calificación numérica, se deja la calificación numérica
más alta.

3. Una vez depurado el fichero de calificaciones, se fusionó con el fichero de información perso-
nal, creando una base de datos usando la función merge . Se vuelve a comprobar que tenemos
la información para todos los individuos.

4. Depurar el fichero de los TFM: solo nos interesa la universidad asociada al TFM, para ello
utilizaremos los/as tutores/as, es decir, la universidad del TFM será la del tutor/a o la del/a
tutor/a principal si hubiese varios. Para ello:
7.1. LA BASE DE DATOS Y SU DEPURACIÓN 47

a) se crea una base de datos con los/as alumnos/as y se separa en dos grupos, uno con los
que tienen un/a único/a tutor/a, en cuyo caso la universidad del TFM será la del tutor y
otro con los/as que tienen varios/as tutores/as.
b) En el grupo de varios/as tutores/as se computa el número de tutores/as que tiene cada
individuo usando la función table, concluyendo que todos los individuos tienen dos
tutores.
1) Todos los individuos salvo ocho tienen dos tutores/as de la misma universidad. Para
esos casos ésa será la universidad asociada al TFM.
2) Para los ocho casos restantes, como tenemos la base de datos ordenada por id_persona,
estamos ante la siguiente situación:
id_persona 1 id_tutor 1 uiversidad 1
id_persona 1 id_tutor 2 uiversidad 2
id_persona 2 id_tutor 3 uiversidad 1
id_persona 2 id_tutor 4 uiversidad 2
... ... ...
Así, elegimos como la universidad asociada a los TFM para ellos la universidad que
aparece asociada al primer tutor de cada individuo.
3) Una vez establecida la universidad asociada a los TFM para los individuos del grupo
de varios/as tutores/as se junta esta información con la obtenida en 4. a) de tutores/as
únicos/as.

5. Se realiza una última fusión de la base de datos de los TFM con la base de datos del punto 3.

Finalmente ya tenemos la base de datos preparada y depurada para poder trabajar con ella y
aplicar distintos procedimientos. Se pueden ver las primeras filas de la base de datos en la Figura 7.1.

Figura 7.1: primeras filas de la base de datos final, ya depurada y estructurada sobre la que se realizará
todo el estudio.
48 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

7.2. Objetivos del estudio y análisis de la base de datos


La idea es considerar nuestra población de interés como los individuos que han estudiado o cursan
actualmente el MTE, cuya información tenemos recogida en la base de datos y emplear distintos
métodos de muestreo para responder a una serie de preguntas que listamos a continuación. Además
haremos la evaluación del error cometido (muestra vs. población).

1. ¿Los/as alumnos/as utilizan el correo institucional?

2. ¿Cuál es la proporción de alumnos/as qu proceden de la Universidade de Santiago de Compos-


tela?

3. Entre los/as alumnos/as de la titulación de Licenciatura y/o Grado en Matemáticas de la Uni-


versidade de Santiago de Compostela, ¿qué proporción de materias de estadística que ya han
visto en la carrera convalidan?

4. ¿Qué proporción de alumnos/as cursa la materia de muestreo?

5. ¿Cuál es la calificación media obtenida en las distintas materias incluidas en la base de datos?

Antes de adentrarnos en las tareas de muestreo realizamos un análisis descriptivo de la base de


datos para conocer más acerca de la información que contiene.
En la base de datos disponemos de 401 individuos para los que finalmente tenemos 23 variables,
las cuales hemos detallado en la Sección 7.1. Del total de los individuos, un 59.85 % habían estudiado
previamente en la Universidade de Santiago, un 9.22 % en la Universidade de Coruña, un 5.48 % en
la Universidade de Vigo y el 25.45 % restante proceden de otras universidades (tanto españolas como
extranjeras).
De los 401 individuos, 191 son egresados/as del MTE y 210 son alumnos/as en el vigente curso o
no habrían finalizado el MTE. La mitad de los individuos, un 50.87 %, utilizan un correo con dominio
gmail.com. En la Figura 7.2 se resumen estos datos.
La variable especialidad presenta 67 valores diferentes, hemos hecho una agrupación de las
mismas en seis categorías y cuyo resumen puede verse en la Figura 7.3. Destacar la clara proceden-
cia de Matemáticas y una cierta uniformidad en procedencia de Ciencias experimentales, Ciencias
políticas y sociales y Economía, mientras que hay muy poco alumnado de Ciencias de la salud.
Sobre la realización de los TFM sabemos que del total de individuos procedentes de la Uni-
versidade de Santiago de Compostela, un 38.75 %, realizó el TFM en la propia universidad, de los
procedentes de la Universidade de Coruña lo realizaron en la misma un 40.54 % y de los procedentes
de la Universidade de Vigo lo realizaron un 36.36 %.
En la Tabla 7.1 recogemos el porcentaje de individuos con titulación de procedencia Matemáticas
de la Universidade de Santiago de Compostela y que han convalidado las distintas materias; destacar
que el porcentaje de convalidaciones que se observa para la materia de Muestreo corresponde con
tres individuos procedentes de la Licenciatura de Matemáticas de la Universidade de Santiago de
Compostela, una convalidación poco habitual. Las calificaciones medias de las materias, teniendo
7.2. OBJETIVOS DEL ESTUDIO Y ANÁLISIS DE LA BASE DE DATOS 49

en cuenta tanto la calificación de individuos que las cursaron como de los que las convalidaron, se
recogen en la Tabla 7.2. Por último, mencionar que un 12.46 % de los individuos decidieron o deciden
cursan la materia optativa de Muestreo.

Figura 7.2: porcentajes de individuos de cada universidad de procedencia (primera fila); distribución
de número de egresados/as y alumnos/as (segunda fila); y porcentaje de uso de cada dominio de
correo electrónico (tercera fila).

Figura 7.3: categorías de especialidades.


50 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

Materia Porcentaje de convalidados


Estadística aplicada 44.18 %
Intro. Teoría de Juegos 49.41 %
Mod. Probabilidad 44.18 %
Mod. Regresión 46.51 %
Muestreo 1.74 %
Prog. Lin. y Entera 52.90 %

Tabla 7.1: porcentaje de individuos de la titulación de Licenciatura y/o Grado en Matemáticas de la


Universidade de Santiago de Compostela que convalidan cada materia, donde Intro. Teoría de Juegos:
Introducción a la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión:
Modelos de Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.

Materia Calificación media


Estadística aplicada 7.32
Intro. Teoría de Juegos 8.14
Mod. Probabilidad 6.83
Mod. Regresión 7.27
Muestreo 7.17
Prog. Lin. y Entera 7.71

Tabla 7.2: calificaciones medias de las asignaturas, donde Intro. Teoría de Juegos: Introducción a
la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de
Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.

7.3. Aplicación de los métodos de muestreo


Queremos dar respuesta a las preguntas listadas en la sección anterior, para ello, con la idea
de ilustrar todos los métodos de muestreo, seleccionaremos muestras de la población siguiendo los
diferentes procedimientos. Después realizaremos estimaciones de los parámetros de interés y calcu-
laremos los errores cometidos en algunos de los casos.
Partimos de nuestra población de 401 individuos y seleccionaremos en todos los casos muestras
de tamaño n = 100. Pasamos a explicar el proceso de selección/construcción de cada una de las
muestras:

Muestra aleatoria simple sin y con reemplazamiento.


En este caso estamos ante el método de muestreo mas sencillo de implementar. Para construir
la muestra seleccionaremos cien individuos de la población de forma aleatoria sin ninguna otra
restricción. Nos ayudamos de la función sample_n, con el atributo replace=TRUE para el caso
con reemplazamiento y replace=FALSE si deseamos la muestra sin reemplazamiento.
7.3. APLICACIÓN DE LOS MÉTODOS DE MUESTREO 51

Muestra estratificada sin y con reemplazamiento.


Este método de muestreo consiste en dividir la población en estratos, seleccionar una submues-
tra en cada estrato de tamaño proporcional al mismo y finalmente la unión de las submuestras
constituiría la muestra estratificada. En nuestro caso, hemos considerado cuatro estratos que
son: la Universidade de Santiago de Compostela, la Universidade de Coruña, la Universida-
de de Vigo y por último las restantes universidades de procedencia. Podemos comprobar que
los estratos cumplen la condición de ser homogéneos dentro de sí mismos (todos los indivi-
duos pertenecen a cierta universidad; característica común) y heterogéneos entre los demás
estratos (los individuos de cada universidad son diferentes a los de las demás universidades;
característica diferenciadora).
Para seleccionar la muestra de tamaño n = 100 teniendo en cuenta que las cuatro submues-
tras que la forman tienen que tener el tamaño proporcional a cada uno de los cuatro estratos,
necesitamos calcular los “subtamaños” aplicando la siguiente fórmula:
tamaño estrato · tamaño muestra
.
tamaño población
Por lo tanto cada submuestra tendría el tamaño:
240 · 100
• subuestra del estrato Universidade de Santiago de Compostela: = 60,
401
37 · 100
• subuestra del estrato Universidade de Coruña: = 9,
401
22 · 100
• subuestra del estrato Universidade de Vigo: = 6,
401
(401 − 240 − 37 − 22) · 100
• subuestra del estrato otras universidades: = 25.
401
Ahora seleccionamos las unidades que formarán parte de cada submuestra ayudándonos de
de la función sample_n, con el atributo replace=TRUE para el caso con reemplazamiento
y replace=FALSE para el caso sin reemplazamiento. Así, la muestra estratificada sin o con
reemplazamiento, será la unión de las submuestras estratificadas sin o con reemplazamiento,
respectivamente.

Muestra sistemática.
Para aplicar el muestreo sistemático, debemos numerar la población y seleccionar de forma
aleatoria una semilla δ entre los k primeros números tal que δ ∈ {1, 2, 3, ..., k} siendo N = n/k.
En nuestro caso el tamaño de la población es N = 401, la muestra que deseamos construir es
de tamaño n = 100, por lo tanto k = 4. El valor de la semilla ha sido δ = 2. Así seleccionamos
como primera unidad para formar parte de la muestra la que ocupa el lugar 2 y las 99 unidades
restantes se obtienen dando un salto de k = 4 unidades respecto de la primera, k = 4 unidades
respecto de la segunda y así sucesivamente, esto es, los individuos que ocupan las posiciones
2, 6, 10, 14... en la base de datos final.
52 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

Muestra por conglomerados.


Este método de muestreo consiste en dividir la población en conglomerados de igual tamaño
que representen fielmente a la población y posteriormente seleccionar de forma aleatoria los
conglomerados para formar la muestra. En nuestro caso constituimos los conglomerados de
tamaño 25 así seleccionando 4 conglomerados de forma aleatoria entre todos los que haya
tendremos nuestra muestra por conglomerados de tamaño n = 100.

Los conglomerados deben ser heterogéneos dentro de cada uno (individuos diferentes), homo-
géneos entre sí (todos los conglomerados son similares entre sí y a la población). Así en nuestro
caso, cada uno de los conglomerados que constituimos deberá tener la misma proporción de
individuos de cada universidad que la población. Tras los cálculos pertinentes, llegamos a que
los conglomerados deberán estar formados por 16 individuos de la Universidade de Santiago
de Compostela, 1 individuo de la Universidade de A Coruña, 1 individuo de la Universidade de
Vigo y 7 individuos de otras universidades. Dada la forma de nuestros datos, podemos cons-
tituir 15 conglomerados de tamaño 25 y un conglomerado donde se incluyen los individuos
restantes sin respetar las proporciones. Este conglomerado fue desechado para hacer la selec-
ción aleatoria de 4 conglomerados para formar la muestra estratificada de tamaño n = 100.

Una vez construidas todas las muestras procedimos a realizar los cálculos y estimaciones para
responder a las preguntas planteadas en la sección anterior.

1. ¿Los/as alumnos/as utilizan el correo institucional?

No, los/as alumnos/as utilizan mayoritariamente el correo personal, en particular el dominio


gmail.com tal y como podemos ver en la Tabla 7.3.

Muestra Dominio correo Porcentaje


Valor poblacional gmail.com 50.87 %
Aleatoria simple sin remplazamiento gmail.com 50 %
Aleatoria simple con remplazamiento gmail.com 48 %
Aleatoria estratificada sin reemplazamiento gmail.com 52 %
Aleatoria estratificada con reemplazamiento gmail.com 52 %
Sistemática gmail.com 50 %
Por conglomerados gmail.com 46 %

Tabla 7.3: porcentaje de dominio de correo electrónico usado mayoritariamente.

2. ¿Cuál es la proporción de alumnos/as que proceden de la Universidade de Santiago de Com-


postela?

Como puede verse en la Tabla 7.4 más del 50 % de los/as alumnos/as proceden de la Universi-
dade de Santiago de Compostela (valor poblacional).
7.3. APLICACIÓN DE LOS MÉTODOS DE MUESTREO 53

Cabe destacar que en el caso de las muestras estratificadas sin y con reemplazamiento, se
obtiene un 60 % como era lo esperado. Para la construcción de cada una de las muestras se
tuvo en cuenta que las cuatro submuestras que las forman tienen un tamaño proporcional a
cada uno de los estratos y recordemos que para el estrato de la Universidade de Santiago de
240 · 100
Compostela se tenía un tamaño para la submuestra correspondiente de = 60
401

Muestra Universidad de porcedencia Porcentaje


Valor poblacional Universidade de Santiago de Compostela 50.85 %
Aleatoria simple sin remplazamiento Universidade de Santiago de Compostela 65 %
Aleatoria simple con remplazamiento Universidade de Santiago de Compostela 62 %
Aleatoria estratificada sin remplazamiento Universidade de Santiago de Compostela 60 %
Aleatoria estratificada con remplazamiento Universidade de Santiago de Compostela 60 %
Sistemática Universidade de Santiago de Compostela 56 %
Por conglomerados Universidade de Santiago de Compostela 64 %

Tabla 7.4: porcentaje de procedencia de la Universidade de Santiago de Compostela.

3. Los/as alumnos/as de la titulación de Licenciatura y/o Grado en Matemáticas de la Universi-


dade de Santiago de Compostela, ¿qué proporción de materias de estadística que ya han visto
en la carrera convalidan?
Reflejamos en la Tabla 7.5 el porcentaje de alumnos que han convalidado cada materia. Recor-
demos que, para la materia de Muestreo se obtienen porcentajes diferentes de cero, debido a los
tres individuos procedentes de la Licenciatura de Matemáticas de la Universidade de Santiago
de Compostela presentes en la población.

Materia Población MAS MASR MAE MAER MS MC


Estadística aplicada 44.18 % 42.22 % 51.28 % 37.20 % 41.86 % 52.63 % 28.26 %
Intro. Teoría de Juegos 49.41 % 60 % 64.10 % 51.16 % 58.13 % 52.63 % 36.95 %
Mod. Probabilidad 44.18 % 42.22 % 51.28 % 34.8 % 39.53 % 50 % 28.26 %
Mod. Regresión 46.51 % 44.44 % 41.02 % 37.20 % 39.53 % 55.26 % 43.474 %
Muestreo 1.74 % 2.22 % 2.56 % 0% 0% 2.63 % 0%
Prog. Lin. y Entera 52.90 % 57.77 % 64.10 % 46.51 % 48.83 % 60.52 % 41.30 %

Tabla 7.5: porcentaje de individuos de la titulación de Licenciatura y/o Grado en Ma-


temáticas de la Universidade de Santiago de Compostela que convalidan cada materia,
donde MAS: Muestreo aleatorio simple sin reemplazamiento, MASR: Muestreo aleato-
rio simple con reemplazamiento, MAE: Muestreo aleatorio estratificado sin reemplaza-
miento, MAER: Muestreo aleatorio estratificado con reemplazamiento, MS: Muestreo
sistemático, MC: Muestreo por conglomereados, Intro. Teoría de Juegos: Introducción
a la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión:
Modelos de Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.
54 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

4. ¿Qué proporción de alumnos/as cursa la materia de Muestreo?

En la Tabla 7.6 vemos el porcentaje de individuos que cursan la materia de Muestreo, como
podemos comprobar, el porcentaje poblacional es bajo y además las estimaciones obtenidas
infraestiman ese valor.

Muestra Porcentaje
Valor poblacional 12.46 %
Aleatoria simple sin reemplazamiento 3.99 %
Aleatoria simple con reemplazamiento 2.74 %
Aleatoria estratificada sin reemplazamiento 2.99 %
Aleatoria estratificada con reemplazamiento 2.49 %
Sistemática 2.99 %
Por conglomerados 2.99 %

Tabla 7.6: porcentaje de individuos que cursan Muestreo.

5. ¿Cuál es la calificación media de las materias?

Mostramos las estimaciones de las notas medias para cada uno de los métodos de muestreo en
la Tabla 7.7 y sus errores cuadráticos medios en la Tabla 7.8, cuya definición puede verse en
(2.2).

Materia Población MAS MASR MAE MAER MS MC


Estadística aplicada 7.32 7.29 7.22 7.33 7.28 7.30 7.08
Intro. Teoría de Juegos 8.14 8.30 8.25 8.14 8.25 7.92 8.25
Mod. Probabilidad 6.83 6.83 6.61 6.79 6.75 6.16 6.90
Mod. Regresión 7.27 7.39 7.30 7.51 7.44 7.21 7.14
Muestreo 7.17 7.45 7.56 7.17 7.32 7.06 7.06
Prog. Lin. y Entera 7.71 7.69 7.54 7.77 7.83 7.59 7.79

Tabla 7.7: calificaciones medias de las materias, donde MAS: Muestreo aleatorio simple sin reem-
plazamiento, MASR: Muestreo aleatorio simple con reemplazamiento, MAE: Muestreo aleatorio
estratificado sin reemplazamiento, MAER: Muestreo aleatorio estratificado con reemplazamiento,
MS: Muestreo sistemático , MC: Muestreo por conglomerados, Intro. Teoría de Juegos: Introducción
a la Teoría de Juegos, Mod. Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de
Regresión y Prog. Lin. y Entera: Programación Lineal y Entera.
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 55

Materia MAS MASR MAE MAER MS MC


Estadística aplicada 0.047 0.905 0.015 0.113 0.037 5.780
Intro. Teoría de Juegos 2.598 1.289 0.006 1.348 4.471 1.187
Mod. Probabilidad 0.003 4.785 0.188 0.612 4.836 0.450
Mod. Regresión 1.599 0.133 5.940 2.910 0.368 1.691
Muestreo 8.121 15.449 0.0001 2.260 1.095 1.220
Prog. Lin. y Entera 0.059 2.985 0.270 1.254 1.576 0.532

Tabla 7.8: errores cuadráticos medios cometidos en las calificaciones medias de las materias, mul-
tiplicados por 100, donde MAS: Muestreo aleatorio simple sin reemplazamiento, MASR: Muestreo
aleatorio simple con reemplazamiento, MAE: Muestreo aleatorio estratificado sin reemplazamien-
to, MAER: Muestreo aleatorio estratificado con reemplazamiento, MS: Muestreo sistemático, MC:
Muestreo por conglomereados, Intro. Teoría de Juegos: Introducción a la Teoría de Juegos, Mod.
Probabilidad: Modelos de Probabilidad, Mod. Regresión: Modelos de Regresión y Prog. Lin. y En-
tera: Programación Lineal y Entera.

7.4. Pequeño estudio de simulación


Para finalizar hemos realizado un estudio de simulación para ilustrar el grado de precisión de los
distintos métodos. Se han generado 500 muestras de tamaño n = 100 para cada uno de los métodos
de muestreo. Con estas muestras estimamos la calificación media de la materia de Muestreo y el error
cuadrático medio del estimador media muestral bajo los distintos escenarios, para así conocer con
mayor precisión del error cometido.
La estimación de la calificación media se lleva a cabo calculando la media muestral para cada
una de las 500 muestras, de forma que tenemos la distribución del estimador para cada método de
muestreo (véase la Figura 7.4). En la Tabla 7.9 se recogen las medias y desviaciones típicas así como
el error cuadrático medio asociado.

Muestra Calificación media Desviación típica ECM


Aleatoria simple sin reemplazamiento 7.173 0.228 0.073
Aleatoria simple con reemplazamiento 7.166 0.252 0.063
Aleatoria estratificada sin reemplazamiento 7.149 0.191 0.037
Aleatoria estratificada con reemplazamiento 7.124 0.216 0.049
Sistemática 7.169 0.190 0.036
Por conglomerados 7.095 0.332 0.116

Tabla 7.9: estimación de la calificación media de Muestreo en las 500 muestras, junto con la desvia-
ción típica y el error cuadrático medio computado con muestras de tamaño n = 100.
56 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

A la vista de la Figura 7.4, en general, estamos obteniendo estimaciones para la media centradas
en el valor poblacional de la misma. No ocurre esto para el muestreo sistemático, que como podemos
comprobar en su gráfica, este método de muestreo solo estima 4 valores para la media debido a los
posibles valores que puede tomar la semilla δ ∈ {1, 2, 3, 4} (ver Sección 7.3, muestra sistemática).
A pesar de ello podemos observar en la Tabla 7.9 que es el método de muestreo con menor error
cuadrático medio. Le siguen con menor error cuadrático medio ambos muestreos estratificados y las
“peores estimaciones” para la media vendrían dadas por el muestreo por conglomerados, cuyo error
cuadrático medio es el más alto.

Figura 7.4: histograma de calificaciones medias de la materia Muestreo para cada una de las 500
muestras simuladas de tamaño n = 100.

Opciones de mejora
Para ver el comportamiento de los distintos métodos podríamos hacer el estudio de simulación
para diferentes tamaños muestrales (n = 20, 50, 100, 500, 1000), así comprobaríamos también si al-
guno tiene especiales problemas para muestras pequeñas o si al variar los tamaños muestrales se
reduce el error, aproximándose según este aumente, el estimador al valor poblacional.
Por otra parte, podríamos considerar más variables y estimadores como el de la proporción o el
de la varianza. Un estudio más amplio permitiría profundizar más sobre las características de cada
tipo de muestreo.
También se podrían proponer otros criterios de error para validar los resultados, además del error
cuadrático medio, como puede ser el error absoluto.
Agradecimientos
Me gustaría agradecer en primer lugar, a mi tutora, Maribel Borrajo García, por aceptar mi pro-
puesta, por guiarme y ayudarme con tanta paciencia a lo largo de este trabajo, así como su ayuda
para conseguir la base de datos utilizada.
También quiero agradecer a Julio González Díaz, coordinador del Máster Interuniversitario en
Técnicas Estadísticas (MTE) por permitirme emplear datos del mismo y a María José Ginzo Villama-
yor por el trabajo realizado en anonimizar y proporcionarme los datos que me han permitido aplicar
las técnicas de muestreo aprendidas.

57
Código de R para el análisis de datos
realizado en el Capítulo 7

#Lectura de la base de datos y carga de paquetes


library(dplyr)
library(stringr)
library(ggplot2)
library(gridExtra)

datos <- read.csv("BBDD_MTE_TFG_muestreo.csv")

################################################################################
### ANALISIS DE LA BASE DE DATOS ###############################################

#Agrupación por universida de procedencia


USC= datos[which(datos$uniprod==’Universidad de Santiago de Compostela’),]
UDC= datos[which(datos$uniprod==’Universidad de Coruña’),]
UVIGO = datos[which(datos$uniprod==’Universidade de Vigo’),]
OTRAS = datos[which(datos$uniprod!=’Universidad de Santiago de Compostela’
& datos$uniprod!=’Universidad de Coruña’
& datos$uniprod!=’Universidade de Vigo’),]

#Egresados
length(which(datos$egresado==1))
length(which(datos$egresado==0))

#Notas medias
notas_medias = colMeans((datos %>% select(starts_with("Nota"))), na.rm = TRUE)

#Especialidades
(table(datos$especialidad))
df_especialidades <- data.frame(Categoria =c("Matemáticas",

59
60 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

"Ciencias políticas y sociales",


"Ciencias experimentales",
"Ciencias de la salud","Economía",
"Ingenierías", "Sin dato")
,Total=c(218,45,46,9,45,34,7))

#Correo mas utilizado


correo_ = table(datos$correo)[which.max(table(datos$correo))]*100/401

#Procedencia mas comun y porcentaje universidades gallegas


procedencia = table(datos$uniprod)[which.max(table(datos$uniprod))]

length((which(datos$uniprod==’Universidad de Santiago de Compostela’)))/


length(datos$uniprod)*100
length((which(datos$uniprod==’Universidad de Coruña’)))/
length(datos$uniprod)*100
length((which(datos$uniprod==’Universidade de Vigo’)))/
length(datos$uniprod)*100
(100 -length((which(datos$uniprod==’Universidad de Santiago de Compostela’)))/
length(datos$uniprod)*100
-length((which(datos$uniprod==’Universidad de Coruña’)))/
length(datos$uniprod)*100
-length((which(datos$uniprod==’Universidade de Vigo’)))/
length(datos$uniprod)*100)

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas = datos[which(datos$especialidad == "Matemáticas" &
datos$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas = matematicas %>% select(starts_with("Info"))
infos_notas = infos_notas[,-7]
for (c in colnames(infos_notas)){
cat(c, ":", (length(which( infos_notas[,c] == "CONV"))/nrow(matematicas))*100,
"\n")}

#Tendencia tfg
length(which(datos$universidad == "USC" &
datos$uniprod == "Universidad de Santiago de Compostela")) /
length((which(datos$uniprod==’Universidad de Santiago de Compostela’)))*100

length(which(datos$universidad == "UDC" &


7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 61

datos$uniprod==’Universidad de Coruña’)) /
length((which(datos$uniprod==’Universidad de Coruña’)))*100

length(which(datos$universidad == "UVIGO"
& datos$uniprod==’Universidade de Vigo’)) /
length((which(datos$uniprod==’Universidade de Vigo’))) *100

#Porcentaje que cursan muestreo


cursan_muestreo = (401-sum(is.na(datos$Info.Nota.M)))/length(datos$Nota.M)*100

################################################################################
### MUESTREO ALEATORIO SIMPLE SIN REMPLAZAMIENETO###############################

nrow(datos)
set.seed(2304)
muestreo_AS <- sample_n(datos,size = 100)

#Notas medias
notas_medias_AS = colMeans((muestreo_AS %>% select(starts_with("Nota"))),
na.rm = TRUE)

#Correo mas utilizado


correo_AS = table(muestreo_AS$correo)[which.max(table(muestreo_AS$correo))]

#Procedencia mas comun


procedencia_AS = table(muestreo_AS$uniprod)[which.max(table(muestreo_AS$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_AS = muestreo_AS[which(muestreo_AS$especialidad == "Matemáticas"
& muestreo_AS$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_AS = matematicas_AS %>% select(starts_with("Info"))
infos_notas_AS = infos_notas_AS[,-7]

for (c in colnames(infos_notas_AS)){
cat(c, ":",length(which( infos_notas_AS[,c] == "CONV"))/nrow(matematicas_AS)*100,
"\n")}

#Porcentaje que cursan muestreo


62 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

cursan_muestreo_AS=(100-sum(is.na(muestreo_AS$Info.Nota.M)))/
length(datos$Nota.M)*100

################################################################################
### MUESTREO ALEATORIO SIMPLE CON REMPLAZAMIENETO###############################

nrow(datos)
set.seed(2304)
muestreo_ASR <- sample_n(datos,size = 100, replace=TRUE)
table(muestreo_ASR$id_persona) #unidades repetidas

#Notas medias
notas_medias_ASR = colMeans((muestreo_ASR %>% select(starts_with("Nota"))),
na.rm = TRUE)

#Correo mas utilizado


correo_ASR = table(muestreo_ASR$correo)[which.max(table(muestreo_ASR$correo))]

#Procedencia mas comun y universidades gallegas


procedencia_ASR = table(muestreo_ASR$uniprod)[which.max(table(muestreo_ASR$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_ASR = muestreo_ASR[which(muestreo_ASR$especialidad == "Matemáticas" &
muestreo_ASR$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_ASR = matematicas_ASR %>% select(starts_with("Info"))
infos_notas_ASR = infos_notas_ASR[,-7]

for (c in colnames(infos_notas_ASR)){
cat(c, ":",length(which( infos_notas_ASR[,c] == "CONV"))/nrow(matematicas_ASR) *100,
"\n")}

#Porcentaje que cursan muestreo


cursan_muestreo_ASR=(100-sum(is.na(muestreo_ASR$Info.Nota.M)))/
length(datos$Nota.M)*100
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 63

################################################################################
### MUESTREO ALEATORIO ESTRATIFICADO SIN REMPLAZAMIENTO#########################

#Creacion de estratos (universidades)


#Tamano muestra = 100
#Tamano de las submuestras proporcional al tamano de los estratos por univerisades
#(tamano estrtatos)*(tamano muestra)/tamano poblacion
tamano_s1=round(length((which(datos$uniprod==’Universidad de Santiago de Compostela’
)))*100/length(datos$uniprod)); tamano_s1
tamano_s2=round(length((which(datos$uniprod==’Universidad de Coruña’)))*100/
length(datos$uniprod)); tamano_s2
tamano_s3=round(length(which(datos$uniprod==’Universidade de Vigo’))*100/
length(datos$uniprod))+1; tamano_s3
tamano_s4 = round(length(which(datos$uniprod!=’Universidad de Santiago de Compostela’
& datos$uniprod!=’Universidad de Coruña’
& datos$uniprod!=’Universidade de Vigo’))*100/length(datos$uniprod)); tamano_s4

#Seleccion de las unidades para formar parte de la muestra. Formacion de las


#submuestras con MAS SIN reemplazamiento
set.seed(2304)
s1=sample_n(datos[which(datos$uniprod==’Universidad de Santiago de Compostela’),]
,size= tamano_s1)
set.seed(2304)
s2=sample_n(datos[which(datos$uniprod==’Universidad de Coruña’),],
size= tamano_s2)
set.seed(2304)
s3=sample_n(datos[which(datos$uniprod==’Universidade de Vigo’),],
size= tamano_s3)
set.seed(2304)
s4=sample_n(datos[which(datos$uniprod!=’Universidad de Santiago de Compostela’
& datos$uniprod!=’Universidad de Coruña’
& datos$uniprod!=’Universidade de Vigo’),],size= tamano_s4)
#Muestra estratificada
muestreo_E <- rbind(s1,s2,s3,s4)

#Notas medias
notas_medias_E = colMeans((muestreo_E %>% select(starts_with("Nota"))),
na.rm = TRUE)
64 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

#Correo mas utilizado


correo_E = table(muestreo_E$correo)[which.max(table(muestreo_E$correo))]

#Procedencia mas comun


procedencia_E = table(muestreo_E$uniprod)[which.max(table(muestreo_E$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_E = muestreo_E[which(muestreo_E$especialidad == "Matemáticas"
& muestreo_E$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_E = matematicas_E %>% select(starts_with("Info"))
infos_notas_E = infos_notas_E[,-7]

for (c in colnames(infos_notas_E)){
cat(c, ":", length(which( infos_notas_E[,c] == "CONV" )) /nrow(matematicas_E)*100,
"\n")}

#Porcentaje que cursan muestreo


cursan_muestreo_E=(100-sum(is.na(muestreo_E$Info.Nota.M)))/
length(datos$Nota.M)*100

################################################################################
### MUESTREO ALEATORIO ESTRATIFICADO CON REMPLAZAMIENTO#########################

#Creacion de estratos (universidades)


#Tamano muestra = 100
#Tamano de las submuestras proporcional al tamano de los estratos por univerisades
tamano_s1
tamano_s2
tamano_s3
tamano_s4

#Seleccion de las unidades para formar parte de la muestra. Formacion de las


#submuestras con MAS CON reemplazamiento
set.seed(2304)
s1_R=sample_n(datos[which(datos$uniprod==’Universidad de Santiago de Compostela’),],
size= tamano_s1, replace=TRUE)
set.seed(2304)
s2_R=sample_n(datos[which(datos$uniprod==’Universidad de Coruña’),],
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 65

size= tamano_s2, replace=TRUE)


set.seed(2304)
s3_R=sample_n(datos[which(datos$uniprod==’Universidade de Vigo’),],
size= tamano_s3, replace=TRUE)
set.seed(2304)
s4_R=sample_n(datos[which(datos$uniprod!=’Universidad de Santiago de Compostela’
& datos$uniprod!=’Universidad de Coruña’
& datos$uniprod!=’Universidade de Vigo’),],
size= tamano_s4, replace=TRUE)

#Muestra estratificada
muestreo_ER <- rbind(s1_R,s2_R,s3_R,s4_R)

#Notas medias
notas_medias_ER = colMeans((muestreo_ER %>% select(starts_with("Nota"))),
na.rm = TRUE)

#Correo mas utilizado


correo_ER = table(muestreo_ER$correo)[which.max(table(muestreo_ER$correo))]

#Procedencia mas comun


procedencia_ER = table(muestreo_ER$uniprod)[which.max(table(muestreo_ER$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_ER = muestreo_ER[which(muestreo_ER$especialidad == "Matemáticas"
& muestreo_ER$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_ER = matematicas_ER %>% select(starts_with("Info"))
infos_notas_ER = infos_notas_ER[,-7]

for (c in colnames(infos_notas_ER)){
cat(c, ":", length(which( infos_notas_ER[,c] == "CONV" )) /nrow(matematicas_ER)*100
"\n")}

#Porcentaje que cursan muestreo


cursan_muestreo_ER=(100-sum(is.na(muestreo_ER$Info.Nota.M)))/
length(datos$Nota.M)*100
66 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

################################################################################
### MUESTREO SISTEMATICO #######################################################

#Definicion del salto k = N/n y semilla delta /in {1,2,...,k}


#N tamano de la poblacion
N = length(datos$id_persona)
#n tamano de la muestra 100
n=100
#salto
k = floor(N/n);k
# semilla
delta_valores = seq(1,k,1)
set.seed(2304)
delta = sample(delta_valores, size=1);delta

#Selecion de las unidades para fromar parte de la muestra


unidades_sistematicas=seq(delta,delta+99*k,k); unidades_sistematicas

#Muestra sistematica
muestreo_S =datos[unidades_sistematicas,]

#Notas medias
notas_medias_S = colMeans((muestreo_S %>% select(starts_with("Nota"))),
na.rm = TRUE)

#Correo mas utilizado


correo_S = table(muestreo_S$correo)[which.max(table(muestreo_S$correo))]

#Procedencia mas comun


procedencia_S = table(muestreo_S$uniprod)[which.max(table(muestreo_S$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_S = muestreo_S[which(muestreo_S$especialidad == "Matemáticas"
& muestreo_S$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_S = matematicas_S %>% select(starts_with("Info"))
infos_notas_S = infos_notas_S[,-7]
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 67

for (c in colnames(infos_notas_S)){
cat(c, ":", length(which( infos_notas_S[,c] == "CONV" )) /nrow(matematicas_S)*100,
"\n")}

#Porcentaje que cursan muestreo


cursan_muestreo_S=(100-sum(is.na(muestreo_S$Info.Nota.M)))/length(datos$Nota.M)*100

################################################################################
### MUESTREO POR CONGLOMERADOS #################################################

#Formacion de los conglomerados POR UNIVERSIDADES


#conglomerados por univerisdades, cada conglomerado representa a la poblacion
#cada conglomerado esta fromado por el mismo nuvero de individuos de cada
#universidad distribuimos los alumnos en grupos de 25 (tamano deseado
#de conglomerado), seleccionado de cada universidad el numero de
#alumnos correspondiente segun los siguientes calculos:
pob=c(240,28,22,111)
pob/401
floor(pob/401*27) #16+1+1+7 = 25 tamano conglomerado
#utilizamos 27 para la division para mejorar la exactitud de la reaparticion

#tamano de los conglomerados 25


#tamano poblacion 401 -> 16 conglomerados de tamano 25 (sobra 1)
#tamano muestra 100 -> 4 conglomerados de tamano 25
USC= datos[which(datos$uniprod==’Universidad de Santiago de Compostela’),]
UDC= datos[which(datos$uniprod==’Universidad de Coruña’),]
UVIGO = datos[which(datos$uniprod==’Universidade de Vigo’),]
OTRAS = datos[which(datos$uniprod!=’Universidad de Santiago de Compostela’
& datos$uniprod!=’Universidad de Coruña’
& datos$uniprod!=’Universidade de Vigo’),]

C1 = rbind(USC[1:16,], UDC[1,],UVIGO[1,],OTRAS[1:7,])
C2 = rbind(USC[17:32,], UDC[2,],UVIGO[2,],OTRAS[8:14,])
C3 = rbind(USC[33:48,], UDC[3,],UVIGO[3,],OTRAS[15:21,])
C4 = rbind(USC[49:64,], UDC[3,],UVIGO[4,],OTRAS[22:28,])
C5 = rbind(USC[65:80,], UDC[5,],UVIGO[5,],OTRAS[29:35,])
C6 = rbind(USC[81:96,], UDC[6,],UVIGO[6,],OTRAS[36:42,])
68 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

C7 = rbind(USC[97:112,], UDC[7,],UVIGO[7,],OTRAS[43:49,])
C8 = rbind(USC[113:128,], UDC[8,],UVIGO[8,],OTRAS[50:56,])
C9 = rbind(USC[129:144,], UDC[9,],UVIGO[9,],OTRAS[57:63,])
C10 = rbind(USC[145:160,], UDC[10,],UVIGO[10,],OTRAS[64:70,])
C11 = rbind(USC[161:176,], UDC[11,],UVIGO[11,],OTRAS[71:77,])
C12 = rbind(USC[177:192,], UDC[12,],UVIGO[12,],OTRAS[78:84,])
C13 = rbind(USC[193:208,], UDC[13,],UVIGO[13,],OTRAS[85:91,])
C14 = rbind(USC[209:224,], UDC[14,],UVIGO[14,],OTRAS[92:98,])
C15 = rbind(USC[225:240,], UDC[15,],UVIGO[15,],OTRAS[99:105,])
C16_basura = rbind( UDC[16:28,],UVIGO[16:22,],OTRAS[106:111,])

conglomerados = list(C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,
C11,C12,C13,C14,C15)

#Muestra por conglomerados


set.seed(2304)
congl <- sample(1:length(conglomerados),4)
muestreo_C = do.call("rbind",rbind(conglomerados[congl]))

#Notas medias
notas_medias_C = colMeans((muestreo_C %>% select(starts_with("Nota"))),
na.rm = TRUE)

#Correo mas utilizado


correo_C = table(muestreo_C$correo)[which.max(table(muestreo_C$correo))]

#Procedencia mas comun


procedencia_C = table(muestreo_C$uniprod)[which.max(table(muestreo_C$uniprod))]

#Porcentaje convalidaciones si especialidad=Matematicas & uniprod=USC


matematicas_C = muestreo_C[which(muestreo_C$especialidad == "Matemáticas"
& muestreo_C$uniprod == "Universidad de Santiago de Compostela"),]
infos_notas_C = matematicas_C %>% select(starts_with("Info"))
infos_notas_C = infos_notas_C[,-7]

for (c in colnames(infos_notas_C)){
cat(c, ":", length(which( infos_notas_C[,c] == "CONV" )) /nrow(matematicas_C)*100
,"\n")}

#Porcentaje que cursan muestreo


7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 69

cursan_muestreo_C=(100-sum(is.na(muestreo_C$Info.Nota.M)))/length(datos$Nota.M)*100

################################################################################
### ERRORES DE MUESTREO ########################################################

#Errores cuadraticos
e_cuadratico_AS_medias = abs(notas_medias - notas_medias_AS)^2*100
e_cuadratico_ASR_medias = abs(notas_medias - notas_medias_ASR)^2*100
e_cuadratico_E_medias = abs(notas_medias - notas_medias_E)^2*100
e_cuadratico_ER_medias = abs(notas_medias - notas_medias_ER)^2*100
e_cuadratico_S_medias = abs(notas_medias - notas_medias_S)^2*100
e_cuadratico_C_medias = abs(notas_medias - notas_medias_C)^2*100

################################################################################
### SIMULACION DE 500 MUESTRAS Y SUS ERRORES PARA ANALIZAR LA NOTA DE MUESTREO##

###################################################
#500 muestras aleatorias simples sin remplazamiento

set.seed(2304)
matAS <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
idx <- sample(1:(dim(datos)[1]),size = 100, replace=FALSE )

matAS[,i ] <- datos[idx,j]


}

medias_500_mas = apply(matAS,2,mean,na.rm=TRUE)
mean(medias_500_mas)
sd(medias_500_mas)

mu = mean(datos$Nota.EA, na.rm=TRUE)
70 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

error_mas_500 = mean((medias_500_mas - mu)^2 ); error_mas_500

###################################################
#500 muestras aleatorias simples con remplazamiento

set.seed(2304)
matASR <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
idx <- sample(1:(dim(datos)[1]),size = 100, replace=TRUE )

matASR[,i ] <- datos[idx,j]


}

medias_500_masr = apply(matASR,2,mean,na.rm=TRUE)
mean(medias_500_masr)
sd(medias_500_masr)

mu = mean(datos$Nota.M, na.rm=TRUE)

error_masr_500 = mean((medias_500_masr - mu)^2 ); error_masr_500

##########################################################
#500 muestras aleatorias estratificadas sin remplazamiento

set.seed(2304)
matE <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
#Estratos
s1=sample(1:(dim(USC)[1]),size = tamano_s1, replace=FALSE)
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 71

s2=sample(1:(dim(UDC)[1]),size = tamano_s2, replace=FALSE)


s3=sample(1:(dim(UVIGO)[1]),size = tamano_s3, replace=FALSE)
s4=sample(1:(dim(OTRAS)[1]),size = tamano_s4, replace=FALSE)

idx <- c(s1,s2,s3,s4)

matE[,i ] <- datos[idx,j]


}

medias_500_mae = apply(matE,2,mean,na.rm=TRUE)
mean(medias_500_mae)
sd(medias_500_mae)

mu = mean(datos$Nota.M, na.rm=TRUE)

error_mae_500 = mean((medias_500_mae - mu)^2 ); error_mae_500

##########################################################
#500 muestras aleatorias estratificadas con remplazamiento

set.seed(2304)
matER <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
#Estratos
s1=sample(1:(dim(USC)[1]),size = tamano_s1, replace=TRUE)
s2=sample(1:(dim(UDC)[1]),size = tamano_s2, replace=TRUE)
s3=sample(1:(dim(UVIGO)[1]),size = tamano_s3, replace=TRUE)
s4=sample(1:(dim(OTRAS)[1]),size = tamano_s4, replace=TRUE)

idx <- c(s1,s2,s3,s4)

matER[,i ] <- datos[idx,j]


}
72 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

medias_500_maer = apply(matER,2,mean,na.rm=TRUE)
mean(medias_500_maer)
sd(medias_500_maer)
mu = mean(datos$Nota.M, na.rm=TRUE)

error_maer_500 = mean((medias_500_maer - mu)^2 ); error_maer_500

##########################
#500 muestras sistematicas

set.seed(2304)
matS <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
#N tamano de la poblacion
N = length(datos$id_persona)
#n tamano de la muestra 100
n=100
#salto
k = floor(N/n)
#semilla
delta_valores = seq(1,k,1)
delta = sample(delta_valores, size=1)

#Selecion de las unidades para fromar parte de la muestra


idx <- seq(delta,delta+99*k,k);

matS[,i ] <- datos[idx,j]


}

medias_500_ms= apply(matS,2,mean,na.rm=TRUE)
mean(medias_500_ms)
sd(medias_500_ms)

mu = mean(datos$Nota.M, na.rm=TRUE)
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 73

error_ms_500 = mean((medias_500_ms[] - mu)^2 ); error_ms_500

###########################
#500 muestras conglomerados

set.seed(2304)
matC <- matrix(NA, nrow = 100, ncol = 500)

dat <- data.frame

j=16 #datos$Nota.M

for (i in 1:500) {
#Conglomerados
congl <- sample(1:length(conglomerados),4)

idx <- do.call("rbind",rbind(conglomerados[congl]))

matC[,i ] <- idx[,j]


}

medias_500_mc = apply(matC,2,mean,na.rm=TRUE)
mean(medias_500_mc)
sd(medias_500_mc)

mu = mean(datos$Nota.M, na.rm=TRUE)

error_mc_500 = mean((medias_500_mc - mu)^2 ); error_mc_500

###############################################################
######################## Graficas #############################

#Grafico de barras especialidades


ggplot(df_especialidades)+
geom_bar(aes(x=Categoria, y=Total, fill=Categoria), stat="identity") +
labs(y="", x= "") +
theme(axis.text.x = element_blank(),
74 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

axis.ticks.x = element_blank())

#Graficos base de datos. Descriptiva por grupos


#Fila 1
table(datos$uniprod)
unis <- c("Universidad de Santiago de Compostela",
"Universidad de Coruña", "Universidad de Vigo", "Otras")
df <- data.frame(Universidad = factor(unis,
levels=c("Universidad de Santiago de Compostela",
"Universidad de Coruña",
"Universidad de Vigo", "Otras")),
total=c(240,37,22,102))

plot1<-ggplot(df, aes(y="",x=total, fill=Universidad))+


geom_bar(width = 1, stat = "identity") +
labs(y="", x= "",title="Universidad de procedencia") +
geom_text(aes(x = c(50,113,145,285), label = c("25.45%","5.48%", "9.22%",
"59.85%")),y ="", check_overlap = TRUE) +
theme_void()+
theme(legend.position = "bottom",
legend.title = element_blank(),
legend.text = element_text(size=15),
plot.title = element_text(size = 20)) +
guides(fill = guide_legend(nrow=1, byrow = TRUE))

#Fila 2
table(datos$egresado)
df2 <- data.frame(Egresado=c("Egresados/as", "Alumnos/as"),
total=c(191,210))

plot2<-ggplot(df2, aes(y="",x=total, fill=Egresado))+


geom_bar(width = 1, stat = "identity") +
labs(y="", x= "",title="Egresados/as-Alumnos/as") +
geom_text(aes(x = c(100,300), label = c(191,210)), y ="", check_overlap=TRUE) +
theme_void()+
theme(legend.position = "bottom",
legend.title = element_blank(),
legend.text = element_text(size=15),
plot.title = element_text(size = 20)) +
guides(fill = guide_legend(nrow=1, byrow = TRUE))
7.4. PEQUEÑO ESTUDIO DE SIMULACIÓN 75

#Fila 3
table(datos$correo)
df3 <- data.frame(Correo=c("gmail.com", "hotmail.com","usc.es","udc.es",
"uvigo.es","Otros"), total=c(204,71,58,24,3,41))

plot3<-ggplot(df3, aes(y="",x=total, fill=Correo))+


geom_bar(width = 1, stat = "identity") +
labs(y="", x= "",title="Dominio de correo electronico") +
geom_text(aes(x = c(300,165,35,74,4,105), label = c("50.87%","17.70%",
"14.64%","5.98%","0.74%","10.22%")),
y ="", check_overlap = TRUE) +
theme_void()+
theme(legend.position = "bottom",
legend.title = element_blank(),
legend.text = element_text(size=15),
plot.title = element_text(size = 20)) +
guides(fill = guide_legend(nrow=1, byrow = TRUE))

grid.arrange(plot1,plot2,plot3)

#Histogramas simulación
medias_simulacion <- c(medias_500_mas, medias_500_masr, medias_500_mae,
medias_500_maer, medias_500_ms, medias_500_mc)
muestreos_simulacion <- c(
rep("Muestreo aleatorio simple sin reemplazamiento",500),
rep("Muestreo aleatorio simple con reemplazamiento",500),
rep("Muestreo aleatorio estratificado sin reemplazamiento",500),
rep("Muestreo aleatorio estratificado con reemplazamiento",500),
rep("Muestreo sistemático",500),
rep("Muestreo por conglomerados",500))
df_simulacion <- data.frame(calificaciones = medias_simulacion,
tipos = factor(muestreos_simulacion,
levels = c( "Muestreo aleatorio simple sin reemplazamiento",
"Muestreo aleatorio simple con reemplazamiento",
"Muestreo aleatorio estratificado sin reemplazamiento",
"Muestreo aleatorio estratificado con reemplazamiento",
76 CAPÍTULO 7. ESTUDIO DE UN CASO PRÁCTICO

"Muestreo sistemático",
"Muestreo por conglomerados")))

ggplot(df_simulacion, aes(x = calificaciones, fill = tipos))+


geom_histogram(colour="black", bins = 20) +
geom_vline(xintercept = mu , size = 1.5) +
facet_wrap(~tipos, scales = "free") +
theme(legend.position = "none") +
labs(y = "", x = "Calificaciones")

################################################################################
Referencias

Alba, V., y Ruiz, N. (2006). Muestreo estadístico en poblaciones finitas. Septem Ediciones.

Azorín-Poch, F. (1969). Curso de muestreo y aplicaciones. Aguilar.

Bethlehem, J. (2009). The rise of survey sampling. Statistics Netherlands.

Cid-Cid, A. I., Delgado-Manríquez, C. A., y Leguey-Galán, S. (1999). Introducción al muestreo en


poblaciones finitas. Editorial Nuevas Estructuras.

Fernández-García, F. R., y Mayor-Gallego, J. A. (1995). Muestreo en poblaciones finitas: curso


básico. EUB.

Graunt, J. (1662). Natural and political observations upon the bills of mortality. Martyn, London.

Hansen, M. H., y Hurwitz, W. N. (1943). On the theory of sampling from finite populations. The
Annals of Mathematical Statistics, 14(4), 333–362.

Horvitz, D. G., y Thompson, D. J. (1952). A generalization of sampling without replacement from


a finite universe. Journal of the American statistical Association, 47(260), 663–685.

Kiaer, A. N. (1895). Observations et expériences concernant des dénombrements représentatifs.


Bulletin of the International Statistical Institute, XI(2), 176–183.

Mendenhall, W., Scheaffer, R. L., y Lyman Ott, R. (2006). Elementos de muestreo. Editorial
Paraninfo.

Neyman, J. (1934). On the two different aspects of the representative method: the method of strati-
faied sampling and the metohd of purprosive selection. Journal of the Royal Statistical Society,
97, 558–606.

Pérez-López, C. (2005). Muestreo estadístico: conceptos y problemas resueltos. Pearson Pretince


Hall.

Pérez-López, C. (2010). Técnicas de muestreo estadístico. Ibergaceta.

Sheldon, M. R. (2010). A first course in probability. Pearson Prenttice Hall.

Sánchez-Crespo, J. (1984). Curso intensivo de muestreo en poblaciones finitas. INE.

77

También podría gustarte