Concepto de Población y Muestra
Concepto de Población y Muestra
Concepto de Población y Muestra
Una poblacin se precisa como un conjunto finito o infinito de personas u objetos que presentan caractersticas comunes. Destacamos algunas definiciones: "Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una poblacin es un conjunto de elementos que presentan una caracterstica comn". Cadenas (1974). El tamao que tiene una poblacin es un factor de suma importancia en el proceso de investigacin estadstica y en nuestro caso social, y este tamao vienen dados por el nmero de elementos que constituyen la poblacin, segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por un limitado nmero de elementos, por ejemplo; el nmero de habitantes de una comarca. Cuando la poblacin es muy grande, es obvio que la observacin y/o medicin de todos los elementos se multiplica la complejidad, en cuanto al trabajo, tiempo y costos necesarios para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadstica.
Es a menudo imposible o poco prctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado poblacin o universo, se examina una pequea parte del grupo denominada muestra. Muestra: La muestra es una representacin significativa de las caractersticas de una poblacin, que bajo, la asuncin de un error (generalmente no superior al 5%) estudiamos las caractersticas de un conjunto poblacional mucho menor que la poblacin global. "Se llama muestra a una parte de la poblacin a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una coleccin de algunos elementos de la poblacin, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la poblacin determinada, y las conclusiones que se obtengan de dicha muestra solo podrn referirse a la poblacin en referencia", Cadenas (1974). Por ejemplo estudiamos los valores sociales de una poblacin de 5000 habitantes aprox., entendemos que sera de gran dificultad poder analizar los valores sociales de todos ellos, por ello, la estadstica nos dota de una herramienta que es la muestra para extraer un conjunto de poblacin que represente a la globalidad y sobre la muestra realizar el estudio. Una muestra representativa contiene las caractersticas relevantes de la poblacin en las mismas proporciones que estn incluidas en tal poblacin. Los expertos en estadstica recogen datos de una muestra. Utilizan esta informacin para hacer referencias sobre la poblacin que est representada por
la muestra. En consecuencia muestra y poblacin son conceptos relativos. Una poblacin es un todo y una muestra es una fraccin o segmento de ese todo. Tcnicas de Muestreo: Esto no es ms que el procedimiento empleado para obtener una o ms muestras de una poblacin; el muestreo es una tcnica que sirve para obtener una o ms muestras de poblacin. Este se realiza una vez que se ha establecido un marco muestral representativo de la poblacin, se procede a la seleccin de los elementos de la muestra aunque hay muchos diseos de la muestra. Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra. Tipos de muestreo Existen dos mtodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En este ltimo todos los elementos de la poblacin tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la poblacin. Algunas veces una muestra de juicio se usa como gua o muestra tentativa para decidir como tomar una muestra aleatoria ms adelante. Las muestras de juicio evitan el anlisis estadstico necesario para hacer muestras de probabilidad.
PRUEBAS PARA DOS MUESTRAS RELACIONADAS Estos contrastes permiten comprobar si hay diferencias entre las distribuciones de dos poblaciones a partir de dos muestras dependientes o relacionadas; es decir, tales que cada elemento de una muestra est emparejado con un elemento de la otra, de tal forma que los componentes de cada pareja se parezcan entre s
lo ms posible por lo que hace referencia a un conjunto de caractersticas que se consideran relevantes. Tambn es posible que cada elemento de una muestra acte como su propio control. Algunas de las pruebas que pueden realizarse con el programa SPSS son: la prueba de Wilcoxon, la de signos y la de McNemar.
PRUEBA DE SUMA DE RANGOS DE WILCOXON Cuando se trata de variables medibles en por lo menos una escala ordinal y pueden suponerse poblaciones contnuas la prueba no paramtrica ms potente es la de Wilcoxon. La hiptesis nula del contraste postula que las muestras proceden de poblaciones con la misma distribucin de probabilidad; la hiptesis alternativa establece que hay diferencias respecto a la tendencia central de las poblaciones y puede ser direccional o no. El contraste se basa en el comportamiento de las diferencias entre las puntuaciones de los elementos de cada par asociado, teniendo en cuenta no slo el signo, sino tambin la magnitud de la diferencia. Sea la diferencia entre las puntuaciones de la pareja i-sima; si alguna de estas diferencias es nula la pareja correspondiente se elimina del anlisis, de forma que el tamao de la muestra es n, el nmero de diferencias no nulas. A continuacin se asignan rangos desde 1 hasta n atendiendo nicamente al valor absoluto de las di y se suman los rangos correspondientes a las diferencias positivas y a las diferencias negativas por separado. Si la hiptesis nula es cierta, X e Y tienen el mismo valor central y es de esperar que los rangos se distribuyan aleatoriamente entre las diferencias positivas y negativas y, por tanto, que ambas sumas de rangos sean aproximadamente iguales. El estadstico de prueba, T, es la menor de las dos sumas de rangos. Cuando n > 15 la distribucin muestral de T bajo el supuesto de que H0 es cierta se aproxima a una normal de parmetros:
El estadstico de prueba es el valor Z: que se distribuye segn una normal tipificada. Para el nivel de significacin deseado se rechazar la hiptesis nula si Z pertenece a la regin crtica localizada en las dos colas o en una cola de la normal tipificada, segn la naturaleza de la hiptesis alternativa.
PRUEBA DE SIGNOS La prueba de los signos permite contrastar la hiptesis de que las respuestas a dos ''tratamientos'' pertenecen a poblaciones idnticas. Para la utilizacin de esta prueba se requiere nicamente que las poblaciones subyacentes sean contnuas y que las respuestas de cada par asociado estn medidas por lo menos en una escala ordinal. La hiptesis nula puede expresarse como: Siendo Xi la respuesta del elemento i-simo al primer ''tratamiento'' e Yi la respuesta del elemento i-simo al segundo ''tratamiento''. La hiptesis alternativa puede ser direccional, cuando postula que X es estocsticamente mayor (o menor) que Y, o no direccional, cuando no predice la direccin de la diferencia. Para realizar el contraste se hallan los signos (+ o -) de las diferencias no nulas entre las respuestas de los dos componentes de cada par y se cuenta cuntas son positivas, S+, y cuntas negativas, S-. Si H0 es cierta, es de esperar que aproximadamente la mitad de las diferencias sean positivas y la otra mitad negativas.
El estadstico de prueba es S= mn [S+, S-]. Si H0 es cierta, S tiene distribucin binomial de parmetros n= n de diferencias nulas y = 0'5. Si n es grande, la distribucin de S puede aproximarse mediante una normal de parmetros y la decisin depender del valor tipificado de S. Para mejorar la aproximacin se realiza una correccin de continuidad, de forma que el estadstico de prueba es:
Z se distribuye segn una normal tipificada. Cuando el nmero de diferencias no nulas es pequeo la aproximacin de la distribucin de S mediante la normal no es buena y en este caso el SPSS realiza directamente la prueba binomial, dando el nivel de significacin a partir del cual se rechaza H0 en un contraste de dos colas. Si el contraste se realiza a una cola dicho nivel de significacin se reduce a la mitad.
PRUEBA DE MCNEMAR La prueba de McNemar se utiliza para decidir si puede o no aceptarse que determinado ''tratamiento'' induce un cambio en la respuesta dicotmica o dicotomizada de los elementos sometidos al mismo, y es aplicable a los diseos del tipo ''antes-despus'' en los que cada elemento acta como su propio control. Los resultados correspondientes a una muestra de n elementos se disponen en una tabla de frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos elementos antes y despus. El aspecto general de dicha tabla, en la que los signos + y - se utilizan para representar las diferentes respuestas, es el siguiente: Antes/Despus - + a b + c d
En las celdas de la tabla, a es el nmero de elementos cuya respuesta es la misma, -; b es el nmero de elementos cuya respuesta es - antes del ''tratamiento'' y + despus de ste; c es el nmero de elementos que han cambiado de + a -; y des el nmero de elementos que mantienen la respuesta +. Por tanto, b+c es el nmero total de elementos cuyas respuestas han cambiado, y son los nicos que intervienen en el contraste. La hiptesis nula es que el ''tratamiento'' no induce cambios significativos en las respuestas, es decir, los cambios observados en la muestra se deben al azar, de forma que es igualmente probable un cambio de + a - que un cambio de - a +. As pues, si H0 es cierta, de los b+c elementos cuya respuesta ha cambiado es de esperar que (b+c)/2 hayan pasado de + a -, y (b+c)/2 hayan pasado de - a +. En otras palabras, si H0 es cierta, la frecuencia esperada en las correspondientes celdas es (a+b)/2. La hiptesis alternativa puede ser no direccional, cuando postula que la probabilidad de un cambio de + a - tiene distinta probabilidad que un cambio de a +, o direccional, cuando predice que un cambio de - a + es ms (o menos) probable que un cambio de + a -. El estadstico de prueba que permite contrastar si existen diferencias significativas entre las frecuencias esperadas y las observadas es:
Oi= frecuencia observada en la i-sima celda Ei = frecuencia esperada en la i-sima celda si H0 es cierta k = nmero de celdas Para contrastar la significacin de los cambios interesan slo las celdas que recogen cambios, por tanto el estadstico puede expresarse como
Si H0 es cierta, el estadstico tiene distribucin aproximadamente chi-cuadrado con 1 grado de libertad. La aproximacin es ms precisa si se realiza la correccin de continuidad de Yates, quedando el estadstico:
La hiptesis nula, de que ambos tipos de cambio son igualmente probables, se rechaza si el valor del estadstico se encuentra en la regin crtica. Cuando la frecuencia esperada (b+c)/2 es pequea la aproximacin de la distribucin del estadstico de prueba a la chi-cuadrado no es buena y, en tal caso, el SPSS no calcula el estadstico anterior, sino que realiza la prueba binomial. El contraste se plantea en este caso de la siguiente forma: supongamos que c<b; en este caso la hiptesis nula es que c es un valor de una variable X con distribucin binomial de parmetros n=b+c y =0,5. El nivel de significacin para una prueba de dos colas es y se rechazar H0 para niveles de significacin iguales o superiores a ste. Si la hiptesis alternativa es direccional el nivel de significacin a partir del cual se rechazar H0 es la mitad del nivel de significacin bilateral.
Medidas descriptivas Las medidas descriptivas son valores numricos calculados a partir de la muestra y que nos resumen la informacin contenida en ella.
Medidas de Posicin: Cuartiles Los cuantiles son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo nmero de valores. Los ms usados son los cuartiles, los deciles y los percentiles. PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85% CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles:
- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos - El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos - El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles. Ejemplo: Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias, calcular sus cuartiles.
Ni 14 24 39 65 85 100
3. Tercer cuartil:
Medidas de Centralizacin Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son: MEDIA: (media aritmtica o simplemente media). es el promedio aritmtico de las observaciones, es decir, el cociente entre la suma de todos los datos y el nmero de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:
Si los datos estn agrupados utilizamos las marcas de clase, es decir ci en vez de xi.
MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el nmero de datos es impar la mediana ser el valor central, si es par tomaremos como mediana la media aritmtica de los dos valores centrales.
MODA (M0): es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser nica.
Medidas de Dispersin Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras. MEDIDAS DE DISPERSIN ABSOLUTAS VARIANZA (s2): es el promedio del cuadrado de las distancias entre cada observacin y la media aritmtica del conjunto de observaciones.
Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:
Si los datos estn agrupados utilizamos las marcas de clase en lugar de Xi.
DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica que se define como la raz cuadrada positiva de la varianza
Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la frmula (cuasi desviacin tpica):
RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin MEDIDAS DE DISPERSIN RELATIVAS COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variacin de Pearson que se define como el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica
CV representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.
Medidas de Forma Comparan la forma que tiene la representacin grfica, bien sea el histograma o el diagrama de barras de la distribucin, con la distribucin normal.
MEDIDA DE ASIMETRA Diremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coinciden. Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas) descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es asimtrica a la izquierda. Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es el Coeficiente de Asimetra de Pearson:
Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y negativo cuando existe asimetra a la izquierda.
MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.
EJEMPLO 1 El nmero de das necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, mediana, moda, varianza y desviacin tpica. SOLUCIN: La media: suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone:
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la
secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana. La moda: el valor de la variable que presenta una mayor frecuencia es 60 La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.
S = 427,61 = 20.67 El rango: diferencia entre el valor de las observaciones mayor y el menor 80 - 15 = 65 das El coeficiente de variacin: cociente entre la desviacin tpica y el valor absoluto de la media aritmtica CV = 20,67/52,3 = 0,39
ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda, mediana, (abrir la calculadora estadstica, ms abajo) diagrama de barras y el diagrama de caja. SOLUCIN: (Utilizar la calculadora de debajo)
[El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido]