Medidas de Dispersion y Posicion
Medidas de Dispersion y Posicion
Medidas de Dispersion y Posicion
Varianza
La varianza mide qué tan dispersos están los datos alrededor de su media. Es una
mediada de dispersión, calcula la diferencia media cuadrática de cada observación
con respecto a la media. Esto es, que para cada observación se saca su diferencia
con el promedio, pero esta diferencia es al cuadrado (para exagerar las diferencias,
hacer la medida más sensible) y después de todas las diferencias cuadráticas con
el promedio se calcula un promedio de todas. La varianza no está en las mismas
unidades que la media, de modo que no se pueden hacer afirmaciones directas y
coloquiales sobre su valor más que el propio valor.
Para calcular la varianza d una variable cuantitativa, se tiene una serie de datos, x1,
..., xn, luego se aplica las siguiente formula:
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2
𝑠𝑛−1 = (𝑀𝑢𝑒𝑠𝑡𝑟𝑎) 𝜎2 = (𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛)
𝑛−1 𝑁
Donde:
xi = el iesimo dato
𝑥̅ = media aritmética
N= cantidad total de datos
𝑛 − 1 = número de datos -1
Cuanto mayor sea la varianza de los datos, más dispersos, heterogéneos o
variables son esos datos. Cuanto más pequeña sea una varianza de los datos, más
agrupados u homogéneos son dichos datos.
Ejemplo. Una muestra aleatoria simple de 9 datos de la dureza BHN (Brinell) de un acero
comercial arroja los siguientes resultados: 311,302,321,293,302,302,320,296 Calculemos
su media y su varianza muestral.
∑𝑛
𝑖=1 𝑥𝑖
𝑥̅ = 𝑛
Ejemplo1:
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en
muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine
su varianza.
Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como se
realizo en el problema anteriore.
Interpretación
La varianza de los datos de la muestra, es una estimación de la varianza de la
población.
Cuando la varianza se basa en los datos de una muestra y no en toda la población,
es improbable que la varianza de la muestra sea igual a la varianza de la población.
Para estimar mejor la varianza de la población, utilice el intervalo de confianza.
Desviación Estándar.
La desviación estándar es la medida de dispersión más común, que indica qué tan
dispersos están los datos alrededor de la media. El símbolo σ (sigma) se utiliza
frecuentemente para representar la desviación estándar de una población, mientras
que s se utiliza para representar la desviación estándar de una muestra. La variación que
es aleatoria o natural de un proceso se conoce comúnmente como ruido.
La desviación estándar está expresada en las mismas unidades que la media, de modo que
es posible afirmar o inferir su relación o proporción con media.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̿ )2 ∑𝑛 (𝑥𝑖 − 𝑥̿ )2
𝑠=√ (𝑀𝑢𝑠𝑡𝑟𝑎) 𝜎 = √ 𝑖=1 (𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛)
𝑛−1 𝑵
s=
La interpretación de este resultado sería, que la cantidad de glucosa encontrada
en la muestra es en promedio de 14.86 miligramos y que la cantidad de glucosa
en la muestra se aleja o dispersa en promedio 2.2029 mg alrededor de la media.
LA MEDICIÓN DE LA VARIABILIDAD
En la estadística descriptiva(inductiva). Para el tratamiento estadístico de la
información cuantitativa, es necesario hacer referencia a la medición de la
variabilidad. Han sido propuestas diferentes formas de medir la dispersión o
variabilidad de un conjunto de datos; cada una de ellas posee ventajas y también
limitaciones conceptuales y prácticas.
La elección de una de ellas, en particular, dependerá de la situación concreta
que se considere y de si, en ese caso, las ventajas de su utilización superan a
las
desventajas, en relación a las demás medidas. Seguidamente se discutirán las
medidas de variabilidad más conocidas, a saber:
a) El recorrido o amplitud.
b) La desviación media.
c) La desviación estándar.
d) La variancia.
e) El coeficiente de variación.
Cuantiles
Los cuantiles son medidas de posición, pero no necesariamente ligados al centro
de los datos. La idea a la que responden es muy sencilla y muy práctica. Se trata
de valorar de forma relativa cómo es un dato respecto del conjunto global de todos
los datos. Por ejemplo, si nos dicen que el niño está entre el 1 % de los niños que
menos pesan, probablemente tiene un problema de crecimiento
Medidas de posición no centrales o cuantiles más utilizadas son:
• Cuartiles
• Deciles
• Percentiles
• Quintiles
CUARTILES:
Los cuartiles dividen la colección de datos en 4 partes iguales,
considerando que existen 3 cuartiles ( 𝑸𝟏, 𝑄2, 𝑄3).» (Alvarado Verdín,
2014, pág. 3) Q1, Q2 y Q3 determinan los valores correspondientes al 25%,
al 50% y al 75% de los datos. Q2 coincide con la mediana. Como se
muestra a continuación
CUARTILES Q1 que se ubica en el lugar n/4, es el primer cuartil, deja el 25% de las unidades
por debajo y el 75% por encima. Q2 que se ubica en el lugar (n * 2)/4, es el segundo cuartil,
deja el 25%*2, o sea el 50% por debajo y el otro 50% por encima, es decir que coincide con la
Mediana. Q3 que se ubica en el lugar (n *3)/4, es el tercer cuartil, deja el 25%*3, o sea el 75%
por debajo y el 25% por encima.
Deciles. Son valores de la variable que dividen los datos ordenados en subconjuntos de diez
partes iguales (9 divisiones).
Los percentiles son los cuantiles que dividen la muestra en 100 partes, es decir, son los
cuantiles 0.01 (percentil 1), 0.02 (percentil 2), ..., 0.99 (percentil 99). Si denotamos por Pα
al percentil α, con α = 1, 2, 3, ..., 99, se tiene que Pα = Qα/100. En Estadística Descriptiva
es más frecuente hablar de percentiles que de cuantiles porque se refieren a cantidades
entre 0 y 100, en tanto por ciento, que son más habituales de valorar por todo el mundo.
Dados los siguientes datos ordenados obtenidos del tiempo que un reactivo requiere para
carbonatarse. los datos se han ordenado de menor a mayor (en 5 filas): calcule el percentil 25,
es decir P25, la fórmula para calcular el percentil es:
𝑝
𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑃∝ = (𝑛 + 1)
100
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
25
𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑃25 = (50 + 1) = 12.75
100
El valor resultante de 12.75 nos indica que el percentil 25 está ubicado al 75% del trayecto
comprendido entre la doceava observación, que es 20 y la treceava observación que es 21, es decir,
P25 =20 + 0.75 (21-20) = 20.75.
Ejemplo2. Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25
tareas en una CPU. Ahora los hemos ordenado de menor a mayor (en 5 filas):
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes de los datos, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos,
sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran
el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y
tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y
máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20
personas.
36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =
20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que
las edades comprendidas entre el 25% y el 50% de la población está más dispersa
que entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el
25% de los más jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.
Seguro que se podría obtener más información útil de estos datos: (¡Utiliza la mediana!)