Medidas de Dispersión
Medidas de Dispersión
Medidas de Dispersión
Además de localizar el medio de un conjunto de datos, también es necesario para un análisis completo
de los datos encontrar valores que describan la variabilidad que se encuentra entre los datos. Aquellos
datos que tengan una distribución más estrecha tendrán valores menores en estas medidas. La
agrupación más cercana posible ocurre cuando los datos no tienen dispersión (todos los datos son del
mismo valor).
No hay límite sobre qué tan dispersos puedan ser los datos; por tanto, las medidas de dispersión
pueden ser muy grandes. La medida de dispersión más sencilla es el rango, otras medidas de
dispersión incluyen el rango intercuartil, varianza y desviación estándar.
Rango: Es la diferencia en valor entre los datos de valor más alto y los datos de valor más bajo.
𝑅𝑎𝑛𝑔𝑜 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛
El rango es limitado como medida de dispersión, al tener en cuenta solamente el máximo y el mínimo
ignora la naturaleza de la variación entre todas las demás observaciones, y tiene una gran influencia de
los valores extremos.
Puede ser más conveniente solamente observar cuánto se dispersan los datos en la parte central de la
distribución de datos, sin tener en cuenta el cuarto de los datos de menor valor y el cuarto
de los datos de mayor valor. La medida que permite lo anterior se llama rango intercuartìl.
Rango de intercuartil: Es la diferencia entre los cuartiles primero y tercero. Es el
rango del 50% central de los datos.
𝑄 = 𝑄3 − 𝑄1
El rango intercuartil no está afectada por valores extremos, se recomienda cuando la medida de
centralización es la mediana. Una representación del rango intercuartil se muestra en la figura, en la
que se resalta la parte central de la distribución que normalmente es donde se concentra la mayor
cantidad de datos.
Las otras medidas de dispersión que se van a estudiar son medidas de dispersión alrededor de la
media, la cual es la medida de tendencia central más confiable. Para desarrollar una medida de
dispersión alrededor de la media, se debe contestar primero ¿qué tan lejos de la media está cada x?
Para describir el valor “promedio” de estas desviaciones, podríamos usar la desviación media, (suma
de las desviaciones dividida entre el número de datos). Sin embargo, la suma de las desviaciones es
cero, porque las desviaciones de los valores menores que la media (negativas) cancelan la de los
valores mayores que la media (positivas). Podemos eliminar este efecto neutralizador si se eleva al
cuadrado cada distancia (para que queden todas positivas) y con esto se puede calcular la varianza.
Varianza: Es la media del cuadrado de las desviaciones. Al tener las desviaciones al cuadrado se
tienen todas las distancias positivas y también asignamos más peso a las desviaciones más grandes.
Para hallar la varianza muestral (𝑠 2 ) se divide por 𝑛 − 1.
2 2
(∑ 𝑥𝑖 ) (∑ 𝑥𝑖 𝑓𝑖 )
∑(𝑥𝑖 −𝑥̅ )2 ∑ 𝑥𝑖2 − ∑(𝑥𝑖 −𝑥̅ )2 ∙𝑓𝑖 ∑ 𝑥𝑖2 𝑓𝑖 −
2 2
𝑠 = = 𝑛
𝑠 = = 𝑛
𝑛−1 𝑛−1 𝑛−1 𝑛−1
En las expresiones para la varianza muestral y poblacional se muestran dos definiciones equivalentes.
Las que se encuentran más a la derecha es una fórmula que en muchas ocasiones es más “breve” o
“manejable” para la realizar los cálculos manuales. Para la varianza muestral la expresión en el
(∑ 𝑥𝑖 )2
denominador ∑ 𝑥𝑖2 ´ − 𝑛
implica sumar los cuadrados de cada dato y restarle el cuadrado de la
suma de los datos dividido el número de datos.
La varianza tiene unidades de medida cuya interpretación no es intuitiva. Note que, al elevar al
cuadrado, resultaría el cuadrado de las unidades de los datos. Por ejemplo, si los datos son los salarios
de los trabajadores de una empresa o las ventas diarias de la misma obtendríamos “pesos al cuadrado”.
Una medida relacionada pero más fácil de interpretar, cuyas unidades de medida no generan confusión
es la desviación estándar.
Desviación estándar: Se conoce como la desviación estándar a la raíz cuadrada de la varianza. Al
sacar raíz cuadrada a la varianza las unidades de medidas serían las mismas que la de los datos
originales. Por ejemplo, la raíz cuadrada de pesos cuadrados es pesos. La desviación estándar muestral
y poblacional serían respectivamente.
2
2 (∑ 𝑥𝑖 )
∑(𝑥𝑖 −𝑥̅ )2 √∑ 𝑥𝑖 ´− ∑(𝑥𝑖 −𝜇)2 ∑ 𝑥𝑖2
𝑠 = √𝑠 2 = √ = 𝑛
y 𝜎 = √𝜎 2 = √ =√ − 𝜇2
𝑛−1 𝑛−1 𝑁 𝑁
La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están
localizados los valores de una distribución de frecuencias con relación a la media. Podemos hacer esto
de acuerdo con un teorema de Chebyshev que establece que independientemente de la forma de la
distribución, al menos 75% de los valores caen dentro de 2 desviaciones estándar a partir de la media
de la distribución, y al menos 89% de los valores caen dentro de 3 desviaciones estándar a partir de la
media.
La desviación estándar es una medida absoluta de la dispersión que expresa la variación en las mismas
unidades que los datos originales. Por lo que no se podría comparar solamente los valores de
desviaciones estándar directamente. Por ejemplo, si tenemos una desviación estándar de 5 y una media
de 5, los valores varían en una cantidad que es igual a la media (dispersión significativa). Si, por otro
lado, tenemos una desviación estándar de 5 y una media de 5000, la variación relativa a la media es
insignificante.
En consecuencia, para hacer comparaciones de las desviaciones estándar hay que tener en cuenta tanto
la desviación estándar como la media. Una medida relativa que nos proporciona una estimación de la
magnitud de la desviación respecto a la magnitud de la media es el coeficiente de variación.
Coeficiente de Variación: se define como el cociente de dividir la desviación estándar por su
respectiva media aritmética, el resultado se expresa como porcentaje multiplicando el resultado del
cociente por 100. Así la variación comparativa entre dos o más variables, dadas en unidades de
medida diferentes, se expresarán en términos porcentuales.
𝑠
𝐶𝑉 = (100)
𝑥̅
El coeficiente de variación generalmente se expresa en términos porcentuales. Una distribución
cualquiera con un coeficiente de variación por debajo del 33%, tiende a ser homogénea, por lo que la
media obtenida será bastante representativa del total de las observaciones. Si, por el contrario, el
coeficiente de variación (CV) se hace mayor al 33%, indicará que cada vez la distribución será más
heterogénea, por tanto, la media irá perdiendo su representatividad.
Ejemplo 1
En la siguiente tabla se muestra el número de días que 200 pacientes permanecen hospitalizados tras
ser sometidos a cirugías:
días en el hospital 1-3 4-6 7-9 10-12 13-15 16-18 19-21
Frecuencia 20 90 50 21 9 6 4
Calcule la media, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de
variación.
Para el cálculo de la desviación estándar y la media se requiere conocer ∑ 𝑥𝑖 𝑓𝑖 , ∑ 𝑥𝑖2 𝑓𝑖 y el número de
datos 𝑛. Para realizar de manera organizada ese cálculo se propone la siguiente tabla:
Intervalo 𝒙𝒊 𝒇𝒊 ∑ 𝑓𝑖 𝒙𝒊 𝒇𝒊 𝒙𝟐𝒊 𝒇𝒊
1-3 2 20 20 40 80
4-6 5 90 110 450 2250
7-9 8 50 160 400 3200
10-12 11 21 181 231 2541
13-15 14 9 190 126 1764
16-18 17 6 196 102 1734
19-21 20 4 200 80 1600
𝑛 = ∑ 𝑓𝑖 = 200 ∑ 𝑥𝑖 𝑓𝑖 = 1429 ∑ 𝑥𝑖2 𝑓𝑖 = 13169
La media, varianza, desviación estándar se calculan como sigue:
∑ 𝑥𝑖 𝑓𝑖 1429
𝑥̅ = 𝑛
= 200
= 7,145
2
(∑ 𝑥𝑖 𝑓𝑖 ) 14292
∑ 𝑥𝑖2 𝑓𝑖 − 13169− 13169−10210,205 2958,795
2
𝑠 = 𝑛
= 200
= = ≈ 14,868
𝑛−1 200−1 199 199
𝑠 = √𝑠 2 = √14,868 ≈ 3,856
A partir de la desviación estándar se podría esperar que el 75% de los datos se encuentren entre:
𝑥̅ − 2𝑠 = 7,145 − 2(3,856) y 𝑥̅ + 2𝑠 = 7,145 + 2(3,856). Esto es entre -0,567 y 14,857.
𝑠 3,856
𝐶𝑉 = 𝑥̅ (100) = 7,145 = 53,97
Según el coeficiente de variación se puede decir que la distribución de datos es heterogénea, lo que
indica que la media no sería una medida de tendencia central representativa para estos datos.
El rango intercuartil es
𝑄 = 𝑄3 − 𝑄1
El cuartil 3 y 1 son equivalentes al percentil 25 y 75 respectivamente 𝑄1 = 𝑃25 y 𝑄3 = 𝑃75 .
Para calcularlos se debe encontrar primero la posición:
𝑘∙𝑛 25∙200 75∙200
𝑑(𝑃𝑘 ) = 100 𝑑(𝑃25 ) = 100 = 50 𝑑(𝑃75 ) = 100 = 150
Lugo se identifica el intervalo en que se encuentran los cuartiles, en este caso 𝑃25 y 𝑃75 estan en el
intervalo 2 y 3 respectivamente. Una vez identificado se calculan los percentiles como sigue:
𝑘∙𝑛 𝐴 3 3
𝑃𝑘 = 𝐿𝑖 + (100 − ∑ 𝑓𝑖−1 ) ∙ 𝑓 𝑃25 = 4 + (50 − 20) ∙ = 5 𝑃75 = 7 + (150 − 110) ∙ 50 =
𝑖 90
9.74
𝑄 = 𝑄3 − 𝑄1 = 9.74 − 5 = 4.74