Semana 5 - Medidas de Dispersion o
Semana 5 - Medidas de Dispersion o
Semana 5 - Medidas de Dispersion o
E S TA D Í ST I CA G E N E R A L
Medida s de dispersión
Inicio
Construcción
Motivación
Cierre
Competencias Identificar la medida
Saberes previos estadística que mejor
represente a un Retroalimentación 2
conjunto de datos. Autoevaluación
Realizar el análisis de
las medidas de
dispersión.
Interpretar los
resultados.
COMPETENCIAS
estadísticos
Clasificación
Una medida de dispersión o variabilidad nos determina el grado de acercamiento o distanciamiento de los valores
de una distribución frente a su promedio, sobre la base de que entre más grande sea el grado de variación, menor
uniformidad tendrán los datos (sinónimo de heterogeneidad) y, por lo tanto, menor representatividad del promedio
como medida de tendencia central. Por el contrario, si el grado de variabilidad es pequeño (respecto del promedio),
6
entonces hay una gran uniformidad entre los datos. Cuando la variabilidad es 0 quiere decir que todos los datos
son iguales.
Clasificación de las medidas de dispersión o variabilidad
Medidas absolutas: Son las que vienen expresadas en las mismas unidades de medida de la variable en estudio, por lo
tanto, son afectados por estas unidades y los valores extremos; dentro de ellas tenemos:
Medidas relativas: Son las que vienen expresadas en términos porcentuales. Por lo tanto, no son distorsionados por las
unidades de medida.
7
Rango o amplitud total ( R )
Una primera medida razonable de la variabilidad es el rango o amplitud total (también llamado recorrido)
que se obtiene como la diferencia entre el valor máximo y el valor mínimo del conjunto de observaciones.
Se calcula con esta fórmula:
𝑅 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 8
Es fácil de calcular y se expresa en las mismas unidades que la variable, aunque posee varios inconvenientes:
• No utiliza todas las observaciones (solo dos de ellas).
• Puede verse muy afectada por alguna observación extrema.
• El rango aumenta con el número de observaciones, o bien se queda igual.
En cualquier caso nunca disminuye.
Rango o amplitud total ( R )
Ejemplo:
El gerente de un centro comercial de venta de partes de computadora desea conocer el rango de variación de las
comisiones ganadas por cada agente de venta en la semana anterior. Para tal fin seleccionó una muestra de 25 agentes, a
quienes se les preguntó cuánto habían ganado de comisiones (X) la semana pasada. Los datos recolectados en soles son
estos:
300 300 170 260 170 9
420 80 260 300 420
420 230 130 300 260
70 440 80 230 130
260 170 230 300 300
Es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1 . En otras palabras, el rango intercuartil
es la amplitud o rango del 50 % central de los datos. Se calcula con esta fórmula:
𝑅𝑄 = 𝑄3 − 𝑄1 10
Rango intercuartil (RQ)
Ejemplo:
Los sueldos mensuales iniciales (en dólares) de una muestra aleatoria de 12 egresados de Administración de una
universidad de Ancash son los siguientes:
Solución:
Primero, se ordenan los datos de menor a mayor y luego se calculan los cuartiles inferior y superior, tal como se muestra
a continuación: 𝑄1 𝑄3
𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11) 𝑥(12)
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 12
Se define como el promedio de las diferencias en valor absoluto de los datos de la variable respecto de la media
aritmética.
𝑛
1
𝐷𝑚 = 𝑥𝑖 − 𝑋ത
DATOS NO AGRUPADOS 𝑛
𝑖=1
13
𝑘
DATOS AGRUPADOS 1
𝐷𝑚 = 𝑥𝑖 − 𝑋ത ∗ 𝑓𝑖
𝑛
𝑖=1
Donde:
𝑥𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑖.
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑖.
Desviación media (Dm)
Ejemplo:
Acontinuación, se presentan los tiempos de espera (en minutos) de 11 clientes para ser atendidos en la ventanilla de un
banco:
𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11)
15 10 20 11 8 15 9 12 18 11 14
Solución:
La media aritmética de los datos es
14
15 + 10 + 20 + ⋯ + 14
𝑋ത = = 13
11
Luego, la desviación media de los datos es
𝑛
1 |15 − 13| + |10 − 13| + |20 − 13| + ⋯ + |14 − 13|
𝐷𝑚 = 𝑥𝑖 − 𝑋ത = = 3.09
𝑛 11
𝑖=1
En promedio, el tiempo de espera de un cliente se desvía del tiempo medio de espera en 3,09 minutos.
Desviación media (Dm)
Ejemplo:
Sobre la edad de los trabajadores, se requiere calcular e interpretar la desviación media de estas edades. Se muestran los
cálculos necesarios en la siguiente tabla.
15
Solución:
33320
La media aritmética de los datos es 𝑋ത = = 74.04
450
La varianza es el promedio de los cuadrados de las desviaciones de los datos respecto a su media. Si consideramos
las desviaciones respecto a la media al cuadrado, en vez de tomar el valor absoluto, logramos que todos los
sumandos tengan el mismo signo (positivo) y se pueda calcular el promedio de estos. Esta forma de medir la
dispersión de los datos permite que sus propiedades matemáticas sean más fáciles de utilizar. Sin embargo, la
varianza presenta el inconveniente de no tener la misma dimensión que las observaciones, ya que se expresa en
16
unidades cuadradas (por ejemplo, si las observaciones se miden en metros, la varianza lo hace en metros al
cuadrado), lo que dificulta su interpretación.
Varianza (S2)
Si tenemos los datos observados de la variable X para una muestra de tamaño n, representados por 𝑥1 , 𝑥2 , 𝑥3 , … ,
𝑥𝑛 entonces la varianza de la muestra se calcula con la fórmula siguiente:
𝑛
1
DATOS NO AGRUPADOS 𝑆2 = 𝑥𝑖 − 𝑋ത 2
𝑛−1
𝑖=1
17
Observación: Cuando se calcula la varianza utilizando todos los datos de una población, esta se denomina
varianza poblacional y se denota con 𝜎𝑥2 .
𝑁
1
𝜎2 = 𝑥𝑖 − 𝜇 2
𝑁
𝑖=1
Varianza (S2)
Si tenemos los datos observados de una muestra de tamaño 𝑛, resumidos en una tabla de frecuencias, entonces la
varianza de la muestra se calcula con esta fórmula:
𝑛
1
DATOS AGRUPADOS 𝑆2 = 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛−1
𝑖=1
18
Donde
𝑥𝑖 =valor de la marca de clase i
𝑓𝑖 =frecuencia absoluta simple de la marca de clase i
Observación: Cuando se calcula la varianza utilizando todos los datos de una población, esta se denomina
varianza poblacional y se denota con 𝜎𝑥2 .
𝑁
1
𝜎 2 = 𝑥𝑖 − 𝜇 2
∗ 𝑓𝑖
𝑁
𝑖=1
Varianza (S2)
Propiedades de la varianza
a) Para cualquier conjunto de datos, la varianza es siempre una cantidad no negativa. 𝑆𝑥2 ≥ 0
b) Si las observaciones tienen valores iguales, entonces la varianza es 0; es decir, la varianza de una constante es
0. Si 𝑥𝑖 = 𝑐 ∀𝑖 , entonces: 𝑆𝑥2 = 𝑆𝑐2 = 0
c) La varianza del producto de una constante por una variable es igual al cuadrado de la constante por la
varianza de la variable; es decir, si 𝑌 = 𝑐𝑋, entonces: 𝑆𝑦2 = 𝑐 2 𝑆𝑥2 19
d) La varianza de la suma de una variable más (o menos) una constante es igual a la varianza de la variable; es
decir, si 𝑌 = 𝑋 ± 𝑐, entonces: 𝑆𝑦2 = 𝑆𝑥2
e) En general, la varianza cumple con la siguiente propiedad: si 𝑌 = 𝑎𝑋 ± 𝑏, entonces: 𝑆𝑦2 = 𝑎2 𝑆𝑥2
Desviación estándar (S)
El problema de la varianza es que no tiene interpretación práctica por sus unidades cuadráticas. Si queremos que la
medida de dispersión sea de la misma dimensión que las observaciones, bastará tomar su raíz cuadrada. Por ello, se define
la desviación estándar como la raíz cuadrada positiva de la varianza:
𝑛 𝑛
1 1 20
𝑆= 𝑥𝑖 − 𝑋ത 2 𝑆= 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛−1 𝑛−1
𝑖=1 𝑖=1
La desviación estándar mide la cantidad típica en que los valores del conjunto de datos difieren de la media aritmética
(Hanke y Reitsch, 1997). Por esta razón, algunos autores la denominan “desviación típica”.
Desviación estándar (S)
Observación
Cuando se calcula la desviación estándar utilizando todos los datos de una población, esta se denomina desviación
estándar poblacional y se denota con 𝜎𝑥
𝑁 𝐾 21
1 2
1 2
𝜎= 𝑥𝑖 − 𝜇 𝜎= 𝑥𝑖 − 𝜇 ∗ 𝑓𝑖
𝑁 𝑁
𝑖=1 𝑖=1
Donde
𝑥𝑖 =valor de la marca de clase i
𝑓𝑖 =frecuencia absoluta simple de la marca de clase i
Desviación estándar (S)
a) Para cualquier conjunto de datos, la desviación estándar es siempre una cantidad no negativa.𝑆𝑋 ≥ 0
b) Si las observaciones tienen valores iguales, entonces la desviación estándar es 0; es decir, la desviación estándar de una
constante es 0. Si 𝑥𝑖 = 𝑐 ∀𝑖, entonces: 𝑆𝑥 = 𝑆𝑐 = 0
c) La desviación estándar del producto de una constante por una variable es igual a la constante por la desviación estándar
de la variable; es decir, si 𝑌 = 𝑐𝑋, entonces: 𝑆𝑦 = 𝑐 𝑆𝑥 22
d) La desviación estándar de la suma de una variable más (o menos) una constante, es igual a la desviación estándar de la
variable; es decir, si 𝑌 = 𝑋 ± 𝑏, entonces: 𝑆𝑦 = 𝑆𝑥
e) En general, la desviación estándar cumple con lo siguiente: si 𝑌 = 𝑎𝑋 ± 𝑏, entonces: 𝑆𝑦 = 𝑎 𝑆𝑥
f) La desviación estándar tiene la propiedad de que en el intervalo 𝑋ത − 2𝑆𝑥 ; 𝑋ത + 2𝑆𝑥 se encuentra, al menos, el 75 % de
las observaciones. Incluso si tenemos muchos datos y estos provienen de una distribución simétrica, podremos llegar al
95 % o más.
Desviación estándar (S)
Ejemplo:
Se presentan los tiempos de espera (en minutos) de 11 clientes para ser atendidos en la ventanilla de un banco:
𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11)
15 10 20 11 8 15 9 12 18 11 14
Solución: 15 + 10 + 20 + ⋯ + 14
La media aritmética de los datos es 𝑋ത = = 13
11 23
Ejemplo:
Con la finalidad de conocer la dispersión de los gastos semanales (en soles) del personal administrativo de una empresa
de cemento en Lima, en enero del 2016, se seleccionó una muestra de 30 personas. Los datos resumidos y los cálculos
correspondientes se presentan en la siguiente tabla:
24
Desviación estándar (S)
Solución:
promedio 966.67
29000 826666.667 25
Coeficiente de variación (CV)
Es la medida relativa de variabilidad que se define como la relación entre la desviación estándar y la media aritmética.
Dicho concepto se utiliza para calcular el nivel de desviación de una serie de datos respecto del valor promedio o
media aritmética y está dado por la fórmula:
𝑠𝑥
𝐶𝑉𝑥 = ത ∗ 100%
𝑋
26
27
Coeficiente de variación (CV)
Ejemplo:
Con el propósito de comparar la homogeneidad de las utilidades mensuales (en soles) entre pequeñas y grandes
empresas del sector transporte, se han seleccionado 2 muestras de este tipo de empresas, cuyos resultados se
resumen a continuación:
Tipos de empresa n ഥ
𝑿 S
Pequeña empresa 40 6 500 430
28
Gran empresa 25 68 700 14 500
29
Medidas estadísticas de asimetría
Se dice que una distribución de medidas es simétrica cuando valores de la variable equidistantes, a uno y otro
lado, del valor central tienen la misma frecuencia. García J. (2011)
31
Medidas estadísticas de asimetría
Para datos sin agrupar se emplea la siguiente Para datos agrupados en tablas de frecuencias
fórmula: se emplea la siguiente fórmula:
𝑛 3 𝑛
𝑥𝑖 − 𝑥ҧ 𝑓𝑖 ∗ (𝑥𝑖 − 𝑥ҧ )3
𝐴𝑠 = 𝐴𝑠 =
𝑛 ∗ 𝑆3 𝑛 ∗ 𝑆3 32
𝑖=1 𝑖=1
Donde:
33
Segundo coeficiente de Pearson (AP2)
Medidas estadísticas de curtosis
MEDIDAS DE CURTOSIS
Tipos de Curtosis 34
K>0
• Si 𝑲 > 0: la distribución es Leptocúrtica.
K=0 • Si 𝑲 = 0: la distribución es Mesocúrtica.
• Si 𝑲 < 0: la distribución es Platicúrica.
K<0
Leptocúrtica Mesocúrtica
Platicúrtica
Medidas estadísticas de curtosis
Coeficiente de Curtosis
Para datos sin agrupar se emplea la Para datos agrupados en tablas de
siguiente fórmula: frecuencias se emplea la siguiente fórmula:
𝑛 4
𝑥𝑖 − 𝑥ҧ 4
𝐾= 𝑛 𝑓𝑖 (𝑥𝑖 −𝑥ҧ )
𝑛 ∗ 𝑆4 𝐾= σ𝑖=1
𝑖=1 𝑛∗𝑆 4 35
Donde:
Ejemplo:
La empresa AAA es distribuidora de motores eléctricos pequeños. Al igual que en cualquier negocio, es importante el tiempo
que se toman los clientes para pagar sus facturas. Se presentan los tiempos en días, ordenados de menor a mayor, de una
muestra de facturas de esa empresa.
36
Si graficamos los datos en un histograma de 5 intervalos, vemos que la distribución tiene asimetría positiva
Medidas estadísticas de asimetría
Solución:
Asimetría:
𝑛
𝑥𝑖 − 𝑥ҧ 3 ∗ 𝑓𝑖
𝐴𝑠 = = 0.381
𝑛 ∗ 𝑆3
𝑖=1
La distribución de los datos es
asimétrica positiva. 37
Curtosis:
𝑛
𝑥𝑖 − 𝑥ҧ 4 ∗ 𝑓𝑖
𝐾= 4
= 2.655
𝑛∗𝑆
𝑖=1
Ejemplo:
Con la finalidad de conocer la asimetría de los gastos semanales (en soles) del personal administrativo de una
empresa de cemento en Lima, en enero del 2016, se seleccionó una muestra de 30 personas. Los datos resumidos y
los cálculos necesarios se presentan en la siguiente tabla:
38
Medidas estadísticas de asimetría
Solución:
39
As= -1.12731062
k= 3.57934256