Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Semana 5 - Medidas de Dispersion o

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

1

E S TA D Í ST I CA G E N E R A L

Medida s de dispersión

Mag. Elizabeth Flor Zambrano Lázaro


PLAN DE CLASES

Inicio

Construcción
Motivación
Cierre
Competencias Identificar la medida
Saberes previos estadística que mejor
represente a un Retroalimentación 2
conjunto de datos. Autoevaluación
Realizar el análisis de
las medidas de
dispersión.
Interpretar los
resultados.
COMPETENCIAS

Realiza el Identifica las medidas estadísticas.


análisis
descriptivo de
los datos

Calcula las medidas estadísticas para datos agrupados y no


agrupados. 3

Utiliza la estadística descriptiva para cuantificar un problema.


SABERES PREVIOS

• Organiz ar y resumir los datos en tablas de distribución de frecuencias y gráficos

estadísticos

• Reconoce los tipos de variables y sus escalas de medición. 4

• Medidas de tendencia central.


Medidas de dispersión

Clasificación

Las medidas estadísticas son aquellas que permiten


resumir información de una muestra o población
y tienen por objeto conseguir un valor que
resuma en sí todas las mediciones.

Estas medidas aplicadas a las características de las 5

unidades de una muestra se denominan


estadísticos o estadígrafos; mientras que las
aplicadas a poblaciones se les denomina
parámetros o valores estadísticos de la población.
Medidas estadísticas de dispersión

Una medida de dispersión o variabilidad nos determina el grado de acercamiento o distanciamiento de los valores
de una distribución frente a su promedio, sobre la base de que entre más grande sea el grado de variación, menor
uniformidad tendrán los datos (sinónimo de heterogeneidad) y, por lo tanto, menor representatividad del promedio
como medida de tendencia central. Por el contrario, si el grado de variabilidad es pequeño (respecto del promedio),
6
entonces hay una gran uniformidad entre los datos. Cuando la variabilidad es 0 quiere decir que todos los datos
son iguales.
Clasificación de las medidas de dispersión o variabilidad

Medidas absolutas: Son las que vienen expresadas en las mismas unidades de medida de la variable en estudio, por lo
tanto, son afectados por estas unidades y los valores extremos; dentro de ellas tenemos:

Medidas relativas: Son las que vienen expresadas en términos porcentuales. Por lo tanto, no son distorsionados por las
unidades de medida.

7
Rango o amplitud total ( R )

Una primera medida razonable de la variabilidad es el rango o amplitud total (también llamado recorrido)
que se obtiene como la diferencia entre el valor máximo y el valor mínimo del conjunto de observaciones.
Se calcula con esta fórmula:

𝑅 = 𝑥𝑚á𝑥 − 𝑥𝑚𝑖𝑛 8

Es fácil de calcular y se expresa en las mismas unidades que la variable, aunque posee varios inconvenientes:
• No utiliza todas las observaciones (solo dos de ellas).
• Puede verse muy afectada por alguna observación extrema.
• El rango aumenta con el número de observaciones, o bien se queda igual.
En cualquier caso nunca disminuye.
Rango o amplitud total ( R )

Ejemplo:
El gerente de un centro comercial de venta de partes de computadora desea conocer el rango de variación de las
comisiones ganadas por cada agente de venta en la semana anterior. Para tal fin seleccionó una muestra de 25 agentes, a
quienes se les preguntó cuánto habían ganado de comisiones (X) la semana pasada. Los datos recolectados en soles son
estos:
300 300 170 260 170 9
420 80 260 300 420
420 230 130 300 260
70 440 80 230 130
260 170 230 300 300

Al calcular el rango se obtiene:


𝑅 = 440 − 70 = 370
El rango o amplitud total, es decir, la diferencia entre la comisión más alta y la más baja, es 370 soles.
Rango intercuartil (RQ)

Es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1 . En otras palabras, el rango intercuartil
es la amplitud o rango del 50 % central de los datos. Se calcula con esta fórmula:

𝑅𝑄 = 𝑄3 − 𝑄1 10
Rango intercuartil (RQ)

Ejemplo:

Los sueldos mensuales iniciales (en dólares) de una muestra aleatoria de 12 egresados de Administración de una
universidad de Ancash son los siguientes:

Egresados Sueldo mensual inicial


1 3450
2 3550 11
3 3650
4 3480
5 3355
6 3310
7 3490
8 3730
9 3540
10 3925
11 3520
12 3480
Rango intercuartil (RQ)

Solución:

Primero, se ordenan los datos de menor a mayor y luego se calculan los cuartiles inferior y superior, tal como se muestra
a continuación: 𝑄1 𝑄3

𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11) 𝑥(12)
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 12

𝑄1 = 3450 + 0.25 3480 − 3450 = 3457.5


𝑄3 = 3550 + 0.75 3650 − 3550 = 3625

Luego, se calcula el rango intercuartil con: 𝑅𝑄 = 𝑄3 − 𝑄1 = 3625 − 3457.5 = 167.5


El 50 % central de egresados de Administración tienen sueldos que se encuentran entre 3457,5 y 3625 dólares, que
equivale a un rango intercuartil de 167,5 dólares.
Desviación media (Dm)

Se define como el promedio de las diferencias en valor absoluto de los datos de la variable respecto de la media
aritmética.
𝑛
1
𝐷𝑚 = ෍ 𝑥𝑖 − 𝑋ത
DATOS NO AGRUPADOS 𝑛
𝑖=1
13

𝑘
DATOS AGRUPADOS 1
𝐷𝑚 = ෍ 𝑥𝑖 − 𝑋ത ∗ 𝑓𝑖
𝑛
𝑖=1
Donde:
𝑥𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑖.
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑖.
Desviación media (Dm)

Ejemplo:
Acontinuación, se presentan los tiempos de espera (en minutos) de 11 clientes para ser atendidos en la ventanilla de un
banco:
𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11)
15 10 20 11 8 15 9 12 18 11 14

Solución:
La media aritmética de los datos es
14
15 + 10 + 20 + ⋯ + 14
𝑋ത = = 13
11
Luego, la desviación media de los datos es
𝑛
1 |15 − 13| + |10 − 13| + |20 − 13| + ⋯ + |14 − 13|
𝐷𝑚 = ෍ 𝑥𝑖 − 𝑋ത = = 3.09
𝑛 11
𝑖=1

En promedio, el tiempo de espera de un cliente se desvía del tiempo medio de espera en 3,09 minutos.
Desviación media (Dm)

Ejemplo:
Sobre la edad de los trabajadores, se requiere calcular e interpretar la desviación media de estas edades. Se muestran los
cálculos necesarios en la siguiente tabla.

15
Solución:
33320
La media aritmética de los datos es 𝑋ത = = 74.04
450

Luego, la desviación media de los datos es


𝑛
1 2361.64
𝐷𝑚 = ෍ 𝑥𝑖 − 𝑋ത = = 5.25
𝑛 450
𝑖=1

En promedio, la edad de un trabajador se desvía de la edad media de jubilación en 5,25 años.


Varianza (S2)

La varianza es el promedio de los cuadrados de las desviaciones de los datos respecto a su media. Si consideramos
las desviaciones respecto a la media al cuadrado, en vez de tomar el valor absoluto, logramos que todos los
sumandos tengan el mismo signo (positivo) y se pueda calcular el promedio de estos. Esta forma de medir la
dispersión de los datos permite que sus propiedades matemáticas sean más fáciles de utilizar. Sin embargo, la
varianza presenta el inconveniente de no tener la misma dimensión que las observaciones, ya que se expresa en
16
unidades cuadradas (por ejemplo, si las observaciones se miden en metros, la varianza lo hace en metros al
cuadrado), lo que dificulta su interpretación.
Varianza (S2)

Si tenemos los datos observados de la variable X para una muestra de tamaño n, representados por 𝑥1 , 𝑥2 , 𝑥3 , … ,
𝑥𝑛 entonces la varianza de la muestra se calcula con la fórmula siguiente:

𝑛
1
DATOS NO AGRUPADOS 𝑆2 = ෍ 𝑥𝑖 − 𝑋ത 2
𝑛−1
𝑖=1
17

Observación: Cuando se calcula la varianza utilizando todos los datos de una población, esta se denomina
varianza poblacional y se denota con 𝜎𝑥2 .

𝑁
1
𝜎2 = ෍ 𝑥𝑖 − 𝜇 2
𝑁
𝑖=1
Varianza (S2)

Si tenemos los datos observados de una muestra de tamaño 𝑛, resumidos en una tabla de frecuencias, entonces la
varianza de la muestra se calcula con esta fórmula:

𝑛
1
DATOS AGRUPADOS 𝑆2 = ෍ 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛−1
𝑖=1
18
Donde
𝑥𝑖 =valor de la marca de clase i
𝑓𝑖 =frecuencia absoluta simple de la marca de clase i

Observación: Cuando se calcula la varianza utilizando todos los datos de una población, esta se denomina
varianza poblacional y se denota con 𝜎𝑥2 .

𝑁
1
𝜎 2 = ෍ 𝑥𝑖 − 𝜇 2
∗ 𝑓𝑖
𝑁
𝑖=1
Varianza (S2)

Propiedades de la varianza

a) Para cualquier conjunto de datos, la varianza es siempre una cantidad no negativa. 𝑆𝑥2 ≥ 0
b) Si las observaciones tienen valores iguales, entonces la varianza es 0; es decir, la varianza de una constante es
0. Si 𝑥𝑖 = 𝑐 ∀𝑖 , entonces: 𝑆𝑥2 = 𝑆𝑐2 = 0
c) La varianza del producto de una constante por una variable es igual al cuadrado de la constante por la
varianza de la variable; es decir, si 𝑌 = 𝑐𝑋, entonces: 𝑆𝑦2 = 𝑐 2 𝑆𝑥2 19

d) La varianza de la suma de una variable más (o menos) una constante es igual a la varianza de la variable; es
decir, si 𝑌 = 𝑋 ± 𝑐, entonces: 𝑆𝑦2 = 𝑆𝑥2
e) En general, la varianza cumple con la siguiente propiedad: si 𝑌 = 𝑎𝑋 ± 𝑏, entonces: 𝑆𝑦2 = 𝑎2 𝑆𝑥2
Desviación estándar (S)

El problema de la varianza es que no tiene interpretación práctica por sus unidades cuadráticas. Si queremos que la
medida de dispersión sea de la misma dimensión que las observaciones, bastará tomar su raíz cuadrada. Por ello, se define
la desviación estándar como la raíz cuadrada positiva de la varianza:

DATOS NO AGRUPADOS DATOS AGRUPADOS

𝑛 𝑛
1 1 20
𝑆= ෍ 𝑥𝑖 − 𝑋ത 2 𝑆= ෍ 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛−1 𝑛−1
𝑖=1 𝑖=1

La desviación estándar mide la cantidad típica en que los valores del conjunto de datos difieren de la media aritmética
(Hanke y Reitsch, 1997). Por esta razón, algunos autores la denominan “desviación típica”.
Desviación estándar (S)

Observación
Cuando se calcula la desviación estándar utilizando todos los datos de una población, esta se denomina desviación
estándar poblacional y se denota con 𝜎𝑥

DATOS NO AGRUPADOS DATOS AGRUPADOS

𝑁 𝐾 21
1 2
1 2
𝜎= ෍ 𝑥𝑖 − 𝜇 𝜎= ෍ 𝑥𝑖 − 𝜇 ∗ 𝑓𝑖
𝑁 𝑁
𝑖=1 𝑖=1

Donde
𝑥𝑖 =valor de la marca de clase i
𝑓𝑖 =frecuencia absoluta simple de la marca de clase i
Desviación estándar (S)

Propiedad de la desviación estándar

a) Para cualquier conjunto de datos, la desviación estándar es siempre una cantidad no negativa.𝑆𝑋 ≥ 0
b) Si las observaciones tienen valores iguales, entonces la desviación estándar es 0; es decir, la desviación estándar de una
constante es 0. Si 𝑥𝑖 = 𝑐 ∀𝑖, entonces: 𝑆𝑥 = 𝑆𝑐 = 0
c) La desviación estándar del producto de una constante por una variable es igual a la constante por la desviación estándar
de la variable; es decir, si 𝑌 = 𝑐𝑋, entonces: 𝑆𝑦 = 𝑐 𝑆𝑥 22

d) La desviación estándar de la suma de una variable más (o menos) una constante, es igual a la desviación estándar de la
variable; es decir, si 𝑌 = 𝑋 ± 𝑏, entonces: 𝑆𝑦 = 𝑆𝑥
e) En general, la desviación estándar cumple con lo siguiente: si 𝑌 = 𝑎𝑋 ± 𝑏, entonces: 𝑆𝑦 = 𝑎 𝑆𝑥
f) La desviación estándar tiene la propiedad de que en el intervalo 𝑋ത − 2𝑆𝑥 ; 𝑋ത + 2𝑆𝑥 se encuentra, al menos, el 75 % de
las observaciones. Incluso si tenemos muchos datos y estos provienen de una distribución simétrica, podremos llegar al
95 % o más.
Desviación estándar (S)

Ejemplo:
Se presentan los tiempos de espera (en minutos) de 11 clientes para ser atendidos en la ventanilla de un banco:

𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11)
15 10 20 11 8 15 9 12 18 11 14

Solución: 15 + 10 + 20 + ⋯ + 14
La media aritmética de los datos es 𝑋ത = = 13
11 23

Luego, la varianza de la muestra es:


𝑛
2 2 2 2
1 15 − 13 + 10 − 13
+ 20 − 13 + ⋯ + 14 − 13
𝑆2 = ෍ 𝑥𝑖 − 𝑋ത 2 = = 14.2
𝑛−1 11 − 1
𝑖=1 La varianza de los tiempos de espera de la muestra resulta 14,2 minutos al cuadrado. No tiene
interpretación práctica.
Finalmente, la desviación de la muestra es:
𝑛
1
𝑆2 = ෍ 𝑥𝑖 − 𝑋ത 2 = 14.2 = 3.78 ≈ 4 La variación de los tiempos de espera de los cliente difieren del
𝑛−1 tiempo promedio en 4 minutos.
𝑖=1
Desviación estándar (S)

Ejemplo:
Con la finalidad de conocer la dispersión de los gastos semanales (en soles) del personal administrativo de una empresa
de cemento en Lima, en enero del 2016, se seleccionó una muestra de 30 personas. Los datos resumidos y los cálculos
correspondientes se presentan en la siguiente tabla:

24
Desviación estándar (S)

Solución:

promedio 966.67

varianza 28505.75 soles^2

desviación 168.84 soles

29000 826666.667 25
Coeficiente de variación (CV)

Es la medida relativa de variabilidad que se define como la relación entre la desviación estándar y la media aritmética.
Dicho concepto se utiliza para calcular el nivel de desviación de una serie de datos respecto del valor promedio o
media aritmética y está dado por la fórmula:

𝑠𝑥
𝐶𝑉𝑥 = ത ∗ 100%
𝑋
26

El coeficiente de variación se expresa en porcentaje y se utiliza para lo siguiente:


• Medir el grado de variabilidad de un conjunto de datos.
• Comparar el grado de variabilidad entre dos o más distribuciones, aun cuando las unidades de medida de las
variables están expresadas en diferentes unidades o escalas de medición
Coeficiente de variación (CV)

Interpretación del coeficiente de variación

27
Coeficiente de variación (CV)

Ejemplo:

Con el propósito de comparar la homogeneidad de las utilidades mensuales (en soles) entre pequeñas y grandes
empresas del sector transporte, se han seleccionado 2 muestras de este tipo de empresas, cuyos resultados se
resumen a continuación:

Tipos de empresa n ഥ
𝑿 S
Pequeña empresa 40 6 500 430
28
Gran empresa 25 68 700 14 500

El coeficiente de variación para las pequeñas empresas es:

Como CV1<CV2, se concluye que las pequeñas


El coeficiente de variación para las grandes empresas es: empresas generan utilidades más homogéneas entre
ellas (solo 6,62 % de variabilidad) en comparación
con las grandes empresas (con 21,11 % de
variabilidad).
FACULTAD DE CIENCIAS
EJERCICIO SOCIALES EDUCACIONY DE LA
PROPUESTO COMUNICACIÓN

29
Medidas estadísticas de asimetría

Son medidas que permiten establecer el grado de asimetría de


un conjunto de observaciones o de una distribución de
frecuencias de una variable cuantitativa.
Si una distribución es simétrica, existe el mismo número de
valores a la derecha que a la izquierda de la media; por tanto,
hay el mismo número de desviaciones con signo positivo que 30
con signo negativo. Decimos que hay asimetría positiva (o a la
derecha) si la “cola” a la derecha de la media es más larga; es
decir, si hay valores más separados de la media a la derecha.
Diremos que hay asimetría negativa (o a la izquierda) si la
“cola” a la izquierda de la media es más larga; es decir, si hay
valores más separados de la media a la izquierda.
Medidas estadísticas de asimetría

Se dice que una distribución de medidas es simétrica cuando valores de la variable equidistantes, a uno y otro
lado, del valor central tienen la misma frecuencia. García J. (2011)

31
Medidas estadísticas de asimetría

Coeficiente de Asimetría de FISHER

Para datos sin agrupar se emplea la siguiente Para datos agrupados en tablas de frecuencias
fórmula: se emplea la siguiente fórmula:

𝑛 3 𝑛
𝑥𝑖 − 𝑥ҧ 𝑓𝑖 ∗ (𝑥𝑖 − 𝑥ҧ )3
𝐴𝑠 = ෍ 𝐴𝑠 = ෍
𝑛 ∗ 𝑆3 𝑛 ∗ 𝑆3 32
𝑖=1 𝑖=1

Donde:

( 𝑨𝒔 ) Representa el coeficiente de Interpretación:


asimetría.
• Si 𝑨𝒔 > 0: asimétrica positiva
(xi) cada uno de los valores,
• Si 𝑨𝒔 = 0: simétrica
(X̅) la media aritmética de la muestra,
• Si 𝑨𝒔 < 0: asimétrica negativa
(fi) la frecuencia de cada valor
(n) el numero total de valores y
(s) la deviación estándar
Medidas estadísticas de asimetría

Coeficientes de asimetría de Pearson

Primer coeficiente de Pearson (AP1)

33
Segundo coeficiente de Pearson (AP2)
Medidas estadísticas de curtosis

MEDIDAS DE CURTOSIS

Medida de deformación vertical de una distribución de frecuencias, es decir la medida de


apuntamiento o achatamiento de una distribución, indicando la mayor o menor altura del máximo
central con respecto a la altura de la curva normal. Moya (2010)

Tipos de Curtosis 34

K>0
• Si 𝑲 > 0: la distribución es Leptocúrtica.
K=0 • Si 𝑲 = 0: la distribución es Mesocúrtica.
• Si 𝑲 < 0: la distribución es Platicúrica.
K<0

Leptocúrtica Mesocúrtica
Platicúrtica
Medidas estadísticas de curtosis

Coeficiente de Curtosis
Para datos sin agrupar se emplea la Para datos agrupados en tablas de
siguiente fórmula: frecuencias se emplea la siguiente fórmula:
𝑛 4
𝑥𝑖 − 𝑥ҧ 4
𝐾= ෍ 𝑛 𝑓𝑖 (𝑥𝑖 −𝑥ҧ )
𝑛 ∗ 𝑆4 𝐾= σ𝑖=1
𝑖=1 𝑛∗𝑆 4 35

Donde:

(𝑨𝒔 ) Representa el coeficiente de asimetría.


(xi) cada uno de los valores,
Interpretación:
(X̅) la media aritmética de la muestra,
(fi) la frecuencia de cada valor
• Si K > 0: Leptocúrtica
(n) el numero total de valores y • Si K = 0: Mesocúrtica
(s) la deviación estándar • Si K< 0: Platicurtica
Medidas estadísticas de asimetría y curtosis

Ejemplo:

La empresa AAA es distribuidora de motores eléctricos pequeños. Al igual que en cualquier negocio, es importante el tiempo
que se toman los clientes para pagar sus facturas. Se presentan los tiempos en días, ordenados de menor a mayor, de una
muestra de facturas de esa empresa.

36

Si graficamos los datos en un histograma de 5 intervalos, vemos que la distribución tiene asimetría positiva
Medidas estadísticas de asimetría

Solución:

Asimetría:

𝑛
𝑥𝑖 − 𝑥ҧ 3 ∗ 𝑓𝑖
𝐴𝑠 = ෍ = 0.381
𝑛 ∗ 𝑆3
𝑖=1
La distribución de los datos es
asimétrica positiva. 37

Curtosis:
𝑛
𝑥𝑖 − 𝑥ҧ 4 ∗ 𝑓𝑖
𝐾= ෍ 4
= 2.655
𝑛∗𝑆
𝑖=1

La distribución de los datos es


leptocúrtica.
Medidas estadísticas de asimetría

Ejemplo:

Con la finalidad de conocer la asimetría de los gastos semanales (en soles) del personal administrativo de una
empresa de cemento en Lima, en enero del 2016, se seleccionó una muestra de 30 personas. Los datos resumidos y
los cálculos necesarios se presentan en la siguiente tabla:

38
Medidas estadísticas de asimetría

Solución:

39

As= -1.12731062

k= 3.57934256

También podría gustarte