Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Guia 3 - Estadistica Descriptiva - Medidas de Dispersion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

UNIVERSIDAD MONTEAVILA

COMUNICACIÓN SOCIAL
SEGUNDO AÑO
ESTADISTICA APLICADA

GUIA Nro. 3 - ESTADISTICA DESCRIPTIVA – MEDIDAS DE DISPERSION

MEDIDAS DE DISPERSION
Estudiaremos las medidas de dispersión: amplitud de variación, desviación media,
varianza y la desviación estándar (las últimas tres medidas están basadas en
diferencias respecto de la media).

Amplitud de Variación para datos no agrupados


Diferencia entre el valor más grande y el valor más pequeño de un conjunto de
datos. (Solo toma en cuenta dos valores … los valores extremos … esto es una
limitante)

Ejemplo:
Consideremos que la producción media de computadoras durante los últimos 9
días en dos localidades es de 50 computadoras por día. ¿Se puede concluir que
las distribuciones de producción en ambas localidades son idénticas?
Veamos la producción de computadoras en ambas localidades durante los últimos
9 días:

AMPLITUD
LOCALIDAD MEDIA DE
D1 D2 D3 D4 D5 D6 D7 D8 D9 VARIACIÓN
A 48 49 49 50 50 50 51 51 52 50 52-48 = 4
B 40 47 47 50 50 50 53 53 60 50 60-40= 20

- Hay menos dispersión en la producción de la localidad A … amplitud de


variación 4 vs. 20 en B
- La producción en la localidad A se concentra más alrededor de su media 50
que en B. El promedio de producción en A = 50 es más representativo que en
B dada la menor dispersión.

Desviación media para datos no agrupados


Mide el monto medio en que varía los valores de una población o muestra con
respecto a su media. Es la media aritmética de los valores absolutos de las
∑ |𝑥− 𝑋̅|
desviaciones con respecto a la media. DM = ; donde:
𝑛

X es el valor de cada observación


𝑋̅ Media aritmética de los valores
n número de observaciones en la muestra
││ indica el valor absoluto… es decir no se toma en cuenta el signo

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 1


Ejemplo:
El número de pacientes atendidos por la emergencia del Hospital Pérez Carreño
para una muestra de 5 días del año pasado fue: 103, 97, 101, 106 y 103.
Determine e interprete la desviación media.

Número de Desv
Casos X-X Abs

103 1 1
97 -5 5 La Desviación promedio con respecto
101 -1 1 a la media es de 2,4 pacientes por
106 4 4 día.
103 1 1
510 La desviación media utiliza a todos
Media: 102 12 los valores en la muestra.
DM: 2.4

VARIANZA Y DESVIACIÓN ESTÁNDAR PARA DATOS NO AGRUPADOS

Varianza para datos no agrupados


Es la media aritmética de las desviaciones al cuadrado con respecto a la media

Desviación Estándar para datos no agrupados


Raíz cuadrada de la Varianza

Varianza Poblacional para datos no agrupados σ2 = Σ (X – μ ) 2 / N, donde:

σ2 sigma cuadrado… varianza de la población


X valor de una observación de la población
μ (miú) media aritmética de la población
N número total de observaciones en la población

Ejemplo:
Obtenga la varianza de la siguiente población. 38, 26, 13, 41, 22

Casos X-μ (X – μ ) 2 σ2: 106.8

38 10 100
26 -2 4
13 -15 225
41 13 169 La varianza se expresa en unidades
22 -6 36 originales al cuadrado por lo que su
140 interpretación directa es dificultosa.
Media: 28 534

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 2


Desviación Estándar Poblacional para datos no agrupados

σ = √ [ Σ (X – μ ) 2 / N ]

En el ejemplo anterior la desviación estándar de esta población será: √ 106,8 =


10,3 unidades

Varianza muestral para datos no agrupados ̅) 2 / n - 1


s2 = Σ (X – 𝑋

s2 S cuadrado… varianza de la muestra


X valor de una observación de la muestra
𝑋̅ media aritmética de la muestra
n número total de observaciones en la muestra

Observe que el denominador de la fórmula para la varianza muestral es n – 1 en


lugar de n. Este ajuste es necesario porque si no se hiciera no podríamos utilizar a
la varianza muestral como estimador de la varianza poblacional ya que la
subestimaría

Fórmula de cálculo manual de la varianza muestral para datos no agrupados

s2 = [ Σ X2 – (Σ X) 2 / n ] / n-1

Ejemplo
Los salarios por hora en una muestra de operarios de medio tiempo en un
importante mayorista son: Bs.F. (2,00; 10,00; 6,00; 8,00; 9,00) ¿Cuál es la
varianza muestral ?

Fórmula Original
Fórmula Manual de Cálculo
Salarios en Salarios en
Bs.F X-x (X – x ) 2 Bs.F X2

2 -5 25 2 4
10 3 9 10 100
6 -1 1 6 36
8 1 1 8 64
9 2 4 9 81

ΣX 35 285
Σ X2 1225
Media: 7 40 Media: 7
s2: 10 s2: 10

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 3


Fórmula de cálculo manual de la desviación estándar muestral para datos no
agrupados

s = √ {[ Σ X2 – (Σ X) 2 / n ] / n-1 } s = √10 = 3,16

Amplitud de Variación para datos agrupados

La amplitud de la variación para datos agrupados se estima restando del límite


superior de la clase más alta el límite inferior de la clase más baja. Observe que se
trata de una estimación ya que no podemos concluir con seguridad que estos
valores realmente están presentes en los datos originales.

Ejemplo:
En la siguiente distribución de frecuencia estime la amplitud promedio de variación

Sueldo por hora en Frecuencia


Bs.F.
5 < 10 6
10 < 15 12 La amplitud estimada de la variación
15 < 20 19 es 30 menos 5 = 25 Bs.F.
20 < 25 7
25 < 30 3

Desviación Estándar para datos agrupados (fórmula de cálculo manual)


s = √ {[ Σ fxX2 – (Σ fxX) 2 / n ] / n-1 }

Sustituimos a X por la marca de clase (punto medio en el intervalo de clase) y lo


ponderamos por la frecuencia correspondiente, f.

Ejemplo
Una muestra de los ahorros realizados por los empleados de cierta compañía se
resumen en la siguiente distribución de frecuencia:

Ahorros realizados en Bs.F Número de Empleados


30 < 35 3
35 < 40 7
40 < 45 11
45 < 50 22
50 < 55 40
55 < 60 24
60 < 65 9
65 < 70 4

Cuál es la Desviación Estándar muestral? S= √ {[ Σ fxX2 – (Σ fxX) 2 / n ] / n-1 }

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 4


Ahorros Número de Marca Marca de
realizados en Empleados de Clase fxX Clase f x X2
Bs.F f X X2
30 < 35 3 32.5 97,5 1.056,25 3.168,75
35 < 40 7 37.5 262,5 1.406,25 9.843,75
40 < 45 11 42.5 467,5 1.806,25 19.868,75
45 < 50 22 47.5 1.045,0 2.256,25 49.637,50
50 < 55 40 52.5 2.100,0 2.756,25 110.250,00
55 < 60 24 57.5 1.380,0 3.306,25 79.350,00
60 < 65 9 62.5 562,5 3.906,25 35.156,25
65 < 70 4 67.5 270,0 4.556,25 18.225,00
Σ 120 6.185,0 325.500,00
̅
X = 51,54 2
(fX) = 38,254,225

s = √ {[ 325.500 – 318.782,5 ] / 119 } = 7,51 Bs.F. 𝑆 2 = 56,40

Teorema de Chebyshev

Para un conjunto cualquiera de observaciones (muestra o población), la


proporción mínima de valores que queda dentro de k desviaciones estándar de la
media es por lo menos 1 – 1/k2, donde k es una constante mayor que 1. Este
teorema se refiere a cualquier conjunto de valores, esto es, la distribución de los
valores puede tener cualquier forma. Para una distribución simétrica y en forma de
campana, se utiliza la regla empírica.

La regla Empírica o Regla Normal

Es válida solo para distribuciones simétricas, en forma de campana. En una


distribución simétrica, en forma de campana, aproximadamente 68% de las
observaciones estarán entre más y menos una desviación estándar de la media,
cerca del 95% de las observaciones entre más y menos dos desviaciones
estándar de la media, y prácticamente todas 99,7% estarán entre más y menos
tres desviaciones estándar de la media.

El intervalo será: (Media +/- k Desviaciones Estándar), es decir:

(Media – (k) desviación estándar; media + (k) desviación estándar)

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 5


Sin importar la Si la distribución
Si k es igual a Intervalo distribución de de origen es de
(desviaciones origen forma acampanada
estándar por Ejemplo: si la y simétrica
encima y por media es 10 y la Entonces 1 – 1/k2
debajo de la desviación es igual a: REGLA EMPIRICA
media) estándar es 2
Porcentaje de Porcentaje de
datos que caen en datos que caen en
el intervalo el intervalo
MEDIA +/- 1
1 DESV
ESTANDAR 0% 68%
(8 – 12)
MEDIA +/- 2
2 DESV 75% 95%
ESTANDAR
(6 – 14)
MEDIA +/- 3
3 DESV 88.9% 99.7%
ESTANDAR
(4 – 16)
MEDIA +/- 4
4 DESV 93.8%
ESTANDAR 99.9%
(2 – 18)
MEDIA +/- 5
5 DESV
ESTANDAR 96.0% 99.9%
(0 – 20)

Ejemplo
Se ha determinado que el mercado típico semanal de una familia de la clase
media sigue una distribución simétrica de forma acampanada con media igual a
Bs.F., 150,00 y desviación estándar igual a Bs.F. 20,00. Utilizando la regla
empírica determine aproximadamente en que intervalo (entre que montos) estará
el 68% de los mercados semanales realizados por una muestra de familias y el
95%? ¿Y casi el 100%?

Respuestas: 68% entre 130,00 y 170,00 bolívares, 95% entre 110,00 y 190,00
bolívares y casi todos (tres veces sigma) entre 90,00 y 210,00 bolívares.

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 6


Dispersión relativa
Utilizamos el coeficiente de variación como indicador del grado de dispersión
relativa de dos poblaciones indistintamente de las unidades o escala de medición
utilizada.

El coeficiente de variación lo calculamos dividiendo la desviación estándar entre la


media y el resultado multiplicado por 100 para poder expresarlo en términos
porcentuales.

Coeficiente de variación

CV = [desviación estándar / media] x 100

Ejemplo:
Se estima que el sueldo promedio en los Estados Unidos es de 25.000 dólares
anuales con una desviación estándar de 10.000 dólares y en Venezuela el sueldo
anual promedio es de 18 millones con una desviación estándar de 10 millones de
bolívares. Compare las dispersiones relativas de las dos distribuciones empleando
el coeficiente de variación

CV Sueldos en USA = [desviación estándar /media] x100 = [10/25]x 100 = 40,0%

CV Sueldos en Vzla = [desviación estándar / media] x 100 = [10/18]x100 = 55,6%

En conclusión, existe una mayor dispersión relativa de los sueldos en Venezuela


que en Estados Unidos

Ejemplo:
La variación en los ingresos anuales de ejecutivos se va a comparar con la
variación en los ingresos anuales de empleados no calificados. En una muestra de
ejecutivos, la media X = $500.000 y s = $50.000. En una muestra de empleados
no calificados, la media X = $ 22.000 y s = $2.200. Estamos tentados a decir que
hay mayor dispersión en los ingresos anuales de los ejecutivos porque $50.000 es
mayor que $2.200. Sin embargo, las medias son tan diferentes que necesitamos
convertir los estadísticos en coeficientes de variación para poder hacer una
comparación de las variaciones en los ingresos anuales.

Para los ejecutivos: CV = s / X (100) = (50.000 / 500.000) * (100) = 10%


Para Empleados: CV = s / X (100) = (2.200 / 22.000) * (100) = 10%

No hay diferencia en las dispersiones relativas de los dos grupos.

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 7


Asimetría o Sesgo
Una de las formas de analizar las distribuciones es de acuerdo con su forma.
Podemos distinguir entre una distribución simétrica y una distribución asimétrica
(con sesgo positivo o sesgo negativo).
En una distribución de forma simétrica la media y la medina son iguales y los
datos se distribuyen uniformemente alrededor de estos valores.

En una distribución de forma asimétrica podemos identificar un sesgo hacia la


derecha (positivamente asimétrica) o hacia la izquierda (negativamente
asimétrica).

En las distribuciones positivamente asimétricas la mayoría de los datos se


encuentran a la derecha de la moda y la media es mayor que la mediana y en las
negativamente asimétricas los datos se concentran a la izquierda de la moda,
siendo la media menor que la mediana.

Coeficiente de Asimetría de Pearson Para calcular el Sesgo o la Asimetría

CA = [ 3 (Media – Mediana) ] / [ desviación estándar ]

Un valor cercano a menos 3 del Coeficiente de Asimetría de Pearson indica una


fuerte asimetría negativa y próximo a 3, sugiere una significativa asimetría
positiva. Un valor cercano a 1,63 indica un sesgo positivo moderado. Un valor de
0, no hay sesgo la distribución es simétrica (media igual a la mediana)

Ejemplo
Considere que los datos siguientes provienen de una muestra de reclamos al
INDEPABIS durante los últimos 5 días: 73, 98, 60, 92 y 84

a) Calcule la media, la mediana, y la desviación estándar


b) Obtenga el coeficiente de variación
c) Determine el coeficiente de asimetría de Pearson
d) ¿Cuáles son sus conclusiones?

Media = 407 / 5 = 81,4 reclamos por día Mediana = 84 reclamos

Des. Están s = √ [ Σ X2 – (Σ X) 2 / n ] / n-1 = √ [ 34.053 – (407) 2 / 5 ] / 5-1 = 15,19

Coe. Varia. CV=[desviación estándar / media] x 100 = [15,19 / 81,4] x 100 = 18,7%

CA = [3(Media – Mediana)] / [desviación estándar] = [3(81,4 – 84)] / [15,19] = -0,51

La distribución tiene una asimetría moderadamente negativa.

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 8


Otras Medidas de Dispersión
Cuartiles, Deciles y Centiles o Percentiles

Así como la mediana divide a la distribución de datos en dos partes iguales


podemos dividir a la distribución en 4 partes iguales (4 cuartiles), 10 partes iguales
(10 deciles) o 100 partes iguales (100 centiles o percentiles)

Mediana = L50 = Percentil 50 = Decil 5 = Cuartil 2

Utilizaremos la siguiente fórmula genérica para ubicar el percentil C de una


distribución de datos: LC = (n + 1) ( C / 100)

Ejemplo 1:
Identifique la ubicación de la mediana (o el cuartil 2, o el decil 5, o el percentil 50)
de este conjunto de datos: 18, 15, 20

Primero ordenamos los datos de menor a mayor … 15, 18, 20


LC = (n + 1 ) ( C / 100) L50 = (3 + 1 ) ( 50 / 100) L50 = (4 ) ( 0,5) = 2

La segunda posición de los datos ordenados corresponde a la medina (cuartil 2,


decil 5 o percentil 50)

Ejemplo 2:
Consideremos el siguiente conjunto de datos, 91, 75, 61, 101, 43 y 104. Se desea
obtener el primer cuartil y el percentil 23

Primero ordenamos los datos de menor a mayor: 43, 61, 75, 91, 101 y 104

L25 = (n + 1 ) ( C / 100) L25 = (6 + 1 ) ( 25 / 100) L25 = (7 ) ( 0,25) = 1,75

El cuartil 1 (Percentil 25) está entre el primero y el segundo valor ordenado, es


decir entre 43 y 61. Más precisamente estará al 75% de la diferencia entre 43 y
61. ¿Cuál es la diferencia entre 43 y 61?. La diferencia es 61 – 43 = 18. 75% de
18 es 0,75 x 18 = 13,5 así que 13,5 más 43 = 56,5 será el valor del primer cuartil
(Percentil 25)

De manera similar obtenemos el percentil 23

L23 = (n + 1) ( C / 100) L23 = (6 + 1 ) ( 23 / 100) L23 = (7 ) ( 0,23) = 1,61

El percentil 23 está entre el primer y el segundo valor ordenado, es decir entre 43


y 61. Más precisamente estará al 61% de la diferencia entre 43 y 61. ¿Cuál es la
diferencia entre 43 y 61?. La diferencia es 61 – 43 = 18. 61% de 18 es 0,61 x 18 =
10,98 así que 10,98 más 43 = 53,98 será el valor del Percentil 23)

Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 9


Diagramas de caja
Es una representación gráfica, basada en los cuartiles, que ayuda a describir un
conjunto de datos. Se necesitan cinco valores estadísticos:

1) Valor mínimo
2) Q1 … el primer cuartil
3) Md … la mediana
4) Q3 … el tercer cuartil
5) Valor máximo

Mediante el siguiente ejemplo ilustraremos el procedimiento para hacer un


diagrama de caja. Consideremos que la Pizzería Cuatro tiene un servicio de
despacho a domicilio en un radio de 10 km. El propietario quiere tener una
visualización más detallada de cómo se comportan los tiempos de entrega. Desea
respuestas a: ¿Cuánto tiempo toma una entrega típica? ¿Dentro de que intervalo
de tiempo se realizan la mayor cantidad de las entregas?. Para una muestra de 20
entregas se obtuvieron los resultados siguientes:

1) Valor mínimo … 13 minutos


2) Q1 … el primer cuartil … 15 minutos
3) Md … la mediana … 18 minutos
4) Q3 … el tercer cuartil … 22 minutos
5) Valor máximo … 30 minutos

Lo construimos de la manera siguiente manera

Mediana
Valor Q1 Q3 Valor
Mínimo Máximo

12 14 16 18 20 22 24 26 28 30 32
Minutos

El diagrama de caja muestra que el 50% central de las entregas toma entre 15 y
22 minutos.

La distancia o intervalo entre los extremos de la caja la denominamos Rango


Intercuartil o Amplitud Cuartilica y en este caso es de 7 minutos.

El diagrama de caja también indica que la distribución de los tiempos de entrega


es positivamente asimétrica ya que la distancia desde el borde derecho de la caja
al valor máximo es mayor que la distancia entre el borde izquierdo y el valor
mínimo.
Prof. Magally González F. Guía Nro. 3 – Dispersión / Página 10

También podría gustarte