Tema Iv Medidas de Dispersión
Tema Iv Medidas de Dispersión
Tema Iv Medidas de Dispersión
Día LUNES:
Día MIERCOLES:
DELGADO:
ALVAREZ PEREZ, DELVER ENRIQUE
Correo: delverenrique.12@gmail.com Tlf: 0424-2523788
Catedra: ESTADÍSTICA.
TEMA IV
MEDIDAS DE DISPERSIÓN.
PLANTEAMIENTO TÉORICO-CONCEPTUAL:
LA DISPERSIÓN.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos
revelan una parte de la información que necesitamos acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla.
Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo
medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas
medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de
variación.
Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se
define como la diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un
conjunto de datos.
R = Xmáx.-Xmín = Xn-X1
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25.,
para calcular la media aritmética (promedio de las edades, se tiene que:
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases
abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el
rango tomando el limite superior de la última clase menos el limite inferior de la primera clase.
Ejemplo:
4
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de
las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:
Xi
La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos,,
puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el
peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.
En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a
utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor
de importancia.
La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de
referencia es la media aritmética de la distribución. Más específicamente, la varianza es una
medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media
aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza;
cuando más cerca estén las Xi a su media menos es la varianza. Y se define y expresa
matemáticamente de la siguiente manera:
Dado un conjunto de observaciones, tales como X1, X2, … , Xn, la varianza denotada
usualmente por la letra minúscula griega δ (sigma) elevada al cuadrado (δ2)y en otros
casos S2 según otros analistas, se define como: el cuadrado medio de las desviaciones
con respecto a su media aritmética"
6
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 25, 27, y
34. Al calcular la media aritmética (promedio de las edades, se obtuvo 25.4 años, encontrar
la varianza de las edades de estos estudiantes:
( Xi - )2
Xi ( Xi - )
Si en una tabla de distribución de frecuencias. Los puntos medios de las clases son X1, X2, … ,
Xn; y las frecuencias de las clases f1, f2, … , fn; la varianza se calcula así:
Σ(Xi-)2f1
δ2 = ----------------
Σfi
Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre
todo cuando se trabaja con números decimales o cuando la media aritmética es un número
entero. Asimismo cuando se trabaja con máquinas calculadoras, La tarea de computar la
varianza se simplifica utilizando la formula de computación que se da a continuación:
ΣXi2fi - [(ΣXifi)2/N]
δ2 = ----------------------------
N donde N=Σfi
Ejemplo:
clases Xi
= 21,649.344 / 30 = 721.645
Propiedades de la varianza :
s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente
cuando Xi=
La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
Si a todos los valores de la variable se le suma una constante la varianza no se modifica.
Veámoslo:
Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:
Siendo
Es una medida de la cantidad típica en la que los valores del conjunto de datos
difieren de la media. Es la medida de dispersión más utilizada, se le llama también
desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un
mínimo cuando se estima con respecto a este valor.
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada
positiva de esta. A la desviación se le representa por la letra minúscula griega "sigma" ( δ ) ó
por la letra S mayúscula, según otros analistas.
δ = √δ2 ó S = √S2
Ejemplo:
Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se
obtuvo δ2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces δ = √27.44
= 5.29 años.
A su vez la desviación estándar, también tiene una serie de propiedades que se deducen
fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la
varianza):
10
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de
tendencia central son representativas como síntesis de la información. Las medidas de
dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que
no son comparables entre diferentes muestras y las relativas que nos permitirán comparar
varias muestras.
El problema de las medidas de dispersión absolutas es que normalmente son un indicador que
nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí no
tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas
de dispersión relativas.
Ejemplo:
Suponga que Usted trabaja en una compañía de ventas, que ofrece como premio de incentivo al
mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final
de béisbol de las grandes ligas en los Estados Unidos (E,E,U,A,).
Este problema se resuelve utilizando el coeficiente de variación, para estos efectos es necesario
encontrar la desviación estándar trimestral de las ventas de cada uno de la siguiente manera:
Vendedor A
Xi ( Xi - ) ( Xi -
)2
95 95 – 100 = -5 (-5)2 = 25
Total XXX 50
δ 4.08
100
Vendedor B
Xi ( Xi - ) ( Xi - )2
LABORATORIO
63 45 39 55 69 21 50 25 33 25
Problema #2:
Un profesor hace un examen a tres estudiantes y las puntuaciones resultantes (Xi) son: 73, 75 y
77.
El último aumento es una combinación de los dos primeros. Est es, cada puntuación se
incrementa en un 10% y luego se suman 10 puntos más. Sea Zi = 1.1(Xi)+10. Halle . δ2 y δ..
Total 130
Ocupaciones N S Rango
La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril
200X para ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de
la construcción. Determine cuál es la ocupación en la que existe la mayor variación en los
15
salarios básicos y cuál es la que muestra la menor variación. Para hacer estas comparaciones
deberá utilizar el coeficiente de variación.
Ocupación A B C D
De una población:
16
De una muestra:
De una población:
De una muestra:
17
Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a ser
el más representativo de un conjunto de números. Las tres medidas que más comunmente se
emplean son la media, la mediana y la moda.
Como medida de tendencia central, la media es importante porque: (a) puede ser calculada
para todo conjunto de números, (b) existe una media única para un conjunto dado de números,
(c) es sensible a cada valor del conjunto, ya que se ve afectada por cada uno de ellos; esto
18
implica que -si algún valor cambia-, la media también cambiará, (d) si a cada valor del conjunto
se le suma o resta una constante, la media será afectada en la misma proporcion; lo mismo
aplica a cuando cada valor del conjunto se multiplica por una constante o se divide entre esta.
En todos los casos mencionado, la media se verá afectada en la misma proporción y -
finalmente-, (e) la suma de las desviaciones de los números de un conjunto con respecto a la
media de este, es cero.
Hay ocasiones en que los valores que conforman el conjunto se ven afectados por otro valor que
denota su importancia. En estos casos, suele ser útil emplear una media ponderada. Para
comprender el concepto de media ponderada, considere las calificaciones de dos exámenes
parciales y un exámen final. El profesor ha indicado a sus alumnos que el valor de los exámenes
parciales es del 30% del valor total y que el valor del examen final es del 40%. Si aún no lo ha
notado, al sumar los tres porcentajes se obtiene el 100% de la calificación. El valor porcentual
asociado a la calificación de cada examen denota la importancia del mismo. El procedimiento
para calcular la media ponderada en este ejemplo consiste en sumar los productos de cada
calificación por su porcentaje asociado y -después-, dividir esta suma entre la suma de los
porcentajes, como se muestra en el siguiente ejemplo, en el que calcularemos la calificación
final de un estudiante que obtuvo un 80 en el primer parcial, un 90 en el segundo parcial y un
96 en el examen final, tomando en cuenta que los dos exámenes parciales tienen un valor del
30% cada uno y el examen final vale el 40%:
Media ponderada.
Para encontrar la mediana es necesario ordenar primero los valores incluidos en el conjunto de
menor a mayor. Luego, se separan los valores por la mitad, con el fin de obtener la mediana.
Si la cantidad de valores que incluye el conjunto es un numero impar, la mediana será el valor
que se encuentre justamente a la mitad del conjunto ordenado en forma ascendente. Por otro
lado, si la cantidad de valores que incluye el conjunto es un número par, debe seleccionar los
dos valores que se localizan en medio del conjunto ordenado, sumarlos y dividir la suma entre
dos. Este cociente será la mediana.
Una medida estréchamente ligada a la mediana es el cuartil. Los cuartiles dividen los datos
ordenados en cuatro partes. 25% de los valores serán menores que el primer cuartil, 50% serán
menores que el segundo cuartil (que es la mediana), 75% de ellos serán menores que el tercer
cuartil y un 25% de estos serán mayores que este último cuartil (el tercero).
19
Una subdivisión similar a la descrita arriba son los deciles, que subdividen un conjunto de
valores en diez partes iguales (aplicando la misma lógica descrita en el párrafo anterior. Otra
forma de subdividirlos es mediante percentiles, que subdividen al conjunto en 100 grupos
iguales y funciona tal y como ya se ha descrito; por ejemplo, 76% de los valores serán menores
que el 76° percentil.
La moda es el valor que se presenta con mayor frecuencia en un conjunto. Por ejemplo,
considere el siguiente conjunto de números: 10, 10, 8, 6 y 10. Observe que el 10 se incluye tres
veces, mientras que los demás aparecen sólo una vez; por tanto, la moda de este conjunto de
números es 10. La moda es de utlidad cuando se trabaja con conteo de datos.
Además de las medidas de tendencia central, al trabajar con conjuntos de datos es necesario
considerar también qué tan dispersos están lo valores que incluye el conjunto. Interesa no sólo
que tan dispersos se encuentras tales valores uno de otro, sino también qué tan alejados están
con respecto al valor típico que los representa a todos.
Piénselo de esta manera: la medida de tendencia central indicará aquel valor que sirve para
generalizar sobre los valores que incluye un conjunto. Para ponerlo en perspectiva, considere la
comida típica mexicana. El término comida típica de algún país, abarca al conjunto de platillos
que son comunmente preparados dentro de dicho país. En otras palabras, podemos decribir la
cultura de dicho país -entre otras cosas-, por su cocina.Así, la comida típica de un país
representa al conjunto de platillos que es común encontrar dentro de dicho país. Note que decir
que -por ejemplo-, el hotdog es una comida típica de Estados Unidos, no implica -en lo
absoluto-, que en Estados Unidos se coma unicamente hotdogs ni -mucho menos-, que todos
los platilos que se sirven en dicho país sean preparados exactamente igual que como se
preparan los hotdogs, ni que lleven exactamente los mismos ingredientes. Lo único que la
afirmación “El hotdog forma parte de la comida típica de Estados Unidos” implica, es que esa
comida en particular es bastante común dentro del territorio estadounidense, entre otros
platillos que son preparados allí.
De la misma manera, la medida de tendencia central proporciona una idea de cómo son los
valores que incluye el conjunto y nos permite generalizar sobre estos. Si considera el conjunto
de calificaciones obtenidas a través de todos los exámenes que se le aplican a un estudiante
durante un semestre, el promedio sólo indica -de manera general-, el aprovechamiento de este
estudiante durante el semestre.
20
Pudo ocurrir que en algún examen haya obtenido una nota muy alta y que en otro examen
obtuviese una calificación reprobatoria. Como ya se ha indicado, todas las calificaciones que
este estudiante ha obtenido afectan a su promedio, así que si desea pasar la materia, debe
esforzarse por obtener la calificación más alta posible en el examen final.
Precisamente es en este contexto en que la medición de la dispersión es útil. Lo que una medida
de dispersión nos dice acerca de los datos a los que se asocia, es qué tan importante es el error
cometido al tomar la medida central como referencia. Indica qué tan diferentes son los valores
del conjunto con respecto a la medida central.
El rango, también conocido como amplitud de la variación, nos indica la diferencia que existe
entre el mayor de todos los valores incluidos en un conjunto y el menor de estos. Nos da una
idea precisa de qué tan amplio es el conjunto en relación con los valores que incluye.
La desviación absoluta media es el promedio del valor absoluto de las diferencias (dispersión)
de cada valor dentro del conjunto con relación a la media. La diferencia se obtiene como un
valor absoluto (quitando el signo) porque de lo contrario, al sumar las diferencias
obtendríamos una suma igual a cero, por las propiedades de la media -discutido
anteriormente-. Esta medida no suele utilizarse, ya que hay otras medidas de dispersión que
ofrecen características más atractivas -como una mayor precisión-; no obstante, es muy útil
para la adminsitración de inventarios.
Dado que la variancia está expresada como un promedio de cuadrados, puede resultar más
interesante obtener una medida de dispersión que nos muestre de una manera más cercana a
las diferencias encontradas en el conjunto qué tan difusos -o dispersos-, son los valores que
incluye el conjunto.
Para ello, obtenemos la raíz cuadrada de la variancia -también llamada varianza- y esta raíz
estará mucho más acorde a la magnitud de las diferencias de cada valor con respecto a la
media.
Precisamente con estas últimas dos medidas de dispersión surge una acotación importante:
algunas veces, deseamos obtener la varianza o la desviación estándar de un conjunto de datos
21
que fueron recopilados mediante un censo, perteneciendo por tanto a una poblacion. En otras
ocasiones, los datos fueron recopilados a partir de una muestra que -como ya hemos visto,
representa a un subgrupo, representativo de una población-.
Así mismo, si se desea determinar la variancia o la desviación estándar de los datos contenidos
en una muestra -subgrupo de una población-, se utiliza una n minúscula para referirnos a la
cantidad de elementos que contiene el conjunto y la dispersión se distribuye equitativamente
entre la cantidad de elementos que contiene el conjunto menos 1 (n – 1).
La corrección de Bessel se utiliza en las muestras dado que estas sólo pueden proporcionar
estimaciones acerca del comportamiento de una población. Es decir, un estimador obtenido a
partir de una muestra sólo proporciona un indicio de lo que puede estar realmente ocurriendo
dentro de una población. Por ello, al determinar el tamaño de una muestra se hace necesario
proporcionar un nivel de confianza.
Lo que esto implica que un estimador, tal como la media de una muestra, puede diferir de la
media de una población tanto como el nivel de confianza escogido lo permita.
Para corregir cualquier desviación que pueda ser introducida mediante el muestreo se utiliza la
corrección de Bessel.
Todas las medidas de dispersión discutidas hasta este punto son medidas de dispersión
absoluta. Algunas veces es más útil referirnos a la dispersión como una dispersión relativa.
22
Recordará, por ejemplo, que cuando dividimos la frecuencia con que se presenta una
observación particular entre el número total de elementos que incluye un conjunto, obtenemos
una medida que expresa el porcentaje de ocasiones en que dicho valor está presente en el
conjunto. Por ejemplo, si 5 de 30 personas indican que les gusta el color rojo, 5 será la medida
absoluta; sin embargo, también podemos expresar lo anterior en forma porcentual, y entonces
diríamos que al 16.7% de las personas encuestadas (aproximadamente), les gusta el color rojo.
Esta última es una medida relativa, ya que nos permite expresar una proporción de elementos
que cumplen una determinada característica -les gusta el color rojo-, sin necesidad de hablar de
cuántas personas respondieron afirmativamente, ni a cuántas personas se entrevistó.
De esta manera, si deseamos hablar de la dispersión como una medida relativa, la manera de
hacerlo consiste en dividir la medida de dispersión escogida entre la media de la población o de
la muestra utilizadas. Al cociente obtenido le llamaremos coeficiente de variación.
Capítulo II
Introducción
Las medidas de dispersión (desviación media, varianza, desviación estándar, rango, amplitud
intercuartílica, desviación cuartílica y la amplitud cuartílica) son todas medidas de variación
absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud,
está dada por el coeficiente de variación.
Propiedades
- Puesto que tanto la desviación estándar como la media se miden en las unidades originales,
el CV es una medida independiente de las unidades de medición.
Métodos de cálculo
Sin agrupar los datos empleando Excel se calcula el coeficiente de variación tal como se
muestra en la siguiente figura:
24
Interpretación: Por lo tanto el estudiante que tiene menor variabilidad en sus calificaciones es
Josué
Ejemplo ilustrativo N° 2: Se saca una muestra de un curso de la Universidad UTN sobre las
calificaciones en las asignaturas de Matemática y Estadística, resultados que se presentan en
las siguientes tablas. ¿En qué asignatura existe mayor variabilidad?. Realice los cálculos
empleando Excel
27
Solución:
Buena suerte.
Pedro Camargo.