Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Tema Iv Medidas de Dispersión

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 28

1

Universidad Santa María


Facultad de Ingeniería y Arquitectura
Especialidad: INGENIERÍA VARIAS, CIVIL,
INDUSTRIAL, SISTEMAS.
Cátedra: ESTADÍSTICA.
Profesor: Pedro Camargo.

Horario: De 1,00 Am a 2,30 Pm. DOS HORAS DE CLASE.

Día LUNES:

Día MIERCOLES:

Horario: De 11,30 Am a 2,30 Pm. TRES HORAS DE CLASE.

TOTAL 5 HORAS, CADA SEMANA.

DELGADO:
ALVAREZ PEREZ, DELVER ENRIQUE
Correo: delverenrique.12@gmail.com Tlf: 0424-2523788

HORARIO DE LOS PARCIALES: 4,00 PM, AULA 822

PRIMER PARCIAL: FECHA: SEGUNDO PARCIAL: FECHA: TERCER PARCIAL:


FECHAS:

27/04/2021 25/05/2021 29/06/2021

Primera Clase del Semestre II- 2021.

Catedra: ESTADÍSTICA.

Fecha: 21 de abril del 2021.

TEMA IV

MEDIDAS DE DISPERSIÓN.

PLANTEAMIENTO TÉORICO-CONCEPTUAL:

El conocimiento de la forma de la distribución y del respectivo promedio de una colección


de valores de una variable, puede servir para tener una idea bastante clara de la conformación,
pero no de de la homogeneidad de cada una de los valores con respecto a la medida de
tendencia central aplicada.
2

En el caso de las variables con valores que pueden definirse en términos de alguna escala de


medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de
dispersión o variabilidad existente en el grupo de variantes en estudio.

A estos indicadores les llamamos medidas de dispersión, por cuanto que están referidos a


la variabilidad que exhiben los valores de las observaciones, ya que si no hubiere
variabilidad o dispersión en los datos interés, entonces no habría necesidad de la gran mayoría
de las medidas de la estadística descriptiva.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en


un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de
tendencia central son representativas como síntesis de la información. Las medidas de
dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que
no son comparables entre diferentes muestras y las relativas que nos permitirán comparar
varias muestras.

 LA DISPERSIÓN.

Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos
revelan una parte de la información que necesitamos acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.

La dispersión es importante porque:


3

 Proporciona información adicional que permite juzgar la confiabilidad de la medida de


tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
 Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser
capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
 Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una
amplia dispersión de valores con respecto al centro de distribución o esto
presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger
distribuciones que tengan las dispersiones más grandes.

Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla.
Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo
medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas
medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de
variación.

1.1.- EL RANGO O RECORRIDO ( R ):

Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se
define como la diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un
conjunto de datos.

Rango para datos no agrupados;

R = Xmáx.-Xmín = Xn-X1

Ejemplo:

Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25.,
para calcular la media aritmética (promedio de las edades, se tiene que:

R = Xn-X1 ) = 34-18 = 16 años

Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases
abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el
rango tomando el limite superior de la última clase menos el limite inferior de la primera clase.

Rango para datos agrupados;

R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)

Ejemplo:
4

Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de
las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:

Clases P.M. fi fr fa↓ fa↑ fra↓ fra↑

Xi

7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00

21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67

36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54

50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37

65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27

79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17

Total XXX 30 1.00 XXX XXX XXX XXX

El rango de la distribución de frecuencias se calcula así:

R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)

= (93.910 – 7.420) = 86.49

 Propiedades del Rango o Recorrido:

 El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que


simplemente es la distancia entre los valores extremos (máximo y mínimo) en una
distribución
 Puesto que el recorrido se basa en los valores extremos éste tiende s ser errático. No es
extraño que en una distribución de datos económicos o comerciales incluya a unos pocos
valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido
solamente mide la dispersión con respecto a esos valores anormales, ignorando a los demás
valores de la variable.
5

 La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos,,
puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el
peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.
 En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a
utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor
de importancia.

1.2.- LA VARIANZA (S2 ó δ2 ):

La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de
referencia es la media aritmética de la distribución. Más específicamente, la varianza es una
medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media
aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza;
cuando más cerca estén las Xi a su media menos es la varianza. Y se define y expresa
matemáticamente de la siguiente manera:

La varianza para datos no agrupados

Dado un conjunto de observaciones, tales como X1, X2, … , Xn, la varianza denotada
usualmente por la letra minúscula griega δ (sigma) elevada al cuadrado (δ2)y en otros
casos S2 según otros analistas, se define como: el cuadrado medio de las desviaciones
con respecto a su media aritmética"

Matemáticamente, se expresa como:

   
6

Ejemplo:

Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 25, 27, y
34. Al calcular la media aritmética (promedio de las edades, se obtuvo 25.4 años, encontrar
la varianza de las edades de estos estudiantes:

Para calcular se utiliza una tabla estadística de trabajo de la siguiente manera:

    ( Xi - )2

Xi ( Xi - )

18 (18 – 25.5)=-7.4 (-7.4)2=54.76

23 (23 – 25.5)=-2.4 (-2.4)2= 5.76

25 (25 – 25.5)=-0.4 (-0.4)2= 0.16

27 (27 – 25.5)= 1.6 ( 1.64)2= 2.16

34 (34 – 25.5)= 8.6 ( 8.6)2 =73.96

Total xxxx 137.20

Respuesta: la varianza de las edades es de 27.4 años


7

La varianza para datos agrupados

Si en una tabla de distribución de frecuencias. Los puntos medios de las clases son X1, X2, … ,
Xn; y las frecuencias de las clases f1, f2, … , fn; la varianza se calcula así:

Σ(Xi-)2f1

δ2 = ----------------

Σfi

Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre
todo cuando se trabaja con números decimales o cuando la media aritmética es un número
entero. Asimismo cuando se trabaja con máquinas calculadoras, La tarea de computar la
varianza se simplifica utilizando la formula de computación que se da a continuación:

ΣXi2fi - [(ΣXifi)2/N]

δ2 = ----------------------------

N donde N=Σfi

Ejemplo:

Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabrera’s y


Asociados dispuestos en una tabla de distribución de frecuencias, a partir de los cuales se
deberá calcular la varianza, para lo cual se construye la siguiente tabla estadística de trabajo, si
se calculó anteriormente la media aritmética y se fijó en 43.458 (ver ejemplo del calculo en
"media aritmética para datos agrupados) de la siguiente manera

  Punto medios fi Xi2 Xifi X2fi

clases Xi

7.420 – 21.835 14.628 10 213.978 146.280 2,139.780

21.835 – 36.250 29.043 4 843,496 116.172 3,373.984

36.250 – 50.665 43.458 5 1,888.598 217.270 9,442.990

50.665 – 65.080 57.873 3 3,349.284 173.619 10,047.852

65.080 – 79.495 72.288 3 5,225.555 216.864 15,676.665


8

79.495 – 93.910 86.703 5 7,533.025 433.965 37,665.125

Total XXX 30 19,053.936 1,304.190 78,346.396

= 21,649.344 / 30 = 721.645

Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645

 Propiedades de la varianza :

 s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente
cuando Xi=
 La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
 Si a todos los valores de la variable se le suma una constante la varianza no se modifica.
Veámoslo:

Si a xi le sumamos una constante xi’ = xi + k tendremos (sabiendo que   )

 Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:

Si a xi’ = xi · k tendremos (sabiendo que   )


9

 Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la


distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la
expresión

Siendo

Ni è el nº de elementos del subconjunto (i)

S2i è la varianza del subconjunto (i)

1.3.- LA DESVIACIÓN ESTÁNDAR (S ó δ)

Es una medida de la cantidad típica en la que los valores del conjunto de datos
difieren de la media. Es la medida de dispersión más utilizada, se le llama también
desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un
mínimo cuando se estima con respecto a este valor.

Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada
positiva de esta. A la desviación se le representa por la letra minúscula griega "sigma" ( δ ) ó
por la letra S mayúscula, según otros analistas.

Cálculo de la Desviación Estándar

δ = √δ2 ó S = √S2

Ejemplo:

Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se
obtuvo δ2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces δ = √27.44
= 5.29 años.

Igual procedimiento se aplica para encontrar le desviación estándar de las cuentas por


cobrar de la Tienda Cabrera’s y Asociados, recordemos que la varianza obtenida fue de 721.645,
luego entonces la desviación estándar es igual a δ =√721.645 = 26.86 balboas.

 Propiedades de la Desviación Estándar

A su vez la desviación estándar, también tiene una serie de propiedades que se deducen
fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la
varianza):
10

 La desviación estándar es siempre un valor no negativo S será siempre ³ 0 por definición.


Cuando S = 0 è X = xi (para todo i).
 Es la medida de dispersión óptima por ser la más pequeña.
 La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
 Si a todos los valores de la variable se le suma una misma constante la desviación estándar
no varía.
 Si a todos los valores de la variable se multiplican por una misma constante, la desviación
estándar queda multiplicada por el valor absoluto de dicha constante.

1.4.- El Coeficiente de Variación de Pearson (C.V.)

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de
tendencia central son representativas como síntesis de la información. Las medidas de
dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que
no son comparables entre diferentes muestras y las relativas que nos permitirán comparar
varias muestras.

El problema de las medidas de dispersión absolutas es que normalmente son un indicador que
nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí no
tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas
de dispersión relativas.

Un problema que se plantea, tanto la varianza como la desviación estándar, especialmente a


efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las unidades
de medida de la variable. Cuando se quiere comparar el grado de dispersión de dos
distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se
utiliza el llamado "Coeficiente de Variación de Pearson", del que se demuestra que nos
da un número independiente de las unidades de medidas empleadas, por lo que entre dos
distribuciones dadas diremos que posee menor dispersión aquella cuyo coeficiente de variación
sea menor., y que se define como la relación por cociente entre la desviación
estándar y la media aritmética; o en otras palabras es la desviación estándar
expresada como porcentaje de la media aritmética.

Definición del Coeficiente de Variación


11

Donde: C.V. representa el número de veces que la desviación típica contiene a la media


aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la
representatividad de la media.

 Propiedades del Coeficiente de Variación :

 Si a todos los valores de la variable se le suma una misma constante el coeficiente de


variación queda alterado .

Ejemplo:

Suponga que Usted trabaja en una compañía de ventas, que ofrece como premio de incentivo al
mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final
de béisbol de las grandes ligas en los Estados Unidos (E,E,U,A,).

De los registros de ventas se tienen los siguientes datos de ventas, expresados en porcentajes de


cumplimiento de las metas fijadas mensualmente:

Vendedor A 95 105 100

Vendedor B 100 90 110

El promedio trimestral de cumplimiento de las metas de ventas de ambos vendedores es igual y


equivale al 100%, pero Ud. Sólo le puede dar el premio de incentivo a uno de ellos. ¿Cuál usted
escogería?. ¿En base a que criterio’. Explique.

Este problema se resuelve utilizando el coeficiente de variación, para estos efectos es necesario
encontrar la desviación estándar trimestral de las ventas de cada uno de la siguiente manera:

Vendedor A

Xi ( Xi -  ) ( Xi -
 )2

95 95 – 100 = -5 (-5)2 = 25

105 105 – 100 = 5 ( 5)2 = 25


12

100 100 – 100 = 0 ( 0)2 = 0

Total XXX 50

La desviación estándar es δ=√(50/3) = √16.667 = 4.08, luego entonces el coeficiente de


variación es igual a:

δ 4.08

C.VA= --------- = ----------- = 0.0408

 100

Vendedor B

Xi ( Xi -  ) ( Xi -  )2

100 100 – 100 = 0 ( 0 )2 = 0

90 90 – 100 = -10 (-10)2 =


100

110 110 – 100 = 10 ( 10)2 = 100

Total XXX 200

La desviación estándar es δ=√(200/3) = √66.667 = 8.16, luego entonces el coeficiente de


variación es igual a:

Respuesta: Dado que el vendedor A tiene menor coeficiente de variación, A él le corresponde


recibir el premio de incentivo.

LABORATORIO

(Resolver y entregar en grupos de tres estudiantes, equivalen a nota de un parcial)

Problema #1:Datos no agrupados


13

Calcule el rango, la varianza y la desviación estándar de las observaciones que se presentan a


continuación.

63 45 39 55 69 21 50 25 33 25

Problema #2:

Un profesor hace un examen a tres estudiantes y las puntuaciones resultantes (Xi) son: 73, 75 y
77.

Hallar la media, la varianza y la desviación estándar de esta población de valores

En la clase hacia un calor terrible, y hubo alarma por la amenaza de incendio durante el


examen. El profesor quisiera aumentar las puntuaciones para tener en cuenta estas condiciones
desafortunadas de ambientación. Un primer aumento suma 10 puntos a cada puntuación. Sea
Yi = Xi+10. Halle , δ2 y δ.

Un segundo aumento incrementa cada puntuación en un 10%. Sea Pi =1.1(Xi). Halle , δ2 y δ.

El último aumento es una combinación de los dos primeros. Est es, cada puntuación se
incrementa en un 10% y luego se suman 10 puntos más. Sea Zi = 1.1(Xi)+10. Halle . δ2 y δ..

Problema #3:Datos Agrupados

La distribución de frecuencias que se presenta a continuación muestra el tiempo que se


necesita para envolver 130 paquetes que fueron enviados por correo en Macondo.

Calcule el rango, la varianza y la desviación estándar de la siguiente distribución de frecuencias


de los datos:

Tiempo No.de paquetes

(en minutos) envueltos

0.5 a menos de 1.0 6

1.0 a menos de 1.5 12

1.5 a menos de 2.0 30

2.0 a menos de 2.5 42

2.5 a menos de 3.0 28


14

3.0 a menos de 3.5 12

Total 130

Problema #4:Coeficiente de Variación

Los datos a continuación describen las distribuciones de puntuaciones en determinados grupos


ocupacionales sometidos a la prueba general de clasificaciones del ejercito durante el último
año.

Ocupaciones N  S Rango

Contador 172 128.1 11.7 94-157

Abogado 94 127.1 10.9 96-157

Periodista 45 124.5 11.7 100-157

Vendedor 492 109.2 16.3 42-149

Plomero 128 102.7 16.0 56-139

Camionero 817 96.2 19.7 16-149

Campesino 817 91.4 20.7 24-141

Carpintero 77 89.0 19.6 45-145

Compare los resultados obtenidos para cada grupo ocupacional utilizando el coeficiente de


variación y el rango o recorrido. Comente los resultados.

Problema #5: Coeficiente de Variación

La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril
200X para ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de
la construcción. Determine cuál es la ocupación en la que existe la mayor variación en los
15

salarios básicos y cuál es la que muestra la menor variación. Para hacer estas comparaciones
deberá utilizar el coeficiente de variación.

Salarios básicos por hora, según tipo de trabajo y lugares encuestados

Ocupación A B C D

Albañiles 6.290 7.375 5.750 7.500

Carpinteros 5.900 7.020 5.370 6.660

Electricistas 7.500 7.600 6.700 7.335

Pintores 7.170 6.735 4.750 6.110

Enyesadotes 5.920 7.045 5.940 6.825

Plomeros 8.000 4.450 6.250 7.080

Ayudantes 4.020 4.780 3.180 4.700

Medidas de dispersión absolutas

Las medidas de dispersión absolutas son aquellas que vienen expresadas en las mismas


unidades que los datos. Las medidas de dispersión relativas no vienen expresadas en las
unidades de los datos sino en porcentaje. Todas estas medidas, excepto el rango, toman la
media como punto de referencia.

De una población:
16

Varianza de una población.

De una muestra:

Variancia de una muestra.

Desviación típica o estándar

De una población:

Desviación estándar de una población.

De una muestra:
17

Desviación estándar de una muestra.

Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a ser
el más representativo de un conjunto de números. Las tres medidas que más comunmente se
emplean son la media, la mediana y la moda.

La media aritmética es lo que viene a la mente de la mayoria de las personas cuando se


menciona la palabra promedio.  Se calcula al sumar los valores de un conjunto y dividir esta
suma entre el número de valores que incluye el mismo. Por ejemplo, supongamos que un
estudiante ha presentado cuatro exámenes, en los que ha obtenido las siguientes calificaciones:
83, 94, 95, 86. Se desea determinar su promedio a partir de las calificaciones obtenidas. Para
hacerlo, sumaremos las cuatro calificaciones y después dividiremos esta suma entre cuatro, ya
que se trata de cuatro exámenes, como se muestra a continuación:

Promedio de las calificaciones de un estudiante.

Como medida de tendencia central, la media es importante porque: (a) puede ser calculada
para todo conjunto de números, (b) existe una media única para un conjunto dado de números,
(c) es sensible a cada valor del conjunto, ya que se ve afectada por cada uno de ellos; esto
18

implica que -si algún valor cambia-, la media también cambiará, (d) si a cada valor del conjunto
se le suma o resta una constante, la media será afectada en la misma proporcion; lo mismo
aplica a cuando cada valor del conjunto se multiplica por una constante o se divide entre esta.
En todos los casos mencionado, la media se verá afectada en la misma proporción y -
finalmente-, (e) la suma de las desviaciones de los números de un conjunto con respecto a la
media de este, es cero.

Hay ocasiones en que los valores que conforman el conjunto se ven afectados por otro valor que
denota su importancia. En estos casos, suele ser útil emplear una media ponderada. Para
comprender el concepto de media ponderada, considere las calificaciones de dos exámenes
parciales y un exámen final. El profesor ha indicado a sus alumnos que el valor de los exámenes
parciales es del 30% del valor total y que el valor del examen final es del 40%. Si aún no lo ha
notado, al sumar los tres porcentajes se obtiene el 100% de la calificación. El valor porcentual
asociado a la calificación de cada examen denota la importancia del mismo. El procedimiento
para calcular la media ponderada en este ejemplo consiste en sumar los productos de cada
calificación por su porcentaje asociado y -después-, dividir esta suma entre la suma de los
porcentajes, como se muestra en el siguiente ejemplo, en el que calcularemos la calificación
final de un estudiante que obtuvo un 80 en el primer parcial, un 90 en el segundo parcial y un
96 en el examen final, tomando en cuenta que los dos exámenes parciales tienen un valor del
30% cada uno y el examen final vale el 40%:

Media ponderada.

La mediana divide un conjunto ordenado de números en dos grupos iguales. La mitad de los


números tendrá valores menores que la mediana y la otra mitad alcanzará valores mayores a
esta.

Para encontrar la mediana es necesario ordenar primero los valores incluidos en el conjunto de
menor a mayor. Luego, se separan los valores por la mitad, con el fin de obtener la mediana.

Si la cantidad de valores que incluye el conjunto es un numero impar, la mediana será el valor
que se encuentre justamente a la mitad del conjunto ordenado en forma ascendente. Por otro
lado, si la cantidad de valores que incluye el conjunto es un número par, debe seleccionar los
dos valores que se localizan en medio del conjunto ordenado, sumarlos y dividir la suma entre
dos. Este cociente será la mediana.

Una medida estréchamente ligada a la mediana es el cuartil.  Los cuartiles dividen los datos
ordenados en cuatro partes. 25% de los valores serán menores que el primer cuartil, 50% serán
menores que el segundo cuartil (que es la mediana), 75% de ellos serán menores que el tercer
cuartil y un 25% de estos serán mayores que este último cuartil (el tercero).
19

Una subdivisión similar a la descrita arriba son los deciles, que subdividen un conjunto de
valores en diez partes iguales (aplicando la misma lógica descrita en el párrafo anterior. Otra
forma de subdividirlos es mediante percentiles, que subdividen al conjunto en 100 grupos
iguales y funciona tal y como ya se ha descrito; por ejemplo, 76% de los valores serán menores
que el 76° percentil.

Los cuartiles, deciles y percentiles se emplean principalmente junto con distribuciones de


frecuencias.

La moda es el valor que se presenta con mayor frecuencia en un conjunto. Por ejemplo,
considere el siguiente conjunto de números: 10, 10, 8, 6 y 10. Observe que el 10 se incluye tres
veces, mientras que los demás aparecen sólo una vez; por tanto, la moda de este conjunto de
números es 10. La moda es de utlidad cuando se trabaja con conteo de datos.

Además de las medidas de tendencia central, al trabajar con conjuntos de datos es necesario
considerar también qué tan dispersos están lo valores que incluye el conjunto. Interesa no sólo
que tan dispersos se encuentras tales valores uno de otro, sino también qué tan alejados están
con respecto al valor típico que los representa a todos.

Piénselo de esta manera: la medida de tendencia central indicará aquel valor que sirve para
generalizar sobre los valores que incluye un conjunto. Para ponerlo en perspectiva, considere la
comida típica mexicana. El término comida típica de algún país, abarca al conjunto de platillos
que son comunmente preparados dentro de dicho país. En otras palabras, podemos decribir la
cultura de dicho país -entre otras cosas-, por su cocina.Así, la comida típica de un país
representa al conjunto de platillos que es común encontrar dentro de dicho país. Note que decir
que -por ejemplo-, el hotdog es una comida típica de Estados Unidos, no implica -en lo
absoluto-, que en Estados Unidos se coma unicamente hotdogs ni -mucho menos-, que todos
los platilos que se sirven en dicho país sean preparados exactamente igual que como se
preparan los hotdogs, ni que lleven exactamente los mismos ingredientes. Lo único que la
afirmación “El hotdog forma parte de la comida típica de Estados Unidos” implica, es que esa
comida en particular es bastante común dentro del territorio estadounidense, entre otros
platillos que son preparados allí.

De la misma manera, la medida de tendencia central proporciona una idea de cómo son los
valores que incluye el conjunto y nos permite generalizar sobre estos.  Si considera el conjunto
de calificaciones obtenidas a través de todos los exámenes que se le aplican a un estudiante
durante un semestre, el promedio sólo indica -de manera general-, el aprovechamiento de este
estudiante durante el semestre.
20

Pudo ocurrir que en algún examen haya obtenido una nota muy alta y que en otro examen
obtuviese una calificación reprobatoria. Como ya se ha indicado, todas las calificaciones que
este estudiante ha obtenido afectan a su promedio, así que si desea pasar la materia, debe
esforzarse por obtener la calificación más alta posible en el examen final.

Precisamente es en este contexto en que la medición de la dispersión es útil. Lo que una medida
de dispersión nos dice acerca de los datos a los que se asocia, es qué tan importante es el error
cometido  al tomar la medida central como referencia. Indica qué tan diferentes son los valores
del conjunto con respecto a la medida central.

Entre otras, podemos emplear las siguientes medidas de dispersión:

El rango, también conocido como amplitud de la variación, nos indica la diferencia que existe
entre el mayor de todos los valores incluidos en un conjunto y el menor de estos. Nos da una
idea precisa de qué tan amplio es el conjunto en relación con los valores que incluye.

La desviación absoluta media es el promedio del valor absoluto de las diferencias (dispersión)
de cada valor dentro del conjunto con relación a la media. La diferencia se obtiene como un
valor absoluto (quitando el signo) porque de lo contrario, al sumar las diferencias
obtendríamos una suma igual a cero, por las propiedades de la media -discutido
anteriormente-. Esta medida no suele utilizarse, ya que hay otras medidas de dispersión que
ofrecen características más atractivas -como una mayor precisión-; no obstante, es muy útil
para la adminsitración de inventarios.

La variancia es el promedio de la suma de los cuadrados de la dispersión entre cada valor de


conjunto con respecto a la media. En términos llanos, para calcularla, usted obtiene la
diferencia de cada valor con respecto a la media, eleva esta diferencia al cuadrado -con el fin de
eliminar el signo negativo, si lo tuviese- y suma las diferencias así obtenidas. Finalmente,
divide la suma entre la cantidad de elementos que incluye el conjunto.

Dado que la variancia está expresada como un promedio de cuadrados, puede resultar más
interesante obtener una medida de dispersión que nos muestre de una manera más cercana a
las diferencias encontradas en el conjunto qué tan difusos -o dispersos-, son los valores que
incluye el conjunto.

Para ello, obtenemos la raíz cuadrada de la variancia -también llamada varianza- y esta raíz
estará mucho más acorde a la magnitud de las diferencias de cada valor con respecto a la
media.

Precisamente con estas últimas dos medidas de dispersión surge una acotación importante:
algunas veces, deseamos obtener la varianza o la desviación estándar de un conjunto de datos
21

que fueron recopilados mediante un censo, perteneciendo por tanto a una poblacion. En otras
ocasiones, los datos fueron recopilados a partir de una muestra que -como ya hemos visto,
representa a un subgrupo, representativo de una población-.

Cuando deseamos obtener la varianza o la desviación de una población, la cantidad de


elementos en el conjunto se denota por una N mayúscula, para indicar que los datos provienen
de una población. Además, el promedio de las dispersiónes se obtiene dividiendo entre N, dado
que se pretende repartir la dispersión global equitativamente entre el número de dispersiones
calculadas para cada elemento del conjunto.

Así mismo, si se desea determinar la variancia o la desviación estándar de los datos contenidos
en una muestra -subgrupo de una población-, se utiliza una n minúscula para referirnos a la
cantidad de elementos que contiene el conjunto y la dispersión se distribuye equitativamente
entre la cantidad de elementos que contiene el conjunto menos 1 (n – 1).

La razón para utilizar (n – 1) como denominador al promediar las dispersiones se


llama corrección de Bessel y tiene que ver con un concepto conocido como grados de libertad.
Una manera muy sencilla de comprender este concepto consiste en establecer un paralelismo
como el siguiente ejemplo: considere un grupo de 20 estudiantes que asistirán a tomar clases el
día de hoy. Todos ellos llegarán a un salón en el que hay 20 butacas. El primero que llegue
puede elegir cualquiera de las 20 butacas para tomar asiento. El segundo en llegar sólo podrá
elegir entre las 19 butacas restantes, el tercero sólo tendrá 18 butacas disponibles para realizar
su elección y así, hasta el último que llegue, quien no tendrá más alternativa que conformarse
con la única butaca que queda disponible.

La corrección de Bessel se utiliza en las muestras dado que estas sólo pueden proporcionar
estimaciones acerca del comportamiento de una población. Es decir, un estimador obtenido a
partir de una muestra sólo proporciona un indicio de lo que puede estar realmente ocurriendo
dentro de una población. Por ello, al determinar el tamaño de una muestra se hace necesario
proporcionar un nivel de confianza.

Lo que esto implica que un estimador, tal como la media de una muestra, puede diferir de la
media de una población tanto como el nivel de confianza escogido lo permita.

Para corregir cualquier desviación que pueda ser introducida mediante el muestreo se utiliza la
corrección de Bessel.

Todas las medidas de dispersión discutidas hasta este punto son medidas de dispersión
absoluta. Algunas veces es más útil referirnos a la dispersión como una dispersión relativa.
22

Recordará, por ejemplo, que cuando dividimos la frecuencia con que se presenta una
observación particular entre el número total de elementos que incluye un conjunto, obtenemos
una medida que expresa el porcentaje de ocasiones en que dicho valor está presente en el
conjunto. Por ejemplo, si 5 de 30 personas indican que les gusta el color rojo, 5 será la medida
absoluta; sin embargo, también podemos expresar lo anterior en forma porcentual, y entonces
diríamos que al 16.7% de las personas encuestadas (aproximadamente), les gusta el color rojo.
Esta última es una medida relativa, ya que nos permite expresar una proporción de elementos
que cumplen una determinada característica -les gusta el color rojo-, sin necesidad de hablar de
cuántas personas respondieron afirmativamente, ni a cuántas personas se entrevistó.

De esta manera, si deseamos hablar de la dispersión como una medida relativa, la manera de
hacerlo consiste en dividir la medida de dispersión escogida entre la media de la población o de
la muestra utilizadas. Al cociente obtenido le llamaremos coeficiente de variación.

Capítulo II

MEDIDAS DE DISPERSIÓN RELATIVAS.

Introducción

Las medidas de dispersión (desviación media, varianza, desviación estándar, rango, amplitud
intercuartílica, desviación cuartílica y la amplitud cuartílica) son todas medidas de variación
absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud,
está dada por el coeficiente de variación.

El Coeficiente de variación (CV) es una medida de la dispersión relativa de un conjunto de


datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética
y se expresa generalmente en términos porcentuales.

Propiedades

- Puesto que tanto la desviación estándar como la media se miden en las unidades originales,
el CV es una medida independiente de las unidades de medición.

- Debido a la propiedad anterior el CV es la cantidad más adecuada para comparar la


variabilidad de dos conjuntos de datos.
23

Métodos de cálculo

3.1) Para una población se emplea la siguiente fórmula:

3.2) Para una muestra se emplea la siguiente fórmula:

Ejemplo ilustrativo N° 1: Mathías, un estudiante universitario, tiene las siguientes


calificaciones en las 10 asignaturas que recibe en su carrera: 8, 7, 10, 9, 8, 7, 8, 10, 9 y 10. Josué,
un compañero de Mathías, tiene las siguientes calificaciones: 8, 9, 8, 7, 8, 9, 10, 7, 8 y 10. ¿Cuál
estudiante tiene menor variabilidad en sus calificaciones?

Solución: Como se está tomando en cuenta todas las asignaturas, se debe calcular el


coeficiente de variación poblacional.

Sin agrupar los datos empleando Excel se calcula el coeficiente de variación tal como se
muestra en la siguiente figura:
24

Agrupando los datos en tablas de frecuencias se calcula así:

a) Se agrupa las calificaciones y se realiza el cálculo la media aritmética

b) Se calcula la desviación estándar


25

c) Se calcula el coeficiente de variación

Para Mathías se obtiene:

Empleando Excel es como muestra la siguiente figura:


26

Para Josué se obtiene:

Empleando Excel es como muestra la siguiente figura:

Interpretación: Por lo tanto el estudiante que tiene menor variabilidad en sus calificaciones es
Josué

Ejemplo ilustrativo N° 2: Se saca una muestra de un curso de la Universidad UTN sobre las
calificaciones en las asignaturas de Matemática y Estadística, resultados que se presentan en
las siguientes tablas. ¿En qué asignatura existe mayor variabilidad?. Realice los cálculos
empleando Excel
27

Solución:

Los cálculos para la asignatura de Matemática empleando Excel se muestran en la siguiente


figura:

Los cálculos para la asignatura de Estadística empleando Excel se muestran en la siguiente


figura:
28

Estudien con Tiempo y Justo a Tiempo.

Buena suerte.

Pedro Camargo.

También podría gustarte