Cap 4 Descripción Numérica I
Cap 4 Descripción Numérica I
Cap 4 Descripción Numérica I
4.1. La media
Ejemplo 4.1.
Las medias de las variables GTINE (gasto) y AHORRO del conjunto de datos de
la Tabla 11 son 260.597 pesetas y 14.762,7 pesetas, respectivamente. Estas cantidades
permiten hacerse una primera idea de las magnitudes —la posición— de ambas variables.
Así, para estos datos, las familias gastan, en promedio, unas veinte veces más que la
cantidad que ahorran, o, en otras palabras, el ahorro es del orden del cinco por ciento del
gasto.
Esto se debe a que, cuando las desviaciones se calculan con respecto a la media,
las negativas se compensan con las positivas. Otra propiedad importante de la media es
que, si sumamos diferentes variables, la media de la suma es la suma de las respectivas
medias; es decir,
Ejemplo 4.2.
La Figura 4.1 presenta dos conjuntos de datos muy distintos con la misma media.
Como puede verse fácilmente, la diferencia no radica en rasgos como la simetría —ambos
son razonablemente simétricos— sino en su concentración —o dispersión— alrededor de
la media común. Este ejemplo pone de manifiesto la conveniencia de complementar la
media (que es medida de posición) con un valor numérico que exprese la idea de
variabilidad de los datos alrededor suyo.
Una forma natural de construir una medida de dispersión sería promediar las
desviaciones a la media
En el apartado anterior hemos visto que estas cantidades suman cero. Una manera
—no la única— de evitar que los distintos signos se compensen es elevarlas al cuadrado,
de manera que todas las desviaciones sean no negativas. La raíz cuadrada del promedio
de estas cantidades recibe el nombre de desviación típica y se representa por:
Como ocurría con la media, la desviación típica también tiene buenas propiedades
con respecto a las transformaciones lineales de las variables. Asi, se puede demostrar que
si pasamos de la variable x a la variable ax + b, la desviación típica de la nueva variable
es la inicial multiplicada por la magnitud de la constante a, sin tener en cuenta su signo;
es decir,
donde \a\ representa el valor absoluto de o, es decir, a siempre con signo positivo
5
(por ejemplo, |—3| = 3; |5| = 5).
Es natural el hecho de que la constante b —que sólo contribuye a la transfor-
mación trasladando los datos—, no suponga modificación de la desviación típica, que es
medida de dispersión y no de posición.
La regla de Chebychev permite otra interpretación de la desviación típica como
medida de concentración. Este resultado establece que, para cualquier conjunto de datos,
la proporción de observaciones que distan menos de m desviaciones típicas de la media
es como mínimo
Así, por ejemplo, en la Figura 4.3 puede verse el porcentaje mínimo de datos que
según la regla de Chebychev, están a menos distancia de la media que las
correspondientes desviaciones típicas.
Como puede apreciarse en el ejemplo siguiente, la generalidad de la regla de
Chebychev —es cierta para cualquier conjunto de datos— hace que sus prescripciones
sean muy conservadoras.
Ejemplo 4.4.
La Figura 4.4 es el diagrama de tallos y hojas para las calificaciones del grupo 1
que aparecía en la Figura 3.15 del capítulo anterior. La media de estos datos es 429 y su
desviación típica es 1,97. La regla de Chebychev afirma que, al menos, el 75 por 100 de
las observaciones dista menos de dos desviaciones típicas de la media, es decir, en este
caso, al menos 96 datos deben estar entre x — 2sx = 025 y je + 2sx = 8,23; contando en
el diagrama, se comprueba que hay 120 observaciones en esa situación, lo que confirma
el resultado de Chebychev.
siempre que la media no sea cero (las barras del denominador representan el valor
absoluto que, como ya dijimos, indican que debe prescindirse del signo de la media).
Ejemplo 4.5.
Ejemplo 4.6.
La Figura 4.5 presenta tres distribuciones con distintas formas de simetría y sus
correspondientes coeficientes de asimetría. En la parte (a) aparece el histograma de la
variable ESPM (esperanza de vida de las mujeres en los países del mundo), que es
asimétrico a la izquierda y cuyo coeficiente de asimetría es:
8
Ejemplo 4.7.
En la Figura 4.6 pueden verse tres histogramas con sus respectivos valores del
coeficiente de apuntamiento. Nótese que las escalas del eje vertical son distintas. Los
datos de (b) son los de la variable ITOTAL de la Tabla 2.1 que expresan el ingreso total
y los del apartado (c) corresponden a la variable Gl que computa el gasto en aumentación,
bebidas y tabaco.
9
Figura 4.6. Histogramas para tres conjuntos de datos con coeficientes de apuntamiento: CApx =
2$0; ( b ) CApx = 5,95; ( c) CApx = 4,57.
y frecuencias relativas
es decir, la suma de los productos de las marcas de clase por sus frecuencias
relativas. De forma similar, se pueden introducir las correspondientes versiones
para datos agrupados de la desviación típica y los coeficientes de asimetría y
apuntamiento, que vienen dados por /
Ejemplo 4.8.
4.6. Resumen.
4.7. Ejercicios.
98 106 88 91 94 93 95 89 97 87 93 96 84 99 90
9834 9657 9978 10122 9654 9845 9932 9846 9952 9934
9912 9734 9852 9935 9899 9898 9945 9911 9923 9834
4.13. a) Elegir cuatro números entre cero y diez, ambos inclusive, para q tengan
la mínima desviación típica.
b) Elegir cuatro números entre cero y diez, ambos inclusive, para q tengan la
máxima desviación típica.
c) ¿Hay más de una respuesta válida para (a)? ¿Y para (b)?