Apuntes de Descriptiva y Ejercicios
Apuntes de Descriptiva y Ejercicios
Apuntes de Descriptiva y Ejercicios
Medidas de posición
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen
a una distribución ordenada en partes iguales. Para calcular las medidas de posición
es necesario que los datos estén ordenados de menor a mayor.
a - Los Cuartiles
(Qk): son los tres valores de la variable de una distribución
que la dividen en cuatro partes iguales, es decir, al 25%, 50% y 75%. Para
calcular el valor de uno de los cuatro Cuartiles, se utiliza la fórmula:
Qk = k (n/4)
En donde:
Qk = Cuartil número 1, 2, 3 ó 4
n = total de datos de la distribución.
Para calcular los cuartiles (datos no agrupados) debes seguir los siguientes pasos:
El primer cuartil (Q1) es el valor de la variable que supera a lo más el 25 % de los datos y
es superado por a lo más el 75 % de ellos en la distibución ordenada de menor a mayor.
El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de los datos y es superado por a lo
más el 50 % de ellos, es decir, Q2 coincide con la mediana.
El tercer cuartil (Q3) es un valor que supera a lo más al 75 % de los datos y es superado por a lo
más el 25 % de ellos.
Ejemplos:
a) Dado el siguiente conjunto de datos: 2 ; 5 ; 9 ; 3 ; 13 ; 10 ; 11 ; 6 ; 7. ¿Cuál es el valor del
tercer cuartil?
2; 3; 5; 6; 7; 9; 10; 11; 13
n= 9
Q3 = 3 (9 /4)
Q3 = 6,75; En caso de ser un número decimal se aproxima al entero más cercano superior ,
que sería 7. Este valor indica la posición del cuartil 3.
2; 3; 5; 6; 7; 9; 10; 11; 13
Q1 = 5
Q2 = (5+7) / 2 = 6
Q3 = 7
MEDIDAS DE CENTRALIZACIÓN
Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como
representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones
en un conjunto de datos. Por orden de importancia, son:
Si los datos están agrupados utilizamos las marcas de clase, es decir c i en vez de xi.
◆ MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de
menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50%
son mayores. Si el número de datos es impar la mediana será el valor central, si es par
tomaremos como mediana la media aritmética de los dos valores centrales.
◆ MODA (M0): es el valor de la variable que más veces se repite, es decir, aquella cuya
frecuencia absoluta es mayor. No tiene porque ser única.
MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central ttienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia
central son representativas como síntesis de la información. Las medidas de dispersión cuantifican
la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.
Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes
muestras y las relativas que nos permitirán comparar varias muestras.
◆ VARIANZA (s2): es el promedio del cuadrado de las distancias entre cada observación y la
media aritmética del conjunto de observaciones.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥)
2 ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥) ∗𝑓𝑖
s2 =√ ó s2 =√
𝑛−1 𝑛−1
Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza:
Si los datos están agrupados utilizamos las marcas de clase en lugar de X i.
◆ DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable
pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación
típica que se define como la raíz cuadrada positiva de la varianza
𝑺 = √𝑺𝟐
𝑺
𝑪𝑽 = ∗ 𝟏𝟎𝟎
𝒙
CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo
tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.
MEDIDAS DE FORMA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas)
descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la
distribución es asimétrica a la izquierda.
EL SESGO: Mide las desviaciones de las MTC., Ya que el sesgo es el grado de asimetría o falta de
asimetría, de una distribución, si el polígono de frecuencias visualizado de una distribución tiene
una cola más larga a la derecha del máximo central que a la izquierda, se dice que la distribución
esta sesgada a la derecha o que tiene sesgo positivo (asimetría positiva) y si al contrario se dice que
tiene sesgo (asimetría negativa) en la asimetría encontramos si es:
Mediante la comparación entre media, mediana y moda como se muestra en el gráfico también se
puede indicar la asimetría.
𝑸𝟑 − 𝑸𝟏
𝑪=
𝟐(𝑷𝟗𝟎 − 𝑷𝟏𝟎 )
Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o
clases para así realizar un mejor análisis e interpretación de ellos.
• Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se
debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la
cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las
frecuencias relativas y acumuladas, si es pertinente.
Debemos tener en cuenta 2 cosas. Primero que el número de intervalos me tiene que dar
impar, segundo que el resultado se redondea generalmente a la baja. Si al redondear a la baja
nos da como resultado un número par debemos redondear al alza. Este es el método que tiene
mayor precisión.
O podemos realizar √𝑛
abiertas: clases abiertas tienen límites determinados (a,b), pero los valores que la contienen
comprenden valores muy cercanos a estos límites sin comprenderlos a ellos mismos, esto se
representa con un intervalo definido entre paréntesis (). Esto quiere decir que esta clase
contiene valores desde a hasta b pero no contiene exactamente a ni b solo valores muy
cercanos.
cerradas: las clases cerradas, además de los valores que están entre a y b, los contiene a ellos,
y se representa con corchetes [a,b].
semiabiertas: pueden contener a o b más los valores que están entre ellos, y se puede
representar con un corchete y un paréntesis, por ejemplo, (a,b], en este caso no contiene el
valor a y si los valores de b, además de los valores que están entre estos.
Se calcula sumando todos los productos de marca clase con la frecuencia absoluta respectiva
y su resultado dividirlo por el número total de datos:
La marca clase de una tabla para datos agrupados en intervalos corresponde al promedio de
los extremos de cada intervalo.
2- Moda
𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑−1
𝑋𝑚𝑜𝑑 = 𝑙𝑖 + [ ]∗𝐶
(𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑−1 ) + (𝑓𝑚𝑜𝑑 − 𝑓𝑚𝑜𝑑+1 )
𝑙𝑖 Extremo inferior del intervalo modal (intervalo que tiene mayor frecuencia absoluta).
𝑓𝑚𝑜𝑑 Frecuencia absoluta del intervalo modal.
- Puede haber más de una moda en el caso en que dos o más valores de la variable presenten
la misma frecuencia (distribuciones bimodales o multimodales).
3- Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de
menor a mayor. La mediana se representa por Me. La mediana se puede hallar sólo
para variables cuantitativas.
𝑛
− 𝐹𝑚𝑒𝑑−1
𝑋𝑚𝑒𝑑 = 𝑙𝑖 + [ 2 ]∗𝐶
𝑓𝑚𝑒𝑑
4. La tabla muestra la pérdida de peso (en libras) que obtuvieron cada uno de los clientes
de una clínica de control del peso durante el último año.
10 13 22 26 16 23 35 53
17 32 41 35 24 23 27 16
20 60 48 43 52 31 17 20
33 18 23 8 24 15 26 46
30 19 22 13 22 14 21 39
28 43 37 12 20 11 25 9
15 21 21 25 34 10 23 29
28 18 17 24 16 2 7 12
28 20 36 16 14 6 18 16
57 31 34 28 4 2 19 26
Estadísticos
Puntaje
Válidos
N 70
Perdidos 0
Media 76,3714
Mediana 77,0000
Moda 76,00
Desv. típ. 11,83237
Varianza 140,005
Asimetría -,300
Error típ. de asimetría ,287
Curtosis -,289
Error típ. de curtosis ,566
Rango 53,00
Mínimo 46,00
Máximo 99,00
P25 68,7500
50
e 77,0000
70 82,0000
r
75 84,5000
c
e90 93,0000
n
t
i
l
e
s
e) ¿El puntaje esperado obtenido de los estudiantes se aproxima a los datos reales? Si o no y
explique las razones.
6. Una empresa quiere disminuir la brecha de género y para ello realizó una encuesta, una
de las variables que se revisó es la edad, a partir de ello se obtuvo el siguiente diagrama
que representa las edades, donde la caja superior representa las mujeres y la caja
inferior representa a los hombres, a partir de ello indique cuatro comparaciones entre
las edades de mujeres y hombres que le puedan servir a la empresa.
7. Un corredor entrena para una determinada carrera y se toman los tiempos que necesita
para recorrer los 100m, durante 10 días consecutivos (cada día se toman varios tiempos
y se calculan mediana, cuartiles, valores mínimo y máximo)
11. Unos grandes almacenes disponen de un aparcamiento para sus clientes. Los siguientes
datos que se refieren al número de horas que permanecen en el aparcamiento una serie
de coches:
Se pide:
a) Obtener la tabla de frecuencias para ese conjunto de datos. Interpretar la tabla.
b) Obtener la tabla de frecuencias ascendente y descendente.
c) Determinar e interpretar la tercera cuartilla y el percentil del 42%.
d) Calcular el tiempo medio de permanencia de los coches en el aparcamiento. Interpretar el
resultado y los elementos que intervienen.
Bibliografía