Tema 1. Estadística Descriptiva
Tema 1. Estadística Descriptiva
Tema 1. Estadística Descriptiva
TEMA
Semana de refuerzo - Estadística
Esquema
En este tema se presentan los principales indicadores y métricas que permiten resumir
un conjunto de datos y sacar conclusiones de interés sobre sus principales características
y propiedades. Estos indicadores y métricas se denominan estadísticos de resumen,
estadísticos descriptivos o simplemente estadísticos.
Media
Medidas de tendencia central Moda
Mediana
Media recortada
Varianza
Desviación típica
Medidas de dispersión Coeficiente de variación
MEDA
Rango
Rango intercuartílico
Mediana
Medidas de posición Cuartiles
Deciles
Percentiles
1.2. La media
Definición
Para una variable determinada la media se define como la suma de los valores de todas
las observaciones de la variable dividida entre el número de observaciones.
Matemáticamente, dado un conjunto de N datos {x1, x2,…, xN}, su media se calcula como:
x1 + x2 + … + xN Σ
i= 1
xi
x= =
N N
x= Σ
i= 1
ci fi
Interpretación
Propiedades
(x + y + … + z) = x + y + … + z
(k x) = k x
1.3. La moda
Para una variable determinada la moda se define como el atributo o valor con mayor
frecuencia absoluta. En el caso de variables cuantitativas divididas en intervalos o clases,
de denomina intervalo o clase modal al intervalo o clase que más frecuencia absoluta
presenta.
Una variable puede tener una única moda (en cuyo caso se denomina unimodal) o
varias modas (bimodal, trimodal, etc.)
Definición
La media o la moda son medidas que aportan información sobre la tendencia central
de los datos, pero no aportan ninguna información sobre si los datos están o
no dispersos respecto a esa tendencia central, y en qué medida lo están. Para
dar esa información la métrica más utilizada es la desviación típica.
sx = Σ
i= 1
(xi – x)2
k
sx = Σ (ci – x)2 fi
i= 1
Interpretación
100 (1 – 1/m2) %
Propiedades
sx = Σ
i= 1
xi 2
- x2
N
sax + b = a sx
Definición
sx
CVx =
x
Interpretación
por ejemplo, una con valores muy altos y la otra con valores muy bajos. Imaginemos dos
variables con los mismos datos, pero una de ellas medida en euros y otra en céntimos de
euro; es fácil comprender que la variable medida en céntimos de euro tendrá una media
y una desviación típica más altas que la otra medida en euros, pero el coeficiente de
variación será idéntico, lo que muestra que la dispersión comparada entre ambas
variables es, como es evidente, la misma.
Simetría
Se dice que una variable tiene una distribución1 simétrica respecto de un eje
vertical llamado eje de simetría (y situado en la media), si existe el mismo
número de valores a la derecha que a la izquierda de dicho eje y, por tanto, el
mismo número de desviaciones respecto a la media con signo positivo que
con signo negativo.
Para poder conocer la simetría de una variable respecto de la media sin necesidad de
representar su histograma o su polígono de frecuencias, se ha definido un indicador
que permite decidir sobre el tipo de simetría de una determinada variable y,
en su caso, la magnitud de la asimetría: es el coeficiente de asimetría.
Σ
i= 1
(xi - x)3
CAx =
N sx3
Σ
i= 1
(ci - x)3 fi
CAx =
sx3
Apuntamiento o curtosis
Σ
i= 1
(xi - x)4
CApx =
N sx4
Σ
i= 1
(ci - x)4 fi
CApx =
sx4
Mediana
Para una variable determinada la mediana es el valor de la variable que deja el mismo
número de datos antes y después que él, o lo que es lo mismo, el que se ocupa el lugar
central de todos los datos cuando éstos están ordenados de menor a mayor.
medx = x N +1
2
x N +x N
+1
2 2
medx =
2
La MEDA
La MEDA se define como la mediana del conjunto de datos que resulta de calcular la
desviación absoluta de cada dato respecto de la mediana global de la variable.
Para una variable determinada, los cuartiles son los valores de la variable que, una vez
ordenados los datos de menor a mayor, dividen a la distribución en cuatro partes que
contienen el mismo número de observaciones (igual frecuencia absoluta).
Q1 o cuartil del 25%, que es el valor de la variable que deja a su derecha el 25%
de los datos, una vez ordenados éstos de menor a mayor.
Q2 o cuartil del 50%, que es el valor de la variable que deja a su derecha el 50%
de los datos, una vez ordenados éstos de menor a mayor. Por su propia definición,
el cuartil Q2 es igual a la mediana.
Q3 o cuartil del 75%, que es el valor de la variable que deja a su derecha el 75%
de los datos, una vez ordenados éstos de menor a mayor.
Para una variable determinada, los deciles son los nueve valores de la variable que, una
vez ordenados los datos de menor a mayor, dividen a la distribución en diez partes que
contienen el mismo número de observaciones (igual frecuencia absoluta).
Los nueve deciles se representan por D1, D2,…, D9, y la interpretación de cada uno
de ellos es similar a la de los cuartiles, variando el porcentaje de datos que deja a la
derecha cada uno de ellos una vez ordenados los datos (así, el decil D5 deja a la derecha
el 50% de los datos y equivale a la mediana).
Rango intercuartílico
La mediana
Los cuartiles Q1 y Q3
Los datos atípicos y outliers
La simetría de la distribución
Cerrar las líneas anteriores con dos segmentos horizontales, de forma que la
representación refleje dos rectángulos unidos por una arista.
Marcar sobre la escala horizontal dos segmentos verticales, uno a la izquierda y
una distancia de 1,5 RI desde Q1, y otra a la derecha y a una distancia 1,5
RI desde Q3.
Repetir la operación para 3 RI, marcando con líneas verticales discontinuas.
Representar con puntos los valores que quedan:
o Hacia la izquierda, a una distancia superior a 1,5 RI e inferior a 3 RI desde Q1.
o Hacia la derecha, a una distancia superior a 1,5 RI e inferior a 3 RI desde Q3.
Estos valores reciben el nombre de datos atípicos.
Representar con aspas los valores que quedan:
o Hacia la izquierda, a una distancia superior a 3 RI desde Q1.
o Hacia la derecha, a una distancia superior a 3 RI desde Q3.
Estos valores reciben el nombre de valores extremos o outliers.
1,5 RI 1,5 RI
3 RI 3 RI
Q1 Mediana Q3
Desde ese punto de vista la mediana es mucho más robusta que la media, dado
que esta última es muy sensible a la aparición de valores muy altos o muy bajos, que
‘pesarán’ mucho o poco en el cálculo de la media, mientras que para el cálculo de la
mediana son sólo unas observaciones más, cuyo ‘peso’ es idéntico al del resto de
observaciones.
Esta mayor sensibilidad de la media a datos atípicos u observaciones extremas tiene una
implicación relacionada con la simetría de la variable:
Lo + recomendado
No dejes de leer…
El documento define los tres estadísticos básicos de tendencia central (media, mediana
y moda) y describe su proceso de cálculo, incluyendo ejemplos de cada uno de ellos.
Asimismo, se describe la utilidad de cada una de las medidas presentadas, y cuándo es
adecuada cada una de ellas.
No dejes de ver…
El vídeo muestra el proceso paso a paso para el cálculo de las principales medidas de tendencia
central (media, mediana y moda) y medidas de dispersión (rango, varianza y desviación típica)
utilizando el software Excel, mediante dos procedimientos diferentes: a) cálculo manual
mediante las fórmulas de Excel, y b) a través del módulo de Análisis de Datos incorporado en
Excel, que realiza un resumen de los principales estadísticos de un conjunto de datos de forma
automática.
+ Información
A fondo
Webgrafía
Biblioteca online donde se pueden encontrar conjuntos de datos para practicar los
conceptos estadísticos aprendidos. Asimismo, ilustra el empleo de los conceptos y
métodos estadísticos básicos, de modo que su consulta puede servir al alumno a valorar
qué cálculos estadísticos son apropiados en cada caso y por qué.
http://lib.stat.cmu.edu/DASL/
http://office.microsoft.com/es-es/excel-help/results.aspx
Bibliografía
RITCHEY FERRIS, J. Estadística para las Ciencias Sociales. McGraw Hill. México D.F.
2008
Test
7. Una determinada variable estadística tiene una media de 22.8ºC y una mediana de
24.1ºC, ¿qué puedes decir de la distribución de la variable?
A. Que es asimétrica a la izquierda
B. Que es asimétrica a la derecha
C. Que es leptocúrtica
D. Que es platicúrtica
8. Sabiendo que una variable estadística tiene Q1 = 9 y Q3 = 39, ¿cuáles de los siguientes
valores de la variable puede considerarse un valor extremo o outlier?
A. El valor -101
B. El valor 154
C. El valor 141
D. El valor -75
10. ¿Cuáles de las siguientes afirmaciones sobre la robustez de las medidas de tendencia
central de una variable son correctas? Puede haber más de una respuesta válida.
A. La mediana de la variable es más robusta que la media
B. La media recortada de la variable es más robusta que la media
C. La media de la variable es más robusta que la media recortada si no hay
observaciones extremas
D. La media es la más robusta de las medidas de tendencia central si no hay
observaciones extremas