Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva
Existen cálculos matemáticos que permiten extraer de los datos una tendencia real positiva o
negativa de los resultados. Es precisamente la estadística descriptiva la que nos ayuda a analizar y
describir los datos para obtener un resultado final.
Se dice que la estadística descriptiva es la base de cualquier análisis de datos. Conozcamos más de
sus características y tipos que existen.
Por estadística descriptiva entendemos, por ejemplo, el cálculo de la media y la mediana, dos
indicadores muy importantes y sobre todo diferentes. La mediana es un indicador que «no tiene
en cuenta los valores extremos, a veces poco frecuentes», a diferencia de la media, que está muy
influida por estos valores extremos.
Los datos brutos serían difíciles de analizar, y la determinación de tendencias y patrones puede ser
un reto. Además, los datos en bruto dificultan la visualización de lo que muestran los datos.
– Distribución de frecuencias
Utilizada tanto para datos cualitativos y cuantitativos. Representa la frecuencia o el recuento de los
diferentes resultados en un conjunto de datos o muestras.
– Tendencia central
Las medidas de tendencia central también se conocen como medidas de localización central. La
media, la mediana y la moda son consideradas las medidas de tendencia central.
La media, que se considera la medida de tendencia central más popular, es el valor medio o más
común en un conjunto de datos. La mediana se refiere a la puntuación media de un conjunto de
datos en orden ascendente. La moda se refiere a la puntuación o valor más frecuente en un
conjunto de datos.
– Variabilidad
Una medida de variabilidad es una estadística de resumen que refleja el grado de dispersión de
una muestra. Las medidas de variabilidad determinan la distancia que los puntos de datos parecen
tener con respecto al centro.
El rango representa el grado de dispersión o un ideal de la distancia entre los valores más altos y
más bajos dentro de un conjunto de datos. La desviación estándar se utiliza para determinar la
varianza media de un conjunto de datos y proporciona una idea de la distancia o la diferencia entre
un valor de un conjunto de datos y el valor medio del mismo conjunto de datos.
La varianza refleja el grado de dispersión y es esencialmente una media de las desviaciones al
cuadrado.
Ejemplo 1:
Las estadísticas descriptivas sobre una universidad se refieren a la puntuación media en los
exámenes de matemáticas de los alumnos de nuevo ingreso. No dice nada sobre por qué los datos
son así o qué tendencias podemos ver y seguir.
TABULACION DE DATOS :
Tras la recogida de datos, el siguiente paso en un trabajo estadístico consiste en
una representación de estos datos de manera directa, concisa y visualmente
atractiva. Esto se hace en Estadística mediante la tabulación de la variable
estadística o del atributo. Realizar una tabulación consiste en elaborar tablas
simples, fáciles de leer y que de manera general ofrezcan una acertada visión de
las características más importantes de la distribución estadística estudiada.
Para los casos en que la variable es continua y también para los casos de discreta
con muchos valores distintos de la variable, la tabulación se realiza agrupando los
valores de la variable en intervalos, generalmente de la misma amplitud y con el
criterio de que el límite inferior de cada intervalo se considera dentro del intervalo
y el límite superior se considera fuera del intervalo. La amplitud de los intervalos
dependerá de cada ejercicio. No es aconsejable tener un número exagerado de
intervalos. En la primera columna situamos los distintos intervalos previamente
planificados y en las restantes columnas se procede de la misma forma que para
variable discreta.
Para explicar este tema vamos a retomar el Ejemplo 2 del apartado 1.2.1.1; además de lo ya calculado,
también tenemos que determinar los límites reales de cada clase.
Límite real inferior: se resta la cantidad calculada a cada uno de los límites inferiores.
Límite inferior Límite superior Límite real inferior Límite real superior
32 41 31.5 41.5
42 51 41.5 51.5
52 61 51.5 61.5
62 71 61.5 71.5
72 81 71.5 81.5
82 91 81.5 91.5
92 101 91.5 101.5
Límite real superior: se le suma la cantidad calculada a cada uno de los límites superiores.
Cada clase se puede identificar por su marca de clase o centro de clase, la cual se puede calcular de la
siguiente forma:
Xc = (Linf + Lsup) / 2
También debemos de calcular la frecuencia porcentual. Ésta se determina a partir de la frecuencia relativa.
Esto es:
f % = frel x 100 = f/n x 100
Tabla 3
Total 100%
1. Se parte de una tabla que incluya límites reales y frecuencias absolutas, relativa y porcentual.
2. Se eligen los ejes cartesianos, donde la variable estará en el eje horizontal y la frecuencia absoluta,
relativa o porcentual irá en el vertical.
3. Se marcan en el eje horizontal los límites reales y se levantan líneas desde esos puntos. La longitud
de la base de cada rectángulo será igual al ancho del intervalo.
4. La altura de cada rectángulo se localiza en el eje vertical y corresponderá a la frecuencia que se
haya elegido, absoluta, relativa o porcentual.
5. De ser posible, debe cuidarse que la altura del máximo rectángulo sea tres cuartos de la longitud
utilizada para el eje horizontal.
Ojivas
La curva ojiva da una imagen del crecimiento de una distribución, con base en el hecho de que cualquiera de
las distribuciones debe comenzar en cero y terminar en cien. Pasos para construir una ojiva:
1. Ser parte de una tabla que incluya los límites reales superiores de una distribución, además de una
frecuencia acumulada absoluta, relativa o porcentual, según sea el caso.
2. Se eligen los ejes cartesianos, donde la variable estará en el eje horizontal y la frecuencia absoluta,
relativa o porcentual en el eje vertical.
3. Se marcan en el eje horizontal los límites reales superiores de cada clase y se trazan líneas
perpendiculares que cruzaremos con las respectivas líneas perpendiculares de sus frecuencias
acumuladas. Esa intersección representará un punto en el plano cartesiano.
4. La altura de cada punto será la frecuencia acumulada que se haya elegido, absoluta, relativa o
porcentual.
Diagrama de pastel (diagrama circular).
Los diagramas de pastel resultan convenientes cuando la importancia no radica en mostrar el número de
veces que ocurre cierta característica o atributo respecto a los demás valores de la variable, sino que se trata
de resaltar la proporción (o porcentaje) en que estas características aparecen en comparación con el total.
1. Se toma como base una tabla de distribución de frecuencias, y se calculan el ángulo y el ángulo
acumulado de cada categoría.
o Θ = f abs / n x 360
o Θ = frel x 360
o Θ = f% x 3.6
2. Se dibuja un círculo y se localiza el ángulo cero, porque éste será el punto de partida.
3. Con un transportador se dibuja el primer ángulo, luego se marca el siguiente ángulo acumulado, y
así, sucesivamente, hasta completarlos en el círculo.
4. Se agregan leyendas a los gajos resultantes, si se desea.
5. Nota: para que un diagrama de pastel sea útil, debe construirse para una variable cuyos valores no
sean demasiados.
Ejemplo:
2 28 0.2333 83.99
3 26 0.2166 77.97
4 26 0.2166 77.97
Total: 120
MEDIDAS DE TENDENCIA CENTRAL: MEDIA MEDIANA MODA Y MEDIA GEOMETRICA
La media, mediana y moda son las medidas de tendencia central más importantes, de mayor
aplicación y más fáciles de calcular. Sin embargo, en ciertas circunstancias son útiles otras medidas
de tendencia central y aunque su uso no sea frecuente, es conveniente conocerlas; estas son:
La media, también conocida como promedio, es el valor que se obtiene al dividir la suma de un
conglomerado de números entre la cantidad de ellos.
La media representa el punto de equilibrio de la distribución y está influida por los valores
extremos. Proporciona una medida de la tendencia general o valor medio de los datos.
Se calcula sumando todos los valores del conjunto de datos y dividiendo la suma por el número
total de puntos de datos.
Para obtener la Media de un conjunto solo tienes que seguir estos sencillos pasos:
Ejemplo de Media
En una tienda mayorista se quiere calcular el promedio de ventas que realizaron los empleados
durante el mes. Para calcular la media se realiza lo siguiente:
¿Qué es la mediana?
La mediana es un conjunto es un valor que se encuentra a la mitad de los otros valores, es decir, que al
ordenar los número de menor a mayor, éste se encuentra justamente en medio entre los que están por arriba.
Se calcula sumando todos los valores del conjunto de datos y dividiendo la suma por el número total de
puntos de datos.
La media representa el punto de equilibrio de la distribución y está influída por los valores extremos.
Proporciona una medida de la tendencia general o valor medio de los datos.
Si tienes una cantidad impar: Tacha el número al final de la izquierda, después el primero a la
derecha, y repite el proceso hasta quedarte con un número, que será la mediana.
Si tienes una cantidad par, al final quedarás con dos números en el centro. Súmalos y divídelos entre
2 para obtener la mediana.
Ejemplo de Mediana
Si se tienen los valores 9,5,4,2, se ordenan: 2,4,5,9. En este caso se toman los dos valores centrales 5 y 4, la
mediana es el promedio de ambos: 9
¿Qué es la moda?
La moda es el valor que aparece más dentro de un conjunto de datos. A diferencia de la media y la mediana,
la moda no requiere valores numéricos y puede utilizarse con datos categóricos o discretos.
Un conjunto de datos puede tener un modo, conocido como unimodal, o varios modos, denominados bimodal
o multimodal. Se llama amodal cuando en un conglomerado no se repiten los valores.
Ejemplo de Moda
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar
las siguientes:
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia
entre el valor más elevado y el valor más bajo.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio
obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
Desviación estándar
Al igual que la varianza, la desviación estándar es una medida de variabilidad que también toma
en cuenta la dispersión de los valores de los datos respecto a su media. Sin embargo, su significado
es más valioso que el de la varianza, pues su resultado se encuentra expresado en las mismas
unidades de la variable que se examina y no en valores elevados al cuadrado como lo hace la
varianza. La desviación estándar se representa mediante la letra griega σ para el caso de una
población, o por S en el caso de una muestra. Se obtiene sacando la raíz cuadrada al resultado de
la varianza, no importa si ésta se trata de una varianza para datos no agrupados o para datos
agrupados, o provenientes de una muestra o de una población. Al proporcionar sus resultados en
unidades no cuadradas, la desviación estándar es muy fácil de interpretar y su resultado tiene
mayor significado en el análisis de un fenómeno. Las fórmulas para la desviación estándar para
datos no agrupados son: