Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
154 vistas37 páginas

Estadistica Descriptiva 2021

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 37

Estadística Descriptiva

Tecnología en Gestión de Mercados – 2021 GD

ESTADÍSTICA DESCRIPTIVA
Introducción
Este texto tiene un enfoque práctico, respetando el principio que la Estadística debe ser
una herramienta fundamental para describir procesos y tomar decisiones en el trabajo
cotidiano de cualquier profesional. En el mismo se trató de romper la dicotomía entre
teoría y realidad, respondiendo permanentemente a la pregunta ¿Cuándo puedo usar
esta teoría? ¿Qué me permite conocer o responder la misma? Por lo que se puede
describir “la estadística” como: “un conjunto de técnicas para describir grupos de datos y
para tomar decisiones en ausencia de una información completa”.

¿Qué es la estadística?
Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos
numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia
del concepto popular que existe sobre el término y que cada vez está más extendido
debido a la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier
medio de difusión, periódico, radio, televisión, etc., no aborde a todo el mundo
diariamente con cualquier tipo de información estadística sobre accidentes de tráfico,
índices de crecimiento de población, turismo, tendencias políticas, etc.

En un mundo más específico como es el campo de la investigación de las Ciencias


Sociales: Mercadeo, Medicina, Biología, Psicología, ... se empieza a percibir que la
Estadística no sólo es algo más, sino que se convierte en la única herramienta que, hoy
por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de
estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca, no puedan ser
abordadas desde la perspectiva de las leyes deterministas. Se podría, desde un punto
de vista más amplio, definir la estadística como la ciencia que estudia cómo debe
emplearse la información y cómo dar una guía de acción en situaciones prácticas que
entrañan incertidumbre.

La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir
una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de
ellos.

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar,


resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias
a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.

Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una
investigación, desde el comienzo hasta el final. Existe el convencimiento de que la

1
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más
visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados
con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la
elección del método de análisis para un problema, se basa tanto en el tipo de datos
disponibles como en la forma en que fueron recolectados.

Se puede por tanto clasificar la Estadística en descriptiva, cuando los resultados del
análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo
del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio.

Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando


métodos numéricos y gráficos que resumen y presentan la información contenida en
ellos.

Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos


muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones
sobre un conjunto mayor de datos.

Conceptos básicos:

Población: conjunto de individuos o elementos sobre los cuales se hace una


investigación estadística. En el lenguaje conjuntista es el conjunto referencial o universo.
La población puede ser según su tamaño de dos tipos:
Población finita: cuando el número de elementos que la forman es finito, por ejemplo el
número de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: cuando el número de elementos que la forman es infinito, o tan
grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio
sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta
población podría considerarse infinita.

Muestra: es el subconjunto de la población que es estudiado y a partir de la cual se sacan


conclusiones sobre las características de la población. La muestra debe ser
representativa, en el sentido de que las conclusiones obtenidas deben servir para el total
de la población.
Las muestras pueden ser probabilísticas o no probabilísticas. Una muestra probabilística
se elige mediante reglas matemáticas, por lo que la probabilidad de selección de cada
unidad es conocida de antemano. Por el contrario, una muestra no probabilística no se
rige por las reglas matemáticas de la probabilidad. De ahí que, mientras en las muestras
probabilísticas es posible calcular el tamaño del error muestral, no es factible hacerlo en
el caso de las muestras no probabilísticas.

La modalidad más elemental de muestra probabilística es la muestra aleatoria simple, en


la que todos los componentes o unidades de la población tienen la misma oportunidad
de ser seleccionados.

2
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Censo: cuando se observan todos los elementos de la población estadística.

Unidad estadística: es un elemento de la población

Parámetro: es cualquier característica numérica calculada sobre una población y resume


los valores que esta toma en algún atributo. Intenta resumir toda la información que hay
en la población en unos pocos números (parámetros). Ejemplo: la altura media de un
grupo de personas.

Estadístico: es cualquier característica numérica de una muestra que resume su


información sobre algún aspecto.

Caracteres: propiedades, rasgos o cualidades de los elementos de la población. En


otras palabras, es cada propiedad o aspecto que es objeto de estudio sobre los
individuos.
• Cuando el carácter estadístico es susceptible de medir, contar, o comparar, se
denomina carácter cuantitativo (puede ser discreto o continuo).
• Cuando no es medible, no se puede contar ni comparar, se dice que es un
carácter cualitativo.

Función variable estadística o función carácter estadístico: función X de P


(población) en un conjunto en el cual están los posibles valores que pueden tomar los
elementos de P, según la propiedad considerada.
Caracteres estadísticos de las unidades, alude a los distintos valores que los
elementos de la población pueden tomar por una variable estadística X.
Carácter estadístico asociado a una variable estadística X: es el conjunto imagen de
X.
Observación: con el mismo nombre “carácter estadístico” se alude a tres
conceptos diferentes:
1) Carácter estadístico de las unidades: los elementos del codominio de X
2) Función variable estadística o función carácter estadístico: a la función
3) Carácter estadístico asociado a X, conjunto imagen de X

Una variable estadística permite realizar una clasificación de los individuos de una
población que se consideran como equivalentes. Se colocan en una misma clase las
unidades estadísticas que se consideran equivalentes. Cada clase se llama modalidad
del carácter estadístico.

Distribución estadística, correspondiente a una variable estadística X: Función que


hace corresponder a cada modalidad de la partición inducida por X, el número de sus
elementos.

Organización de datos mediante tablas


El objetivo de la organización de datos es acomodar un conjunto de datos en forma útil
para revelar sus características esenciales y simplificar ciertos análisis.

3
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Distintos Tipos de Frecuencia


Una de los primeros pasos que se realizan en cualquier estudio estadístico es la
tabulación de resultados, es decir, recoger la información de la muestra resumida en una
tabla en la que a cada modalidad se le asocian determinados números que representan
el número de veces que ha aparecido, su proporción con respecto a otros valores de la
variable, etc. Estos números se denominan frecuencias:
Así, se tienen los siguientes tipos de frecuencia:

Frecuencia absoluta:
La frecuencia absoluta de una variable estadística es el número de veces que una
modalidad ha sido observada, es decir el número de veces que aparece en la muestra
dicho valor de la variable.

Frecuencia relativa:
La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al
aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia
absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es
necesario introducir el concepto de frecuencia relativa, que es el cociente entre la
frecuencia absoluta y el tamaño de la muestra.

Porcentaje
La frecuencia relativa es un tanto por uno, sin embargo, hoy día es bastante frecuente
hablar siempre en términos de tantos por ciento o porcentajes, por lo que esta medida
resulta de multiplicar la frecuencia relativa por 100.

Frecuencia Absoluta Acumulada:


Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable
estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho
sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de
la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual
que el de la variable.

Frecuencia Relativa Acumulada:


Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta
acumulada dividido por el tamaño de la muestra.

Porcentaje Acumulado:
Análogamente se define el Porcentaje Acumulado como la frecuencia relativa acumulada
por 100.

Intervalos de clase:

Los intervalos se usan cuando la variable es cuantitativa continua o cuando los datos son
discretos pero muy numerosos.
Si se reúnen grandes cantidades de datos sueltos es útil distribuirlos en clases o
categorías y determinar el número de individuos que pertenecen a cada categoría, a lo
que se le llama frecuencia de clase. A una disposición tabular de los datos por clases,
4
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

con sus correspondientes frecuencias de clase, se le conoce como distribución de


frecuencia o tabla de frecuencias.

El mundo presenta una enorme variabilidad. Por ejemplo, los seres vivos son distintos
entre sí, y aportan diversidad a la población. Muchas son las características que pueden
variar entre individuos (en el ser humano: altura, color de pelo, sexo, edad, respuesta a
tratamientos, entre muchos otros). Se las llama variables y se las puede clasificar como
se indica en la siguiente tabla:
Variables cualitativas Nominales: Sus valores no se pueden ordenar. Por ejemplo: sexo (F o
No se pueden medir M), grupo sanguíneo (A, B, AB, 0, entre otros), religión, nacionalidad,
numéricamente. No etc.
permiten realizar Ordinales: Sus valores se pueden ordenar. Por ejemplo: mejoría de un
operaciones algebraicas. paciente ante un tratamiento (muy mejorado, moderado, poco
Pueden ser nominales u mejorado, sin mejoras), grado de satisfacción (muy, medianamente,
ordinales. poco, nada satisfecho), intensidad del dolor, etc.
Variables cuantitativas Discretas: sólo pueden tomar valores enteros (1, 2, 25, -12, etc.). Por
Tienen valor numérico ejemplo: número de hijos (puede ser 1, 2, 3, etc., pero nunca podrá ser
(edad, altura, ingresos 3,5).
mensuales). Se pueden Continuas: pueden tomar cualquier valor real dentro de un intervalo.
clasificar en discretas y Por ejemplo, la altura de las personas puede ser 1,65 m; 1,70 m; 1,90
continuas. m; etc.

Cuando se estudia el comportamiento de una variable en una población (conjunto sobre


el que se desea obtener conclusiones o hacer inferencias) hay que tener en cuenta que
ésta normalmente es demasiado grande para poder abarcarla. Entonces, se toma una
muestra formada por miembros “seleccionados” de la población (individuos o unidades
experimentales) y que es suficientemente representativa (en cantidad y diversidad).

¿Cómo se analizan los datos?


Cuando se toman datos de una muestra, éstos son inicialmente compilados en bases de
datos (tablas de frecuencias), para luego ser presentados en forma gráfica. Esto ayuda a
visualizar e interpretar la variación de los datos.

5
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

La distribución de frecuencia es la representación estructurada, en forma de tabla, de


la información que se ha recogido sobre la variable en estudio, como se muestra en la
siguiente tabla, en donde X son los distintos valores que puede tomar la variable, n es el
número de veces que se repite cada valor, y f es el porcentaje (en relación con el total)
en el que se repite dicho valor.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...
n1 + n2 +..+ nn-
Xn-1 nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1
1
Xn nn ∑n fn = nn / n ∑f

Tablas Estadísticas:
A partir de este momento se van a trabajar las estadísticas de una sola variable, llamadas
"Estadísticas Unidimensionales".
Las tablas estadísticas según el número de observaciones y según el recorrido de la
variable estadística, así se tienen los siguientes tipos de tablas estadísticas:

1. Tablas Tipo I
2. Tablas Tipo II
3. Tablas Tipo III

Tablas tipo I:

Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo,


si se tiene una muestra de las edades de 5 personas, por lo que no hay que hacer nada
especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia: 5, 8, 16, 38, 45

Tablas tipo II:

Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por


lo que hay valores de la variable que se repiten. Por ejemplo, si se pregunta el número
de personas activas que hay en 50 familias se obtiene la siguiente tabla:

6
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Personas Activas en 50 familias

2 1 2 2 1 2 4 2 1 1
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 3 4 3 2 2 2 1 3 3

Se puede observar que la variable toma valores comprendidos entre 1 y 4, por lo que se
precisa una tabla en la que se resuman estos datos quedando la siguiente tabla:

Personas Activas Número de Familias


1 16
2 20
3 9
4 5
Total 50
Tablas tipo III:
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será
necesario agrupar en intervalos los valores de la variable. Por ejemplo, si a un grupo de
30 alumnos se les pregunta el dinero que en ese momento tienen ahorrado (en miles de
pesos), se encuentran los siguientes datos:
450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100
2 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 (en miles de
pesos), por lo que sí se quiere hacer una tabla con estos datos se tendrán que tomar
intervalos. Para decidir la amplitud de los intervalos, se necesita decidir ¿Cuántos
intervalos se quieren? Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que se tomaran intervalos de amplitud 500

7
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Este es otro ejemplo. Al medir la altura de los niños de una clase, se obtienen los
siguientes resultados (en metros)

Alumno Estatura Alumno Estatura Alumno Estatura


Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21
Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29
Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26
Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22
Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28
Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27
Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26
Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22
Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

A partir de estos datos, se puede obtener la siguiente tabla de frecuencias:

Frecuencias Frecuencias Las frecuencias simples se


Variable obtienen contando cuántos niños
absolutas relativas
(Valor) Simple Acumulada Simple Acumulada tienen determinado valor (por
ejemplo hay 1 niño que mide 1,20m
1,20 1 1 3,3% 3,3% y 4 que miden 1,22 m.).
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0% Las frecuencias relativas simples
1,23 2 11 6,6% 36,6% consideran cada valor en relación
1,24 1 12 3,3% 40,0% con el total: por ejemplo para el
1,25 2 14 6,6% 46,6% valor 1,20, hay 1 solo niño (de un
1,26 3 17 10,0% 56,6% total de 30) que posee esa altura,
entonces la frecuencia (en %) es:
1,27 3 20 10,0% 66,6%
1/30*100= 3,3%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 (total) 10,0% 100,0% Si los valores que toma la variable
son muy diversos y cada uno de ellos se repite muy pocas veces, entonces es
conveniente agruparlos por intervalos, como muestra el histograma (ver más adelante),
ya que de otra manera se obtendría una tabla de frecuencia muy extensa.

Una vez obtenida una tabla de frecuencias, se puede representar mediante un gráfico.
En estadística se denominan gráficos a aquellas imágenes que, combinando la utilización
de colores, puntos, líneas, símbolos, números, texto y un sistema de referencia
(coordenadas), permiten presentar información cuantitativa. La utilidad de los gráficos es
doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también
constituyen por sí mismos una poderosa herramienta para el análisis de los datos, siendo
en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino
también para visualizarla y analizarla.

8
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Ejemplo 1

El gobierno desea averiguar si el número medio de hijos por familia ha descendido


respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número
de hijos, y ha obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Se pide:
a) ¿Cuál es la población objeto de estudio?
b) ¿Qué variable se está estudiando?
c) ¿Qué tipo de variable es?
d) ¿Construir la tabla de frecuencias?
e) ¿Cuál es el número de familias que tiene como máximo 2 hijos?
f) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3?
¿Qué porcentaje de familias tiene más de 3 hijos?

Solución:
a) La población objeto de estudio es el conjunto de familias de un determinado
país.
b) La variable que se está estudiando es el número de hijos por familia
c) El tipo de variable es discreta ya que el número de hijos solo puede tomar
determinados valores enteros (es imposible tener medio o un cuarto de hijo).
d) Para construir la tabla de frecuencias se tiene que ver cuántas familias tienen un
determinado número de hijos. Se puede ver que el número de hijos, toma los valores
existentes entre 0 hijos, los que menos y 6 hijos, los que más, y se tiene:

xi ni Ni Fi Fi
0 2 2 0.04 0.04
1 4 6 0.08 0.12
2 21 27 0.42 0.54
3 15 42 0.30 0.84
4 6 48 0.12 0.96
5 1 49 0.02 0.98
6 1 50 0.02 1.00
N = 50 1.00

e) El número de familias que tienen dos o menos hijos es: 2+4+21 = 27


f) El número de familias que tienen más de un hijo, pero tres como máximo es:
21 + 15 = 36
Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que
tienen 4; 5 y 6 es decir 6+1+1= 8
El porcentaje será el tanto por uno multiplicado por cien, es decir, la frecuencia
relativa de dichos valores multiplicado por 100: (0.12+0.02+0.02) * 100 = 0,16 + 100 =
16%.

9
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Ejemplo 2
Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de
sus habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la
misma categoría de esa ciudad. Los datos obtenidos en dólares fueron:
3,9 4,7 3,7 5,6 4,3 4,9 5,0 6,1 5,1 4,5
5,3 3,9 4,3 5,0 6,0 4,7 5,1 4,2 4,4 5,8
3,3 4,3 4,1 5,8 4,4 4,8 6,1 4,3 5,3 4,5
4,0 5,4 3,9 4,7 3,3 4,5 4,7 4,2 4,5 4,8
Se pide:
a) ¿Cuál es la población objeto de estudio?
b) ¿Qué variable se está estudiando?
c) ¿Qué tipo de variable es?
d) ¿Qué problema plantea la construcción de la tabla de frecuencias?
e) ¿Cuántos hoteles tienen un precio entre 3,25 USD y 3,75 USD?
f) ¿Cuántos hoteles tienen un precio superior a 4,75 USD?
g) ¿Qué porcentaje de hoteles cuestan como mucho 4,25 USD?
SOLUCIONES:
a) La población objeto de estudio son los hoteles de una ciudad.
b) La variable que se está estudiando es el precio.
c) El tipo de variable es continua.
d) El problema que plantea es que existen muchos valores diferentes para por tanto
es bueno agrupar la serie en intervalos.
La manera de hacerlo sería la siguiente: primero, se calcula el recorrido
Re = xn– x1= 6.1 –3.3 = 2.8
Cuando no se dice nada, el nº de intervalos, se obtiene calculando la raíz cuadrada
del nº de datos observado. El resultado de la raíz cuadrada de 40 es igual a 6.32 por lo
tanto se toman 6 intervalos.
Como el recorrido es 2.8 si lo se divide por el nº de intervalos se tiene la amplitud de
cada uno de ellos y así: 2,8/6 = 0,46.
Importante: La amplitud es de 0,46 por lo que además de no ser muy fácil operar,
puede que no cubra el rango de la variable. Se puede evitar, tomando un valor superior,
en este caso 0,5:
[Li-1,, Li) ni Ni Fi Fi
[3,25,3,75) 3 3 0.075 0.075
[3,75,4,25) 8 11 0.200 0.275
[4,25,4,75) 14 25 0.350 0.625
[4,75,5,25) 6 31 0.150 0.775
[5,25,5,75) 4 35 0.100 0.875
[5,75,6,25) 5 40 0.125 1.000
N= 40
e) 3
f) 15
g) %=F2*100=0.275*100=27.5%

10
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

USO DE LAS MEDIDAS DE TENDENCIA CENTRAL

¿Cuál será la medida de tendencia central que se debe usar, teniendo un conjunto de
observaciones?, para responder a este cuestionamiento, se debe tomar en cuenta la
necesidad de considerar dos factores muy importantes uno es la escala de medición, que
tiene que ser ordinal o numérica; y otra, la forma de distribución de las observaciones,
porque se tiene que saber si la distribución de las observaciones se desvía a la izquierda
o a la derecha de la media. Si hay observaciones distantes en una sola dirección se trata
de una distribución sesgada. Si los valores distantes son pequeños se sesga a la
izquierda, sesgo negativo. Si los valores distantes son grandes se sesga a la derecha,
sesgo positivo.

Las siguientes reglas deben considerarse al decidir cuál medida se aplicará a las
observaciones del trabajo de investigación. La media se usa para datos numéricos y
distribuciones simétricas, es decir sin ningún tipo de sesgo, y es sensible a los valores
absolutos. La mediana se emplea para datos ordinales o para datos numéricos con
distribución sesgada, porque no es sensible a la variación de los extremos. El modo se
utiliza para distribuciones bimodales (dos observaciones que se repiten el mismo número
de veces en la distribución). Una forma de saber la forma que tiene la distribución de
observaciones es la siguiente: Si la media y la mediana son iguales la distribución es
simétrica (se usa la media). Si la media es mayor que la mediana, la distribución está
sesgada a la derecha. Si la media es menor que la mediana la distribución está sesgada
a la izquierda (en los últimos dos casos, se usa la mediana).

Medidas de asimetría y de forma:

Además de dar información sobre la tendencia central de los datos y sobre cómo se
reparten respecto del centro, en ocasiones interesa conocer si los datos se reparten de
un modo simétrico a ambos lados de la media o no.

El coeficiente de asimetría mide esta propiedad, y se calcula como:


N
 ( xi − x )
3
N
 ( xi − x )
3
i =1
N 1 i =1
g1 = = , o , si los datos están agrupados:
s3 s 3 N
k
 ( xi − x )
3
ni k
 ( xi − x )
3
i =1 ni
N 1 i =1
g1 = =
s3 s3 N
Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la derecha. Si
g=0, la distribución de datos es simétrica.

11
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la
distribución, es frecuente que los valores de una distribución tiendan a ser similares a
ambos lados de las medidas de centralización. La simetría es importante para saber si
los valores de la variable se concentran en una determinada zona del recorrido de la
variable.

Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios:

• Comparando la Media y la Moda.


• Comparando los valores de la variable con la media.

El coeficiente de Kurtosis - curtosis o apuntamiento mide si las frecuencias de los


datos centrales son mucho mayores que las de los datos extremos, o si, por el contrario,
todos los datos se repiten un número más o menos igual de veces. Se calcula como:
N
 ( xi − x )
4
N k
 ( xi − x )  ( xi − x )
4 4
i =1 ni
N 1 i =1 1 i =1
k= = , y , si los datos están agrupados: k =
s4 s4 N s4 N
Cuando los datos proceden de una distribución Normal, tomando la fórmula de la
densidad de una distribución normal se puede demostrar que el anterior coeficiente k
toma el valor 3.

12
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Por este motivo, el coeficiente de apuntamiento que se usa habitualmente es:


k
 ( xi − x )
4
ni
1 i =1
g2 = k − 3 = − 3 y compara el apuntamiento de los datos con el que tendría
s4 N
una distribución normal teórica con igual media y varianza que la de estos datos.
Si g2<0 se dice que los datos son poco apuntados (distribución platicúrtica, apuntamiento
menor que el de una normal), si g2  0 se dice que los datos tienen un apuntamiento
semejante al de una normal (distribución mesocúrtica), si g2>0 se dice que los datos
tienen una distribución leptocúrtica o más apuntados que la normal.

PARAMETROS DE UNA DISTRIBUCION

Se trata de resumir más la información de una tabla o de una gráfica, y de


encontrar algunos valores lo más simples posible que permitan dar información sobre la
muestra o comparar dos muestras entre sí. Para hacer ese resumen o información de los
datos hay tres enfoques fundamentales:

- En primer lugar, dar un valor lo más representativo posible de todos los valores de la
muestra, que no sea, por tanto, ni de los más bajos ni de los más altos. Así se crean
las medidas o parámetros de centralización, tendencia central o posición central.

- En segundo lugar, y como complemento a lo anterior, dar una valoración de hasta qué
punto los datos se parecen entre sí o bien están muy diferenciados (dispersos);
además, cuanto más se parezcan entre sí los valores que salen, más se parecerán al
representante o parámetro de centralización que se elijan, y mejor sería éste. Por todo
esto conviene medir las diferencias internas de los datos mediante las medidas ó
parámetros de dispersión.

- Finalmente, en tercer lugar, se puede también tratar de medir qué valor supera a una
cierta porción o proporción de valores, o lo que es lo mismo, tratar de informar sobre
la distribución de la variable diciendo a cuántos de sus valores supera uno dado. Para
ello se usan los cuantiles como medidas ó parámetros de posición.

A continuación, se definen los más importantes entre todos los parámetros de estos tres
tipos y para ilustrar su cálculo se usará el siguiente ejemplo, donde los datos son el
número de hermanos (excluido él mismo) de una muestra de 13 niños; se presentan los

13
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

datos ordenados de menor a mayor para mejor comprensión, pero en principio los datos
vendrían en cualquier orden. Suponiendo que son los siguientes:

0 0 0 0 1 1 1 2 2 3 4 5 7

A continuación, se definen las medidas más importantes:

MEDIDAS DE POSICIÓN CENTRAL

Las medidas de posición facilitan la información sobre la serie de datos que se está
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos.

Las medidas de posición son de dos tipos:

a) Medidas de posición central: informan sobre los valores medios de la


serie de datos.

b) Medidas de posición no centrales: informan de cómo se distribuye el


resto de los valores de la serie.

a) Medidas de posición central


Las principales medidas de posición central son las siguientes:

1.- Media: es el valor medio ponderado de la serie de datos, es


comúnmente llamada promedio. La media se puede hallar sólo para
variables cuantitativas.

Es una buena medida de tendencia central porque fluctúa menos entre


varias muestras de la misma población que la mediana o la moda.

• Sus inconvenientes: – Resulta poco representativa cuando existen valores


extremos. En estos casos se recomienda usar la MEDIANA que aporta
información más fiable. – No se debería utilizar en variables cualitativas
nominales ni ordinales.

Se representa por o por la letra μ según se calcule en una muestra o en


la población, respectivamente. Se pueden calcular diversos tipos de media,
siendo las más utilizadas:

a) Media aritmética: se calcula multiplicando cada valor por el número de


veces que se repite. La suma de todos estos productos se divide por el total
de datos de la muestra:

14
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) +


(Xn * nn)
Xm = --------------------------------------------------------------------------
-------------
n

b) Media geométrica: se eleva cada valor al número de veces que se ha


repetido. Se multiplican todo estos resultados y al producto final se le calcula
la raíz "n" (siendo "n" el total de datos de la muestra).

Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.

La media geométrica se suele utilizar en series de datos como tipos de


interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores. En todo caso, la media
aritmética es la medida de posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los


valores de la serie, por lo que no se pierde ninguna información.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la


media aritmética como geométrica) se puede ver muy influido por valores
extremos, que se aparten en exceso del resto de la serie. Estos valores
anómalos podrían condicionar en gran medida el valor de la media,
perdiendo ésta representatividad.

c) Media ponderada

La Media ponderada se utiliza para obtener la Media de las Medias.

Fórmula:

n: Tamaño de cada grupo.

15
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Ejemplo

Se desea obtener la media de la variable X sabiendo que las medias


obtenidas en tres grupos son 10, 15 y 5. Teniendo en cuenta que los
tamaños de los grupos son 20, 50 y 15 y aplicando la expresión de la media
ponderada se obtiene la media total:

d) Medias recortadas

Las Medias recortadas tienen por finalidad evitar la distorsión que las
puntuaciones extremas no compensadas causan a la Media aritmética.
Para obtener la Media recortada se excluyen las puntuaciones de los
extremos superior e inferior de la distribución, como el 10% de las
puntuaciones del extremo superior y el 10% de las puntuaciones del
extremo inferior. Ejemplo:

La Media recortada ha sido obtenida eliminando el 2 y el 800 de la


distribución.

2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el


centro de la muestra (un 50% de valores son inferiores y otro 50% son
superiores). Es el valor que ocupa el lugar central de todos los datos
cuando éstos están ordenados de menor a mayor.

No presentan el problema de estar influido por los valores extremos, pero


en cambio no utiliza en su cálculo toda la información de la serie de datos
(no pondera cada valor por el número de veces que se ha repetido).

La mediana se representa por Me.

La mediana se puede hallar sólo para variables cuantitativas.

3.- Moda: es el valor que más se repite en la muestra. Se representa por


Mo. Se puede hallar la moda para variables cualitativas y
cuantitativas.

16
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Ejemplo: esta es la tabla de distribución de frecuencias con los datos de la estatura de


los alumnos de un grupo.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Se van a calcular los valores de las distintas posiciones centrales:

1.- Media aritmética:

(1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)


Xm ------------------------------------------------------------------------------------------------
= --
30

Luego:

Xm = 1,253

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

2.- Media geométrica:

X= ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)

Luego:

Xm = 1,253

En este ejemplo la media aritmética y la media geométrica coinciden, pero


no tiene siempre por qué ser así.

17
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

3.- Mediana:

La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de
los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna
de frecuencias relativas acumuladas.

En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se


situaría exactamente entre el primer y el segundo valor de este grupo, ya
que entre estos dos valores se encuentra la división entre el 50% inferior y
el 50% superior.

4.- Moda:

Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por


lo tanto esta seria cuenta con 3 modas.

MEDIDAS DE POSICIÓN NO CENTRAL

Medidas de posición no centrales

Las medidas de posición no centrales permiten conocer otros puntos característicos de


la distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar
una serie de valores que dividen la muestra en tramos iguales.

Los Cuantiles (cuartiles, deciles, percentiles) son medidas de localización, su función es


informar del valor de la variable que ocupará la posición (en tanto por cien) que interesa
respecto de todo el conjunto de variables.

Se pude decir que los Cuantiles son unas medidas de posición que dividen a la
distribución en un cierto número de partes de manera que en cada una de ellas hay el
mismo de valores de la variable.

Las más importantes son:

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.

Medida de localización que divide la población o muestra en cuatro partes iguales.

Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.


Q2= Valor de la variable que deja a la izquierda el 50% de la distribución =
mediana.
18
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados.
El primer decil D1: indica que sólo existe un 10% de probabilidad de que el valor
de la variable esté por debajo de esa cifra.
Quinto decil D5 o denominado también “Caso Base”: indica que existe igualmente
un 50% de probabilidad de que el valor esté por encima como por debajo de esa
cifra. Representa la Mediana de la distribución.

Percentiles o Centiles: son 99 valores que distribuyen la serie de datos, ordenada


de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de
ellos concentra el 1% de los resultados. Los percentiles son los 99 valores que
dividen la serie de datos en 100 partes iguales.

• Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de


los datos.
• P50 coincide con D5.

La mediana es el percentil 50%. Otros percentiles con nombre propio son el


percentil 25% y el percentil 75% que se denominan cuartil inferior y superior
respectivamente, ya que juntamente con la mediana dividen a la distribución en 4
porciones iguales.

Primer percentil, que supera al uno por ciento de los valores y es superado por el
noventa y nueve por ciento restante.

El 60 percentil, es aquel valor de la variable que supera al 60% de las


observaciones y es superado por el 40% de las observaciones.

El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Ejemplo: calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de


alumnos (lección 2ª). Los deciles y centiles se calculan de igual manera, aunque harían
falta distribuciones con mayor número de datos.

19
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

1º cuartil: es el valor 1,22 cm, ya que por debajo suya se sitúa el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa
otro 25% de la frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa
otro 25% de la frecuencia. Además, por encima suya queda el restante 25% de
la frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como
ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente
una de las repeticiones.

20
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

MEDIDAS DE DISPERSIÓN

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más


o menos concentrados, o más o menos dispersos.
Existen diversas medidas de dispersión, entre las más utilizadas se pueden destacar
las siguientes:

1.- Rango: mide la amplitud de los valores de la muestra y se calcula por


diferencia entre el valor más elevado y el valor más bajo.

2.- Varianza: Mide la distancia existente entre los valores de la serie y la


media. Se calcula como sumatorio de las diferencias al cuadrado entre cada
valor y la media, multiplicadas por el número de veces que se ha repetido
cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a


cero, más concentrados están los valores de la serie alrededor de la media.
Por el contrario, mientras mayor sea la varianza, más dispersos están.

3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.

4.- Coeficiente de variación de Pearson: se calcula como cociente entre


la desviación típica y la media.

Ejemplo: esta es la serie de datos de la estatura de los alumnos de un grupo, para


calcular sus medidas de dispersión.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

21
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor


valor (1,20). Luego el rango de esta muestra es 10 cm.

2.- Varianza: teniendo presente que la media de esta muestra es 1,253.


Luego, aplicando la fórmula:

Por lo tanto, la varianza es 0,0010

3.- Desviación típica: es la raíz cuadrada de la varianza.

Luego:

4.- Coeficiente de variación de Pearson: se calcula como cociente entre


la desviación típica y la media de la muestra.

Cv = 0,0320 / 1,253

Luego,

Cv = 0,0255

El interés del coeficiente de variación es que al ser un porcentaje permite


comparar el nivel de dispersión de dos muestras. Esto no ocurre con la
desviación típica, ya que viene expresada en las mismas unidas que los datos
de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la


altura de los alumnos de una clase y otra serie con el peso de dichos alumnos,
no se pueden utilizar las desviaciones típicas (una viene vienes expresada en
cm y la otra en kg). En cambio, sus coeficientes de variación son ambos
porcentajes, por lo que sí se pueden comparar.

22
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

¿Qué es la inferencia?
Tras haber elegido el estudio, la población objetivo, la muestra, haber realizado
cálculos con la muestra (Media, mediana, los percentiles, la varianza, etc.) aparece
una pregunta:
¿Las medidas que se han calculado en la muestra serían las mismas que si se
calcularan en la población?

Exactamente el valor obtenido no va a ser, es muy complicado que de entre todos


los datos vaya a coincidir exactamente ese valor, por lo que a ese valor obtenido hay
que añadirle un intervalo de confianza.
Un intervalo de confianza es una ventana alrededor del valor que da un margen de
maniobra. Piense en una diana, el centro de la diana es el valor exacto y el resto el
intervalo, pero en el caso de los números será lineal.

Los intervalos de confianza tienen un límite inferior, valor mínimo, y un límite superior,
valor máximo, y llevan siempre un nivel de confianza (1-α), un porcentaje de acierto
(en 1-α en tanto por uno), por llamarlo de algún modo. A mayor nivel de confianza
más amplia será la ventana.

En este caso, la línea negra horizontal representa el valor fijo de la media


desconocida de la población, µ. Los intervalos de confianza azules verticales que se
sobreponen a la línea horizontal contienen el valor de la media de la población. El
intervalo de confianza rojo que está completamente por debajo de la línea horizontal
no lo contiene. Un intervalo de confianza de 95% indica que 19 de 20 muestras (95%)

23
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

de la misma población producirán intervalos de confianza que contendrán el


parámetro de población1.

Utilice el intervalo de confianza para evaluar la estimación del parámetro de


población. Por ejemplo, un fabricante desea saber si la longitud media de los lápices
que produce es diferente de la longitud objetivo. El fabricante toma una muestra
aleatoria de lápices y determina que la longitud media de la muestra es 52 milímetros
y el intervalo de confianza de 95% es (50,54). Por lo tanto, usted puede estar 95%
seguro de que la longitud media de todos los lápices se encuentra entre 50 y 54
milímetros.

El intervalo de confianza se determina calculando una estimación de punto y luego


determinando su margen de error.

Estimación de punto: este valor individual estima un parámetro de población


usando los datos de la muestra.
Margen de error: cuando usted utiliza estadísticos para estimar un valor, es
importante recordar que, sin importar lo bien que esté diseñado su estudio, su
estimación está sujeta a error de muestreo aleatorio. El margen de error cuantifica
este error e indica la precisión de la estimación.
Usted probablemente ya entiende el margen de error, porque está relacionado con
los resultados de las encuestas. Por ejemplo, una encuesta política podría indicar
que el nivel de popularidad de un candidato es de 55% con un margen de error de
5%. Esto significa que el nivel de popularidad real es +/- 5% y, por lo tanto, se ubica
entre 50% y 60%.

1
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-
topics/basics/what-is-a-confidence-interval/

24
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Para un intervalo de confianza bilateral, el margen de error es la distancia desde el


estadístico estimado hasta cada el valor del intervalo de confianza. Cuando un
intervalo de confianza es simétrico, el margen de error es la mitad del ancho del
intervalo de confianza. Por ejemplo, la longitud media estimada de un árbol de levas
es 600 mm y el intervalo de confianza oscila entre 599 y 601. El margen de error es
1.
Mientras mayor sea el margen de error, más ancho será el intervalo y menos seguro
podrá estar usted del valor de la estimación de punto.

Análisis exploratorio de datos:


Se conoce con este nombre a un conjunto de técnicas que mezclan gráficos y medidas
numéricas, y facilitan mucho la visión rápida de la distribución de los datos.

25
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

GRÁFICOS ESTADÍSTICOS

En muchas ocasiones es conveniente recurrir a un cierto tipo de gráficas que ayudan a


comprender mejor las relaciones numéricas que hay entre los datos consignados. Estos
gráficos son los que suelen aparecer en diarios y revistas, que en forma clara y rápida
ilustran los distintos artículos.

A la hora de hacer un gráfico hay que tener en cuenta las siguientes consideraciones:
 Deben ajustarse a la realidad de los datos que representan
 Deben ser claros, fáciles de leer y entender
 Deben llevar todas la indicaciones necesarias para su fiel interpretación
 Deber ser los adecuados para el carácter estadístico que visualizan.

Entre los gráficos estadísticos más usuales se encuentran:

 Diagramas de barras:
Es una gráfica que consta de rectángulos, cuyas áreas representan las frecuencias de
cada clase.

Una tabla de frecuencias o un diagrama


de barras permiten analizar mucho mejor
una gran cantidad de datos porque se
presentan ordenados y clasificados. Se
usan cuando la variable es cualitativa o
cuantitativa discreta.

 Histogramas:
Es una gráfica que asocia a cada intervalo de
una variable cuantitativa, un rectángulo cuya
área coincide con la frecuencia.

Se usan cuando los datos están agrupados o


la variable es cuantitativa continua.

26
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

 Polígonos:

es la línea poligonal obtenida al unir las


extremidades de los bastones, o los puntos medios de las bases superiores de los
rectángulos de un histograma

 Diagrama circular (o de torta, tarta, queso, pie, pizza, sectoriales, sectores,


360°):
Es una gráfica en la que cada sector circular tiene una amplitud proporcional a la
frecuencia que representa. Tal amplitud, se obtiene mediante una simple regla de tres,
se representa la frecuencia relativa de cada
Número de hijos
categoría como una porción de un círculo, en
la que el ángulo se corresponde con la
4
8% 0 frecuencia relativa correspondiente. Se utilizan
3
20% círculos o semicírculos y a cada modalidad o
16% valor se le adjudica un sector circular.
Cuando los datos se clasifican en pocas
1
categorías, resulta muy adecuado el diagrama
24% de sectores. Como en todo gráfico es
2
32%
importante indicar el número total de
observaciones.

 Pictogramas. Es una representación en la que junto a la gráfica de los datos,


aparece una imagen relativa al estudio estadístico.

Cada dibujo representa 2 millones de habitantes.

27
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Características de los pictogramas:

• Su formato es libre.
• Emplean una secuencia de símbolos para representar frecuencias.
• Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.
• Los pictogramas son diagramas poco precisos y, por tanto, escasamente utilizados
por los expertos, pero son de sencilla interpretación para los menos entendidos.

 Diagrama de tallo y hojas (STEM AND LEAF):

Una forma de ordenar “rápidamente” los datos es a través del método conocido como
diagrama de tallo y hojas, es muy sencilla y permite mostrar la forma de la distribución de
una variable numérica.

Es apropiada para conjuntos de observaciones no muy extensos, se construye


considerando, por una parte la cifra de menor valor significativo de todos los datos.
Habitualmente esta cifra es la de las unidades, pero puede ser las decenas, si todas las
cifras terminan en cero, o las décimas o centésimas, etc., si los datos poseen decimales.
Con estas cifras se forman lo que se denomina “hojas”. Por otra parte se considera el
resto de dígitos que forma la cifra de los datos, es lo que se denomina “tallo”.

Para construir el diagrama se tabulan los datos en varias filas. Cada fila está encabezada
por un tallo, y detrás de él se escriben ordenados e igualmente espaciados los dígitos
que forman las hojas correspondientes a cada tallo. Para la variable Diámetro:

Diámetro, datos 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3
ordenados
De cada dato, Tallo 2 2 2 3 3 3 4 4 4 5
Hoja 5 5 9 9 9 9 2 3 5 3

Diagrama de tallo y hojas:

Tallo Hojas
2 5 5 9
3 9 9 9
4 2 3 5
5 3

Viendo los datos en sentido horizontal, se muestra como un diagrama de barras y se


aprecia la forma de la distribución de frecuencias, y la simetría.

Para completar la información se suele añadir una columna delante del tallo en la que se
cuentan las frecuencias de cada tallo acumulándolas de arriba hacia abajo y viceversa,
en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese
tallo, encerrada entre paréntesis.

28
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Si se desea se pueden marcar las filas donde estén los cuartiles colocando un asterisco
a continuación de la frecuencia. Para los datos anteriores:
Frecuencias Tallo Hojas
3* 2 5 5 9
(3) 3 9 9 9
4* 4 2 3 5 7
1 5 3
Ejemplo con la Edad de 20 personas2
Suponiendo la siguiente distribución de frecuencias
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que se va a representar
mediante un diagrama de Tallos y Hojas.
Se empieza seleccionando los tallos que en este caso son las cifras de decenas, es decir
3, 2, 4, que reordenadas son 2, 3 y 4.

A continuación, se efectúa un recuento y se van «añadiendo» cada hoja a su tallo.

Por último, se reordenan las hojas y termina el diagrama

Comparar dos distribuciones


Gráfico de tallo-hojas espalda con espalda. Comparación de grupos.
Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos
condiciones o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque
ambos grupos comparten los tallos.
Se pueden comparar, mediante estos diagramas, dos distribuciones. Suponiendo una
segunda distribución
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella se pueden elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.

2 http://www.estadisticaparatodos.es/taller/graficas/tallos_hojas.htmln

29
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

 Diagrama de Caja – Caja y Bigotes de Gato - Cajón y pata Caja y Sesgo – Caja
y punto – Box-and-Whisker Plots - Box-plot:

Es la representación gráfica de la mediana, los cuartiles, los valores adyacentes y los


valores extremos moderados o severos.
Es un gráfico en el que se incide más en la simetría y en la presencia de outliers 3 (valores
atípicos o anómalos), consiste en dibujar un eje horizontal (también se podría hacer
vertical) en el que se lleva una escala correspondiente a los datos, más arriba se dibuja
un segmento vertical sobre la mediana y dos más, uno sobre cada cuartil posteriormente
se cierran ambos segmentos por segmentos horizontales, con esto se forma la caja. La
posición relativa del segmento mediano respecto de los lados de la caja informa sobre la
simetría de los datos.

A continuación, y desde el centro de cada uno de los lados de la caja se lleva un segmento
horizontal que termina en el los valores observados menor y mayor que no son outliers,
si los hay, o en los valores menor y mayor de los observados. Si hay outliers se marcan
con símbolos especiales, por ejemplo, * para los leves y # para los graves.
El diagrama de caja y bigotes para la variable diámetro es:

El bigote empieza con el menor dato y termina con el mayor. Se puede ver que la
distribución presenta una cola o asimetría hacia la izquierda y que hay dos outliers leves;

3 Un outlier es un dato que no encaja bien dentro de la distribución de los otros datos en una lista.

30
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

además se aprecia la ubicación y valor de la mediana y cuartiles. Respecto del 50% de


los datos centrales, como puede verse en la caja, la asimetría es hacia la izquierda.

GRÁFICOS ENGAÑOSOS

Cuando se trata de gráficos de dispersión o de series, la imagen visual puede modificarse


notablemente usando uno o más de los siguientes recursos:

- cambiando la escala de uno o ambos ejes,


- eliminando el cero de la escala vertical en la representación,
- cambiando la relación de longitud entre ambos ejes.

Los gráficos XY por convención se representan respetando una relación 4:3 entre el eje
horizontal y el vertical, prácticamente todos los paquetes que construyen gráficos
respetan esta convención. La siguiente figura muestra cuatro representaciones diferentes
de los mismos datos de una serie anual donde se pretende mostrar como estos cambios
pueden afectar la interpretación de la imagen.

Distintos formatos para la misma serie de tiempo

La figura (a) muestra el gráfico obtenido respetando la relación 4:3 y usando la escala del
eje vertical que comienza en cero. Se observa una tendencia moderadamente creciente
y fluctuaciones moderadas.

31
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

En la Figura (b) se realizó una “bonita” representación en perspectiva, respetando las


escalas que se usaron en (a). Este gráfico puede producir una sensación de tendencia
más marcada que el gráfico anterior o una impresión de que no hay tendencia,
dependiendo del observador.

En (c) se modificó la relación horizontal:vertical, de 4:3 a 2:1, y se aumentó la escala del


eje Y. Resultado: la tendencia y las fluctuaciones parecen poco importantes. Finalmente
en el gráfico (d) se cambia la relación horizontal:vertical a 1:1 y modificó la escala vertical
logrando de este modo magnificar notablemente la tendencia y la importancia de las
fluctuaciones.

Todos los gráficos de la figura anterior son correctos en el sentido que se construyeron
usando la misma información (no se ha falseado o modificado los datos para construirlos).
Sin embargo, algunos de ellos producen impresiones engañosas amplificando o
disimulando diferencias que existen.

32
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

USO DE EXCEL
1. En el menú Herramientas seleccione la opción Análisis de datos.
2. Seleccione la opción Estadística descriptiva.
3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de
la tabla.
4. Seleccione Resumen de estadísticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de
cálculo que este en blanco (a partir de esta celda serán insertados los
resultados).
La hoja mostrará las siguientes medidas estadísticas de los datos presentados:

Columna1

Media 50.0537692
Error típico 1.9738137
Mediana 49.345
Moda 50.1
Desviación
estándar 22.5049388
Varianza de la
muestra 506.47227
Curtosis -0.4466339
Coeficiente de
asimetría -0.0352296
Rango 94.37
Mínimo 2.41
Máximo 96.78
Suma 6506.99
Cuenta 130
El Error Típico o desviación estándar (SD) representa la variación en los valores de una
variable, mientras que el error estándar4 de la media (Estándar Error of the Mean, SEM)
representa la dispersión que tendría la media de una muestra de valores si se continuaran
tomando muestras. Por lo tanto, el SEM proporciona una idea de la precisión de la media
y el SD nos da una idea de la variabilidad de las observaciones individuales. Estos dos
parámetros están relacionados5:
SEM = SD/√n
Donde:
SEM = Error estándar de la media
SD = Desviación estándar
n = tamaño de la muestra

4 En estadística se usa, indistintamente, los términos Desviación Estándar o Error típico.


5
https://g-se.com/medida-desviacion-estandar-o-error-estandar-de-la-media-bp-k57cfb26ceb5e5

33
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Partiendo con la idea de que hay muchas muestras posibles, también hay que decir que
cada muestra tiene su media muestral6.

Así se tendría una media de cada muestra que se tome, a esto se le llama distribución
muestral de la media. Y resulta que la media de esas medias coincide con la media
poblacional.

Imagine que está realizando una encuesta y elige al azar 1.000 personas para la
encuesta. Este grupo es una muestra. Puede elegir otra muestra aleatoria de 1.000
personas, y otra muestra, y otra muestra y etcétera. A continuación, puede calcular la
media para cada muestra. La distribución de estas medias muestrales es la distribución
de muestreo. Al calcular la desviación estándar de esta distribución, obtendrá el error
estándar de la media. Cuando el error estándar se escribe sin cualificación, se da por
supuesto que es el error estándar de la media7.

6
https://estadisticalidia.com/tema-8-estimacion/
7https://www.ibm.com/support/knowledgecenter/es/SS4QC9/com.ibm.solutions.wa_an_overview.2.0.0.doc

/standarderror.html

34
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

ACTIVIDADES
Actividad 1. Revisión de conceptos

Completar el siguiente cuadro, teniendo en cuenta los conceptos introducidos en la


sección teórica:
variables tipo de gráfico
nominales
Cualitativas ------------------- y -------------------
-------------
------------ diagramas de barras
Cuantitativas
continuas ---------------------------

Respuesta:
variables tipo de gráfico
nominales gráficos de áreas y diagramas
cualitativas
ordinales de barras
discretas diagramas de barras
cuantitativas
continuas histogramas

Actividad 2. Tipos de variables numéricas

En esta actividad se propone que los alumnos agrupen las siguientes variables, según el
tipo al que pertenezcan:
a) El grupo sanguíneo
b) Número de hijos
c) Nacionalidad
d) Intensidad de dolor
e) Peso
f) Número de sesiones de un tratamiento
g) Número de hojas de un árbol
h) Peso de las semillas recolectadas por planta
i) Grado de satisfacción al comprar un producto
j) Sexo
k) Longitud del tallo
l) Nº de huevos por gallina

Respuesta:
Cualitativas
Nominales: a, c, j
Ordinales: d, i
Cuantitativas o Numéricas
35
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Discretas: b, f, g, l
Continuas: d, h, k

Actividad 3. Tablas de frecuencias y gráficos

Esta actividad tiene por objetivo ejercitar el diseño, interpretación y análisis de los
resultados de una muestra de estudio, y la obtención de conclusiones.
Se mide la estatura de 30 habitantes de un barrio y se obtienen los siguientes resultados
(m):

Habitante Estatura Habitante Estatura Habitante Estatura


Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21
Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59
Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86
Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52
Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48
Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37
Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16
Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73
Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62
Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01

a) Realizar una tabla de frecuencias absolutas y relativas como se ejemplifica en la


sección teórica.
b) Realizar el histograma correspondiente, separando al conjunto de datos en 10 clases
de entre 1,00 m y 2,00 m. ¿Cuál es la columna de la tabla de frecuencias que se
emplea para diagramar el histograma?
c) ¿Cuál es la estatura que se presenta con mayor frecuencia en esta población? ¿Cómo
es posible darse cuenta a partir del histograma?
d) ¿Cómo sería posible evaluar si las conclusiones de esta medición pueden aplicarse a
la población de toda la ciudad?

Respuestas
a) Si se presentara esta información en una tabla de frecuencia se obtendría una tabla
de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de
1 y con una frecuencia relativa del 3,3%, lo cual aportaría escasa información.
En lugar de ello, se agrupan los datos por intervalos, y así la información queda más
resumida.

36
Estadística Descriptiva
Tecnología en Gestión de Mercados – 2021 GD

Estatura Frecuencias Frecuencias


absolutas relativas
Intervalos Simple Acumulada Simple Acumulada
1,01 - 1,10 1 1 3,3% 3,3%
1,11 - 1,20 3 4 10,0% 13,3%
1,21 - 1,30 3 7 10,0% 23,3%
1,31 - 1,40 2 9 6,6% 30,0%
1,41 - 1,50 6 15 20,0% 50,0%
1,51 - 1,60 4 19 13,3% 63,3%
1,61 - 1,70 3 22 10,0% 73,3%
1,71 - 1,80 3 25 10,0% 83,3%
1,81 - 1,90 2 27 6,6% 90,0%
1,91 - 2,00 3 30 10,0% 100,0%

b) El histograma correspondiente se construye a partir de los datos de la columna de


“frecuencias absolutas simples”. También se podría diseñar a partir de la columna de
“frecuencias relativas simples” (el eje Y expresado en %):

7
Estatura habitantes Barrio XYZ
6
Número de Personas

5
4
3
2
1
0
1,01 - 1,10 1,11 - 1,20 1,21 - 1,30 1,31 - 1,40 1,41 - 1,50 1,51 - 1,60 1,61 - 1,70 1,71 - 1,80 1,81 - 1,90 1,91 - 2,00
Estatura

c) Según el gráfico, la estatura entre 1,41 m y 1,50 m. Es la que se presenta con más
frecuencia en esta población. Es posible darse cuenta ya que es la barra más alta (la
que incluye mayor cantidad de individuos) entre el total.

d) Para conocer si estos resultados y conclusiones se aplican a una población más amplia
se debería tomar una muestra mayor, representativa de toda la ciudad.

37

También podría gustarte