Curso Estadistica I
Curso Estadistica I
Curso Estadistica I
Curso de Estadística
Programa de Administración de Empresas
Andrés Palacios
Introducción a la Estadística
Fuente: DANE, Censo General 2005 y Censo Nacional de Población y Vivienda 2018
Estadística Inferencial
Curso de Estadística
Estadística Descriptiva
Fuente: https://github.com/owid/covid-19-data/tree/master/public/data
Ejemplo I: Frecuencias
40000
barras
comportamientos 22025
20000
798 5413
regularizados 0
Marzo Abril Mayo Junio Julio
Casos COVID19 en Colombia
Marzo
Acumuladas Abril Diagrama
Mayo de
Propiedades o Junio
27.74%
Julio
pastel
comportamientos 60.53%
regularizados
Frecuencia
FRECUENCIAS Casos Frecuencia Frecuencia Frecuencia Acumulada
COVID19 Absoluta Relativa Acumulada
Relativa
Absolutas
Marzo 798 0.33% 798 0.33%
Conteo sobre el total de Abril 5413 2.25% 6211 2.58%
Mayo 22025 9.15% 28236 11.73%
observaciones Junio 66807 27.74% 95043 39.47%
Relativas Julio 145752 60.53% 240795 100.00%
Total 240795 100%
Proporción respecto al Frecuencia Acumulada
total de observaciones 300000
260000
240795
Acumuladas
250000
Diagrama
200000
de
Propiedades o 150000
líneas
95043
comportamientos 100000
50000
regularizados 6211
28236
798
0
Marzo Abril Mayo Junio Julio Agosto?
Casos COVID19 en Colombia
Intervalo i
… …
… ... ... ...
Intervalo m
100%
Total 100%
𝐿𝑖 + 𝐿 𝑖+1 𝑚 𝑝 𝑝
𝑛= ∑ 𝑛 𝑗 𝑁𝑝= ∑ 𝑛 𝑗 𝐻 𝑝 =∑ h 𝑗
𝐶𝑖= 𝑛𝑖
2 h𝑖 =
𝑛
𝑗=1 𝑗=1 𝑗=1
DATOS DESAGRUPADOS
186 - 189 - 192 - 184 - 193 - 187 -
197 - 193 - 199 - 188 - 193 - 195 - 1. DATOS DESAGRUPADOS ORDENADOS
183 - 185 - 180 - 179 - 178 - 185 - 178 - 178 - 179 - 180 - 181 - 182 - 182 - 182 -
188 - 191 - 201 - 190 - 195 - 190 -
183 - 183 - 183 - 183 - 184 - 184 - 184 - 184 -
191 - 190 - 193 - 185 - 191 - 196 -
188 - 187 - 195 - 187 - 189 - 193 -
184 - 184 - 185 - 185 - 185 - 185 - 185 - 185 -
186 - 193 - 198 - 186 - 192 - 194 - 185 - 186 - 186 - 186 - 186 - 186 - 186 - 186 -
184 - 185 - 184 - 189 - 187 - 193 - 187 - 187 - 187 - 187 - 187 - 187 - 187 - 187 -
185 - 182 - 188 - 186 - 190 - 190 - 187 - 188 - 188 - 188 - 188 - 188 - 188 - 189 -
181 - 196 - 187 - 183 - 197 - 187 - 189 - 189 - 189 - 189 - 189 - 189 - 189 - 190 -
184 - 189 - 182 - 194 - 190 - 195 - 190 - 190 - 190 - 190 - 190 - 190 - 190 - 190 -
183 - 184 - 189 - 189 - 190 - 185 - 190 - 191 - 191 - 191 - 191 - 192 - 192 - 192 -
187 - 186 - 178 - 189 - 185 - 196 -
193 - 193 - 193 - 193 - 193 - 193 - 193 - 194 -
191 - 194 - 195 - 190 - 189 - 188 -
187 - 190 - 198 - 183 - 188 - 186 -
194 - 194 - 195 - 195 - 195 - 195 - 195 - 196 -
186 - 182 - 192 - 190 - 184 - 187 196 - 196 - 197 - 197 - 198 - 198 - 199 - 201
Histograma de frecuencias
25 23
20
20
17
15
15
10 8 7
5 4
2
0
[178-180.875) [180.875- [183.75- [186.625- [189.5- [192.375- [195.25- [198.125-201]
183.75) 186.625) 189.5) 192.375) 195.25) 198.125)
17
15
15
Centralidad
10
8
Posición
7
5 4 Dispersión
2
0
Forma
[198.125-201]
[178-180.875)
[180.875-183.75)
[183.75-186.625)
[186.625-189.5)
[189.5-192.375)
[192.375-195.25)
[195.25-198.125)
=PROMEDIO(celdas)
Media Valores alrededor de los cuales se agrupan la mayoría
de los datos de la variable.
Mediana Interpretación:
• En promedio, los pedidos del producto Z se demoran
Moda días en ser entregados.
• Se espera que el número de días para que el
producto Z sea entregado es de días.
• representa la media de la población.
Media =MEDIA.GEOM(celdas)
Media =SUMAPRODUCTO(números,ponderador)/SUMA(ponderador)
5 7 10 12 15 18 20 21 34 𝒏𝒆𝒔 𝒊𝒎𝒑𝒂𝒓
5 7 10 12 15 18 20 21 34 50 𝒏𝒆𝒔 𝒑𝒂𝒓
15+ 18
=𝟏𝟔 . 𝟓
2
La mediana NO es sensible ante la presencia
de atípicos por lo que ES MUY BUENA
alternativa a la media como medida resumen
MEDIDAS DE CENTRALIDAD
Media Es el valor que más se repite, el valor con mayor frecuencia dentro del
conjunto de datos.
Mediana
Se puede calcular para variables de tipo cualitativo: la categoría con
Moda
más frecuencia.
=MODA.UNO() =MODA.VARIOS()
MEDIDAS DE POSICIÓN
Mediana 𝛼2 =¿
𝛼1 =¿
Mediana
=PERCENTIL.INC(… ; %) Quintiles: Dividen la variable en 5 grupos de frecuencia semejantes.
% = 0,2 0,4 0,6 0,8
Medidas que indican la variablidad que hay dentro del conjunto de datos y la
confiabilidad de las medidas resumen que se calculen sobre estos.
Coeficiente de variación
=MAX(celdas) – MIN(celdas)
𝑠= √ 𝑠 =√ 18.57=𝟒 . 𝟑𝟏
2
para la población
=DESVEST.M(celdas)
Coeficiente de variación
=DESVEST.P(celdas)
MEDIDAS DE DISPERSION
Rango • Para el cálculo de la desviación estándar, cada valor
del conjunto de datos es tenido en cuenta.
Varianza • Los valores extremos pesan sobre esta medida pues
en el cálculo, su diferencia con respecto a la media
Desviación estándar es elevada al cuadrado
Si los datos se distribuyen de manera normal,
el porcentaje de datos alrededor de la media
para la muestra
corresponde a :
para la población
=DESVEST.M(celdas)
Coeficiente de variación
=DESVEST.P(celdas)
MEDIDAS DE DISPERSION
• El coeficiente de variación, a diferencia de las otras
Rango medidas, representa una medida de variación
relativa.
Varianza • Es posible interpretarla como un porcentaje.
Desviación estándar • Muestra la variación relative con respecto a la media
por lo que puede ser usada para comparer dos
Coeficiente de variación conjuntos de datos, incluso cuando sus unidades no
son las mismas.
Media Desviación estándar CV
15.5 3.33 21.48%
15.5 0.92 5.93%
15.5 4.57 29.48%
Interpretación: indica que tan preciso es el promedio como medida representativa de los datos
DANE: https://www.dane.gov.co/files/investigaciones/boletines/censo/est_interp_coefvariacion.pdf
MEDIDAS DE FORMA
asimétrica + asimétrica -
𝒙=𝑴𝒆=𝑴𝒐
𝒙< 𝑴𝒆<𝑴𝒐 𝒙> 𝑴𝒆>𝑴𝒐
MEDIDAS DE FORMA