Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

1 Repaso de Estadística Descriptiva

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

Probabilidad y estadística Descriptiva.

Repaso de materia.
Ejercicios sugeridos.
Prof. Ing. Steven Martínez Amador.

1. Estadística.

La estadística se ocupa de recopilar datos, organizarlos en tablas y gráficos y analizarlos con un determinado
objetivo.

La estadística descriptiva tabula, representa y describe una serie de datos que pueden ser cuantitativos o
cualitativos, sin sacar conclusiones. La estadística inferencial infiere propiedades de gran número de datos
recogidos de una muestra tomada de la población.

En este curso se estudiará la estadística descriptiva. En ella debemos tener en cuenta las siguientes etapas:

a) Recolección de datos
b) Organización de datos
(1) Tabulación
(2) Graficación
c) Análisis y medición de datos

1.1 Recolección de datos

Para esta etapa tomaremos los siguientes conceptos básicos:

 Población: conjunto de observaciones efectuadas


 Individuo: cada elemento de la población.
 Atributo: característica investigada en la observación. Estos pueden ser cualitativos (sexo, religión,
nacionalidad) o cuantitativos (estatura, peso, área –estos son continuos, se miden en números reales-;
número de hijos, número de goles –discretos, se miden en números enteros-)

Por ejemplo: si se desea realizar un estudio estadístico de las estaturas de los alumnos de tercer año,
 Población: conjunto de estaturas
 Individuo: cada estudiante.
 Atributo: la estatura

 Teniendo presente la clasificación, clasifica los siguientes atributos


1. Afiliación deportiva de los habitantes de Costa Rica (equipo de fútbol favorito).
2. Cantidad de estudiantes en la universidad en sede San Pedro.
3. Religión profesada de los estudiantes de una escuela.
4. Ingresos de los colaboradores de una institución bancaria.
5. Cantidad de alumnos de las diferentes carreras de esta universidad.
6. Sexo de los alumnos de una escuela.
7. Estado civil de los habitantes de la ciudad de San José.
8. Cantidad de películas a las que se acude a ver durante un año.

1
9. Color de cabellos de los alumnos de un curso.
10. Notas obtenido por los alumnos de estadística en el primer parcial.

1.2 Organización de los datos.

A. Tabulación: puede ser a través de una serie simple, con la presentación de los datos recogidos en forma
de tabla ordenada, o a través de la agrupación de datos, este método se utiliza cuando el número de
observaciones es muy grande e implica el cálculo de las clases (k).

Ejemplo 1: En un curso de 40 alumnos, se desea estudiar el comportamiento de la variable estatura,


registrándose los siguientes valores:

1,52 1,64 1,54 1,64 1,73 1,55 1,56 1,57 1,58 1,58
1,59 1,53 1,60 1,60 1,61 1,61 1,65 1,63 1,79 1,63
1,62 1,60 1,64 1,54 1,65 1,62 1,66 1,76 1,70 1,69
1,71 1,72 1,72 1,55 1,73 1,73 1,75 1,67 1,78 1,63

Ejemplo de Serie Simple (Ejemplo 1):

 Completa los cuadros siguientes, ordenando de menor a mayor los datos obtenidos.

Alumno Talla Alumno Talla Alumno Talla Alumno Talla


1 1,52 11 21 31
2 1,53 12 22 32
3 1,54 13 23 33
4 1,54 14 24 34
5 1,55 15 25 35
6 1,55 16 26 36
7 1,56 17 27 37
8 1,57 18 28 38
9 1,58 19 29 39
10 1,58 20 30 40

1. Agrupación de datos por serie o distribución de frecuencias: se registra la frecuencia de cada valor de la
variable. La frecuencia puede ser absoluta (fa), número que indica la cantidad de veces que la variable toma
un cierto valor, relativa (fr), cociente entre la frecuencia absoluta de cada valor de la variable y el número
total de observaciones; relativa porcentual que es el porcentaje de la fr; frecuencia Acumulada (Fa)la suma
de la fi y la acumulada porcentual (Fr), que es la suma acumulada de fr .

 Volviendo al ejemplo anterior, completa la tabla de serie de frecuencias.

x (tallas) Absoluta Relativa R. Porcentual Acumulada Ac. Porcentual


fa fr = fa/n (100.fr) % Fa Fa %
1,52 1 1/40 = 0,025 2,5 % 1 2,5%
1,53 1 1/40 = 0,025 2,5% 2 5%

2
1,54 2 2/40 = 0,05 5% 4 10%
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79

Cómo se puede observar, hay demasiadas categorías de altura, haciendo muy poco productivo el
análisis, sin embargo, con esta agrupación se puede dar respuesta a las siguientes inquietudes:

 ¿Cuál es el total de la columna de frecuencias absolutas? ¿Qué significa eso?

...................................................................................................................................
 ¿Cuál es el total de la columna de frecuencias relativas? ¿Qué significa eso?

...................................................................................................................................
 ¿Qué nos va indicando la columna de la Frecuencia Absoluta, tanto en la parte absoluta como en la
porcentual?

...................................................................................................................................

2. Agrupación de datos por intervalos de clase: intervalos iguales en los que se divide el número total de
observaciones. Es conveniente utilizar los intervalos de clase cuando se tiene un gran número de datos de
una variable continua. Aplicar el procedimiento para determinar la cantidad de clases recomendadas según
el tamaño de n.

Recuerde.

3
1. Ordenar
2. Calcular el Rango.
3. Calcular las clases k = 1 +3.322*log(n)
a. Ajustar K por redondeo natural
4. Cálculo de la Amplitud de la clase.
a. Ajustar Ak, siempre pensando en que todos sus datos entren, no será siempre entera, ya que
dependerá de la cantidad de decimales de sus datos. Como consejo busque siempre el cero o 5
más próximo cuando presente decimales.
5. Construya la Tabla de Frecuencias.
6. Determine el primer límite inferior (su dato más pequeño), llamada Li
7. Determine el primer límite superior, que será el el Li más la Ak, entonces Ls = Li + Ak
8. Siga con los otros límites, hasta completar las k que determinó en el punto 3 a.
9. Calcule la marca de clase (o punto medio) para cada clase, para cualquier clase ejecute (Li + Ls)/2
10. Obtenga las frecuencias absolutas directamente de sus datos, según sus límites definidos.
11. Complete toda la Tabla de Frecuencias

Con los datos del Ejemplo 1, defina la cantidad de clases para su Tabla de Frecuencias y posterior Histograma.

Intervalos Marca de clase Fa fr% Fa Fa%


Li - Ls (Xi)

Totales

 Construya es esta área el histograma de la tabla anterior.

4
Ejercicio 1.

 Estas son las notas obtenidas por los 100 estudiantes:

38 51 32 65 25 28 34 12 29 43
71 62 50 37 8 24 19 47 81 53
16 62 50 37 4 17 75 94 6 25
55 38 46 16 72 64 61 33 59 21
13 92 37 43 58 52 88 27 74 66
63 28 36 19 56 84 38 6 42 50
98 51 62 3 17 43 47 54 58 26
12 42 34 68 77 45 60 31 72 23
18 22 70 34 5 59 20 68 55 49
33 52 14 40 38 54 50 11 41 76

1. Construya un Diagrama de Tallo y Hoja.

2. Construya la Tabla de Distribución de Frecuencias para los 100 datos.

5
Ejercicio 2.

 En una cierta ciudad de la provincia de Cartago, se registra el número de nacimientos ocurridos por semana
durante las 52 semanas del año. Los datos han sido recolectados según la semana, es decir 6 corresponde a
los nacimientos de la semana 1, 4 a la semana 2, y así sucesivamente. Los datos de las 52 semanas se
muestran a continuación:

6 4 2 8 18 16 10 6 7 5 12 8 9
12 17 11 9 16 19 18 18 16 14 12 7 10
3 11 7 12 5 9 11 15 9 4 1 6 11
7 8 10 15 3 2 13 9 11 17 13 12 8

1. Confecciona una tabla de distribución de Frecuencias.

2. ¿En qué intervalo de clase se hayan la mayor cantidad de nacimientos registrados por semana?

3. Por aparte de la tabla de distribución de frecuencias. Si dividiera la información por trimestre (grupos de
13 semanas), en qué trimestre hay mayor cantidad de nacimientos.

Ejercicio 3.

 Las edades de veinte estudiantes de una escuela son 12, 13, 14, 10, 11, 12, 11, 13, 14, 12, 10, 12, 11, 13, 12,
11, 13, 12, 10 y 15. Organiza los datos en un diagrama de Tallo y Hoja.

 ¿Qué porcentaje de chicos tienen 12 años?


 ¿Cuántos chicos tienen menos de 14 años?

6
Ejercicio 4.

 En cada día del mes de enero, se registró la siguiente cantidad de turistas al Teatro Nacional: 12, 14, 17, 16,
19, 15, 15, 21, 24, 26, 28, 24, 25, 26, 20, 21, 34, 35, 33, 32, 34, 38, 40, 43, 41, 45, 50, 53, 58, 40, 21. Construye
una tabla de frecuencias para estos datos.

1.3 Análisis y medición de datos.

Para describir un conjunto de datos, se calculan algunas medidas que resumen la información y que permiten
realizar comparaciones.

Medidas de localización: Se utilizan para ubicar el valor del dato que representa el percentil (m) dentro de un
conjunto de datos otorgado.

Se dividen de forma conceptual en Deciles, Quintiles, Cuartiles y Percentiles.

Medidas de posición: se utilizan para encontrar un valor que represente a todos los datos. Las más importantes
son: la media aritmética, la moda y la mediana.
 La media aritmética o promedio ( x ) de varios números se calcula como el cociente entre la suma de todos
esos números y la cantidad de datos que tenemos (n).

 La mediana (Me) es el valor que ocupa el lugar central al ordenar los datos de menor a mayor. Si la cantidad
de datos es par, la mediana es el promedio entre los dos valores centrales.

 La moda (Mo) es el valor que más se repite. Puede suceder que haya más de una moda o ninguna (si todos
los valores tienen igual frecuencia).

Ejercicios propuestos:

Ejercicio 1.

Los sueldos de cinco empleados de una empresa son: $ 4000, $5000, $4500, $6000 y $35000. Calcula el
sueldo medio, la moda, si es que existe, y la mediana e indica cuál representa mejor a los datos. ¿qué valor
tendría el Decil 8?

7
Ejercicio 2.

 El entrenador de un equipo de natación debe elegir a uno de sus integrantes para la próxima competencia
de estilo libre. Según los tiempos en segundos que obtuvieron los postulantes de las cinco últimas carreras
de 100 m de estilo libre, ¿qué nadador le conviene elegir?

Diego 61,7 61,7 62,3 62,9 63,1


Tomás 61,5 62,9 62,9 63,7 63,7
Sergio 60,7 62,4 62,7 62,7 63,2

Para poder decidir, calcula las medidas de posición de cada uno.

promedio moda mediana


Diego 62,34 61,7 62,3
Tomás
Sergio

En promedio, los nadadores más rápidos son ................................ y ................................., pero esto no significa
que hayan tenido el mismo rendimiento; por eso necesitamos las otras medidas de posición: de ellos dos, tanto
la moda como la mediana indican que ................................ fue más veloz. Sin embargo, para elegir el nadador
adecuado, no basta con considerar las medidas de posición, ya que también es necesario que su rendimiento sea
parejo, es decir, que los tiempos de sus 100 m libres no tengan mucha dispersión.

Medidas de dispersión: nos informan cómo están distribuidos los datos. La más importante es la desviación
estándar (s), que mide la dispersión de los datos con respecto al promedio. Cuanto menor es el desvío estándar,
menos dispersos están los datos con respecto al promedio.

Para calcular el desvío estándar, seguimos los siguientes pasos:

 Calculamos la diferencia entre cada uno y el promedio.


 Elevamos al cuadrado cada una de las diferencias anteriores.
 Sumamos todos los valores hallados en el paso anterior y dividimos el resultado por la cantidad de datos
menos 1. Así obtenemos la varianza.
 Calculamos la desviación estándar (s) como la raíz cuadrada de la varianza.

∑𝑛
𝑖=1(𝑥𝑖 −𝑥)
2
𝑠=√ n: número de datos
𝑛−1

 Diego y Sergio, dos de los nadadores del ejercicio anterior, obtuvieron el mismo promedio y sin embargo sus
tiempos están distribuidos de manera diferente.

8
Calcular los desvíos estándares de los tiempos de los nadadores:

Tiempos de Diego Tiempos de Sergio

xi (xi – x) (xi – x)2 xi (xi – x) (xi – x)2


61,7 -0,64
61,7 -0,64
62,3 -0,04
62,9 0,56
63,1 0,76
total total

Entonces:

𝑠𝑆𝑒𝑟𝑔𝑖𝑜 =   √  ≅ …………

𝑠𝐷𝑖𝑒𝑔𝑜 =   √  ≅ …………
4

Podemos ver que el desvío estándar de ................................... es menor que el de ................................., lo cual
indica que el promedio representa mejor los datos de ................................., porque sus tiempos fueron menos
dispersos.

Entonces, aunque cinco datos son muy pocos para hacer estadística, si con esa información hay que elegir un
nadador de ese equipo para la próxima competencia, conviene que sea .......................................

Ejercicios

1) Los siguientes datos numéricos corresponden a la cantidad de veces que cada alumno de un grupo ha ido a
un recital o concierto.

2–4–3–2–1–1–6–3–0–3–2–4–6–9–3–2–1–6

Calcula, sin tabular, Media, moda, mediana, desviación, n, rango.

9
2) En un diagnóstico de educación física se pidió a los alumnos de sexto año que hicieran abdominales durante
3 minutos. Se obtuvieron los siguientes resultados:

6º A: 45 38 43 29 34 60 54 27 32 33 23 34 34 28 56 62 56 57 45 47 48 54
33 45 44 41 34 36 34 54

6º B: 43 45 44 38 34 46 43 42 43 45 57 44 38 38 37 43 61 38 37 45 28 42
41 49 40 37 34 44 41 43

¿cuál de los dos cursos tiene el rendimiento más parejo? ¿qué distribución estadístico permite comparar la
distribución de este tipo de datos?

3) A continuación se presentan los resultados de ambos cursos en la prueba de diagnóstico de salto largo.

6º A : 3.2 3.5 4.9 5.0 3.1 4.1 2.9 2.8 3.8 4.5 4.3 4.5 4.1 5.8 3.9 3.6 4.2 4.6 1.9
2.8 2.9 3.3 3.9 4.2 4.1 4.3 4.6 4.4 3.8 3.6

6º B : 3.5 2.9 1.3 1.7 3.6 5.6 2.8 5.2 5.3 4.1 4.1 4.4 1.6 5.1 4.3 5.0 5.3 3.2 2.8
2.6 5.5 5.4 4.8 4.9 4.3 2.9 3.9 5.4 5.3 4.2

a) Calcula el promedio de ambos cursos.


b) Construya un diagrama de tallo y hoja para ambos grupos (por aparte)
c) Construye una tabla de frecuencias para cada curso
d) Calcule D3, Q2, K3, P13 para el grupo B.
c) ¿Cuál de los dos niveles tuvo un rendimiento menos variable?

4) Se han medido 75 alumnos, en centímetros, obteniéndose los siguientes datos:

175 156 172 159 161 185 186 192 179 163 164 170 164 167 168 174 172 168 176 166
167 169 182 170 169 167 170 162 172 171 174 171 155 171 171 170 157 170 173 173
174 168 166 172 172 158 159 163 163 168 174 175 150 154 175 160 175 177 178 180
169 165 180 166 184 183 174 173 162 185 189 169 173 171 173

Realice la tabla de distribución de frecuencias y calcula las medidas de tendencia central y de dispersión.
Además, grafica esta tabla en un histograma.

5) A los mismos alumnos anteriores se les aplico una prueba de inteligencia, estos han sido:

87 105 88 103 114 125 108 107 118 114 129 100 106 113 105 111 94 115 89 82
141 92 132 112 97 135 101 104 130 99 114 91 145 95 101 115 104 87 108 115
103 132 110 113 102 109 124 98 140 107 93 108 122 117 114 141 116 108 102 101
118 138 99 105 112 94 96 132 118 123 108 131 127 100 91

Realice la tabla de distribución de frecuencias y calcula las medidas de tendencia central y de dispersión.
Además, grafica esta tabla en un histograma.

10

También podría gustarte