Lección 4 - Probabilidad y Estadística - 1
Lección 4 - Probabilidad y Estadística - 1
Lección 4 - Probabilidad y Estadística - 1
PROBABILIDAD Y ESTADÍSTICA
Unidad 1 - Lección 4
• Frecuencia Absoluta de un dato: Es el número de veces que se repite ese dato, también se
presenta la frecuencia absoluta de un intervalo que se refiere al número de datos que
pertenecen a ese intervalo. La denotaremos por f.
• Frecuencia Absoluta Acumulada: Hasta un dato específico, es la suma de las frecuencias
absolutas de todos los datos anteriores, incluyendo también la del dato mismo del cual se
desea su frecuencia acumulada. De un intervalo es la suma de las frecuencias absolutas
de todos los intervalos de clase anteriores.
• Frecuencia acumulada. La última frecuencia absoluta acumulada deberá ser igual al
número total de datos. La denotaremos por fa.
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son
necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla fue
enunciada en 1926 por el matemático alemán Herbert Sturges.
Con esta regla se determina el ancho de intervalo de los contenedores gráficos, de los
histogramas de frecuencia.
Para establecer su regla, Herbert Sturges consideró un diagrama de frecuencias ideal, que consta
de K intervalos, donde el i-ésimo intervalo contiene un determinado número de muestras (i = 0,…
k – 1), representado como:
i ( )
Ese número de muestras es dado por el número de formas en que puede extraerse un
subconjunto de un conjunto; es decir, por el coeficiente binomial, expresado de la siguiente
manera:
k −1 (k−1)!
C (k −1,i)=C i =
i !(k−1)!
Y para el número N de muestras
i=0
k−1 i ( )
N =∑ k−1 =1+1 =2
k −1 k −1
log 2 (N )=k−1
Así, Sturges estableció que el número óptimo de intervalos k es dado por la expresión:
k =1+log2 (N )
La cual se reexpresa como:
k =1+3.322∗log10 (N )
Dónde:
k=número de clases
N =número de observaciones de la muestra
log=logaritmo común de base 10
Determine la cantidad de intervalos en los cuales dividir una muestra aleatoria de la estatura de
142 trabajadores del volante.
Solución
k =1+3.322(log10 N )
k=1+3.322(log10 142)
k=1+3.322(2.1543)
k=8.150≈8
Así, la distribución será en 8 intervalos.
El número de intervalos siempre debe estar representado por números enteros. En los casos
en los que el valor sea decimal, se debe hacer una aproximación al número entero más
próximo
La regla de Sturges es aplicada principalmente en estadística, ya que esta permite realizar una
distribución de frecuencias a través del cálculo del número de clases k , así como la longitud
de cada una de estas, conocida también como amplitud.
La amplitud es la diferencia del límite superior e inferior de la clase, dividido entre el número de
clases, y se expresa como:
Existen muchas reglas empíricas que permiten hacer una distribución de frecuencias. Sin
embargo, la regla de Sturges es comúnmente usada porque hace una aproximación del número
de clases, que generalmente va de 5 a 15.
De esa forma, considera un valor que representa adecuadamente una muestra o población; es
decir, la aproximación no representa agrupaciones extremadas, así como tampoco trabaja con un
número excesivo de clases que no permitan resumir la muestra.
Ejercicio Ilustrativo 8
Elaborar un histograma de frecuencia de acuerdo a los datos dados, que corresponden a edades
obtenidas en una encuesta realizada a mujeres y adolescentes que hacen ejercicios en un
gimnasio de la localidad.
11 25 19 45 12
41 17 47 17 19
23 21 27 21 48
46 32 36 31 19
17 23 14 15 37
14 16 15 51 23
Para determinar los intervalos se debe saber cuál es el tamaño de la muestra o el número de
observaciones; en este caso, se tienen 30 observaciones. Aplicando la regla de Sturges:
k =1+3.322(log10 N )
k =1+3.322(log10 30)
El límite inferior es considerado como el valor menor de los datos, y el límite superior es el
valor mayor. La diferencia entre el límite superior e inferior es denominada rango o recorrido de la
variable .
De la tabla se tiene que el límite superior es 67 (la mujer de mayor edad de la tabla) y el inferior 11
(la mujer de menor edad de la tabla); de esa manera, la amplitud de cada clase está dada por:
(50 − 11) 34
a= = =6.6≈7 datos
6 6
Para asegurarse de que las clases cubren los datos, se pasa siempre el ancho de clase resultante
al entero siguiente, aún si sale 4.2, se pasa a cinco.
A continuación determinaremos los límites de clase y los límites reales de clase. Los intervalos
estarán compuestos por un límite superior e inferior. Para determinar esos intervalos se comienza
contando desde el límite inferior, sumándole a este la amplitud determinada por la regla , de la
siguiente manera:
Nota especial: Es importante hacer mención que los datos presentados en esta
forma son datos desagrupados
11, 12, 14, 14, 15, 15, 16, 17, 17, 17, 19, 19, 19, 21, 21, 23, 23, 23,25,
27, 31, 32, 36, 37, 41, 45, 46, 47, 48, 51
Y contamos la cantidad de datos que encajan en cada categoría. Construimos la siguiente tabla
∑fa 30
La marca de clase es el promedio entre los valores de los límites reales de clase. Por
ejemplo para la primera categoría tenemos:
10.5+18.5
Marca de clase (x )= =14.5
2
fa
f r=
N
Añadimos una nueva columna a la tabla donde incluiremos estos valores. La suma de los valores
obtenidos para la frecuencia relativa (f r) debe darnos el valor de 1, si tomaramos todos los
dígitos del cociente.
Nota especial: Es importante hacer mención que los datos ya presentados en esta
tabla son considerados como datos agrupados
∑fa 30 ∑ Fr =0.9999633≈1
10%
30%
Se realizará una gráfica que refleje los datos, y también el diagrama a partir de la frecuencia
absoluta con relación a los intervalos obtenidos, como se puede observar a continuación.
12
10
FRECUENCIA ABSOLUTA
0
11 - 18
35 - 42
51 - 58
19 - 26
27 - 34
INTERVALOS DE CLASES 43 - 50
10
0
11 - 18 19 - 26 27 - 34 35 - 42 43 - 50 51 - 58
INTERVALOS DE CLASE
MARCAS DE CLASE
10
0
11 - 18 19 - 26 27 - 34 35 - 42 43 - 50 51 - 58
INTERVALOS DE CLASE
El estudiante realizará la agrupación de datos, con todos los pasos descritos para la siguiente
tabla, la cual muestra la productividad de un grupo de trabajadores, donde se obtuvieron los datos
del número de piezas que pasaron el control de calidad ( en adelante les llamaremos piezas
aceptables) producidas por 120 trabajadores. Nota: Estos datos están desagrupados
33 15 47 25 19 18 14 24 25 17
12 21 54 26 16 18 15 26 27 11
37 14 48 24 13 14 12 25 21 19
31 17 37 17 19 14 12 14 26 61
49 21 31 18 19 15 14 16 29 58
16 20 46 19 19 16 14 19 23 54
17 24 15 17 15 16 17 19 23 59
65 29 17 17 11 15 18 18 23 56
63 39 13 18 14 14 15 17 26 16
17 37 28 18 17 19 14 14 25 54
21 7 29 19 17 12 15 15 26 25
29 65 29 15 18 14 14 15 22 22
Bibliografía