02 Manejo de Datos

1.
MANEJO DE DATOS
Aunque el término estadística trae a la mente tan sólo una lista de hechos y números, lo
cierto es que el interés básico no son los conjuntos de datos, sino más bien el empleo de
la información que contienen esos conjuntos para llevar a cabo decisiones inteligentes.
Por lo tanto en este capítulo se presentará la idea fundamental de utilizar una muestra de
datos para inferir determinada propiedad para un conjunto mayor de datos de donde se
tomó la muestra.
1.1 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL
ESTADÍSTICA DESCRIPTIVA. Son aquellos métodos que incluyen la recolección, presenta-

ción y caracterización de un conjunto de datos con el fin de describir apropiadamente las
diversas características de ese conjunto de datos.
Aunque los métodos de la estadística descriptiva son importantes para presentar y carac-
terizar los datos, éstos han sido la base de los métodos de la estadística inferencial y ser-
vido para mejorar la teoría de la probabilidad que en la actualidad ha hecho posible aplicar
la estadística a todos los campos de la investigación.
ESTADÍSTICA INFERENCIAL. Son aquellos métodos que hacen posible la estimación de una
característica de una población o la toma de una decisión referente a una población, ba-
sándose sólo en los resultados de la muestra. Esto es, la estadística inferencial quiere
decir que se utilizan los datos para hacer afirmaciones rigurosas e inteligentes, las infe-
rencias, acerca de un fenómeno mucho mayor del cual se seleccionaron los datos.
1.2. ELEMENTOS DE LA ESTADÍSTICA INFERENCIAL
Cualquier problema de estadística tiene, como punto de partida, una población de interés.
POBLACIÓN. Es la totalidad de elementos o cosas bajo consideración. Es decir, es el con-

junto total de mediciones de interés para determinado problema. Se representa por la letra
N.
MUESTRA. Es un subconjunto de la población que contiene las mediciones obtenidas me-

diante un experimento, es decir, es la porción de la población que se selecciona para su
análisis, y se representa por la letra n. El objetivo es usar esos datos de la muestra con la
finalidad de hacer inferencias acerca de la población de la cual se obtuvo dicha muestra.
En cualquier investigación estadística son importantes el número y tipo adecuados de
observaciones de muestras.
PARÁMETRO. Es una medida de resumen que se calcula para describir una característica
de toda una población. Los parámetros suelen representarse por medio de letras griegas.
ESTADÍSTICO. Es una medida de resumen que se calcula para describir una característica
de una sola muestra de la población.
1
El uso de métodos estadísticos inferenciales se deriva de la necesidad del muestreo. A
medida que una población crece, por lo general resulta demasiado costoso, tardado e
incómodo obtener la información deseada de toda la población. Por lo tanto, la determina-
ción de las características de la población tiene que basarse en la información contenida
en una muestra de esa población. La teoría de probabilidad proporciona el enlace al ave-
riguar la probabilidad que los resultados de la muestra reflejen los resultados de la pobla-
ción.
1.3. MODELOS DETERMINISTAS Y MODELOS PROBABILÍSTICOS
Para elaborar la metodología formal del proceso de inferencia se debe partir de un modelo
del fenómeno que se estudia. Un modelo se puede imaginar como una explicación teórica
y en general muy simplificada de un sistema complejo. Existen dos clases de modelos:
MODELOS DETERMINISTAS. Son los modelos más usados en la física e ingeniería. Tienen
la característica de que se pueden predecir los resultados específicos de los experimentos
que se llevan a cabo con ellos. Tales modelos toman en general la forma de una ecuación
matemática.
MODELOS PROBABILÍSTICOS. Son los modelos que surgen en las investigaciones estadísti-
cas. Se caracterizan por el hecho de que aunque no se pueden predecir con exactitud los
resultados específicos de un experimento, sí se pueden predecir frecuencias relativas de
diversos resultados posibles.
Los modelos deterministas no dan lugar a inferencia estadística; los modelos probabilísti-
cos son los cimientos sobre los que se apoya toda teoría de adopción de inferencias.
No hay una regla general que indique cuál modelo es el más adecuado, ya que sin duda
esto depende del uso al que se destine el modelo. Sin embargo, se puede decir que la
actitud adecuada será usar un modelo probabilístico siempre que haya algo más que va-
riación insignificante entre los resultados de un experimento.
1.4 RECOLECCIÓN DE DATOS
DATOS. Son la información numérica necesaria para poder tomar una decisión con más
bases en una situación particular. Para que un análisis estadístico sea útil en el proceso
de toma de decisiones, los datos de entrada deben ser apropiados.
Existen muchos métodos mediante los cuales se pueden obtener los datos necesarios. En
primer lugar, se pueden buscar datos ya publicados por fuentes gubernamentales, indus-
triales o individuales. En segundo lugar, se puede diseñar un experimento para obtener
los datos necesarios; en un experimento se ejerce un control estricto sobre el tratamiento
dado a los participantes. En tercer lugar, se puede aplicar una encuesta; aquí no se ejerce
ningún control sobre el comportamiento de la gente encuestada, simplemente se formulan
preguntas respecto a sus opiniones, actitudes, comportamiento y otras características, y
después sus respuestas se editan, codifican y tabulan para su análisis. En cuarto lugar, se
2
pueden hacer observaciones del comportamiento, actitudes u opiniones de los individuos
en los que se está interesado.
Los fenómenos o características en estudio se llaman variables aleatorias. Los datos que
son los resultados observados de estas variables aleatorias, pueden diferir de respuesta a
respuesta. Existen básicamente dos tipos de variables aleatorias que producen dos tipos
de datos: categóricas y numéricas. En el caso de las variables aleatorias numéricas, los
datos obtenidos pueden considerarse como discretos o continuos:
DATOS DISCRETOS. Son respuestas numéricas que surgen de un proceso de conteo.
DATOS CONTINUOS. Son respuestas numéricas que surgen de un proceso de medición.
1.5 PRESENTACIÓN DE CONJUNTOS DE DATOS
Sin importar si se trata con una muestra o con una población, como regla general cuando
una serie de datos que se han reunido contiene más de 20 observaciones, la mejor forma
de examinar tales datos masivos es presentarlos en forma de resumen construyendo ta-
blas y diagramas apropiados. Entonces se pueden extraer las características importantes
de los datos de estas tablas y diagramas.
Cuando se recolecta una serie de datos, generalmente se hace en forma sin procesar, es
decir, las observaciones numéricas no están dispuestas en ningún orden o secuencia par-
ticular. Al crecer el número de observaciones, se hace más difícil centrarse en las princi-
pales características de un conjunto de datos y se necesitan métodos que ayuden a orga-
nizar las observaciones de tal manera que se entienda mejor la información que transmite
la serie de datos. Uno de los métodos más comúnmente usados es la clasificación orde-
nada.
CLASIFICACIÓN ORDENADA. Consiste en disponer los datos sin procesar en orden crecien-
te de magnitud, lo cual facilita la evaluación de sus principales características, seleccionar
los extremos, los valores típicos y las concentraciones de valores, aunque este método se
vuelve muy pesado mientras mayor sea el número de observaciones presentes en una
serie de datos.
1.6. LA DISTRIBUCIÓN DE FRECUENCIA
Los datos estadísticos obtenidos de muestras, experimentos o cualquier colección de me-

diciones a menudo son tan numerosos que carecen de utilidad a menos que sean con-
densados o reducidos a una forma más adecuada.
Así, tal vez el investigador puede desear acomodar los datos en agrupamientos de clase
de acuerdo con divisiones establecidas convenientemente del alcance de las observacio-
nes. Tal acomodo de los datos en forma tabular se conoce como una distribución de fre-
cuencia, y los datos, ya ordenados y resumidos, se llaman datos agrupados.
3
DISTRIBUCIÓN DE FRECUENCIA. Es una tabla de resumen en la que los datos se disponen
en agrupamientos o categorías convenientemente establecidas de clases apropiadas,
mostrando también el número de elementos en cada clase.
La tabla sacrifica parte de la información contenida en los datos pero, por otra parte,
cuando las observaciones se agrupan o condensan en tablas de distribución de frecuen-
cia, el proceso de análisis e interpretación de los datos se hace mucho más manejable y
significativo.
Si los datos se agrupan según su magnitud numérica, la tabla resultante recibe el nombre
de distribución numérica o cuantitativa. En contraste, si los datos se agrupan en catego-
rías que difieren en tipo y no en grado, la tabla resultante se denomina distribución cate-
górica o cualitativa.
Al construir la tabla de distribución de frecuencia, debe ponerse atención a:
 Seleccionar el número apropiado de agrupamientos de clase para la tabla, recordando

que rara vez se utilizan menos de cinco o más de quince clases; el número exacto que
se utilice en una situación dada dependerá de la naturaleza, magnitud y orden de los
datos.
 Obtener un intervalo o ancho de clase de cada agrupamiento de clase. Siempre que

sea posible, se debe procurar que las clases tengan la misma longitud, es decir, que
abarquen intervalos de valores iguales. El intervalo de clase está dado por la diferen-
cia existente entre sus fronteras de clase, así como por la diferencia entre dos marcas
de clase sucesivas cualesquiera y se representa por c.
 Establecer los límites de cada agrupamiento de clase para evitar los traslapes. Es de-
cir, siempre debe asegurarse de que cada medición u observación quede sólo en una
clase, que ninguno de los valores llegue a quedar en interespacios entre clases suce-
sivas y que las clases sucesivas no se encimen y contengan algunos valores en co-
mún. Siempre que sea posible, los límites deben elegirse para que faciliten la lectura e
interpretación de los datos.
Para comprender mejor lo anterior, es preciso definir algunos términos.
FRECUENCIA DE CLASE. Es el número de observaciones que caen en una clase dada y se

representa por f.
FRONTERAS DE CLASE O LÍMITES REALES DE CLASE. Son los puntos medios situados entre
los límites de clase respectivos. Desde luego, estos valores deben ser, por su naturaleza,
valores “imposibles” que no pueden ocurrir entre los datos que se están agrupando. Para
asegurar esto solamente se tiene que observar hasta dónde se redondean los datos para
que las fronteras de clase tengan un decimal más. Las fronteras de clase se utilizan para
evitar ambigüedades. En la práctica se emplean las fronteras de clase y no los límites de
clase originales, principalmente cuando se quiere recalcar que se están manejando medi-
ciones de tipo continuo. Los límites reales de clase se obtienen fácilmente sumando al
límite superior de un intervalo de clase el límite inferior del intervalo de clase contiguo su-
perior y dividiendo por 2. Así, los límites reales de la i-ésima clase están dados por
4
Ls i  1  Li i Ls i  Li i  1
Lri i = y Lrs i = (1.1)
2 2
MARCA DE CLASE. Es el punto medio entre los límites de cada clase y es representativo
de los datos de esa clase. Se obtiene sumando los límites inferior y superior de una clase
(o sus fronteras superior e inferior) y dividiendo por 2. La marca de clase de la i-ésima
clase se representa por xi. Así,
Li  Ls Lrs  Lri
xi = o xi = (1.2)
2 2
Para construir una distribución de frecuencia es recomendable seguir las siguientes re-
glas:
REGLAS PARA CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIA
1. Determinar el mayor y el menor entre los datos registrados y encontrar el rango, me-
diante la fórmula
R = Vmayor − Vmenor
2. Seleccionar el número apropiado de clases para la tabla. Es conveniente tener entre 5

y 15 intervalos de clase, dependiendo del número de datos. Una selección del número
de clases puede hacerse utilizando el criterio 2 n :
2 5 = 32 → 5 intervalos para 32 datos

2 6 = 64 → 6 intervalos para 64 datos
etc.
3. Determinar el tamaño de los intervalos usando la fórmula
rango
Tamaño del intervalo (c) =
número de clases
Por conveniencia y facilidad de lectura, el intervalo seleccionado o ancho de cada

agrupamiento de clase se redondea hacia arriba.
4. Establecer los límites y las fronteras de cada clase para evitar superposición.
5. Determinar el número de observaciones que caen dentro de cada intervalo de clase,

es decir, encontrar la frecuencia de clase ( f ).
5
Para ampliar el análisis de los datos, casi siempre es deseable formar la distribución de
frecuencia relativa (fr) o la distribución del porcentaje, dependiendo de si se prefieren
proporciones o porcentajes. La distribución de frecuencia relativa se forma dividiendo las
frecuencias de cada clase entre el número total de observaciones. De aquí puede formar-
se una distribución porcentual multiplicando cada frecuencia relativa o proporción por
100. La suma de las frecuencias relativas de todas las clases es obviamente 1 ó 100%.
La frecuencia relativa de la i-ésima clase de determina mediante la fórmula
fi fi
fri = × 100 = × 100 (1.3)
 f n
FRECUENCIA ACUMULADA. Es la frecuencia total de todos los valores menores que el límite
real superior de clase de un intervalo de clase dado.
DISTRIBUCIÓN ACUMULADA. Se construye registrando primero los límites inferiores de cada

clase a partir de la distribución de frecuencia y luego insertando un límite extra al final. Se
calculan las frecuencias acumuladas en la columna “menor que” determinando el número
de observaciones menores que cada uno de los valores de los límites establecidos. En las
distribuciones acumuladas se puede hacer lo mismo que en las distribuciones de frecuen-
cia relativa, convirtiéndolas así en distribuciones porcentuales acumuladas.
Ejemplo 1.1. Distribución de frecuencia
La siguiente tabla proporciona el porcentaje de algodón de una tela que se usa para fabri-
car camisas de hombre. Construir una distribución de frecuencias utilizando intervalos de
clase adecuados.
34.2 33.6 33.8 34.7 37.8 32.6 35.8 34.6

33.1 34.7 34.2 33.6 36.6 33.1 37.6 33.6
34.5 35.0 33.4 32.5 35.4 34.6 37.3 34.1
35.6 35.4 34.7 34.1 34.6 35.9 34.6 34.7
34.3 36.2 34.6 35.1 33.8 34.7 35.5 35.7
35.1 36.8 35.2 36.8 37.1 33.6 32.8 36.8
34.7 35.1 35.0 37.9 34.0 32.9 32.1 34.3
33.6 35.3 34.9 36.4 34.1 33.5 34.5 32.7
34.6 33.1 37.8 35.1 37.1 37.9 35.0 34.7
35.8 32.6 36.6 32.5 36.8 34.1 32.7 36.8
Primero se calcula el rango, el número de clases y el tamaño del intervalo:
Rango = Vmayor − Vmenor = 37.9 − 32.1 = 5.8
Número de clases: 2 6 = 64, es decir 6 intervalos, ya que se tienen 80 datos
6
rango 5.8
Tamaño del intervalo = = = 0.96
número de clases 6
Como se dijo antes, por conveniencia y facilidad de lectura, el ancho de cada agrupamien-
to de clase se redondea hacia arriba. Por lo tanto,
c = 1.0
Entonces, la distribución de frecuencia es:
Intervalo de Frecuencia Marca de

Límites reales clase ( x i )
clase (f)
32.0 — 32.9 9 31.95 — 32.95 32.45
33.0 — 33.9 12 32.95 — 33.95 33.45
34.0 — 34.9 25 33.95 — 34.95 34.45
35.0 — 35.9 17 34.95 — 35.95 35.45
36.0 — 36.9 9 35.95 — 36.95 36.45
37.0 — 37.9 8 36.95 — 37.95 37.45
Total 80 60
■
Para construir distribuciones categóricas, el procedimiento es similar. Se debe decidir

cuántas categorías (clases) utilizar y qué tipo de elementos debe contener cada categoría,
asegurándose de que todos los elementos estén incluidos y que no haya ambigüedades.
En este tipo de distribuciones no hay que preocuparse por detalles matemáticos como los
límites, fronteras y marcas de clase, aunque a menudo existe un problema grave con las
ambigüedades y se debe ser cuidadoso y explícito al definir lo que contendrá cada cate-
goría.
1.7. PRESENTACIÓN GRÁFICA DE DATOS
Las propiedades de las distribuciones de frecuencia relacionadas con su forma se hacen

más evidentes por medio de gráficas. Para describir datos numéricos que han sido agru-
pados en distribuciones de frecuencia, de frecuencia relativa o porcentuales, se usan los
histogramas y los polígonos.
HISTOGRAMA. Es el método más común de presentación gráfica de datos estadísticos. El

histograma se construye con rectángulos adyacentes que tienen sus bases sobre el eje x,
con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase y
cuyas alturas representan las frecuencias de clase. Las indicaciones o marcas en la esca-
la horizontal pueden ser límites de clase, las fronteras de clase o valores importantes arbi-
trarios. Sin embargo, no se pueden utilizar histogramas con distribuciones de frecuencia
que tengan clases abiertas, es decir, clases sin límite superior (las clases abiertas evitan
utilizar un gran número de clases que son vacíos o que tienen frecuencias muy peque-
ñas). Asimismo, los histogramas se deben emplear con extrema precaución si no son
iguales todos los intervalos de clase. Si el eje vertical muestra las frecuencias relativas, el
resultado es un histograma de frecuencia relativa.
7
POLÍGONO DE FRECUENCIA. Es un gráfico de línea trazado sobre las marcas de clase y
puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el histo-
grama, esto es, se grafican los puntos ( x i , f i ) donde x i es la marca de clase de la i-
ésima clase y f i es la frecuencia correspondiente, y los puntos sucesivos se unen por
medio de líneas rectas. Puesto que el área bajo la distribución de porcentaje (curva ente-
ra) debe ser 100%, es necesario conectar el primero y el último punto con el eje horizontal
para rodear el área de la distribución observada. Esto se hace conectado el primer punto
medio observado con el punto medio de una clase “precedente ficticia” con frecuencia
cero y conectando el último punto medio observado con el punto medio de una clase “su-
cesora ficticia” también con frecuencia cero. Es decir, el polígono se abre en Lri I − c / 2 y
se cierra en Lrsu + c / 2.
40
N° de estudiantes
30
20
10
0
58 61 64 67 70 73 76
estatura (pulgadas)
Fig. 1.1. Histograma y polígono de frecuencia
POLÍGONO DE FRECUENCIA ACUMULADA U OJIVA. Sirve para presentar gráficamente las dis-
tribuciones acumuladas. Son similares a los polígonos de frecuencia, excepto en que se
grafican las frecuencias acumuladas sobre las fronteras de clase en lugar de graficar las
frecuencias ordinarias sobre las marcas de clase. Los puntos así determinados se unen
otra vez mediante segmentos rectilíneos. Los diagramas de frecuencia acumulada son un
modo adecuado de descubrir corrimientos en las distribuciones de datos. A medida que
los tamaños de muestra se hacen más y más grandes, las gráficas de frecuencia acumu-
lada se pueden acercar más y más a curvas continuas.
Ejemplo 1.2. Presentación gráfica de datos
Con los datos del ejemplo 1.1 construir:

a) Un histograma y un polígono de frecuencia
b) Una distribución de frecuencia relativa
c) Una distribución de frecuencia acumulada y una ojiva
a) El polígono de frecuencia se abre en: Lri I − c / 2 = 31.95 − 1/2 = 31.45
y se cierra en: Lrs u + c / 2 = 37.95 + 1/2 = 38.45
8
b) La distribución de frecuencia relativa es:
30
25
20
frecuencia
15
10
0
31.45 32.45 33.45 34.45 35.45 36.45 37.45 38.45
porcentaje de algodón
Intervalo de Frecuencia Frecuencia Frecuencia

clase (f) relativa (fr) relativa (%)
32.0 — 32.9 9 0.1125 11.25
33.0 — 33.9 12 0.1500 15.00
34.0 — 34.9 25 0.3125 31.25
35.0 — 35.9 17 0.2125 21.25
36.0 — 36.9 9 0.1125 11.25
37.0 — 37.9 8 0.1000 10.00
Total 80 1.000 100.00
c) La distribución de frecuencia acumulada es:
Frecuencia
Intervalo acumulada
(fa)
menor que 31.95 0
menor que 32.95 9
menor que 33.95 21
menor que 34.95 46
menor que 35.95 63
menor que 36.95 72
menor que 37.95 80
y la ojiva es
9
90
80
70
frecuencia acumulada
60
50
40
30
20
10
0
31.95 32.95 33.95 34.95 35.95 36.95 37.95
porcentaje de algodón
EJERCICIOS 1.1
1. Los pesos de ciertas muestras minerales, dados a la décima de onza más cercana,
están agrupados en una tabla que tiene las clases 10.5 – 11.4, 11.5 – 12.4, 12.5 –
13.4 y 13.5 – 14.4. Calcúlese:
a) Las marcas de clase
b) El tamaño del intervalo de clase
2. Las marcas de clase de una distribución de lecturas de temperatura (dadas al grado

Celsius más cercano) son 16, 25, 34, 43, 52 y 61. Calcúlese los límites de clase
3. Si las marcas de clase en una distribución de frecuencias de pesos de estudiantes son

128, 137, 146, 155, 164, 173 y 182 libras, hallar:
a) El tamaño del intervalo de clase
b) Los límites de clase, suponiendo los pesos medidos con aproximación de unidad
de libra.
4. Los diámetros interiores de las arandelas producidas por una compañía pueden me-
dirse con aproximación de milésimas de pulgada. Si las marcas de clase de una distri-
bución de frecuencias de estos diámetros vienen dadas en pulgadas por los números
0.321, 0.324, 0.327, 0.330, 0.333 y 0.336, hallar:
a) El tamaño del intervalo de clase
b) Los límites de clase
En los ejercicios 5 – 10, agrupar los datos dados en una tabla con un número apropiado
de clases iguales y construir: (a) una distribución de frecuencia, (b) un histograma y un
polígono de frecuencia.
10
5. Mediciones de la resistencia a la ruptura (en onzas) de una muestra de 60 hilos de
cáñamo.
32.5 15.2 35.4 21.3 28.4 26.9 34.6 29.3 24.5 31.0
21.2 28.3 27.1 25.0 32.7 29.5 30.2 23.9 23.0 26.4
27.3 33.7 29.4 21.9 29.3 17.3 29.0 36.8 29.2 23.5
20.6 29.5 21.8 37.5 33.5 29.6 26.8 28.7 34.8 18.6
25.4 34.1 27.5 29.6 22.2 22.7 31.3 33.2 37.0 28.3
36.9 24.6 28.9 24.8 28.1 25.4 34.5 23.6 38.4 24.0
6. Muestra de 80 mediciones de la emisión diaria (en toneladas) de óxido de azufre de

una planta industrial.
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
7. Mediciones de la resistencia a la compresión de 58 muestras de una aleación de alu-

minio en desarrollo como material para aeronaves.
66.4 67.7 68.0 68.0 68.3 68.4 68.6 68.8 68.9 69.0
69.1 69.2 69.3 69.3 69.5 69.5 69.6 69.7 69.8 69.8
69.9 70.0 70.0 70.1 70.2 70.3 70.3 70.4 70.5 70.6
70.6 70.8 70.9 71.0 71.1 71.2 71.3 71.3 71.5 71.6
71.6 71.7 71.8 71.8 71.9 72.1 72.2 72.3 72.3 72.6
72.7 72.9 73.1 73.3 73.5 74.2 74.5 75.3
8. Datos obtenidos en un estudio de dos semanas sobre la productividad de los trabaja-

dores sobre el número total de piezas aceptables que produjeron 100 de ellos:
65 36 49 84 79 56 28 43 67 36
43 78 37 40 68 72 55 62 22 82
88 50 60 56 57 46 39 57 73 65
59 48 76 74 70 51 40 75 56 45
35 62 52 63 32 80 64 53 74 34
76 60 48 55 51 54 45 44 35 51
21 35 61 45 33 61 77 60 85 68
45 53 34 67 42 69 52 68 52 47
62 65 55 61 73 50 53 59 41 54
41 74 82 58 26 35 47 50 38 70
11
9. Resistencia al estallamiento, en libras por pulgada cuadrada (lpc), de 100 botellas de
vidrio con capacidad para un litro.
265 197 346 280 265 200 221 265 261 278
205 286 317 242 254 235 176 262 248 250
263 274 242 260 281 246 248 271 260 265
307 243 258 321 294 328 263 245 274 270
220 231 276 228 223 296 231 301 337 298
268 267 300 250 260 276 334 280 250 257
260 281 208 299 308 264 280 274 278 210
234 265 187 258 235 269 265 253 254 280
299 214 264 267 283 235 272 287 274 269
215 318 271 293 277 290 283 258 275 251
10. Resultados de 80 análisis químicos del porciento de cobre en piezas de bronce:
78.2 76.1 79.2 82.4 90.4 79.1 77.2 78.3 81.6 90.2
83.5 81.8 75.9 80.6 81.2 84.4 82.9 74.8 85.9 83.4
88.4 74.2 76.2 84.6 72.7 87.5 73.1 77.3 83.8 74.7
86.2 83.4 82.4 83.1 81.1 85.3 82.3 81.3 82.1 80.6
78.9 70.5 81.8 82.5 83.4 79.0 71.6 82.9 84.6 84.7
81.4 88.1 80.1 87.7 87.5 80.3 89.2 81.3 89.7 85.3
70.1 85.3 70.2 84.1 84.9 71.2 84.4 71.4 83.5 86.9
82.4 85.7 80.7 81.1 79.0 83.3 86.6 82.8 80.3 89.0
1.8 MEDIDAS DESCRIPTIVAS
Las tres mejores propiedades que describen una serie numérica de datos son su posición,
su variación y su forma.
1.8.1. MEDIDAS DE TENDENCIA CENTRAL
La característica más importante que describe o resume un grupo de datos es su posi-

ción. La mayor parte de las series de datos muestran una clara tendencia a agruparse
alrededor de un cierto punto central. Así pues, dada cualquier serie de datos particular,
por lo general es posible seleccionar algún valor o promedio típico para describir toda la
serie de datos. Este valor descriptivo típico es una medición de tendencia central o ubica-
ción. La elección definitiva de este número depende de la característica determinada que
se quiera describir.
Aunque existen diversos tipos de “promedios” que se utilizan algunas veces para fines
especiales, en este libro nos limitaremos al estudio de los tres tipos de promedios que
describen de alguna manera el centro o mitad de un conjunto de datos, es decir las medi-
das de tendencia central. Las medidas de tendencia central que se usan más a menudo
son la media aritmética, la mediana y la moda.
12
MEDIA ARITMÉTICA. Es el promedio o medición de tendencia central de uso más común.
En el lenguaje ordinario este valor se conoce a menudo como “promedio”, pero como en
estadística existen otros “promedios”, no es correcto llamarla así, pues se corre el peligro
de ser ambiguos. La media aritmética de una muestra de n elementos se denota por x ,
mientras que la media aritmética de una población de N elementos se denota con la letra
griega μ (mu).
La media aritmética de una muestra se calcula sumando todas las observaciones de una
serie de datos y luego dividiendo el total entre el número de elementos involucrados. Por
lo tanto, para una muestra que contiene una serie de n observaciones x1, x2, ..., xn, la me-
dia aritmética x puede escribirse como
x1  x 2    x n
 xi
i 1
x = = (1.4)
n n
donde: x = media aritmética de la muestra

n = tamaño de la muestra
x i = i-ésima observación en la muestra
Ejemplo 1.3. Media aritmética
Los siguientes datos representan el número de interrupciones por día de trabajo debidas a
fallas mecánicas en una planta procesadora de alimentos. Calcular la media aritmética.
2, 3, 0, 4, 5, 3, 1, 3, 5, 2
La media aritmética es
10
 xi
i 1 2  3  2
x = = = 2.8 ≈ 3
10 10
Esto quiere decir que habrá un promedio de 3 interrupciones diarias (o que el número de
interrupciones diarias está alrededor de 3). ∎
Las principales características de la media aritmética son las siguientes:
 El cálculo de la media aritmética está basado en todos los valores de un conjunto de

datos. El valor de cada elemento en los datos afecta el valor de la media. Así, la media
actúa como punto de equilibrio de tal forma que las observaciones menores compen-
san aquellas que son mayores. Por lo tanto, la media aritmética se ve afectada en
gran medida por cualquier valor extremo, es decir valores muy pequeños o muy gran-
des que se apartan tanto del cuerpo principal de los datos que es cuestionable su in-
clusión en las muestras; estos valores se pueden deber a ciertos aspectos como erro-
13
res en la escritura de los datos o en las operaciones, desperfectos del equipo de me-
dición, etc.
 La media aritmética se puede calcular en relación con un conjunto cualquiera de datos

numéricos, de manera que siempre existe.
 Un conjunto de datos numéricos tiene una y sólo una media, de modo que siempre es
única.
 La media aritmética se presta a un tratamiento estadístico más profundo.
 Es relativamente confiable en el sentido de que las medias de muchas muestras to-

madas de la misma población por lo general no fluctúan o varían tan ampliamente co-
mo otros estadísticos que se emplean para estimar la media de una población μ. Por
lo tanto, esta propiedad es de fundamental importancia en la inferencia estadística.
Dado que cualquier valor extremo en un conjunto de datos distorsiona en gran medida la
media aritmética y en algunos casos se puede identificar su origen, estos valores pueden
simplemente eliminarse de los datos antes de promediarlos. Pero si no es posible hacer
esto, lo mejor es utilizar otra medida de posición llamada mediana para referirse al “cen-
tro” de los datos, la cual, a diferencia de la media, no es afectada fácilmente por los valo-
res extremos.
MEDIANA. Es el valor del elemento del centro de un conjunto de datos que están dispues-
tos en orden de magnitud creciente o decreciente. La mediana se representa por ~
x.
La mediana es un valor figurativo (central o promedio) en el sentido de que divide los da-
tos en dos partes, de modo que los valores de una mitad de los elementos son menores o
iguales que ella y los valores de la otra mitad son mayores o iguales que la mediana. Al
igual que la media, la mediana siempre existe y es única en relación con cualquier conjun-
to de datos. También se puede utilizar para definir el término medio de un número de ob-
jetos, propiedades, o cualidades que no son realmente cuantitativas por naturaleza.
Para calcular la mediana de un conjunto de datos recopilados en su forma bruta, primero

hay que disponerlos en un arreglo ordenado, en base a su magnitud, ya sea creciente o
decreciente. Después se usa la fórmula del punto de posicionamiento
n 1
(1.5)
2
para encontrar el lugar del arreglo ordenado que corresponde al valor de la mediana. Se
sigue una de dos reglas:
 REGLA 1. Si el tamaño de la muestra es un número impar, la mediana está represen-

tada por el valor numérico correspondiente al punto de posicionamiento, o sea la ob-
n 1
servación ordenada .
2
 REGLA 2. Si el tamaño de la muestra es un número par, entonces el punto de posicio-

namiento cae entre las dos observaciones medias del arreglo ordenado. La mediana
14
está representada por la observación correspondiente al promedio de los valores nu-
méricos de estas dos observaciones medias, o sea los valores de las observaciones
n n2
que aparecen en los lugares y .
2 2
Ejemplo 1.4. Mediana
Un concesionario de aparatos electrodomésticos al por menor tiene diez sucursales en un

área metropolitana. En una determinada semana, el dueño seleccionó una muestra de
cinco sucursales y encontró que el número de lavadoras automáticas vendidas en cada
sucursal fue:
Sucursal A B C D E
N° de lavadoras vendidas 5 3 6 5 1
¿Cuál es la mediana para estos cinco valores de la muestra?
Para obtener la venta mediana de lavadoras en esa semana para las cinco sucursales, los
datos en bruto se funden en un arreglo ordenado, como sigue:
1 3 5 5 6
mediana
Como el número de datos es impar, el valor mediano es el punto medio en el arreglo or-
denado, es decir está representado por la
n 1 51
= = 3ª observación ordenada
2 2
La tercera observación ordenada corresponde al valor numérico 5. Entonces, la mediana

de este conjunto de datos es
~
x = 5 lavadoras
Este valor significa que la mitad de las sucursales vendieron cuando mucho cinco lavado-
ras y la otra mitad vendieron por lo menos 5 lavadoras. ■
Ejemplo 1.5. Mediana
Considere el número de interrupciones por día de trabajo mostradas en el ejemplo 1.3.

Encontrar la mediana para esos diez valores
Número de interrupciones: 2, 3, 0, 4, 5, 3, 1, 3, 5, 2
15
Nuevamente, para obtener el número mediano de interrupciones por día de trabajo, los
datos en bruto se ordenan de acuerdo con su magnitud creciente:
0 1 2 2 3 3 3 4 5 5
mediana
Como el número de datos es par, el valor mediano es el punto medio de las observacio-
n n2
nes y :
2 2
n 10 n2 10  2
= =5 = =6
2 2 2 2
Esto es, la mediana es el punto medio de las observaciones quinta y sexta. Por lo tanto se
estima que la mediana es
~ 33
x = = 3 interrupciones por día
2
Esto significa que la mitad de los días hubo cuando mucho tres interrupciones y la otra
mitad hubo por lo menos 3 interrupciones. ∎
La mediana tiene las siguientes características interesantes:
 El cálculo del valor de la mediana se afecta por el número de observaciones y no por

la magnitud de cualesquiera valores extremos.
 Cualquier observación seleccionada al azar es igual de fácil que exceda de la mediana

o que ésta exceda de aquélla.
Sin embargo, aunque la media y la mediana proporcionan un número simple que repre-
senta un conjunto completo de datos, en los problemas de estimación y de inferencia es-
tadística se utiliza la media aritmética como medida de tendencia central, debido a que la
mediana no emplea toda la información contenida en las observaciones, además de que
generalmente está sujeta a mayores fluctuaciones, esto es, está propensa a variar más de
muestra en muestra.
MODA. Es el valor de una serie de datos que aparece con la más alta frecuencia mayor
que 1. Sus dos ventajas principales son que no requiere operaciones de cálculo, sólo con-
tar, y que se puede determinar en relación con datos cualitativos y también cuantitativos.
Además, a diferencia de la media aritmética, la moda no se ve afectada por la ocurrencia
de cualesquiera valores extremos. La moda se representa por x̂ .
La moda se usa solamente para propósitos descriptivos porque es más variable de mues-
tra a muestra que otras mediciones de tendencia central. Pero además del hecho de que
la moda es una medida de posición en extremo insuficiente en la inferencia estadística,
también tiene la desventaja de que, en algunos conjuntos de datos, es posible que no
exista y, en otros, tal vez no sea única. Un conjunto que tiene una sola moda se llama
16
unimodal, y cuando hay dos o más modas en un conjunto de datos, éstos son llamados
bimodales o multimodales, respectivamente. El hecho de que un conjunto de datos tenga
más de una moda es a veces indicativo de una falta de homogeneidad en los datos.
La moda para datos no agrupados de unos pocos valores puede ser obtenida por inspec-
ción.
1.8.2 MEDIDAS DE VARIACIÓN
Una medida de tendencia central sola no proporciona generalmente una descripción satis-
factoria de un conjunto de datos. Quienes están interesados en los datos desean con fre-
cuencia tener también una medida de la manera en que los valores individuales se des-
vían del “promedio”. Las medidas estadísticas que proporcionan la información acerca del
grado en que los datos se dispersan o se diseminan se les conoce como medidas de va-
riación o de dispersión.
VARIACIÓN. Es el grado en que los datos numéricos tienden a extenderse alrededor de un

valor medio.
Se dice que la variación de un conjunto de datos es pequeña si los valores están acota-
dos muy cerca alrededor de su media, y es grande si los valores están dispersos con am-
plitud alrededor de su media. Por lo tanto, parecería razonable medir la variación de un
conjunto de datos en términos de las cantidades por las que se desvían de su promedio.
Así, una vez localizado el centro de la distribución de un conjunto de datos, el siguiente

paso es buscar una medida de la variación o dispersión de éstos, debido a que una de las
características más importantes de casi cualquier conjunto de datos es que los valores no
son todos iguales; en realidad, el grado en el que sean distintos, o que varíen entre sí, es
de importancia básica en la estadística.
Las medidas de variación más utilizadas son el rango, la desviación media, la varianza y
la desviación estándar.
RANGO. Es la medida de dispersión más simple, pero también aporta información sobre la
cantidad de variabilidad presente en un conjunto de datos. Se define como la diferencia
entre la mayor y la menor observación en una serie de datos, y mide la propagación total
en ésta. Sin embargo, su clara debilidad es que no logra tomar en cuenta la forma en que
los datos se distribuyen realmente entre el menor y el mayor valor. Por lo tanto, es impro-
pio usar el rango como una medición de variación cuando uno o ambos componentes son
observaciones extremas, ya que una sola observación grande o pequeña puede inflar
mucho su valor.
Cuando se manejan datos no agrupados, su rango se puede determinar con facilidad a
partir de un arreglo ordenado. Para una muestra de tamaño n, el rango es la diferencia
entre las observaciones más grande y más pequeña, es decir
R = x n − x1
17
Con datos agrupados en una distribución de frecuencia, se puede tener una aproximación
al rango como la diferencia entre el límite superior de la última clase y el límite inferior de
la primera clase.
DESVIACIÓN MEDIA. La desviación media de una serie de n números x 1 , x 2 , ..., x n , se

define como la media aritmética de las desviaciones de los valores individuales con res-
pecto a la media de los datos dados. Para calcular la desviación media se utilizan los va-
lores absolutos de las desviaciones; es decir, los signos positivos o negativos de las des-
viaciones se ignoran. Para calcular la desviación media de una muestra de n datos se
utiliza la fórmula
n
 xi  x
i 1
d.m = (1.6)
n
donde: x i − x = desviación de la i-ésima observación con respecto a la media

n = total de datos en la muestra
Ejemplo 1.6. Desviación media
Los tiempos de preparación (manipulación, colocación y ajuste de las herramientas) para

cortar seis partes en un torno son 0.6, 1.2, 0.9, 1.0, 0.6 y 0.8 minutos. Calcúlese la des-
viación media.
En primer lugar se calcula la media
6
 xi
i 1 0.6  1.2  0.9  1.0  0.6  0.8
x = = = 0.85
6 6
En la siguiente tabla se muestra el trabajo necesario para calcular  xi  x
xi xi  x xi  x
0.6 − 0.25 0.25
1.2 0.35 0.35
0.9 0.05 0.05
1.0 0.15 0.15
0.6 − 0.25 0.25
0.8 − 0.05 0.05
 1.10
n
 xi  x
i 1 1.10
Por tanto, d.m = = = 0.18
n 6
18
Este resultado quiere decir que las observaciones tienen, en promedio, una variación de
0.18 minutos con respecto al tiempo de preparación promedio de 0.85 minutos. ∎
Dos mediciones de variación comúnmente usadas que sí toman en cuenta cómo se distri-
buyen todos los valores en los datos son la varianza y su raíz cuadrada, la desviación
estándar. Estas mediciones evalúan la forma en que los valores fluctúan alrededor de la
media.
Si un conjunto de datos x1, x2, ..., xn tiene media x , entonces las diferencias x 1 − x ,
x 2 − x , ..., x i − x se llaman desviaciones de la media. Esto sugiere que se debería usar
el promedio de estas desviaciones como medida de la variación en el conjunto de datos;
sin embargo, la suma de todas las desviaciones con respecto a la media siempre es cero,
 
esto es, i  1 x i  x = 0, de modo que el promedio de las desviaciones siempre es
n
cero:
i  1 ( x i  x ) = ( x 1 −
n
x ) + ( x 2 − x ) + ... + ( x n − x )
= x 1 + x 2 + ... + x n − n x
 x1  x 2    x n 
= x 1 + x 2 + ... + x n − n  

 n 
= x 1 + x 2 + ... + x n − ( x 1 + x 2 + ... + x n ) = 0
Por lo tanto, una forma alternativa es trabajar con los cuadrados de las desviaciones con
respecto al promedio.
VARIANZA. Es, aproximadamente, el promedio de las diferencias cuadradas entre cada

una de las observaciones en una serie de datos y la media. Es decir, para una muestra
que contiene n observaciones x 1 , x 2 , ..., x n , la varianza (dada por el símbolo s2) puede
escribirse como
(x1  x) 2  (x 2  x) 2    (x n  x) 2
 (x i  x) 2
i 1
s2 = = (1.7)
n 1 n 1

n = tamaño de la muestra
x i = i-ésimo valor en la muestra
x i − x = desviación del i-ésimo valor de la muestra con respecto a la media x
Si el denominador hubiera sido n en lugar de n − 1 se hubiera obtenido el promedio de las

desviaciones cuadradas de la media. Sin embargo n − 1 se usa aquí debido a ciertas pro-
piedades matemáticas que el estadístico s 2 posee que la hacen apropiada para la infe-
19
rencia. Si el tamaño de muestra es grande, la división entre n o n − 1 realmente no hace
mucha diferencia.
Sin embargo, la fórmula de la ecuación anterior no es práctica, pues para situaciones rea-
listas es improbable que las observaciones y la media sean enteros. Por lo tanto se pre-
senta la siguiente fórmula computacional de la varianza, para uso práctico:
n
 x i2  n x 2
i 1
s2 = (1.8)
n 1
n
donde:  x i2 = sumatoria de los cuadrados de las observaciones individuales
i 1
n x 2 = tamaño de muestra por el cuadrado de la media de la muestra
Pero s 2 da como resultado unidades al cuadrado, y éstas no tienen sentido. Por lo tanto,
la varianza en realidad no es más que un artificio matemático para poder medir la desvia-
ción estándar y para que no se pierdan las diferencias.
DESVIACIÓN ESTÁNDAR. La desviación estándar de una muestra, dada por el símbolo s, es

sólo la raíz cuadrada de la varianza de la muestra. Por lo tanto, la desviación estándar
mide la raíz cuadrada del promedio del cuadrado de las diferencias alrededor de la media.
La desviación estándar se calcula de la misma manera que la desviación media, excepto

que los signos positivos y negativos de las desviaciones individuales son tomados en
consideración. Así,
n
 (x i  x) 2
i 1
s= (1.9)
n 1
Al igual que en la varianza, también existe una fórmula computacional para calcular la
desviación estándar:
n
 x i2  n x 2
i 1
s= (1.10)
n 1
Nótese que puesto que en las ecuaciones dadas para s 2 y para s se elevaron al cuadra-
do las diferencias, ni la varianza ni la desviación estándar pueden ser negativas. Además,
la única vez en que s 2 y s podrían ser ceros sería cuando no haya variación alguna en
los datos, es decir cuando cada observación de la muestra fuera exactamente igual. Pero
este es un caso inusual, ya que los datos numéricos son inherentemente variables, no
constantes. Cualquier fenómeno de interés aleatorio que se pueda imaginar generalmente
20
toma una variedad de valores. Debido a que los datos numéricos varían de manera inhe-
rente resulta tan importante estudiar no sólo las mediciones de tendencia central que re-
sumen los datos, sino también las mediciones de variación que reflejan cómo están dis-
persos los datos numéricos, ya que tanto la varianza como la desviación estándar miden
la dispersión “promedio” en torno a la media; es decir, cómo fluctúan las observaciones
mayores por encima de ella y cómo se distribuyen las observaciones menores por debajo
de ella.
Ejemplo 1.7. Desviación estándar
Calcúlese la desviación estándar para los tiempos de preparación (manipulación, coloca-

ción y ajuste de las herramientas) para cortar seis partes en un torno, dados en el ejemplo
1.6.
En el ejemplo 1.6 se obtuvo la media x = 0.85 minutos
En la siguiente tabla se muestra el trabajo necesario para calcular ( x i  x ) 2 :

xi xi  x (x i  x) 2 x i2
0.6 − 0.25 0.0625 0.36
1.2 0.35 0.1225 1.44
0.9 0.05 0.0025 0.81
1.0 0.15 0.0225 1.00
0.6 − 0.25 0.0625 0.36
0.8 − 0.05 0.0025 0.64
0.2750 4.61
n
 (x i  x) 2
i 1 0.2750
Por tanto, s= = = 0.23
n 1 5
n
 x i2  n x 2
i 1 4.61  (6) (0.85) 2 0.2750
O bien s= = = = 0.23
n 1 5 5
Este resultado significa que existe una variación promedio de 0.23 minutos en torno a la
media; esto es, el tiempo de preparación fluctúa en 0.23 minutos por encima y por debajo
de la media de 0.85 minutos. ∎
Cuando es necesario distinguir la desviación estándar de una población de la desviación

estándar de una muestra extraída de esta población, se emplea el símbolo s para la última
y  para la primera. Así, s 2 y  2 representarían la varianza muestral y la varianza pobla-
cional, respectivamente.
21
La desviación estándar y la varianza son medidas de variación absoluta, esto es, miden la
cantidad real de variación presente en un conjunto de datos y dependen de la escala de
medición. Para comparar la variación en diferentes conjuntos de datos es preferible valer-
se de una medida de variación relativa. Una medida de este efecto se define como
variación absoluta
variación relativa =
promedio
Una medida de variación relativa es el coeficiente de variación, el cual se expresa como

un porcentaje en lugar de en términos de las unidades de los datos particulares. El coefi-
ciente de variación, denotado por el símbolo CV, da la desviación estándar como un por-
centaje de la media y se calcula por
s
CV = × 100% (1.11)
x
donde s = desviación estándar en una serie de datos numéricos

x = media aritmética en una serie de datos numéricos
Como una medición relativa, el coeficiente de variación es particularmente útil al comparar

la variabilidad de dos o más series de datos que se expresan en distintas unidades de
medición. También es muy útil al comparar dos o más conjuntos de datos que son medi-
dos en las mismas unidades pero difieren hasta tal punto que una comparación directa de
las respectivas desviaciones estándar no es muy útil. Sin embargo, un inconveniente del
coeficiente de variación es que deja de ser útil cuando x está próxima a cero.
Ejemplo 1.8. Coeficiente de variación
Las mediciones realizadas con un micrómetro del diámetro de un cojinete de bolas tiene
una media de 3.92 mm y una desviación estándar de 0.015 mm; en cambio, las medicio-
nes realizadas con otro micrómetro de la longitud original de un resorte tienen una media
de 1.54 cm y una desviación estándar de 0.008 cm. ¿Cuál de los dos instrumentos es
relativamente más preciso?
Para el primer micrómetro el coeficiente de variación es
s 0.015
CV = × 100 = × 100 = 0.38%
x 3.92
y para el segundo micrómetro es
s 0.008
CV = × 100 = × 100 = 0.52%
x 1.54
Por tanto, las mediciones realizadas con el primer micrómetro son relativamente más pre-
cisas. ∎
22
Ejemplo 1.9. Coeficiente de variación
En un examen final de estadística, la puntuación media de un grupo de 150 estudiantes

fue de 78 y la desviación estándar fue de 8.0. En álgebra, sin embargo, la media final del
grupo fue de 73 y la desviación estándar de 7.6. ¿En qué asignatura hubo mayor disper-
sión absoluta y mayor dispersión relativa?
Para el examen de estadística el coeficiente de variación es
s 8.0
CV = × 100 = × 100 = 10.26%
x 78
y para el examen de álgebra es
s 7.6
CV = × 100 = × 100 = 10.41%
x 73
Por tanto, en el examen de álgebra hubo mayor dispersión relativa mientras que en el
examen de estadística hubo mayor dispersión absoluta. ∎
EJERCICIOS 1.2
1. Diez medidas del diámetro de un cilindro fueron registradas como 3.88, 4.09, 3.92,
4.02, 3.95, 4.03, 3.92, 3.98, 3.90 y 4.06 pulgadas. Calcular la media aritmética de es-
tas medidas.
2. Tres profesores de economía registraron una calificación media en sus exámenes de

79, 82 y 84; sus clases estaban formadas por 32, 25 y 17 estudiantes, respectivamen-
te. Determinar la calificación media para todas las clases.
3. Si la renta anual media de los trabajadores agrícolas y no agrícolas en Estados Unidos

son de $3 500 y $4 500, respectivamente, ¿sería la renta anual media para ambos gru-
pos juntos de $4 000?
4. Los tiempos de reacción de un individuo a determinados estímulos fueron 0.53, 0.46,

0.50, 0.49, 0.52, 0.53, 0.44 y 0.55 segundos, respectivamente. Determinar la media
aritmética, la desviación media y la desviación estándar para el tiempo de reacción del
individuo a los estímulos.
5. Los salarios horarios de cinco empleados de una oficina son $2.52, $3.96, $3.28, $9.20
y $3.75. Calcular la media aritmética y la desviación estándar del salario horario.
6. Cuatro grupos de estudiantes, formados por 15, 20, 10 y 18 individuos registran una
media de pesos de 162, 148, 153 y 140 libras. Hallar el peso medio de todos los estu-
diantes.
7. Las calificaciones de un estudiante en cinco asignaturas fueron 85, 76, 93, 82 y 96.
Calcular la media aritmética y la desviación media de dichas calificaciones.
23
8. Una serie de números está formada por seis 6, siete 7, ocho 8, nueve 9 y diez 10.
¿Cuál es su media aritmética, su mediana y su moda?
9. Los siguientes datos son el número de torsiones requerido para 12 barras de cierta
aleación: 33, 24, 39, 48, 26, 35, 38, 54, 23, 34, 29 y 37. Calcular la media aritmética y la
desviación estándar.
10. Si el salario medio anual pagado a los ejecutivos de tres empresas de ingeniería es de
$125 000, ¿puede alguno de ellos ganar $400 000?
11. Por un error un profesor borró la calificación que obtuvo uno de sus diez alumnos. Si
los otros nueve consiguieron las calificaciones de 43, 66, 74, 90, 40, 52, 70, 78 y 92 y si
la media de los diez estudiantes es de 67, ¿qué calificación borró el profesor?
12. Los siguientes datos son el número de minutos que en 15 días laborales una persona
tiene que esperar el autobús que la llevará a su trabajo: 10, 1, 13, 9, 5, 9, 2, 10, 3, 8, 6,
17, 2, 10 y 15. Calcular la media aritmética y la desviación estándar.
13. Los siguientes datos provienen de la producción diaria de un pozo petrolero (en barri-
les): 214, 203, 226, 198, 243, 225, 207, 203, 208, 200, 217, 202, 208, 212, 205 y 220.
Calcular la media aritmética de la producción diaria de un pozo de petróleo.
14. Los siguientes datos provienen de las lecturas del flujo máximo anual de un río en
m3/s: 405, 335, 419, 267, 370, 391, 612, 383, 434, 462, 288, 317, 540, 295 y 508. Cal-
cular la desviación estándar del flujo máximo anual del río.
15. Calcular la media aritmética y la desviación estándar de las siguientes millas por galón
obtenidas en 20 recorridos, en un perímetro citadino con un automóvil de tamaño in-
termedio.
19.7 21.5 22.5 22.2 22.6

21.9 20.5 19.3 19.9 21.7
22.8 23.2 21.4 20.8 19.4
22.0 23.0 21.1 20.9 21.3
16. Los siguientes datos son 12 lecturas de temperatura en varios puntos de un gran
horno (en grados Fahrenheit): 415, 475, 500, 460, 425, 460, 410, 470, 475, 460, 510 y
450. Calcular la media aritmética y la desviación estándar.
17. El salario promedio anual pagado a ejecutivos de alto nivel en tres compañías es de
$84 000, $92 000 y $89 000. Si el número respectivo de ejecutivos de alto nivel es de 4,
15 y 11, calcúlese el salario promedio anual que perciben estos 30 ejecutivos.
18. En una clase de ingeniería nuclear hay 22 estudiantes de penúltimo año, 18 de último
año y 10 graduados. Si los estudiantes de penúltimo año promediaron 71 en un examen
parcial, los de último año promediaron 78 y los graduados 89, ¿cuál es la media para la
clase completa?
19. El salario medio anual pagado a todos los empleados de una compañía fue de $5000.
Los salarios medios anuales pagados a hombres y mujeres de la compañía fueron
24
$5200 y $4200, respectivamente. Determinar el porcentaje de hombres y mujeres em-
pleados en la compañía.
20. En tres años recientes, el precio del cobre fue de 69.6, 66.8 y de 66.3 centavos por
libra, y el precio del carbón bituminoso fue de 19.43, 19.82 y de 22.40 dólares por tone-
lada corta. ¿Cuál de estos dos conjuntos de precios es relativamente más variable?
1.8.3 MEDIDAS DESCRIPTIVAS CALCULADAS A PARTIR DE DATOS AGRUPADOS
Una buena razón para agrupar datos y construir distribuciones de frecuencia de la manera
como se explicó anteriormente en este capítulo consiste en que se puede facilitar enor-
memente el cálculo de las diferentes medidas descriptivas.
MEDIA ARITMÉTICA. Cuando los datos se presentan mediante una distribución de frecuen-
cia, todos los valores caen dentro de unos intervalos de clase dados que se consideran
coincidentes con las marcas de clase. Por lo tanto, la media aritmética para datos agrupa-
dos se puede calcular como
k k
f 1 x1  f 2 x 2    f n x n
 f i xi  f i xi
i 1 i 1
x = = = (1.12)
f1  f 2    f n k
n
 fi
i 1
donde x i = marca de clase de la i-ésima clase

f i = frecuencia de la i-ésima clase
 f = n = frecuencia total, o sea el número total de observaciones
k = número de clases en la distribución de frecuencia
Sin embargo, pueden hacer falta muchas operaciones aritméticas para determinar la me-
dia de una distribución de frecuencia. Este trabajo se puede simplificar al codificar las
marcas de clase de manera que se tengan números menores para trabajar. Siempre y
cuando la distribución tenga intervalos de clase de igual tamaño c, el cálculo de x se faci-
lita si primero se selecciona una de las marcas de clase (de preferencia la clase del centro
de la distribución o cerca de él) como el origen x0 arbitrario y se le asigna un valor codifi-
cado de cero y luego se sustituyen todas las demás marcas de clase x i con una sucesión
de valores ui enteros consecutivos en torno al origen arbitrario. Así, la fórmula de la media
de una distribución de datos de muestra se convierte en
k
 f i ui
i 1
x = x0 + ×c (1.13)
n
25
donde x 0 = marca de clase de la escala original a la que se le asigna el valor de cero
en la nueva escala
c = tamaño del intervalo de clase
u i = entero asignado a la i-ésima marca de clase
f i = número de observaciones de la i-ésima clase
n = número de observaciones en la muestra
Ejemplo 1.10. Media aritmética para datos agrupados
Con los datos del ejemplo 1.1 y usando las fórmulas para datos agrupados, calcular la
media aritmética de los porcentajes de algodón.
En la siguiente tabla se muestra la distribución de frecuencia obtenida en el ejemplo 1.1 y

el trabajo necesario para calcular x :
Intervalo Límites reales f xi f xi

32.0 – 32.9 31.95 – 32.95 9 32.45 292.05
33.0 – 33.9 32.95 – 33.95 12 33.45 401.40
34.0 – 34.9 33.95 – 34.95 25 34.45 861.25
35.0 – 35.9 34.95 – 35.95 17 35.45 602.65
36.0 – 36.9 35.95 – 36.95 9 36.45 328.05
37.0 – 37.9 36.95 – 37.95 8 37.45 299.60
Total 80 2785.00
Utilizando la fórmula definicional se tiene
x =
fx =
2 785
= 34.8 porciento de algodón
n 80
La tabla siguiente muestra el trabajo necesario para calcular x utilizando la fórmula

computacional:
Intervalo f xi ui f i ui f i u i2
32.0 – 32.9 9 32.45 −2 − 18 36
33.0 – 33.9 12 33.45 −1 − 12 12
34.0 – 34.9 25 34.45 → x0 0 0 0
35.0 – 35.9 17 35.45 1 17 17
36.0 – 36.9 9 36.45 2 18 36
37.0 – 37.9 8 37.45 3 24 72
Total 80 29 173
De donde tenemos
26
x = x0 +
fu × c = 34.45 +
29
× 1 = 34.45 + 0.3625 = 34.8 porciento de algodón
n 80
Esto quiere decir que, en promedio, las camisas tienen alrededor de 34.8 porciento de
algodón. ∎
MEDIANA. Como la mediana es el valor de la observación central de un arreglo ordenado,

y como en los datos agrupados en una distribución de frecuencia no se saben los valores
de cada observación, entonces el valor de la mediana se debe aproximar. Así, para datos
agrupados, después de localizar el intervalo de clase de la mediana (el intervalo de clase
en el cual cae el dato central), el valor de la mediana se aproxima por interpolación, me-
diante la fórmula
 n
 2    f 1
~
x = L1 +  ×c (1.14)
f med
donde: L 1 = límite real inferior de la clase mediana

n = número de observaciones en el conjunto de datos (frecuencia total)
  f  1 = suma de las frecuencias de todas las clases hasta la clase mediana,
pero sin incluirla
f med = frecuencia de solamente la clase mediana
Ejemplo 1.11. Mediana para datos agrupados
Los salarios percibidos por un grupo de 25 empleados en una compañía en un periodo

dado, se muestran en la primera y segunda columnas de la tabla siguiente. Calcular la
mediana.
N° de em- Frecuencia
Salarios
pleados acumulada
$5000 — $7000 1 1
8000 — 10000 4 5
11000 — 13000 9 14 Clase mediana
14000 — 16000 6 20
17000 — 19000 2 22
20000 — 22000 3 25
Total 25
n 1 25  1
En la tabla anterior se ve que la observación ordenada = = 13 es una de
2 2
las nueve observaciones contenidas en el tercer intervalo de clase, es decir la observa-
27
ción número 13 está en este intervalo, razón por la cual éste es el intervalo de clase me-
diana. Además, de la misma tabla se pueden obtener los siguientes datos:
10000  11000
L1 = = $10 500
2
n = 25
  f 1 = 5
f med = 9
c = $3 000
La mediana es entonces
 n  25 
 2    f 1   5
~
x = L1 +  × c = 10 500 +  2  × 3 000 = $13 000
f med 9
mediana
10
n° de empleados
8
6
4
2
0
00 00 00 00 00 00 00 00
30 60 90 12 0 15 0 18 0 21 0 24 0
salarios
Este valor quiere decir que, al estar ordenados los salarios en orden creciente de magni-
tud, habrá exactamente doce salarios menores o iguales a la mediana y doce salarios
mayores o iguales a ella; en otras palabras, quiere decir que la mitad de los obreros gana
cuando mucho $13 000 y la otra mitad gana al menos $13 000. ■
Geométricamente, la mediana es el valor de x que corresponde a la vertical que divide un

histograma en dos partes de igual área.
MODA. En el caso de datos agrupados donde se ha construido una curva de frecuencia

para ajustar los datos, la moda será el valor (o valores) de x correspondientes al máximo
(o máximos) de la curva. De una distribución de frecuencia o un histograma, la moda pue-
de obtenerse de la ecuación
1
x̂ = L 1 + ×c (1.15)
1   2
28
donde: L 1 = límite real inferior de la clase modal (la clase con mayor frecuencia)
 1 = exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior
 2 = exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior
DESVIACIÓN MEDIA. El procedimiento para calcular la desviación media para datos agru-
pados se basa en la fórmula
k
 fi x i  x
i 1
d.m = (1.16)
n
donde: x i = marca de clase de la i-ésima clase

n = frecuencia total
Ejemplo 1.12. Desviación media para datos agrupados
Se tiene la siguiente distribución de frecuencia de las duraciones de una muestra de 50

llantas (en miles de kilómetros). Encontrar la desviación media.
Frecuencia Marca de
Duración
(miles de Km.)
(N° de llantas) clase fx f xx
(f) (x)
37.2 – 40.7 7 38.95 272.65 38.808
40.8 – 44.3 17 42.55 723.35 33.048
44.4 – 47.9 18 46.15 830.70 29.808
48.0 – 51.5 8 49.75 398.00 42.048
Total 50 2224.70 143.712
x =
 fx
=
2224.7
= 44.494 miles de kilómetros
n 50
d. m =  f xx
=
143.712
= 2.874 miles de kilómetros
n 50
Este resultado quiere decir que las observaciones tienen, en promedio, una variación de
2.874 miles de kilómetros con respecto a la duración promedio de 44.494 miles de kilóme-
tros. ∎
29
VARIANZA. Para calcular la varianza con datos agrupados, se puede desarrollar una fór-
mula definicional análoga a la fórmula para datos no agrupados. Dado que la varianza
“como que” mide el promedio de las diferencias al cuadrado entre cada observación y la
media, y puesto que los puntos medios de cada clase de una distribución de frecuencia se
utilizan para representar las observaciones en las clases, se puede tener una aproxima-
ción de la varianza de una distribución de frecuencia mediante la fórmula
k
 f i (x i  x) 2
i 1
s2 = (1.17)
n 1

n = número de observaciones de la muestra
x i = marca de clase de la i-ésima clase
Sin embargo, en este caso el cálculo también puede ser laborioso y pesado. Por ello, se
puede utilizar una fórmula más práctica para distribuciones que tienen intervalos de clase
del mismo tamaño:
2
k  k 
n f i u i2    f i ui 
 i 1 
s 2
=
i 1   × c2 (1.18)
n (n  1)
donde c = tamaño del intervalo de clase

u i = entero asignado a la i-ésima marca de clase
f i = número de observaciones de la i-ésima clase
n = número de observaciones en la muestra
DESVIACIÓN ESTÁNDAR. Para datos agrupados, la fórmula definicional para encontrar la

desviación estándar es
k
 f i (x i  x) 2
i 1
s= (1.19)
n 1
pero también se cuenta con una fórmula más práctica de cálculo codificado para distribu-
ciones que tienen intervalos de clase del mismo tamaño:
30
2
k  k 
n f i u i2    f i ui 
 i 1 
s=
i 1   ×c (1.20)
n (n  1)
Ejemplo 1.13. Varianza y desviación estándar para datos agrupados
Con los datos del ejemplo 1.1 y usando las fórmulas para datos agrupados, calcular la
desviación estándar de los porcentajes de algodón.
En el ejemplo 1.10 se obtuvo x = 34.8 porciento de algodón
Utilizando la fórmula computacional se tiene:
Intervalo f xi ui fi ui f i u i2
32.0 – 32.9 9 32.45 −2 − 18 36
33.0 – 33.9 12 33.45 −1 − 12 12
34.0 – 34.9 25 34.45 → x0 0 0 0
35.0 – 35.9 17 35.45 1 17 17
36.0 – 36.9 9 36.45 2 18 36
37.0 – 37.9 8 37.45 3 24 72
Total 80 29 173
La varianza es
n  f u 2  ( f u ) 2 80 (173)  (29) 2
s2 = × c2 = × (1) 2 = 2.0568
n (n  1) 80  79 
de donde s= 2.0568 = 1.4 porciento de algodón
Este resultado significa que existe una variación promedio de 1.4 de algodón en torno a la
media; esto es, el porcentaje de algodón en las camisas fluctúa en 1.4 por encima y por
debajo de la media de 34.8 porciento. ■
31
MEDIDAS DESCRIPTIVAS
DATOS NO AGRUPADOS:
n n
x1  x 2    x n
 xi  xi  x
i 1 i 1
x = = d.m =
n n n
n n
 (x i  x) 2  x i2  n x 2
i 1 i 1
s2 = o bien s 2 =
n 1 n 1
DATOS AGRUPADOS:
k k
 n 
 f i xi  f i ui
 2  ( f ) 1 
x = L1 +   ×c
i 1 i 1 ~
x = o bien x = x0 + ×c
n n f med
2
k k  k 
 f i (x i  x) 2 n f i u i2    f i ui 
 i 1 
s 2
=
i 1
o bien s 2
=
i 1   × c2
n 1 n (n  1)
EJERCICIOS 1.3
1. Utilícese la distribución obtenida en el problema 5 de los ejercicios 1.1 para calcular la

media, la mediana y la desviación estándar de la resistencia a la ruptura.
2. La tabla siguiente muestra una distribución de frecuencias de los salarios semanales

en dólares de 65 empleados de la compañía P y R.
Salarios No. de
(dólares) empleados
$ 50.00 — $ 59.99 8
60.00 — 69.99 10
70.00 — 79.99 16
80.00 — 89.99 14
90.00 — 99.99 10
100.00 — 109.99 5
110.00 — 119.99 2
Calcular: (a) El salario medio semanal, (b) la mediana y (c) la desviación estándar.
32
3. Utilícese la distribución obtenida en el problema 6 de los ejercicios 1.1 para determinar
el coeficiente de variación.
4. La tabla siguiente muestra una distribución de frecuencias de la duración de 400 tubos

de radio comprobados en la L & M Tube Company.
Duración Número
(horas) de tubos
300 — 399 14
400 — 499 46
500 — 599 58
600 — 699 76
700 — 799 68
800 — 899 62
900 — 999 48
1 000 — 1 099 22
1 100 — 1 199 6
Calcular: (a) La duración media, (b) la mediana y (c) la desviación estándar.

media, la mediana y la desviación estándar de la resistencia a la compresión de la alea-
ción de aluminio.
6. Utilícese la distribución obtenida en el problema 8 de los ejercicios 1.1 para determinar

el coeficiente de variación de los datos de productividad.

media, la mediana y la desviación estándar de la resistencia al estallamiento de las bo-
tellas de vidrio.

media, la mediana y la desviación estándar de los análisis químicos del porciento de
cobre en piezas de bronce
1.9. FORMA DE LOS DATOS
Una característica importante de un conjunto de datos lo es su forma, es decir la manera

en la que están distribuidos los datos. La distribución de los datos puede ser simétrica o
no. Si la distribución de los datos no es simétrica, se le llama asimétrica o sesgada.
Para describir la forma sólo se necesita comparar la media, la mediana y la moda:
media > mediana > moda → Sesgo positivo o derecho

media = mediana = moda → Simetría o sesgo cero
media < mediana < moda → Sesgo negativo o izquierdo
33
El sesgo positivo ocurre cuando la media se incrementa en algunos valores inusualmente
altos; el sesgo negativo ocurre cuando la media se reduce en algunos valores extrema-
damente bajos. Los datos son simétricos cuando no existen valores extremos reales en
una dirección particular de forma tal que los valores bajos y altos se compensan entre sí.
La relación entre la media ( x ), la mediana ( ~

x ) y la moda ( x̂ ) se muestra en las siguientes
figuras. Para una distribución de frecuencia simétrica, esto es, una para la cual los valores
equidistantes a la media ocurren con igual frecuencia, como se muestra en la Figura 1.5,
los valores de la media, la mediana y la moda son idénticos.
x = ~
x = x̂
Fig. 1.5. Distribución simétrica ( x = ~
x = x̂ )
Si la distribución está desplazada a la izquierda (sesgo negativo o sesgamiento a la izquierda),

la media, la mediana y la moda están en este orden, como se muestra en la Figura 1.6.
En este caso, la distorsión a la izquierda es ocasionada por valores extremadamente pe-
queños.
x ~
x x̂
Fig. 1.6. Distribución sesgada a la izquierda ( x < ~
x < x̂ )
Si la distribución está desplazada a la derecha (sesgo positivo o con sesgamiento a la dere-

cha), entonces la moda, la mediana y la media quedan en ese orden, como se muestra en
la Figura 1.7. En este caso, la distorsión a la derecha es ocasionada por valores extrema-
damente grandes.
34
x̂ ~
x x
Fig. 1.7. Distribución sesgada a la derecha ( x > ~
x > x̂ )
Para curvas de frecuencia unimodales que sean moderadamente asimétricas, se tiene la

relación
media − moda = 3 ( media − mediana) (1.21)
En relación con una distribución en forma de campana perfectamente simétrica, en este

caso coinciden los valores de la media, la mediana y la moda y todos quedan sobre el eje
de simetría (la línea vertical punteada que divide el histograma de la distribución en dos
partes iguales). Pero, como ya se ha observado, en una distribución positivamente asimé-
trica la mediana por lo general es superada por la media y por la misma razón, en una
distribución negativamente asimétrica, la mediana excede generalmente a la media. Una
sencilla medida del grado en que una distribución es asimétrica, se basa en la relación
existente entre la mediana y la media, y es conocido como coeficiente de asimetría de
Pearson, cuya fórmula es
3  media  mediana 
Sk = (1.22)
desviación estándar
En una distribución perfectamente simétrica, el valor de Sk es 0 y, en general, su valor

debe quedar entre − 3 y 3.
Finalmente, para distribuciones normales (ver capítulo 4) resulta que:
 El 68.27% de los casos están comprendidos entre x − s y x + s; es decir, el valor de

la desviación estándar a ambos lados de la media (ver la Figura 1.8 a).
 El 95.45% de los casos están comprendidos entre x − 2s y x + 2s; es decir, el doble

del valor de la desviación estándar a ambos lados de la media (ver la Figura 1.8 b).
 El 99.73% de los casos están comprendidos entre x − 3s y x + 3s; es decir, el triple

del valor de la desviación estándar a ambos lados de la media (ver la Figura 1.8 c)
35
68.27%
x −s x x +s
(a)
95.45%
x − 2s x x + 2s
(b)
99.73%
x − 3s x x + 3s
(c)
Fig. 1.8. Representatividad de las medidas de dispersión
Además, para distribuciones moderadamente asimétricas se tiene la fórmula empírica:
4
desviación media = (desviación estándar) (1.23)
5
Esta es consecuencia del hecho de que para distribuciones normales se tiene que la des-
viación media es igual a 0.7979 veces la desviación estándar.
36
EJERCICIOS DE REPASO DEL CAPÍTULO 1
1. De un total de 100 números, veinte eran 4, cuarenta eran 5, treinta eran 6 y el resto
eran 7. Hallar la media aritmética de los números,
2. Los siguientes datos son las cantidades de ácido ascórbico (μg / ml) en diez soluciones:
1.0, 1.5, 3.0, 2.5, 3.5, 3.6, 4.0, 2.5, 6.0, 5.0
Calcular la media de la muestra, la desviación media y la desviación estándar.
3. Los siguientes datos muestran el consumo diario de calorías de 11 jóvenes. Los datos
originales se dividieron por 1 000 y se redondearon a la décima más próxima.
2.5, 2.3, 2.4, 2.3, 2.3, 2.5, 2.7, 2.5, 2.6, 2.6, 2.7
Calcular la media de los datos, la desviación media y la desviación estándar.
4. Los siguientes datos son el aumento de peso (en libras) de diez terneros a los que se
les suministró una dieta suplementaria:
121, 101, 110, 108, 107, 95, 89, 120, 109, 117
5. El número de días en que faltaron al colegio 15 estudiantes de primer año durante el

año escolar fueron:
1, 8, 2, 2, 3, 9, 2, 3, 5, 2, 4, 7, 9, 8, 5
Calcular la media, la desviación media y la desviación estándar.
6. Las distancias (medidas en cuadras) a que viven diez empleados de una empresa res-
pecto de su lugar de trabajo son:
11, 20, 12, 11, 14, 8, 16, 5, 7, 13
Calcular la media y la desviación estándar.
7. En una fábrica industrial se contaron durante diez horas sucesivas los artículos defec-
tuosos que se producían cada hora. Los resultados fueron los siguientes:
5, 5, 6, 5, 6, 10, 5, 4, 4, 3
37
8. En unas pruebas hechas a doce empleados de una compañía de seguros para medir
su satisfacción en el trabajo se obtuvieron los siguientes puntajes:
3, 8, 2, 6, 8, 3, 3, 9, 4, 4, 3, 7
Calcular la media, la desviación media y la desviación estándar.
9. El número de niños por familia correspondientes a 15 familias que viven en una urbani-
zación de renta baja son:
2, 5, 7, 6, 5, 3, 3, 4, 4, 8, 4, 2, 6, 4, 7
Calcular la media de la muestra y la desviación estándar.
10. Una muestra de diez empresas de acarreos indicó el volumen de actividades durante
el último año, medido en miles de toneladas transportadas. Los resultados fueron:
9, 15, 11, 17, 16, 16, 10, 18, 16, 10
11. Los datos siguientes son los niveles de glucosa, medidos en ayunas, de diez niños:
71, 62, 75, 71, 55, 71, 63, 50, 62, 60
Calcular la media de la muestra y la desviación estándar.
12. La tabla siguiente muestra las calificaciones de 80 estudiantes en una clase de esta-
dística:
90 85 70 75 30 55 80 43 70 40
80 99 95 55 78 70 95 80 60 30
68 85 25 60 48 60 62 45 50 23
71 95 75 70 85 53 65 95 70 75
63 30 90 82 80 78 65 75 90 85
75 75 25 72 60 88 73 74 75 52
55 75 35 76 79 77 74 78 76 73
75 43 38 75 80 78 50 85 63 35
Calcular la media, la mediana y la desviación estándar.
38
13. La vida media (en horas) de una película fotográfica de alta velocidad está siendo in-
vestigada por un fabricante. Se dispone de los siguientes datos:
126 129 134 141 127 128 133 140 125 148
131 132 136 145 132 131 135 146 133 119
116 128 130 162 117 127 129 163 131 125
125 126 134 129 126 126 133 130 130 128
134 127 120 127 135 121 119 128 136 120
120 122 129 133 121 110 128 148 111 132
125 111 147 129 126 147 146 130 147 162
150 148 126 140 151 121 125 141 126 132
130 120 117 131 131 116 116 132 133 147
149 117 143 133 150 147 142 134 135 112
14. La tabla siguiente muestra la producción de 90 lotes consecutivos de sustrato de ce-

rámica a los que se les ha aplicado un revestimiento metálico mediante un proceso de
deposición por vapor.
94.1 86.6 94.3 94.1 93.1 85.1 84.6 97.3 85.1

93.2 91.2 93.2 92.1 94.6 84.0 83.6 96.8 90.5
90.6 86.1 86.7 96.4 96.3 93.7 85.4 94.4 95.6
91.4 90.4 83.0 88.2 94.7 87.7 89.7 96.1 88.3
88.2 89.1 95.3 86.4 91.1 90.6 87.6 98.0 84.1
86.1 87.3 94.1 85.0 92.4 89.4 85.1 85.4 83.7
95.1 84.1 97.8 84.9 90.6 88.6 89.6 86.6 82.9
90.0 90.1 93.1 87.3 89.1 84.1 90.0 91.7 87.3
92.4 95.2 86.4 89.6 88.8 82.6 90.1 87.5 86.4
87.3 86.1 87.6 90.3 86.4 83.1 94.3 84.2 84.5
15. Los sueldos de inicio de una muestra aleatoria de 100 estudiantes de computación o
de sistemas de cómputo que recibieron sus grados de bachillerato durante 2014 fueron
los siguientes:
24.2 29.9 23.4 23.0 25.5 22.0 33.9 20.4 26.6 24.0
28.9 22.5 18.7 32.6 26.1 26.2 26.7 20.4 22.2 24.7
18.6 18.5 19.6 24.4 24.8 27.8 27.6 27.2 20.8 22.1
19.7 25.3 28.2 34.2 32.5 30.8 26.8 20.6 21.2 20.7
25.2 25.7 32.2 28.8 24.7 18.7 20.5 25.5 19.1 25.5
22.1 27.5 25.8 25.2 25.6 25.2 25.2 27.9 18.9 37.3
29.9 23.2 19.8 20.8 29.5 27.6 21.2 38.7 21.3 24.8
32.3 20.1 26.8 25.4 26.3 21.2 19.5 22.8 21.7 25.3
32.3 28.1 27.5 25.3 19.3 27.4 26.4 20.9 34.5 25.9
31.4 27.4 27.3 20.6 31.8 25.8 25.2 21.9 26.8 26.5
39
16. El gobierno de un estado realiza un programa de concientización sobre el uso racional
del agua, en una colonia de clase media. Para conocer la efectividad de dicho progra-
ma, se realizó un muestreo a familias de cuatro integrantes y se observó la reducción
de consumo de agua. El número de familias encuestadas fue de 80 y se obtuvieron los
datos en m 3 . Las observaciones se muestran en la tabla siguiente:
2.2 3.1 3.3 3.9 3.9 2.1 3.2 3.2 4.0 3.8
3.4 3.8 3.6 3.7 1.9 3.5 3.7 3.7 3.6 2.0
2.5 3.5 4.4 3.1 4.2 2.4 3.6 4.3 3.2 4.1
3.3 3.1 2.6 3.3 2.6 3.2 3.0 2.7 3.2 2.7
4.7 3.4 3.2 4.1 3.7 4.8 3.5 3.1 4.2 3.6
4.1 3.7 3.8 3.0 3.1 4.0 3.6 3.9 2.9 3.2
1.6 3.2 2.0 3.0 3.4 1.7 3.3 2.1 3.1 3.3
4.3 4.5 3.2 4.7 3.5 4.2 4.4 3.3 4.6 3.6
17. En un experimento de psicología, se pide a varios individuos que memoricen cierta

secuencia de palabras. La tabla siguiente da los tiempos, en segundos, que necesitaron
los participantes del experimento para la memorización:
100 105 93 122 79 110 117 95 102 85

89 100 57 50 79 125 53 57 90 64
107 110 88 78 70 118 62 99 138 88
75 76 106 58 43 93 142 100 73 96
126 34 99 30 135 98 135 127 88 126
98 100 112 108 80 114 45 149 87 46
119 32 135 41 84 64 97 130 129 149
107 50 99 79 37 88 123 112 145 85
128 102 66 118 96 77 107 62 52 123
109 93 61 73 90 116 103 69 129 146
18. Las lecturas de la presión sanguínea sistólica que se hicieron a 100 adultos que se
presentaron para un examen físico antes del empleo se muestran en la siguiente tabla:
104 120 134 106 132 123 101 125 120 116
126 122 139 120 113 120 130 105 135 113
116 111 118 122 115 106 115 121 125 122
105 122 117 114 138 123 106 123 133 123
114 128 121 132 112 123 129 111 120 129
124 115 108 116 107 113 122 116 120 143
124 129 111 124 112 116 123 103 119 117
112 146 131 102 122 120 111 110 121 115
126 116 118 112 118 107 116 124 104 123
114 121 117 123 106 107 118 124 142 117
40
19. La tabla siguiente muestra los diámetros en pulgadas de una muestra de 60 tornillos
fabricados por una compañía.
0.737 0.738 0.729 0.743 0.740 0.736 0.741 0.735 0.731 0.726
0.728 0.737 0.736 0.735 0.724 0.733 0.742 0.736 0.739 0.735
0.745 0.736 0.742 0.740 0.728 0.738 0.725 0.733 0.734 0.732
0.733 0.730 0.732 0.730 0.739 0.734 0.738 0.739 0.729 0.735
0.735 0.732 0.735 0.727 0.734 0.732 0.736 0.741 0.736 0.744
0.732 0.737 0.731 0.746 0.735 0.735 0.729 0.734 0.730 0.740
41

02 Manejo de Datos

Cargado por

Copyright:

Formatos disponibles

02 Manejo de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

02 Manejo de Datos

Cargado por

Copyright:

Formatos disponibles

1.

1.1 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL

ESTADÍSTICA DESCRIPTIVA. Son aquellos métodos que incluyen la recolección, presenta-

1.2. ELEMENTOS DE LA ESTADÍSTICA INFERENCIAL

POBLACIÓN. Es la totalidad de elementos o cosas bajo consideración. Es decir, es el con-

MUESTRA. Es un subconjunto de la población que contiene las mediciones obtenidas me-

1.3. MODELOS DETERMINISTAS Y MODELOS PROBABILÍSTICOS

1.4 RECOLECCIÓN DE DATOS

DATOS DISCRETOS. Son respuestas numéricas que surgen de un proceso de conteo.

DATOS CONTINUOS. Son respuestas numéricas que surgen de un proceso de medición.

1.5 PRESENTACIÓN DE CONJUNTOS DE DATOS

1.6. LA DISTRIBUCIÓN DE FRECUENCIA

Los datos estadísticos obtenidos de muestras, experimentos o cualquier colección de me-

Al construir la tabla de distribución de frecuencia, debe ponerse atención a:

 Seleccionar el número apropiado de agrupamientos de clase para la tabla, recordando

 Obtener un intervalo o ancho de clase de cada agrupamiento de clase. Siempre que

Para comprender mejor lo anterior, es preciso definir algunos términos.

FRECUENCIA DE CLASE. Es el número de observaciones que caen en una clase dada y se

REGLAS PARA CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIA

2. Seleccionar el número apropiado de clases para la tabla. Es conveniente tener entre 5

2 5 = 32 → 5 intervalos para 32 datos

3. Determinar el tamaño de los intervalos usando la fórmula

Por conveniencia y facilidad de lectura, el intervalo seleccionado o ancho de cada

5. Determinar el número de observaciones que caen dentro de cada intervalo de clase,

La frecuencia relativa de la i-ésima clase de determina mediante la fórmula

DISTRIBUCIÓN ACUMULADA. Se construye registrando primero los límites inferiores de cada

Ejemplo 1.1. Distribución de frecuencia

34.2 33.6 33.8 34.7 37.8 32.6 35.8 34.6

Primero se calcula el rango, el número de clases y el tamaño del intervalo:

Rango = Vmayor − Vmenor = 37.9 − 32.1 = 5.8

Número de clases: 2 6 = 64, es decir 6 intervalos, ya que se tienen 80 datos

Entonces, la distribución de frecuencia es:

Intervalo de Frecuencia Marca de

Para construir distribuciones categóricas, el procedimiento es similar. Se debe decidir

1.7. PRESENTACIÓN GRÁFICA DE DATOS

Las propiedades de las distribuciones de frecuencia relacionadas con su forma se hacen

HISTOGRAMA. Es el método más común de presentación gráfica de datos estadísticos. El

Fig. 1.1. Histograma y polígono de frecuencia

Ejemplo 1.2. Presentación gráfica de datos

Con los datos del ejemplo 1.1 construir:

a) El polígono de frecuencia se abre en: Lri I − c / 2 = 31.95 − 1/2 = 31.45

y se cierra en: Lrs u + c / 2 = 37.95 + 1/2 = 38.45

Intervalo de Frecuencia Frecuencia Frecuencia

c) La distribución de frecuencia acumulada es:

2. Las marcas de clase de una distribución de lecturas de temperatura (dadas al grado

3. Si las marcas de clase en una distribución de frecuencias de pesos de estudiantes son

6. Muestra de 80 mediciones de la emisión diaria (en toneladas) de óxido de azufre de

7. Mediciones de la resistencia a la compresión de 58 muestras de una aleación de alu-

8. Datos obtenidos en un estudio de dos semanas sobre la productividad de los trabaja-

10. Resultados de 80 análisis químicos del porciento de cobre en piezas de bronce:

1.8 MEDIDAS DESCRIPTIVAS

1.8.1. MEDIDAS DE TENDENCIA CENTRAL

La característica más importante que describe o resume un grupo de datos es su posi-

donde: x = media aritmética de la muestra

Ejemplo 1.3. Media aritmética

Las principales características de la media aritmética son las siguientes:

 El cálculo de la media aritmética está basado en todos los valores de un conjunto de

 La media aritmética se puede calcular en relación con un conjunto cualquiera de datos

 La media aritmética se presta a un tratamiento estadístico más profundo.