Estadistica Elemental
Estadistica Elemental
Estadistica Elemental
1.1 Introducción
La dinámica del mundo moderno, exige que todo ciudadano, para ejercer sus
derechos y comprender su entorno, requiera de una alfabetización en estadística.
¿Le parece a usted que podríamos definir a la estadística como la ciencia que nos
proporciona los elementos de juicio necesarios para llegar a tomar decisiones
adecuadas?, si está de acuerdo reflexione sobre las razones que le llevan a estarlo;
si no lo está también reflexione sobre la definición adecuada y regrese al texto para
constatarlo.
✓ Ford reporta que en 2011 sus ventas fueron de $146900 millones (de dólares),
arriba en un 7,2%; sus ganancias fueron de $4400 millones, con ascenso en un
7,0%, y el efectivo neto circulante fue de S/.7200 millones.
✓ Los egresados de postgrado de la Universidad, contaron con un sueldo promedio
inicial de $400 dólares y un 70% de ellos consiguieron trabajo a los tres meses de
la graduación.
✓ Para los futbolistas que gustan de jugar en campos deportivos, el alquiler de los
campos promediaban S/.500 nuevos soles por semana.
La segunda razón para tomar el curso de Estadística es que las técnicas estadís-
ticas se utilizan para tomar decisiones que afectan nuestra vida diaria. Esto quiere
decir que afectan a nuestro bienestar personal. He aquí algunos ejemplos:
✓ Las compañías de seguros utilizan análisis estadísticos para establecer las tarifas
de los seguros de casa, automóvil, vida y salud. Existen tablas que resumen la
probabilidad de que una mujer de 25 años de edad viva el año siguiente, los si-
guientes cinco años, etc. Las primas del seguro de vida se pueden establecer
basándose en estas probabilidades.
✓ La Agencia de Protección al Medio Ambiente está interesada en la calidad del
agua en el Lago Ene. Periódicamente toman muestras de agua para establecer el
nivel de contaminación y mantener el nivel de calidad.
✓ Los investigadores médicos estudian las tasas de cura de enfermedades, basán-
dose en el uso de diferentes medicamentos y distintas formas de tratamiento. Por
ejemplo, ¿cuál es el efecto de tratar cierto tipo de daño a la rodilla con cirugía o
con terapia física? Si se toma una aspirina diaria, ¿se reducirá el riesgo de sufrir un
ataque cardiaco?
Muestreo
µ δ2
Inferencia
b) Variables Cuantitativas.
❖ Edad número de hijos por familia, ingresos, viviendas por centro poblado, niveles
de, desempleo, producción, utilidades por empresas, etc.,
❖ Hijos por familia número de accidentes por día, trabajadores por empresa;
población por distritos, habitaciones por vivienda. etc.
Operaciones Admisibles
Ya que en una escala nominal la clasificación puede estar igualmente bien
representada por cualquier conjunto de símbolos, se dice que la escala nominal
es "única hasta una transformación de uno a uno". Los símbolos que designan las
variadas subclases en la escala pueden ser intercambiados si esto se hace de
manera cabal y consistentemente. Por ejemplo:
❖ Cuando se emiten nuevas placas para automóviles, el código que previamente
pertenecía a una ciudad puede ser intercambiado con el de otra ciudad. La
escala nominal podría preservarse si este cambio se ejecutara cabal y
consistentemente en la emisión de todas las placas.
Ya que los símbolos que designan los variados grupos de una escala nominal
pueden ser intercambiados sin alterar la información esencial en la escala, el
único tipo de estadísticos descriptivos admisibles son aquellos que pueden ser
Operaciones Admisibles
Ya que cualquier transformación que preserve el orden no cambia la información
contenida en la escala ordinal, se dice que la escala es "única hasta una trans-
formación monotónica". Una transformación monotónica es aquella que preserva
el orden de los objetos. Esto es, no importa qué números demos a un par de
clases o a los miembros de esas clases, siempre que les sea asignado un número
mayor a los miembros de la clase que es "mayor que" o "más preferida".
(Naturalmente, se pueden usar números menores para las clases "más
preferidas". Así nos referimos generalmente a una ejecución excelente como
"primera clase", y a ejecuciones progresivamente inferiores como "segunda clase"
y "tercera clase". Siempre que seamos consistentes, no importa si se usan
números mayores o menores para denotar "mayor que" o "más preferido".) Por
ejemplo:
❖ En el ejército un cabo usa dos bandas en su manga y un sargento usa tres.
Estas insignias denotan que el sargento > el cabo, y el símbolo > denota "mayor
rango que". Esta relación podría ser igualmente bien expresada si el cabo usara
cuatro bandas y el sargento siete.
c) La escala de Intervalo
Cuando una escala tiene todas las características de una escala ordinal y cuando
además tienen sentido las distancias o diferencias entre cualesquiera dos
números de la escala, se ha logrado una medición considerablemente más fuerte
que la ordinal. En tal caso, la medición ha sido lograda en el sentido de una
escala de intervalo. Esto es, si nuestro mapeo de varias clases de objetos es tan
preciso que conocemos cuán grandes son los intervalos (distancias) entre todos
los objetos de la escala, y estos intervalos tienen significado sustantivo, entonces
hemos logrado una medida de intervalo. Una escala de intervalo está
caracterizada por una unidad común y constante de medida que asigna un
número a todos los pares de objetos en el orden establecido. En esta clase de
medición, la razón de cualesquiera dos intervalos es independiente de la unidad
de medida y del punto cero. En la escala de intervalo, el punto cero y la unidad de
medida son arbitrarios. Por ejemplo
❖ Medimos la temperatura en una escala de intervalo. De hecho, comúnmente se
usan dos diferentes escalas: Celsius y Fahrenheit. Al medir la temperatura, la
unidad de medida y el punto cero son arbitrarios; son diferentes en ambas
escalas. Sin embargo, las dos escalas contienen la misma cantidad y la misma
clase de información. Esto es así debido a que están linealmente relacionadas.
Celsius — 18 0 10 30 100
Fahrenheit 0 32 50 86 212
Nótese que la razón de las diferencias entre las lecturas de temperatura en una
escala, es igual a la razón entre las diferencias equivalentes en la otra escala. Por
ejemplo,
❖ En la escala Celsius la razón de las diferencias entre 30 y 10, y 10 y 0 es (30 —
10) / (10 — 0) = 2. Para las lecturas comparables en la escala Fahrenheit, la
razón es (86 — 50) / (50 — 32) = 2. En ambos casos las razones son las
mismas; a saber, 2. En otras palabras, en una escala de intervalo, la razón de
cualesquiera dos intervalos es independiente de la unidad usada y del punto
cero, siendo ambos arbitrarios.
Propiedades Formales
Axiomáticamente, se puede mostrar que las operaciones y relaciones que dan
origen a la estructura de una escala de intervalo son tales que las diferencias en
la escala son isomórficas a la estructura de la aritmética. Los números pueden ser
asociados con las posiciones de los objetos en una escala de intervalo tal que las
operaciones de la aritmética pueden ser significativamente ejecutadas con las
diferencias entre los números.
Al construir una escala de intervalo no sólo se deben especificar equivalencias,
como en la escala nominal, y relaciones "mayor que", como en la escala ordinal,
sino también se debe ser capaz de especificar la razón entre dos intervalos
cualesquiera.
Nótese que en este caso, la diferencia entre los atributos de los dos objetos es
proporcional a la diferencia entre las asignaciones de clasificación:
Cualquier cambio en los números asociados con las posiciones de los objetos
medidos en una escala de intervalo debe preservar no sólo el orden de los
objetos, sino también las diferencias relativas entre los objetos. Esto es, la escala
de intervalo es "única hasta una transformación lineal". Así, como hemos
señalado, la información proporcionada por la escala no es afectada si cada
número se multiplica por una constante positiva y después se le suma a este
producto una constante, esto es, 𝑓 (𝑥) = 𝑐𝑥 + 𝑏. (En el ejemplo de la
temperatura, c = 9/5 y b = 32.)
Ya hemos notado que en una escala de intervalo el punto cero es arbitrario. Esto
es inherente al hecho de que la escala está sujeta a transformaciones que
consisten en agregar una constante a los números que constituyen la escala.
d) La escala de razón
Cuando una escala tiene todas las características de una escala de intervalo y,
además, tiene un punto cero verdadero en su origen, se llama escala de razón.
En una escala de razón, la razón de cualesquiera dos puntos es independiente de
la unidad de medida. Por ejemplo
❖ Medimos la masa o el peso en una escala de razón. La escala de onzas y libras
tiene un punto cero verdadero, al igual que la escala de gramos. La razón entre
Propiedades Formales
Las operaciones y relaciones que dan origen a los valores numéricos en una
escala de razón son tales que la escala es isomórfica a la estructura de la
aritmética. Por tanto, las operaciones de la aritmética son permisibles con los
valores numéricos asignados a los objetos, así como a los intervalos entre los
números, como en el caso de la escala de intervalo.
Los números asociados con los valores de la escala de razón son números "ver-
daderos" con un cero verdadero: sólo la unidad de medida es arbitraria. Así, la es-
cala de razón es única hasta la multiplicación por una constante positiva. Esto es,
las razones entre cualesquiera dos números se preservan cuando los valores de
la escala son todos multiplicados por una constante positiva y, además, tal
transformación no altera la información contenida en la escala.
Cualquier prueba estadística paramétrica puede usarse cuando se han logrado
medidas de razón y se encuentran las suposiciones adicionales concernientes a
la distribución. Más aún, existen algunos estadísticos que se aplican sólo a datos
que descansan en una escala de razón; debido a la fuerza de las suposiciones
que sub- yacen a la escala, la mayoría de estas pruebas son pararnétricas.
ESCALAS DE MEDICIÓN
Ejemplos Género Estado Civil Instrucción Intensidad Temperatura Hora del día Peso. Hijos
b) Variables Independientes
Son las variables explicativas o predicativas, cuya asociación, relación o
influencia en la variable dependiente se pretende escribir en la investigación. Las
variables independientes son los que traducen o explican las causas o razones
de las variaciones en la variable dependiente. Simplificando, en la relación de
variables, las causas o antecedentes serían las variables independientes (VI) y la
causa o consecuente es la variable dependiente (VD). Ejemplos: En el caso más
simple, para la relación dé dos variables.
❖ El presupuesto familiar (VD) depende de los ingresos (VI).
❖ El volumen de ventas (VD) se explica por la inversión en propaganda (V).
❖ El número de hijos por familia (VD) tiene relación con el nivel educativo de los
padres (VI).
c) Variables Intervinientes o interferentes
Son aquellas que coparticipan con la variable independiente condicionando el
comportamiento de la variable dependiente. En el caso de la relación entre
presupuesto familiar (VD) y los ingresos (VI), algunas variables intervinientes
serian la conducta de consumo, la edad de los miembros de la familia, etc.
Ejemplo 2:
a) Nombre : Ingresos
b) Definición Son los recursos monetarios netos incluyendo todas las
Bonificaciones que percibe una persona por su ocupación principal y secundaria
durante el período de referencia de la encuesta.
c) Categorías : Puede proponerse en forma de niveles o simplemente intervalos.
Niveles de ingreso: alto, medio, bajo
Intervalos: Por ejemplo 8 intervalos
Menos de 4000; 4001 él 8000; 8001 a 12000; 1 2001 a 1 6000; 16001 a 20000:
20001 a 25000; 25001 a 30000; 30001 y más soles.
d) Categorización: ¿Cuál fue su ingreso total en el último mes?
e) Indicadores : Ingreso promedio.
Dispersión de los ingresos. etc.
Ventajas
❖ Los cuadros permiten presentar en forma resumida y ordenada muchos datos
❖ Es un instrumento que clasifica, resume y comunica información estadística
❖ Facilita el análisis de los datos
❖ Su fácil comprensión, permite que sea utilizado por muchas personas
❖ Todo cuadro estadístico debe explicarse por sí mismo, sin necesidad de texto o
figuras anexas, y debe ser sencillo y claro
D. Partes Principales de un Cuadro Estadístico
En general, un cuadro estadístico completo, tal como el Cuadro Nº 01, por ejemplo,
puede tener ocho partes:
1. QUE
2. DONDE Donde Como Cuando
3. COMO
4. CUANDO Descripción de las filas y 7 Expresa en qué unidades
columnas del cuadro (Distribución porcentual) están las variables
estadístico
3 PEA de N i v e l d e Educación
15 años
Ramas de Actividad y más Sin Sup. No Superior
Primaria Secundaria No Especificado
Nivel* Univer. Univer.
5) NOTA DE PIE O LLAMADAS, se usa para aclarar algunos términos o siglas, y también para indicar qué
elementos están o no incluidos en algunos de los conceptos del cuadro.
6) FUENTE, es la indicación al pie el cuadro, que sirve para nombrar la publicación, entidad, estudio o fuente
de donde se obtuvieron los datos utilizados para construir el cuadro. La identificación de la fuente permite,
si fuera el caso, comprobar la información o para obtener información complementaria.
Hay dos tipos de fuentes: i) primaria, cuando se obtiene directamente de la unidad de análisis o cuando se
recurre a los propios formularios de una encuesta: ii) secundaria, cuando se recurre a documentos
boletines o cuadros estadísticos publicados.
7) Nota Unida de Medida se escribe debajo del título, se usa cuando se abrevia la escritura
8) ELABORACIÓN, es una indicación que se coloca debajo de la fuente, y sirve para mencionar el
responsable, que utilizando datos originales o de la fuente elaboró el cuadro estadístico final: indica la
responsabilidad de la publicación del cuadro. A veces resulta Útil indicar la fecha de elaboración.
QUE : Población Total Económicamente Activa De 15 Años Y Más
DONDE : Del Departamento Cajamarca
COMO : Por Nivel Educativo Según Ramas de Actividad
CUANDO : Censo de Población 2009.
Número de Porcentaje de
Número de
Leucocitos Pacientes
Pacientes (ni )
(miles)1/ ( hi % )
5.0 - 5.9 3 5.5
6.0 - 6.9 10 18.2
7.0 - 7.9 11 20.0
8.0 - 8.9 13 23.6
9.0 - 9.9 10 18.2
10.0 - 11.0 8 14.5
Total a/ 55 100.0
- Nota de pie. a/. Muestra aleatoria sistemática.
1/. Datos expresados en miles.
- Fuente. H.R.C
E. Características:
F. Tipos de cuadros.
En su forma más general los cuadros pueden dividirse en simples y
compuestas.
a) Cuadros Simples. Clasifican un fenómeno según una única variable. Ejemplo
CUADRO 05
REACCIÓN A LA VACUNACIÓN CONTRA EL SARAMPIÓN Y LA RUBÉOLA EN UNA
MUESTRA DE 288 NIÑOS DE CAJAMARCA -1994.
T O T A L 196 92 288
CUADRO 07
TRABAJADORES NO TRABAJADORES T O T A L
EDAD
Hombres Mujeres Total Hombres Mujeres Total Total
Hombres Mujeres
15 – 19
20 – 24
25 – 29
.
.
.
50 – 54
55 – 59
60 ó +
TOTAL
ni
hi = = Frecuencia absoluta o Repeticiones
n
Número de Observaciones
CUADRO Nº 7.8
NUMERO DE NACIMIENTOS EN EL DEPARTAMENTO DE LAMBAYEQUE,
POR PROVINCIAS – 2004
Número de
Provincias Porcentaje de Nacimientos
Nacimientos
Lambayeque n1 = 325 n
h1 = 1 =
(325x100) = 34,43
n 944
Chiclayo n2 =330
n
h2 = 2 =
(330x100) = 35,96
n 944
Ferreñafe n3 = 289
n
h3 = 3 =
(289x100) = 30,61
n 944
Total n = 944 100,00
Paso. -1
Los datos
datos <-
c("3","1","2","3","4","1","2","3","1","2","4","3","2","1","5","2","1","3","4","1","1","1","3","1","2","2
","4","3","1","2","5","2","1","1","3","1","1","2","1","3","4","1","2","1","1","3","2","4")
calidad <- factor(datos)
levels(calidad) <- c("Notable","Muy bueno","Bueno","Mediano","Malo")
Paso 2.-
Frecuencias absolutas >f_abs=as.vector(table(calidad))
Frecuencias absolutas acumuladas >f_abs_acum=cumsum(table(calidad))
Frecuencias relativas > f_rel=as.vector(prop.table(table(calidad)))
Frecuencias relativas acumuladas > f_rel_acum=cumsum(prop.table(table(calidad)))
Agrupación de las frecuencias > table_frec=data.frame(f_abs,f_abs_acum,f_rel,f_rel_acum)
Tabla >table_frec
Paso 1.-
Se genera los datos aleatorios con la función
>sexo <- runif(100)
Figura 9 Generamos datos 100 datos en R con una variable ficticia sexo
Se limpia la pantalla con las teclas Ctrl + L
Paso 2.-
Con la variable sexo se realiza una modificación para obtener valores 1 y 2 con la función:
> sexo <- round(sexo+1,0)
> sexo
Paso 4.-
Frecuencias absolutas > f_abs=as.vector(table(sexo_f))
Frecuencias absolutas acumuladas > f_abs_acum=cumsum(table(sexo_f))
Frecuencias relativas > f_rel=as.vector(prop.table(table(sexo_f)))
Frecuencias relativas acumuladas > f_rel_acum=cumsum(prop.table(table(sexo_f)))
Agrupación de las frecuencias > table_frec=data.frame(f_abs,f_abs_acum,f_rel,f_rel_acum)
Tabla >table_frec
Grafico de barras con la función barplot con la variable sexo_f, titulo con la función main, nombre al eje x
con la función xlab y nombre al eje y con la función ylab
1. Grafico Circular.- Se trabaja con los valores de las frecuencias Absolutas (ni)
frecuencias relativas (hi) como la variables seleccionada es variable cualitativa
(Razón de Visita)
Guardería
14.3%
8 8
8
6
Conteo
4
4
0
Parking amplio Oferta permanente Tarjeta de crédito Guardería Aire acondicionado
Razón de visita
1. Gráfico de Barras.- Se trabaja con los valores de las frecuencias Absolutas (ni)
frecuencias relativas (hi) como la variables seleccionada es variable discreta
“Número de hijos”
Salida de Minitab
Gráfica de Número de hijos
12
12
11
10
8
Conteo
6
5
4
4
3
0
2 3 1 4 0
Número de hijos
440 560 335 587 613 400 424 466 565 393
453 650 407 376 470 560 321 500 528 526
570 430 618 537 409 600 550 432 591 428
440 340 558 460 560 607 382 667 512 492
450 530 501 471 660 470 364 634 580 450
574 509 462 380 518 480 625 507 645 382
m = 7 intervalos
𝐿𝑛(𝑛)
c) Regla de Stockes 𝑚= + 1
𝐿𝑛(2)
370 – 420
420 – 470
470 – 520
520 – 570
570 – 620
620 – 670
n i ,= N)
Marca Frecuencias
Intervalos Frecuencia Frecuencias Frecuencias Relativas
de Absolutas
de clases Absolutas Relativas Acumuladas
clase Acumuladas
<Li-1 Li] xi ni Ni hi Hi
n1 N1
<L 1 – L 2 ] x1 n1 N1=n1 h1= H1=
N N
n N
<L2, – L3] x2 n2 N2 = n1+n2 h2= 2
H2= 2
N N
n N
<L3, – L4] x3 n3 N3 =n1+n2+n3 h3= 3
H3= 3
N N
. . . . . .
. . . . . .
. . . . . .
nk Nk
<Lk-1, –L k] xk nK Nk = n1+...+nK=n hk = Hk = =1.00
N N
=1+3.322*LOG(CONTAR(A2:A61))
Para redondear a un entero superior se utiliza la siguiente función
=MULTIPLO.SUPERIOR(D7,1)
I1 I2 I3 I4 I5 I6 I7
observación porque es intervalo abierto (321 – 1 = 320), para el límite superior al valor
obtenido en el límite inferior se suma la amplitud (se fija la amplitud con F4)=E16+$E$9
=E17+$E$9
Figura:
. . .
. . .
. . .
Lk-1, –L k> nK Nk = n1+...+nK=n
Total n ni =n
Figura N°
24: Cuentas de variables individuales
20
Porcentaje
15
10
0
30 45 60 75 90 105 120 135
Gasto semanal
Amplitud del
intervalo
Observación
Observación
Mínima
Máxima
25
20
Porcentaje
15
10
0
30.0 48.4 66.8 85.2 103.6 122.0 140.4
Gasto semanal
25
20
Frec. Rela
15
10
25
20
Frec. Rela
15
10
0
20 40 60 80 100 120 140 160
Marca de clase
❖ Pasó 6.- Doble Click en eje de Gasto mensual donde se presenta la ventana Editar escala
100
80
Porcentaje acumulado
60
40
20
0
30 45 60 75 90 105 120 135
Gasto semanal
100
80
Porcentaje acumulado
60
40
20
0
30.0 48.4 66.8 85.2 103.6 122.0 140.4
Gasto semanal
Las frecuencias (ni, hi, Ni, Hi) siempre son cantidades no negativas ( 0), por lo tanto el
grafico de las frecuencias sean para variables discretas como para variables
Abscisas continuas, se construye en el primer cuadrante del plano cartesiano o rectangular. En
eje de las abscisas (horizontal) se indican los valores de la variable (sean puntos o
intervalos), y en el eje de las ordenadas (vertical) se anota el valor de la respectiva
frecuencia.
8
Frecuenc Frecuen
1
5 Opinión ia cia
1 de los absoluta Relativa
1 1
2 Clientes ni hi %
0 0 A 6 12,5
G 10 20,8
6
5 O 18 37,5
P 2 4,2
2 V 12 25,0
0 Total 48 100,0
A G O P V
Opinión de los Clientes
clase Acumula 40
(Li-1 L i as
Xi das 35
] ni
Acumuladas
Ni 30
16 – 27 21,5 3 3 25
27 – 38 32,5 5 8 20
38 – 49 43,5 10 18 15
49 – 60 54,5 3 21 10
60 – 71 65,5 8 29 5
71 – 82 76,5 7 36 0
82 – 93 87,5 4 40 0 20 40 60 80 100
Total 40
Marca de Clase
Frecuencia Absoluta
12
En el caso de Gráficos de 14
12 10
Barras, en el eje horizontal
10
representa los valores de Yi, y 8
6
en el eje vertical se presentan 6
los valores de las frecuencias 4 2
ni
Intervalo Frecuen
s de cia
10 Absoluta
clases
Frecuencia Absolutas
s
8 (Li-1 L i ]
ni
16 – 27 3
6
27 – 38 5
4 38 – 49 10
49 – 60 3
2
60 – 71 8
0 71 – 82 7
0 16 27 38 49 60 71 82 93 82 – 93 4
Límite inferior
Total 40
Otro gráfico que se usa para representar las frecuencias es el Polígono de Frecuencias,
que se construye como sigue: en cada punto medio o marca de clase (X i) de cada intervalo
se levanta un segmento de altura igual a la respectiva frecuencias Absolutas (ni ó hi), luego
une los extremos con una línea poligonal, resultando el Polígono de Frecuencias. Para
completar los extremos, se extiende el polígono en media amplitud de cada extremo.
Frecuencia Absoluta
s
(Li-1 L i ] Xi
ni 8
10.5 0
6
16 – 27 21,5 3
27 – 38 32,5 5 4
38 – 49 43,5 10
2
49 – 60 54,5 3
60 – 71 65,5 8 0
71 – 82 76,5 7 0 10.5 21.5 32.5 43.5 54.5 65.5 76.5 87.5 98.5
98.5 0
Total 40
Por su parte, las frecuencias acumuladas (Absolutas o Relativas) se grafican mediante los
Polígonos Acumulativos de Frecuencias (Ojiva). De igual manera, en el eje horizontal
se ubican los extremos los intervalos y en el eje vertical lo valores de Ni, Hi. En el extremo
superior de cada intervalo se levanta un segmento de altura igual a la respectiva frecuencia
absoluta, luego partiendo del extremo inferior del primer intervalo se une, con segmentos
de recta, los extremo de los segmentos verticales, obteniendo una línea poligonal que, a
partir de la última frecuencia acumulativa, se extiende paralelamente al eje horizontal,
obteniéndose la gráfica del Polígono Acumulativo de Frecuencias
Frecuencia
Frecuenci
Marca s Absolutas
Intervalos a 45
de clase Acumulada
de clases Absolutas
s 40
<Li-1 Li]
Xi
ni 35
Ni
Frecuencias Absolutas
30
16 – 27 21,5 3 3
Acumuladas
25
27 – 38 32,5 5 8
20
38 – 49 43,5 10 18
15
49 – 60 54,5 3 21
60 – 71 65,5 8 29 10
71 – 82 76,5 7 36 5
82 – 93 87,5 4 40 0
Total 40 0 16 27 38 49 60 71 82 93
Intervalo
Gráfico Nº 3.3: Diagrama de dispersión
Años Demanda de cobre en China de Clase
Demanda de cobre refinado en China
1990 505 (miles de toneladas métricas)
2000
1991 600 1800
1992 850
Demanda de cobre en China
1600
(variable dependiente = Y)
1000
1995 1125
800
1996 1240 600
1997 1260 400
1999 1550 0
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2000 1660
Años (variable independiente = X)
2001 1750
2002 1840
2003 1900
0
1 2 3 4
D
T
I
S O BARRAS SIMPLES BARRAS AGRUPAS
30
C 25
D 20 8
R 15
10
7
A 5
5
E 0
1 2 3 4
4
T S 1
0
1 2 3 4
A
SECTOR CIRCULAR BARRAS
S 100
90
COMPUESTAS
80
70
60
50
40
30
20
10
0
1 2 3 4
I 40
HISTOGRAMA 32
CORRELACIÓN
N 30
T 30
28
C E 20
26
R 24
O V 10
22
20
N A 0
18
L
16,0 18,0 20,0 22,0 24,0 26,0 28,0 30,0 32,0
16
0 10 20 30
T O
I
O
N
POLÍGONO DE
U R
A FRECUENCIAS LINEAL
A Z
60
60
50 50
S O 40 40
N 30 30
20 20
10 10
0 0
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9
6. También puedes transformar los datos de los distintos grupos de edades en porcentaje
respecto a la población total. En una nueva columna divide el valor del grupo de edad entre
el total de la población.
Creación del Gráfico
1. Selecciona todos los datos -excepto el título y la fila Total- haciendo clic con el ratón y
arrastrando a lo largo de los datos de la tabla (A3:C22).
2. Haz clic en el botón Asistente para gráficos.
✓ Paso 1. Elige Tipo de gráfico: Barras, y selecciona el subtipo Barra agrupada.
Pulsa el botón Siguiente.
✓ Pasó 2. Verás la pirámide. Deja los datos como están y pulsa Siguiente.
✓ Pasó 3. Escribe el título de tu gráfico (p.e., Perú 2001). Deja los otros cuadros en
blanco, y pulsa el botón Siguiente.
✓ Pasó 4. Selecciona el botón En una hoja nueva (llama a esta hoja como desees) y
pulsa el botón Finalizar.
3. Ya tienes tu pirámide. Es hora de mejorar su apariencia:
• Arreglar las barras. Haz doble clic en una de las barras del gráfico. En el cuadro de
diálogo Formato de la serie de datos, selecciona la pestaña Opciones. Configura
83 Dr. Lic.. Miguel Angel Macetas Hernández
Estadística Básica 2018
Superposición a 100 y pulsa Ancho del rango a 0 y pulsa el botón OK. No
cambies nada más. Las barras del gráfico deben aparecer juntas, sin agujeros.
• Arreglar el eje vertical (desplazar las etiquetas de edades hacia la izquierda). Haz
doble click en los datos del eje vertical. En el cuadro de diálogo Formato de ejes,
elige la pestaña Tramas y configura los botones de marca de graduación a Ninguno
y el botón de rótulos a Inferior.
• Arreglar el eje horizontal (eliminar los valores negativos del eje hombres). Haz
doble clic sobre los datos del eje horizontal. En la pestaña Número selecciona
Categoría: Personalizada y escribe en Tipo: 0;0.
• Aplica cualquier otro formato para mejorar la apariencia de la pirámide: colores de
las barras, tamaño y tipo de fuentes y títulos, eliminación de rejilla y fondo...
Mujeres Hombres
80- +
75-79
70-74
65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
5-9
0-4
8,0000 6,0000 4,0000 2,0000 0,0000 2,0000 4,0000 6,0000 8,0000
2. Según Nielsen Media Research, los cinco programas de TV más vistos a las 8:00 P.M.
del 14 de octubre de 2012 fueron Congo, The X-Files, Holliday in Your Heart, Ellen
Foster y Unhappily Ever After. La lista siguiente es una encuesta entre 50
espectadores.
Unhappily Ellen Congo X-Files Congo Ellen Ellen X-Files
Administración 55
Contabilidad 51
Finanzas 28
Número de
Material de los muros Proporciones Porcentajes
viviendas
R P P P P R C S L R P C L C
P P R P 2 3 P H L P 1 C P P
P P S 1 L R R 1 2 H S 3 H
7:00 8:30 9:00 8:00 7:30 7:30 8:30 8:30 7:30 7:00
8:30 8:30 8:00 8:00 7:30 8:30 7:00 9:00 8:30 8:00
7. .Durante los primeros 11 meses de 1997, los coches Honda Accord, Chevy Cavalier,
Toyota Camry, Honda Civic y Ford Taurus fueron los coches nuevos más vendidos
en USA. Se presentan los datos de 50 compras de automóvil en Cleveland, Ohio.
8. Cada una de las 500 empresas Fortune se clasifica como perteneciente a uno de
varios giros industriales. A continuación vemos una muestra de 20 empresas con
su correspondiente ramo industrial.
10. Cuando se les pidió clasificar la destreza que se requiere para obtener una alta
calificación en un nuevo juego de computadoras como principiante, aprendiz,
competidor, maestro o experto, 44 evaluadores respondieron de la manera siguiente:
experto, maestro, maestro, competidor, experto, maestro, maestro, maestro,
experto, aprendiz, maestro, maestro, maestro, maestro, experto, maestro,
competidor, maestro, maestro, principiante, experto, competidor, maestro, maestro,
experto, experto, maestro, maestro, maestro, competidor, competidor, experto,
maestro, experto, experto, experto, competidor, maestro, maestro, experto,
competidor, maestro, maestro y experto. Construye una tabla que indique las
frecuencias correspondientes a estas clasificaciones de destreza que se
requiere para obtener una alta calificación.
En este tema te presentamos las medidas de resumen para variables cualitativas que
se utilizan con mayor frecuencia en los estudios que realizas en el nivel primario de
atención de salud.
Supongamos que de los 600 recién nacidos (RN) de un hospital en cierto período, 300
presentaron los ojos oscuros (OO), en tanto que sólo 100 los tenían claros (OC).
Aplicando la expresión general, la razón OO/OC es
a RN con OO 300
R= = = =
b RN con OC 100
Pero, ¿qué significa este resultado? Expresa que hay tres recién nacidos con ojos
oscuros por cada recién nacido de ojos claros en ese hospital y en ese período.
Seguiremos utilizando el ejemplo anterior. ¿Lo recuerdas? Por supuesto que sí. Pues
bien, determinemos la proporción de niños con ojos oscuros (300) en la población de
recién nacidos (400):
𝑎 𝑅𝑁 𝑐𝑜𝑛 𝑂𝑂 300 3
𝑃= = = =
𝑎 + 𝑏 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑁 400 4
Alternativamente, puedes calcular el porcentaje:
𝑅𝑁 𝑐𝑜𝑛 𝑂𝑂 3 00
𝑃 𝑥 100 = 𝑥100 = 𝑥 100 = 75.0%
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑁 400
Nota: Usamos la P con fines ilustrativos, pues la proporción carece de simbología.
Los resultados anteriores significan que tres de cada cuatro recién nacidos tienen los
ojos oscuros; o que el 75 por ciento de los recién nacidos tiene los ojos oscuros (y,
obviamente, el 25% los tiene claros).
Tasas
Siempre que necesites medir el riesgo de que acontezca cierto fenómeno en una
población determinada, dispones de un indicador valioso y único: las tasas
Esta es una medida que expresa el riesgo de ocurrencia del evento estudiado en el
numerador en la población involucrada, en el tiempo y lugar establecidos.
Las tasas que más importancia revisten para nuestro desempeño en el campo de la
Salud son las siguientes:
Una particularidad realmente útil de las tasas es que puedes calcularlas tanto para la
totalidad de la población, como para parte de ella (por ejemplo, para el grupo de edad
de cinco a nueve años, para los estudiantes, para los residentes del área rural, y así
por el estilo); por otra parte, puedes calcular las tasas para todas las causas, o
solamente para una de ellas (o un grupo de ellas). De este modo, tendrás calculadas
tasas brutas, crudas, generales o globales si se tratara de tasas que involucren a toda
la población o al total de causas; al tiempo que habrás calculado tasas específicas si
incluían a una parte de la población o a una causa o grupo de ellas.
Así las cosas, estarás en plena facultad de hallar tasas brutas de mortalidad, de
natalidad, o bien específicas por edad, por sexo, por edad y sexo a la vez, entre
También haz de saber que las poblaciones están sometidas a constantes cambios en
lo que a su número atañe, determinados por los nacimientos y defunciones y por
los movimientos migratorios (emigración e inmigración), que provocan que no sea la
misma a lo largo de todo el año. De ahí que, por convenio, se tome la población
existente a mediados del período 11 o población media para el cálculo de las tasas.
Por otra parte, debes tener especial cuidado al calcular tasas para poblaciones
pequeñas, como la que usualmente manejan los Consultorios, pues suelen volverse
inestables, ya que cualquier evento “mueve“ mucho la tasa, y a veces no guarda
relación el resultado obtenido con la magnitud del evento acontecido.
Ahora nos tropezamos con una contrariedad: la población expuesta al riesgo es muy
difícil de definir, ya que tener un hijo no involucra a toda la parte femenina de la
población, y va más allá, pues otros factores de índole psicosocial actúan en tal
decisión. Por estas razones, verás que se han buscado soluciones alternativas a esta
situación.
Bien, ya tienes el número calculado. Pero, ¿es suficiente con eso? Claro que no,
necesitas saber qué significa, a fin de manejarlo apropiadamente. En primer lugar,
debes informar el resultado de la siguiente forma: «La tasa bruta de natalidad de Perú
en 2008 fue de 14 nacidos vivos por cada 1000 habitantes», ello significa que durante
2008 en Cajamarca nacieron como promedio 14 niños por cada 1 000 habitantes.
Interpretación: En Perú, durante 2008, nacieron como promedio 49 niños por cada
1000 mujeres en edad fértil (15 a 49 años).
19476
𝑇𝐸𝐹15−49 = 𝑥 1000 ≈ 56.3
345942
Interpretación: Durante 2008 en Perú nacieron como promedio 56 niños por cada
1000 mujeres de 15 a 49 años de edad.
Tasas de mortalidad
Entrando en la materia que nos ocupa, te decimos a continuación las tasas que
podrás calcular.
96 Dr. Lic.. Miguel Angel Macetas Hernández
Estadística Básica 2018
Esta tasa expresa el riesgo que tienen todos los habitantes de cierta población, en un
momento dado, de morir por cualquier causa.
𝐹𝑎𝑙𝑙𝑒𝑐𝑖𝑑𝑜𝑠 𝑒𝑛 𝑙𝑢𝑔𝑎𝑟 𝑦 𝑡𝑖𝑒𝑚𝑝𝑜 𝑋
𝑇𝐵𝑀 = 𝑥 1000
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛 𝑒𝑙 𝑙𝑢𝑔𝑎𝑟 𝑦 𝑡𝑖𝑒𝑚𝑝𝑜 𝑋
En 2008, en nuestro país esta tasa fue:
77558
𝑇𝐵𝑀 = 𝑥 1000 ≈ 7.0
11122308
Esto significa que en 2008, en Perú fallecieron como promedio 7 personas por cada
1000 habitantes.
En Perú, durante 2008 la tasa de mortalidad por enfermedades del corazón fue:
21467
𝑇𝑀𝐸𝐸𝑛𝑓.𝑐𝑜𝑟 = 𝑥 1000 ≈ 193.
11122308
La TMM fue de 47.7 por 100 000 NV en 2008 para nuestro país. Esto quiere decir que
por cada 100 000 nacidos vivos, murieron en promedio 48 mujeres por causas
directamente relacionadas con el embarazo, parto y puerperio durante 2008 en Perú.
Tasas de morbilidad
La morbilidad, entendida como el patrón de enfermedades que sufren los habitantes
de alguna región, puede ser estudiada numéricamente mediante las tasas de
morbilidad. Ellas son la tasa de incidencia, la tasa de prevalencia y la tasa de
letalidad.
La tasa de incidencia (TI) mide el riesgo que tiene una persona que habita en un lugar
y tiempo determinados, de contraer o adquirir cierta enfermedad, visto esto en función
del tiempo. Por su lado, la tasa de prevalencia (TP) mide el riesgo de tener la
enfermedad, o sea, de estar enfermo; y la tasa de letalidad (TL) expresa la gravedad
de la enfermedad.
Comparación de tasas
En ocasiones, pretendemos comparar los riesgos de morir, de enfermar, etc. entre
distintas poblaciones o entre distintas categorías o clases de una variable. Para ello,
lo más conveniente es utilizar la tipificación, bien por el método directo o por el
indirecto; técnicas que no se expondrán en este curso, pues se abordarán en cursos
posteriores. Esta técnica solo sirve para comparar, sus resultados no miden en modo
alguno el riesgo de ocurrencia de los eventos estudiados en la población
Resumen
En este tema estudiaste que:
MEDIDAS RESUMEN VARIABLES CUALITATIVAS 41
1. Las medidas de resumen para datos cualitativos más frecuentemente utilizadas
son las razones, las proporciones y las tasas.
2. Cada uno de esos indicadores tiene diferente interpretación. Así, los más
refinados son las tasas, pues expresan el riesgo de ocurrencia del evento
consignado en su numerador.
3. Debes tener cuidado al calcular las tasas para poblaciones pequeñas, por
ejemplo, en el Consultorio Médico de la Familia, porque suelen ser inestables.
4. Las tasas pueden dividirse en generales y específicas.
5. En el ámbito sanitario, las tasas más usadas son las de natalidad, mortalidad y
morbilidad.
1. La Media Aritmética
Es la medida de tendencia central con la cual probablemente esté usted más
familiarizado es la media aritmética; se conoce también como media o promedio; se
representa como x y se conoce como "x barra"; la fórmula para calcularla es:
1.1. Para Datos Sin Agrupar
media = x =
x i
Se lee así: la media es igual a “la suma de las x’s dividido por n”.
Ejemplo Datos Sin Agrupar
En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la
exposición. Calcule el promedio del período de incubación en éste brote; los períodos
de incubación para las personas afectadas (Xi) fueron:
29, 31, 24, 29,30 y 25
Pasó Uno Para calcular el numerador sume las observaciones individuales
x = 29+31+24+29+30+25= 168
Paso Dos para calcular el denominador cuente el número de las observaciones: n = 6
29 + 31 + 24 + 29 + 30 + 25 168
media = x = = = 28 días
6 6
Entonces, el promedio del período de incubación del brote es 28 días
Frecuencia absoluta
media = x =
xini Total de Observaciones
n
Frecuenci
Intervalos Marca de
a
de clases clase xi ni
Absolutas
(Li-1 Li] xi ni
16 – 27 21,5 3 64,5
27 – 38 32,5 5 162,5
38 – 49 43,5 10 435
49 – 60 54,5 3 163,5
60 – 71 65,5 8 524
71 – 82 76,5 7 535,5
82 – 93 87,5 4 350
Total 40 2235
2. La Mediana (Me)
Otra medida de tendencia central es la mediana; como se verá es especialmente útil
cuando los datos están sesgados.
Ejemplo Al tener los siguientes datos de presión arterial sistólicas: 110, 120, 122, 130,
180 Mm. de Hg.
En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego
entonces, la mediana es 122 Mm. de Hg., el valor de la 3ª observación. Al obtener la
media (132) ésta sería mayor que 4 de los 5 valores.
(n + 1)
105 Dr. Lic.. Miguel Angel Macetas2Hernández
Estadística Básica 2018
Rango mediano =
n
2 − N j−1
Me = L j−i + c j
nj
Donde
107 Dr. Lic.. Miguel Angel Macetas Hernández
Estadística Básica 2018
n = número total de datos u observaciones
n
Nj = es una Ni inmediata superior a
2
Nj-1 = es una Ni inmediata inferior a
Lj-1 = extremo inferior del Intervalo Mediano
IMe = es el intervalo que corresponde a Nj
nj = es el nj que le corresponde al Intervalo Mediano
Cj = amplitud del intervalo mediano
Ejemplo
Calcular el puntaje de rendimiento mediano en la línea de acción educativa de
Lenguaje de una muestra de 40 alumnos de un determinado centro educativo
Paso Uno
n 40
Aquí n = 40 luego = = 20 se compara con los N i se obtiene que 20,
2 2
observando en la tabla este valor no coincide con algún Ni, está entre 18 y 21,
n
es decir: 18 < 20 < 21 N j−1 Nj
2
Frecuencias
Intervalos de Frecuencia
Absolutas
clases Absolutas
Acumuladas
(Li-1 Li ] ni Ni
I1 16 – 27 n1 = 3 N1 = 3
I2 27 – 38 n2 = 5 N2 = 8
I3 38 – 49 n3 = 10 N3 = 18 Nj-1
IMe= I4 49 – 60 n4 = 3 N4 = 21 Nj
Lj-1 I5 60 – 71 n5 = 8 N5 = 29
nj
I6 71 – 82 n6 = 7 N6 = 36
I7 82 – 93 n7 = 4 N7 = 40
Total 40
Reemplazar los valores obtenidos en la fórmula de Me:
40
2 − 18
Me = 49 + (11) = 56,33
3
Me = 56,33
d1 10 − 5
Mo = L j−1 + C i Mo = 38 + (11) = 42,5833
d1 + d 2 (10 − 5) + (10 − 3)
Donde
Lj-1 = Límite inferior del Intervalo Modal
Cj = Amplitud del intervalo Modal
d1 = nj – nj–1
d2 = nj – nj+1
Ejemplo
Calcular el puntaje de rendimiento más frecuente en la línea de acción
educativa de Lenguaje de una muestra de 40 alumnos de un determinado
centro educativo
Frecuencia
Intervalos de Clases
Absolutas
(Li-1 Li ] ni
I1 16 – 27 n1 = 3
I2 27 – 38 n2 = 5 nj-1
IMo= I3 38 – 49 n3 = 10 nj
Lj-1 I4 49 – 60 n4 = 3 nj+1
I5 60 – 71 n5 = 8
I6 71 – 82 n6 = 7
I7 82 – 93 n7 = 4
Total 40
Media Aritmética
1. Es una medida totalmente numérica o sea sólo puede calcularse en datos de
características cuantitativas.
2. En su cálculo se toman en cuenta todos los valores de la variable.
3. Es lógica desde el punto de vista algebraico.
4. La media aritmética es altamente afectada por valores extremos.
5. No puede ser calculada en distribuciones de frecuencia que tengan clases
abiertas.
6. La media aritmética es única, o sea, un conjunto de datos numéricos tiene una
y solo una media aritmética.
Mediana
1. En su cálculo no se incluyen todos los valores de la variable.
2. La Mediana no es afectada por valores extremos.
3. Puede ser calculada en distribuciones de frecuencia con clases abiertas.
4. No es lógica desde el punto de vista algebraico.
Moda
1. En su cálculo no se incluyen todos los valores de la variable.
2. El valor de la moda puede ser afectado grandemente por el método de
designación de los intervalos de clases.
3. No está definida algebraicamente.
4. Puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
5. No es afectada por valores extremos.
2. Los estadísticos del programa de Meals on Wheels (comida sobre ruedas), el cual
lleva comidas calientes a enfermos confinados en casa, desean evaluar sus
servicios. El número de comidas diarias que suministran aparece en la siguiente
tabla de frecuencia. Calcular la media, mediana y la moda e intérprete.
0-5 3
5 - 10 6
10 - 15 5
15 - 20 8
20 - 25 2
25 - 30 3
3. Bill Karl compró 20 acciones a $ 15 cada una, 50 acciones a $20 cada una,100
acciones a $30 cada una y 75 acciones a $35 cada una. ¿Cuál es el precio
promedio por acción?.
4. Dado el siguiente cuadro estadístico con ancho de clase constante igual a 20.
Determine la media de los datos.
16
14
Número de Alumnos
12
10
8
6
4
2
0
4 6 8 10 12 14
Notas
6. En una encuesta sobre los ingresos anuales en miles de soles de un grupo de
familias se obtuvo la siguiente información:
Li − Ls ) ni
10 – 30 20
30 – 50
50 – 70
70 - 90 20
Además, x = 54 y n2 / n3 = 1 / 5 , calcular el número de familias con ingreso no
Li − Ls ) ni
16 – 32 6
Li − Ls ) ni
20 – 30 3
30 – 40 1
40 – 50 2
50 – 60 6
60 – 70 n
11. Una compañía minera tiene 100 trabajadores. Para los nombrados el haber
máximo es 450 dólares y el mínimo 60 dólares. Hay un 5% de eventuales (en
prueba) que trabajan ad-honorem o perciben compensaciones inferiores a $60.
Quince trabajadores nombrados perciben haberes inferiores a $250 y el 85% ganan
haberes inferiores a $400. Con esta información, calcule las medidas de tendencia
central posibles.
Producción Porcentaje
Menos de 206 20 %
206 – 214 25%
214 – 222 18%
222 – 230 15%
230 – 238 13%
Más de 238 9%
13. Un grupo de 200 estudiantes con estatura inedia de 60.96 pulg. se divide en dos
grupos, un grupo con una estatura media de 63.4 pulg. y el otro con 57.3 pulg. ¿
Cuántos estudiantes hay en cada grupo?.
14. En una clase hay 35 estudiantes varones con una edad media de 17. 5 años y 15
estudiantes mujeres las que en promedio son 12% más Jóvenes. ¿Cuál es la edad
media de la clase?.
15. Las temperaturas registradas en una ciudad, en grados Fahrenheit (°F), fueron: 51,
60, 58, 62, 57, 49, 52, 62, 61 y 63. Determinar la Media en grados centígrados (°C)
sabiendo que: C=(5/9)(F-32).
16. De una muestra de tamaño tres se sabe: la suma de los cubos de las tres
observaciones es 1971, la media aritmética es 7 y la mediana es 6. Calcular el
valor de cada una de las observaciones.
19. Los costos de fabricación, en soles, de diez objetos son los siguientes: 9.35, 9.46,
9.20, 9.80, 9.77, 9.00, 9.99, 9.36, 9.50, 9.60, si el precio de venta de cada objeto es
3 veces su costo de fabricación menos 5 soles, calcular la utilidad media por objeto.
20. De las edades de cuatro personas, se sabe que la media es igual a 24 años, la
mediana es 23 y la moda es 22. Encuentre las edades de las cuatro personas.
21. Para calcular el suministro de agua que una ciudad requiere mensualmente, se
escogen 15 familias de la ciudad, resultando los siguientes consumos en metros
cúbicos; 11.2, 21.5, 16.4, 19.7, 14.6, 16.9, 32.2, 18.2, 13.1. 23.8, 18.3, 15.5, 18.8,
22.7, 14.0. Si en la ciudad hay 5,000 familias, ¿cuántos metros cúbicos de agua se
requieren mensualmente si el consumo promedio por familia permanece igual?.
22. El sueldo promedio de 200 empleados de una empresa es S/400. Se proponen dos
alternativas de aumento: a) S/. 75 a cada uno, b) 15% de su sueldo más 10 soles a
cada uno. Si la empresa dispone a lo más de S/. 94,000 para pagar sueldos, ¿cuál
alternativa es más conveniente?.
23. Al calcular la media de 125 datos, resultó 42. Un chequeo posterior mostró que en
lugar del valor 12.4 se introdujo 124. Corregir la media.
b) Si el 60% de los obreros tienen menos de 30 años y percibe el 20% del total de
los sueldos, ¿cuánto es el sueldo medio de los obreros de al menos 30 años?
28. Al tabular las calificaciones de un examen se obtuvieron las siguientes notas: 07,
08, 09, 10, 11, 12, 13, 14, 15, 16, 17 y las frecuencias del número de alumnos
respectivas: 1, 1, 1, 1, 1, 6, 8, 16, 18, 20, 2. ¿Cuánto es la media, la mediana y la
moda de las notas?, ¿qué valor escogería como el promedio?.
29. Los sueldos en una empresa varían de $300 a $800 distribuidos en forma simétrica
en 5 intervalos de igual amplitud, con el 15%, 20%, y 30% de casos en el primer,
segundo y tercer intervalo respectivamente. Calcule los diferentes indicadores de
tendencia central.
i =1
b) Datos agrupados
l
m
= . Xi ni
n
X G = x , x ...x
n n1
1
n2
2
nm
m
i =1
Aplicando logaritmos tenemos:
1 m
XG = ni log Xi = log Xi
n i =1
Entonces:
X G = 10 log x
La media geométrica se utiliza los datos tienen crecimiento geométrico: población, montos de
capital, producción
1.3.3. Propiedad:
XG < X
Ejemplo
La media geométrica es útil en el cálculo de tasas de crecimiento; por ejemplo, si el
crecimiento de las ventas en un pequeño negocio son 3%, 4%,8%,9% y 10%, hallar la media
de crecimiento.
5
𝑋̅𝐺 = √(3)(4)(8)(9)(10) = 6.128
Respuesta: 6.128%
Utilizando logaritmo
𝐿𝑜𝑔 3 + 𝐿𝑜𝑔4 + 𝐿𝑜𝑔8 + 𝐿𝑜𝑔9 + 𝐿𝑜𝑔10 3.9365
𝐿𝑜𝑔 𝑋̅𝐺 = = = 0.7873
5 5
𝑋̅𝐺 = 6.128
Solución:
Es necesario calcular el porcentaje que las ventas de cada mes representan respecto de los
obtenidos el mes anterior.
Porcentaje del
Mes Ventas
mes anterior
Enero 500
Febrero 550 550/500=1,100
Marzo 600 600/550=1,091
Abril 700 700/600=1,167
Mayo 800 800/700=1,143
Junio 850 850/800=1,063
Calculando la media geométrica se obtiene:
5
𝑋̅𝐺 = √(1100)(1091)(1167)(1143)(1063) = 1.112
Comprobación:
Ejemplo
Calcular la media geométrica para las siguientes calificaciones de Estadística:
xi ni
4 5
6 8
8 9
9 10
10 8
Solución:
Se llena la siguiente tabla, realizando los cálculos respectivos:
xi ni log x i log x i ni
4 5 0.602 3.010
6 8 0.778 6.225
8 9 0.903 8.128
9 10 0.954 9.542
10 8 1.000 8.000
Total 40 34.906
PROPIEDADES
✓ Es un promedio que se utiliza para el cálculo del costo promedio y todo tipo de variables
expresadas en tasas o porcentajes. como por ejemplo: velocidad/distancia,
productividad/tiempo, etc
✓ La media armónica no está definida en el caso de la existencia en el conjunto de
valores nulos.
✓ Cuando la unidad constante o unidad de evaluación es igual a la unidad del numerador
de una razón,
✓ se usa el promedio armónico, y si es igual a la unidad del denominador se usa el
promedio aritmético.
Ejemplo:
La velocidad de producción de azúcar de tres máquinas procesadoras son 0,5, 0,3 y 0,4
minutos por kilogramo. Hallar el tiempo promedio de producción después de una jornada de
4800 minutos del proceso
Solución:
Como en la razón minutos/kilogramos (min/kg) cada máquina trabaja 4800 min, la razón
contante es el tiempo de trabajo (4800 min), es decir la contante es la unidad del numerador,
por lo tanto se debe emplear el promedio armónico
3
𝑋̅𝐻 = = 0.383
1 1 1
0.5 + 0.3 + 0.4
b) Datos Agrupados:
Propiedad:
XH < XG < X
Ejemplo:
En la siguiente tabla se presentan los datos sobre el tiempo en horas que se demoran en
realizar la misma obra determinados obreros. Calcular el tiempo promedio que se demora en
realizar la obra un obrero tipo (un obrero promedio).
Tiempo Obreros
4 4
5 5
6 7
7 2
9 2
Ejemplo:
En la siguiente tabla se presentan los datos sobre el tiempo en minutos que se demoran
para resolver una prueba de Estadística determinados estudiantes. Calcular el tiempo
promedio que se demora en resolver la prueba un estudiante tipo.
Tiempo Estudiantes
[40-50) 4
[50-60) 8
[60-70) 10
[70-80) 7
[80-90] 11
Solución:
Realizando los cálculos respectivos se obtiene:
ni xi ni/xi
[40-50) 4 45 0,089
[50-60) 8 55 0,145
[60-70) 10 65 0,154
[70-80) 7 75 0,093
[80-90] 11 85 0,129
Total 40 0,611
40
𝑋̅𝐻 = = 65,47
0.611
A. Los Cuartiles
Para Datos No Agrupados
La posición o ubicación de los cuartiles se encuentra aplicando la siguiente ecuación:
𝑸𝒌 = 𝑿 𝒏 𝒌+𝟐
[ ]
𝟒
Donde
n = Número total de datos
K = Número del cuartil
Ejemplo
Encuentre los cuartiles dada la siguiente distribución, y represéntelos gráficamente
mediante un diagrama de caja y bigotes: 6, 9, 9, 12, 12, 12, 15 y 17
Solución:
Para calcular los cuartiles se ordena los datos de menor a mayor
6 9 9 12 12 12 15 17
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8
Aplicando la ecuación para el cuartil uno se obtiene:
𝑸𝟏 = 𝑿 (𝟖)(𝟏)+𝟐 = 𝑿𝟐.𝟓
[ ]
𝟒
Como la posición del cuartil 1 es 2.5, su valor es el promedio de los datos segundo y
tercero
𝒙𝟐 + 𝒙𝟑 𝟗 + 𝟗
𝑸𝟏 = 𝑿𝟐.𝟓 = = =𝟗
𝟐 𝟐
O también la posición 2.5 dice que el cuartil 1 está ubicado al 50% del trayecto
comprendido entre el segundo dato, que es 9 y el tercer dato que es 9, es decir, Q1=
9+0.5 (9-9) = 9
Interpretación: Este resultado indica que el 25% de los datos es inferior a 9
𝒙𝟒 + 𝒙𝟓 𝟏𝟐 + 𝟏𝟐
𝑸𝟐 = 𝑿 (𝟖)(𝟐)+𝟐 = 𝑿𝟒.𝟓 = = = 𝟏𝟐
[ 𝟒 ] 𝟐 𝟐
O también la posición 4.5 dice que el cuartil 2 está ubicado al 50% del trayecto
comprendido entre el cuarto dato, que es 12 y el quinto dato que también es 12, es
decir,
Q2= 12+0,5(12-12) = 12
Interpretación: Este resultado indica que el 50% de los datos es inferior a 12
Aplicando la ecuación para el cuartil tres se obtiene:
𝒙𝟔 + 𝒙𝟕 𝟏𝟐 + 𝟏𝟓
𝑸𝟑 = 𝑿 (𝟖)(𝟑)+𝟐 = 𝑿𝟔.𝟓 = = = 𝟏𝟑. 𝟓
[ 𝟒 ] 𝟐 𝟐
O también la posición 6,5 dice que el cuartil 2 está ubicado al 50% del trayecto
comprendido entre el doceavo dato, que es 12 y el quinceavo dato que 15, es decir,
Q3= 12+0,5(15-12)
Donde
Lj-1 = Límite inferior del Intervalo del Cuartil
Cj = Amplitud del intervalo Cuartill
j = El número de Cuartil j = 1, 2 y 3
n = Número total de observaciones o datos.
Nj = Es un inmediato superior a jn
4
Nj-1 = Es una Ni inmediata inferior a jn
4
nj = Es el nj que le corresponde al Intervalo
Paso Uno
jn
=
(1x 40 ) = 10
Aquí n = 40 y j =1 luego 4 4 se compara con los N i se obtiene que 10,
observando
En la tabla este valor no coincide con algún Ni, está entre 8 y 10, es decir: 8 < 10 <
18
Frecuencias
Intervalos de Frecuencia
Absolutas
clases Absolutas
Acumuladas
(Li-1 Li ] ni Ni
I1 16 – 27 n1 = 3 N1 = 3
Nj-1
N2 = 8
I2 27 – 38 n2 = 5
Nj
IQ1= I3 38 – 49 n3 = 10 N3 = 18
nj
Lj-1 I4 49 – 60 n4 = 3 N4 = 21
I5 60 – 71 n5 = 8 N5 = 29
I6 71 – 82 n6 = 7 N6 = 36
I7 82 – 93 n7 = 4 N7 = 40
Total 40
128 Dr. Lic.. Miguel Angel Macetas Hernández
Estadística Básica 2018
Interpretación Que el 25% del total de alumnos, es decir 10 de ellos tienen una puntuación
inferior o igual a 40,2 puntos, y los 30 restantes, o sea el 75% de trabajadores, tienen un
puntaje superior a 40,2 puntos.
En la tabla este valor no coincide con algún Ni, está entre 18 y 21, es decir:
18 < 20 < 21
Frecuencias
Intervalos de Frecuencia
Absolutas
clases Absolutas
Acumuladas
(Li-1 Li ] ni Ni
I1 16 – 27 n1 = 3 N1 = 3
I2 27 – 38 n2 = 5 N2 = 8
N3 = 18 Nj-1
I3 38 – 49 n3 = 10
IQ2= I4 49 – 60 n4 = 3 N4 = 21 Nj
Lj-1 I5 60 – 71 n5 = 8 N5 = 29
nj
I6 71 – 82 n6 = 7 N6 = 36
I7 82 – 93 n7 = 4 N7 = 40
Total 40
Interpretación Que el 50% del total de alumnos, es decir 20 de ellos tienen una puntuación
inferior o igual a 56,33 puntos, y los 20 restantes, o sea el 50% de trabajadores, tienen un
puntaje superior a 56,33 puntos.
30, observando en la tabla este valor no coincide con algún Ni, está entre 29 y 36, es
decir:
29 < 30 < 36
Frecuencias
Intervalos de Frecuencia
Absolutas
clases Absolutas
Acumuladas
(Li-1 Li ] ni Ni
I1 16 – 27 n1 = 3 N1 = 3
I2 27 – 38 n2 = 5 N2 = 8
I3 38 – 49 n3 = 10 N3 = 18
I4 49 – 60 n4 = 3 N4 = 21
I5 60 – 71 n5 = 8 N5 = 29 Nj-1
IQ3= I6 71 – 82 n6 = 7 N6 = 36 Nj
Lj-1 nj
I7 82 – 93 n7 = 4 N7 = 40
Total 40
Interpretación Que el 75% del total de alumnos, es decir 30 de ellos tienen una puntuación
inferior o igual a 39,57 puntos, y los 10 restantes, o sea el 25% de trabajadores, tienen un
puntaje superior a 39,57 puntos.
𝑫𝒌 = 𝑿 𝒏 𝒌+𝟓
[ ]
𝟏𝟎
Donde
n = Número total de datos
K = Número del cuartil
Ejemplo
Ejemplo:
Calcular el quinto decil de la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17
Solución:
Para calcular los deciles se ordena los datos de menor a mayor.
6 9 9 12 12 12 15 17
𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8
Aplicando la ecuación para el quinto decil se obtiene:
𝒙𝟒 + 𝒙𝟓 𝟏𝟐 + 𝟏𝟐
𝑫𝟓 = 𝑿 (𝟖)(𝟓)+𝟓 = 𝑿𝟒.𝟓 = = = 𝟏𝟐
[
𝟏𝟎
] 𝟐 𝟐
O también la posición 4,5 dice que el decil 5 está ubicado al 50% del trayecto
comprendido entre el cuarto dato, que es 12 y el quinto dato que también es 12, es
decir,
D5= 12+0,5(12-12) = 12
En Excel se calcula de la siguiente manera:
Donde
Lj-1 = Límite inferior del Intervalo de clase del decil
Cj = Amplitud del intervalo Decil
j = El número de Decil j = 1, 2, 3,…,9
n = Número total de observaciones o datos.
Nj = Es un inmediato superior a jn
10
Nj-1 = Es una Ni inmediata inferior a jn
10
nj = Es el nj que le corresponde al Intervalo
𝑷𝒌 = 𝑿 𝒏 𝒌+𝟓𝟎
[ ]
𝟏𝟎𝟎
Donde:
n = número total de datos
k = número del percentil
Ejemplo:
Calcular los percentiles de orden 20 y 33 del peso de diez personas que pesan (en
kg) 80, 78, 65, 73, 65, 67, 72, 68, 70 y 72
Solución:
Se ordena los datos de menor a mayor se tiene:
65 65 67 68 70 72 72 73 78 80
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1) Cálculo del percentil de orden 20 se obtiene:
𝒙𝟒 + 𝒙𝟓 𝟏𝟐 + 𝟏𝟐
𝑷𝟐𝟎 = 𝑿 (𝟏𝟎)(𝟐𝟎)+𝟓𝟎 = 𝑿𝟒.𝟓 = =
[
𝟏𝟎𝟎
] 𝟐 𝟐
En Excel se obtiene un valor aproximado insertando la función PERCENTIL.INC
Donde
Lj-1 = Límite inferior del Intervalo de clase del Percentil
Cj = Amplitud del intervalo Percentil
j = El número de Percentil j = 1, 2, 3,…,99
n = Número total de observaciones o datos.
Nj = Es un inmediato superior a jn
100
Edades Frecuencias
50 y menos de 55 8
55 y menos de 60 13
60 y menos de 65 15
65 y menos de 70 10
70 y menos de 75 3
75 y menos de 80 1
Consumo Nº de casos
($miles)
4–6 17
6–8 26
8– 10 14
10 – 12 9
12 –14 11
En datos no agrupados:
R = Xmax – Xmin
Q3 − Q1
Q=
2
C. Varianza (s2)
Es el estadígrafo de dispersión más importante. y expresa el grado de dispersión
de las observaciones respecto a la media aritmética. Se denota por s 2; V(X); V(Y);
2; etc.
La varianza se define como:
"La varianza es la media o promedio del cuadrado de las desviaciones de la
variable respecto a su media".
136 Dr. Lic.. Miguel Angel Macetas Hernández
Estadística Básica 2018
La expresión de la definición, también se escribe:
(x − x ) n ( xn )
2
x n −
2
s 2
= i i 2 i i
n −1 s2 =
i i
n
n −1
Propiedades de la varianza:
Sean:
X : variables
k : constante
V( ): Operador varianza
a) V (X) 0
b) V (k) = 0
c) V (x + k) = V(x)
d) V (kx) = K2 V(X)
Si tenemos una muestra tamaño n la dividimos en r sub muestras determinando en
cada una de ellas sus respectivas medias, entonces la media total se determina por la
formula siguiente:
r n
S 2 ni (X 1 − X t )ni
XT = i =1
+ i =1
n n
Intravarianza + Intervarianza
32652,4 −
(1030)
2
s2 = 40 = 157,1769
40 − 1
V (X ) = s
157,1769 = 12,5370221
Es uno de los estadígrafos de dispersión de mayor uso, en si cual las unidades de
la variable ya no están elevadas al cuadrado. La desviación estándar, al igual que
la varianza, es no negativa (s ≥ 0), puesto que es la raíz cuadrada positiva de la
varianza. A mayor dispersión le corresponderá una mayor desviación estándar.
NOTA: En general, los estadígrafos de dispersión se usa para comparar dos o más
distribuciones o poblaciones. A mayor dispersión o heterogeneidad entre los
valores o elementos de una población, le corresponde un valor mayor para
el estadígrafo de dispersión.
E. Coeficiente de Variación (CV)
Está definido por la expresión:
S
CV = (100)
x
CV =
(12,537)(100) = 48,68746446%
25,75
Asimetría.-
Es el grado de deformación de la curva representativa de una distribución de frecuencias
con respecto a la vertical que pasa por la abscisa de la media aritmética; se mide a
través del Coeficiente de Asimetría.
A. Relación Entre La Media, Mediana y Moda
La distribución de frecuencias de un conjunto de datos puede ser simétrica o
asimétrica.
B. Distribución Simétrica
Una distribución es simétrica cuando su grafica semeja una de las tres curvas:
Me = X = Mo Mo X = Me Mo X = Me
✓ Curva Unimodal
✓ Mo < Me < X
Mo X
Me
Distribución Negativa Asimétrica
Es una distribución donde los valores extremos son observaciones menores. La
grafica presenta una prolongación hacia la izquierda, como la siguiente curva
hipotética. ✓ Curva Negativa Asimétrica (o Curva con
Sesgo Negativo).
✓ Curva Unimodal
X Mo ✓ Mo > Me > X
Me Hernández
139 Dr. Lic.. Miguel Angel Macetas
Estadística Básica 2018
Relación Emperica Entre Media, Mediana y Moda
Cuando la distribución es casi simétrica, se puede utilizar la fórmula de la moda
empírica dad por: Moda = 3(Mediana) – 2(Media)
Mo = 3 Me – 2 X
C. Importancia de la Asimetría.-
El conocimiento de la asimetría es importante por el hecho de que la teoría estadística
se basa a menudo en el supuesto de una distribución normal. Por lo tanto una medida
de asimetría de una distribución es necesario para preservarnos de las consecuencias
de esta suposición (La condición necesaria de una distribución normal es que sea
simétrica).
D. Coeficiente de Asimetría.
Consideramos varias fórmulas para el cálculo de la medida de asimetría:
Coeficiente de Asimetría en base a Momentos.
1 ( xi - x ) ni
m 3
AS =
n s3
E. Kurtosis o Apuntamiento.-
D. Leptocúrtica
D. Mesocúrtica (Normal )
D. Platicúrtica
Donde:
Los percentil P90 y P10 se calcula con la Lj-1=Limite inferior del Intervalo del Percentil
siguiente fórmula:
Cj =Amplitud del intervalo Percentilico
rn
100 − N J −1 r = El número de Percentill r = 1,2,3,…,99
Pr = L i −1 + C j n = Número total de observaciones o datos.
nj
Nj = Es un inmediato superior a jn
100
(x
1
i − ) 3 ni
116555 .56
Coeficiente Asimetría = = = 0.2799,
n 3 60 * (19.076) 3
8
(x
1
i − ) 4 ni
18818611 .1111
Coeficiente Kurtosis = = = 2.3686
n * 4
60 * (19.076) 4
Por tanto se puede afirmar que la distribución empírica es:
Aprox. Simétrica, puesto que AS = 0.28 0
Platicúrtica, puesto que K = 2.37 < 3.
Entonces se puede concluir que dicha distribución difiere ligeramente de la normal.
2.4. Aplicaciones de las medidas en datos univariados
Ejemplo 1. Los siguientes datos constituyen las vidas útiles en horas. de una muestra
aleatoria de 60 bombillas de luz de 100 watts.
807 811 620 660 817 732 747 823 844 907
660 753 1050 918 857 867 675 880 878 890
881 872 869 841 847 833 829 827 822 811
766 787 923 792 803 933 947 717 817 753
1056 1076 958 970 776 828 831 781 1088 1082
832 863 852 788 980 889 1030 897 755 891
a) Clasifique convenientemente con Anchos de Clase iguales y trace el Polígono de
Frecuencias Absolutas.
b) Una vez clasificadas; determine el porcentaje de bombillas cuyas vidas útiles oscilan
entre 700 y 1000 horas.
c) Encuentre los límites que sub-clasifiquen las bombillas en tres categorías con referencia
a su duración.
❖ El 15 % más durables en la categoría A
❖ El 15 % menos .durables en la categoría C.
❖ El resto en la categoría B
Solución
Cálculos previos para elaborar la tabla
CUADRO Nº 01
DISTRIBUCIÓN DE DATOS CONSTITUYEN LAS VIDAS ÚTILES EN HORAS. DE UNA
MUESTRA ALEATORIA DE 60 BOMBILLAS DE LUZ DE 100 WATTS.
Marca Número Frecuencia Frecuencia
Vida útil en horas Frecuencia
de de Acumulada Relativa
Relativa
clase Bombillas Simple Acumulada
[Li-1 – Li>
xi ni Ni hi Hi
[620 – 698> 659 4 4 0,0667 0,0667
[698 – 776> 737 7 11 0,1167 0,1833
[776 – 854> 815 23 34 0,3833 0,5667
[854 – 932> 893 15 49 0,2500 0,8167
[932 – 1010> 971 5 54 0,0833 0,9000
[1010 – 1088> 1049 6 60 0,1000 1,0000
Total 60 1,0000
GRAFICO Nº 01
POLÍGONO DE FRECUENCIA DE LA VIDA ÚTIL EN HORAS DE UNA MUESTRA
ALEATORIA DE 60 BOMBILLAS DE LUZ DE 100 WATTS
Número de bombillas
23
20
15 15
10
5
7 6
5 4
0 0 0
581 681 781 881 981 1081
Vida promedio en horas de bombillas de luz de 100 watts.
b) Una vez clasificadas; determine el porcentaje de bombillas cuyas vidas útiles oscilan
entre 700 y 1000 horas.
Vida útil en horas Número de Frecuencia Frecuencia
Bombillas Relativa Relativa
[Li-1 – Li> ni hi hi %
[620 – 698> 4 0,0667 6,667
[698 – 776> 7 0,1167 11,667
[776 – 854> 23 0,3833 38,333
[854 – 932> 15 0,2500 25,000
[932 – 1010> 5 0,0833 8,333
[1010 – 1088> 6 0,1000 10,000
Total 60 1,0000 100,000
Calculamos el número de observaciones pedido:
2(11,66667)
698 a 776 11,66667 78 11,6667 𝑥 = = 0,2991453
78
698 a 700 x 2 x
Para encontrar el valor 698 a 700 = 11,6666667 – 0,2991453 = 11,3675214
68(8,3333)
932 a 1010 8,3333 78 8,333 𝑥 = =
78
7,2649526
932 a 1000 x 68 x
Para encontrar el valor 700 y 1000 horas. = 11,368 + 38,333 + 25,000 + 7,265 =
81,966%
❖ El 15 % más durables en la categoría A
Basta calcular el percentil 15 y el percentil 85
9−4
𝑃15 = 698 + 78 ( ) = 753,7
7
51 − 49
𝑃85 = 932 + 78 ( ) = 963.2
5
Ejemplo 2. En la siguiente distribución de frecuencias relativas calcular:
a) Las desviación cuartillita
b) Discutir el sesgo y la kurtosis
Tiempo 0 → 3 3 → 6 6 → 9 9 → 12 12 → 15 15 → 18
hi 0,04 0,06 0,40 0,38 0,10 0,02
Solución
Tiempo Xi hi Hi xi hi xi2 hi
0 → 3 1,5 0,04 0,04 0,06 0,09
3 → 6 4,5 0,06 0,10 0,27 1,215
6 → 9 7,5 0,40 0,50 3,00 22,5
9 → 12 10,5 0,38 0,88 3,99 41,895
12 → 15 13,5 0,10 0,98 1,35 18,225
Ejemplo 3. Al investigar el nivel socioeconómico en los valores: Bajo (B), Medio (M), Alto
(A),
20 familias dieron las siguientes respuestas:
M, B, B, M, A, B, B, M, M, B, M, B, B, A, M, B, M, A, M, B.
Construir la distribución de frecuencias y trazar su gráfica.
Nivel Frecuencia Frecuencia
socioeconómico Absoluta Relativa
Medio 8 40,0
Bajo 9 45,0
Alto 3 15,0
Total 20 100
10 9
8 Alto
Número de Familias
8 15% Medio
6 40%
4 3
2
0
Medio Bajo Alto Bajo
Nivel Socioecónomico 45%
El término de error es la diferencia entre los valores reales observados Y i y los valores
estimados por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual
se utiliza el método de mínimos cuadrados.
Se trata de minimizar la suma de todos los errores o residuos:
Las fórmulas resultado de la minimización de lo cuadrados del error se aplicarán en el
siguiente ejemplo por claridad. Se tienen los siguientes supuestos:
Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería
y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que
se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de
cuadrados siguientes se muestran a continuación:
Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94
Las ecuaciones para el cálculo manual son las siguientes:
b1 = b̂1 =
( Xi − X )(Yi − Y ) = S XY = 2.902704421
( Xi − X ) 2
S XX
b0 = bˆ0 =
Y − bˆ X
i 1 i
= Y − bˆX = 5.114515575
n
r = r 2 = 0.9816
El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea
recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r es
un número entre –1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r
= 0 indicaría correlación nula.
2. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas
en una línea aérea. Las quejas son por cada 100000 pasajeros.
%puntos Quejas a. Trazar un diagrama de dispersión
Aerolínea X Y b. Obtener la ecuación de regresión lineal
A 81.8 0.21 c. Estimar las quejas para un porcentaje de
B 76.6 0.58 puntualidad de 80%
C 76.6 0.85
d. Obtener los intervalos de predicción y de confianza
D 75.7 0.68
E 73.8 0.74 para una altura de 63"
F 72.2 0.93 e. Obtener el coeficiente de correlación y de
G 70.8 0.72 determinación
H 68.5 1.22
KAZMIER L. DIAZ MATA A. Estadística Aplicada a Administradores y Economía. Mc. Graw Hill, 1990.
SARABIA VIEJO, A & MATE JIMENEZ, C. Problemas de Probabilidad y Estadística. CLAGSA 1993