Estadistica I
Estadistica I
Estadistica I
APUNTES DE ESTADÍSTICA I
CAPITULO 1
INTRODUCCIÓN A LA ESTADÍSTICA
ANTECEDENTES
Puede decirse que la estadística nació con los primeros Estados, y ésa
es precisamente la etimología de la palabra estadística que deriva del término
latín status (estado).
En efecto, desde la Antigüedad los estados necesitaron recopilar datos
sobre sus respectivos dominios y con diversos propósitos: fiscal, militar,
agrícola, etc. Aunque estas primitivas estadísticas no tenían una finalidad
científica, proporcionaban información numérica útil para el estado, que a partir
del conocimiento estadístico del pasado y del presente podía establecer
hipótesis sobre el futuro que orientasen su acción política.
La palabra estadística la acuño el profesor Gottfried Achenwall (1719-
1772), siendo el Dr. E. A. W. Zimmerman quien introdujo el término en
Inglaterra. Su uso lo divulgó Sir John Sinclair en su obra titulada “Statical
Account of Scotland 1791-1799” (Informe estadístico sobre Escocia 1791-
1799), la verdadera estadística científica comenzó en el siglo XVII con los
trabajos de Pierre Simón Laplace (1749-1827) y de Carl Friedrich Gauss (1777-
1855), quienes obtuvieron importantes resultados a partir de su estudio de la
teoría de los errores y la probabilidad.
A lo largo del siglo XIX, la estadística se consolidó como disciplina
científica, herramienta auxiliar imprescindible para otras ciencias que facilitó
importantes descubrimientos. Ya en el siglo XX, los métodos de inferencia
estadística incorporaron la formulación matemática de las leyes de la
probabilidad.
DEFINICIÓN
Con el fin de estudiar inteligentemente el tema de la estadística
debemos, en primer lugar, comprender lo que el término significa:
2
Estadística I
CLASIFICACIÓN DE LA ESTADÍSTICA
La estadística se divide en dos áreas: descriptiva e inferencial.
1. Estadística descriptiva:
3
Estadística I
2. Estadística inferencial:
Distribución de muestreo
Intervalos de confianza
Pruebas de hipótesis
Análisis de regresión y correlación
Pruebas Xi cuadrada
4
Estadística I
Cualitativas
Variables
Continuas
Cuantitativas
Discretas
5
Estadística I
CAPITULO 2
ESCALAS DE MEDICIÓN
Por ejemplo:
Otros ejemplos:
Sexo (masculino, femenino), religión (católico, protestante, testigo, etc.)
Por ejemplo:
6
Estadística I
Otros ejemplos:
Nivel socioeconómico (bajo, medio, alto); complexión (delgada, media,
gruesa).
Por ejemplo:
(*) En este caso 0 años no significa que no tengan edad, sino que no
han cumplido aún un año (Cero Relativo).
Otros ejemplos:
La temperatura del día (00 no indica que no haya temperatura),
calificación de desempeño del empleado (0 no indica que no exista
desempeño, sino tal vez un mal desempeño), saldo promedio de una
tarjeta de crédito (0 no significa que no tenga saldo).
4.- Escala de razón.- Tiene las propiedades de una escala por intervalos,
con la excepción de que si posee un cero absoluto, es decir, el cero
indica ausencia total de la característica medida.
Por ejemplo:
Otros ejemplos:
Velocidad de un automóvil, cantidad de cafeína en un producto, número
de de cajas de cigarrillos en exhibición.
7
Estadística I
DISTRIBUCIONES DE FRECUENCIA
Ejemplos:
Variable Cualitativa
Sexo (clase o categoría) Número de alumnos (frecuencia)
Masculino 25
Femenino 15
Total 40
Variable Cuantitativa
Distribución de punto
Variable Cuantitativa
Distribución por intervalo
De extremo cerrado
Variable Cuantitativa
Distribución por intervalo
De extremo abierto
8
Estadística I
Criterio de redondeo > ó = 0.5 hacia arriba y < 0.5 hacia abajo
Intervalo= (9+1) = 2
5
El resultado se debe redondear según la resolución de datos, si son enteros a
enteros, si tienen un decimal a un decimal, etc.
4.- Construir la tabla de distribución, anotando para cada clase el límite inferior,
superior y frecuencia (número de datos que incluye). En algunos casos se debe
agregar una clase más a las calculadas para que todos los datos estén en
alguna clase (sucede generalmente cuando el intervalo fue redondeado hacia
abajo en el paso anterior)
9
Estadística I
10
Estadística I
¿Población o Muestra?
11
Estadística I
CAPITULO 3
REPRESENTACIONES GRÁFICAS.
Gráficas para variables cualitativas.
Gráfica de barras.- Se anotan sobre uno de los ejes las categorías y sobre el
otro eje la frecuencia (conteo) dibujando una barra para cada categoría.
Ejemplos:
12
Estadística I
Histograma
60
50
50
40
Frecuencia
40
30 25 25
20
10
10
0
Médico Contador Administrador Ingeniero Abogado
No de personas 25
No de personas 10
No de personas 40
No de personas 50
No de personas 25
Profesión
Abogado.
16.70% Médico. 16.70%
Contador.
6.70%
Ingeniero.
33.30% Administrador.
26.70%
13
Estadística I
9 8
8 7
7 6
No de obreros
6 5
5 4
4
3
2
1
0
24 26 26 28 28 30 30 32 32 34
salario 5
salario 7
salario 8
salario 6
salario 4
salarios
14
Estadística I
25.00% 23.30%
20%
% de obreros
20.00%
16.70%
15.00% 13.30%
10.00%
5.00%
0.00%
24 26 26 28 28 30 30 32 32 34
salario 16.70%
salario 23.30%
salario 26.70%
salario 20%
salario 13.30%
Salario
10
No de obreros
8 8
7
6 6
5
4 4
2
0 0 0
0 23 23 25 27 29 31 33
25 27 29 31 33 35
Salario
15
Estadística I
120%
100% 100%
87%
80%
76% 76% 76% 76% 76% 76% 76%
% de Obreros
66.70%
60%
52% 52% 52% 52% 52%
40% 40.00%
20% 17%
0% 0% 0.00%
0 24 26 28 29 30 31 32 34
-20%
Salario
R= 52%
R= 100-76=24%
16
Estadística I
3.- Los registros de una empresa sobre el número de trabajadores que han
llegado tarde diariamente durante el último mes se reportan a continuación:
2 3 12 8 15 2
0 11 5 7 5 9
4 10 2 7 9 11
15 12 0 3 7 9
18 16 12 6 8 3
17
Estadística I
20 5 12 8 6 9 15 35 20 6
3 8 9 12 4 15 23 14 11 5
10 12 25 12 16 24 18 10 6 3
12 16 18 14 13 32 20 26 14 18
6.- Se realizó una encuesta para conocer la opinión de la gente sobre algunos
de los temas que ha tratado el actual gobierno, algunas de las preguntas
fueron:
11.. Edad.
22.. Sexo: M (asculino) F (emenino).
33.. Ingreso mensual.
44.. ¿Cómo considera que el gobierno manejó el asunto de la liquidación del
SME?
18
Estadística I
55.. ¿Está de acuerdo que será bueno para el país el grabar las medicinas
con el IVA?
(1) Si (2) No
(1) Si (2) No
Pregunta 1 2 3 4 5 6 7
Persona Edad Sexo Ingreso SME Medicina Legalización Calif.
1 25 M 3400 2 2 2 3
2 42 M 5200 2 1 1 2
3 18 M 2300 3 2 1 2
4 26 F 3600 1 2 1 1
5 48 M 5800 2 2 2 2
6 52 M 6800 2 2 2 2
7 40 M 12500 2 2 2 3
8 36 F 8450 3 2 2 4
9 21 M 4150 1 1 1 3
10 36 F 6850 1 2 2 4
11 42 F 8900 1 1 1 4
12 58 F 2680 3 1 2 1
13 19 F 4600 2 2 1 1
14 26 M 5800 3 2 2 2
15 32 F 11000 1 2 2 2
16 18 M 3240 1 2 1 2
17 42 F 8600 1 2 1 1
18 47 M 2450 1 2 1 3
19 45 M 2600 2 2 2 2
20 32 M 8500 2 1 2 2
21 22 M 3200 2 2 2 2
22 26 M 2800 3 2 2 2
23 29 F 1600 3 2 2 2
24 40 F 2400 1 2 1 2
25 35 M 4650 1 2 2 1
26 36 F 3220 2 1 2 1
27 22 F 1450 3 1 1 2
28 28 F 3620 3 2 2 2
29 16 F 1100 2 2 2 3
19
Estadística I
30 35 M 3680 1 2 2 1
31 42 M 5700 2 2 1 4
32 48 F 6800 2 1 2 2
33 65 F 1850 3 2 2 1
34 52 M 7400 1 2 2 3
35 32 M 3650 1 2 1 2
aa)) Realiza una distribución de frecuencias para cada pregunta.
bb)) Identifica para cada pregunta el tipo de variable y la escala de
medición que se usa.
cc)) Construye una gráfica de pastel para la pregunta 2.
dd)) Construye un histograma de frecuencia relativa para la pregunta 3.
ee)) Construye una ojiva de frecuencia relativa para la pregunta 1.
Es una técnica que permite revisar muchos datos y resumirlos con rapidez
usando algo tan sencillo como la aritmética básica y unos cuantos diagramas
simples.
Una de las técnicas más útiles es: La gráfica de tallo y hoja.
Ejemplo:
Calificaciones en el primer examen parcial:
79 78 78 67 76 87 85 73
99 84 72 66 57 94 84 72
51 48 61 82 93 100 89 72
Para producir una gráfica de tallo y hoja:
1. Hacer una lista vertical de los tallos
2. Dibujar una línea vertical a la derecha de los tallos
3. Listar las hojas
4. Ordenar las hojas en cada renglón
5. Girar en 900 la gráfica, obteniéndose algo que se parece a los
histogramas.
20
Estadística I
CAPITULO 4
MEDIDAS DE TENDENCIA CENTRAL (MTC)
El objetivo de las medidas de tendencia central es calcular un valor que
sea representativo del grupo de datos bajo estudio.
¿Por qué se les llama de tendencia central?
Porque el valor calculado es muy similar (tiende) a los valores que
estarían en medio (parte central) del grupo de datos ordenados.
Las medidas de centralización o de tendencia central son valores
que tienden a situarse en el centro de un conjunto de datos
ordenados según su magnitud.
Para usos industriales, las dos medidas de tendencia central más
utilizadas con la media y la mediana.
Principales MTC:
a. Media simple
b. Media aritmética (promedio)
c. Mediana
d. Moda
¿Cómo se calculan las MTC?
Dependiendo como se tengan los datos que se van a procesar:
1) Datos sin agrupar: Se calculan a partir de los valores individuales de los
datos, es decir, se debe conocer cada uno de los valores.
2) Datos agrupados: Se calculan a partir de una tabla de distribución de
frecuencias (resumen), es decir, los datos ya han sido procesados
previamente en una distribución y no se cuenta con los valores
individuales.
a) Media simple:
La media simple es el guarismo intermedio entre la observaciòn menor y la
mayor. Por definición:
b) Media aritmética:
Es la medida de localización más frecuentemente utilizada, especialmente
en el campo de la comprobación de hipótesis estadísticas.
Fórmulas:
N i ( población)
x
21
Estadística I
x n i (muestra )
x
d) Moda.
Se define como el dato que más se repite en el grupo, es decir, el de mayor
frecuencia. Si solo existe un valor de moda, se dice que los datos tienen
una distribución UNIMODAL, si hay dos valores distintos de moda,
entonces es BIMODAL y si hay más de dos será MULTIMODAL (o
POLIMODAL),
Ejemplo: Calcule las MTC en datos sin agrupar para las horas extra
laboradas a la semana por una muestra de 16 empleados tomados de una
empresa, cuyos registros fueron:
2 2.5 3 4
2.5 2 2.5 3
3 1.5 2 3.5
1.5 1 2.5 2.5
22
Estadística I
f X
i fi ci ( población )
fi X ci
x (muestra)
f i
bb)) Mediana.
2 f i f aA
Med L inf med fc (I )
Linf med Límite Inferior de clase mediana .
f aA Frecuencia acumulada de la clase anterior a la mediana.
23
Estadística I
cc)) Moda.
I Intervalo de clase.
Clase Modal clase con mayor frecuencia absoluta más datos
TAREA:
1. Calcule las MTC para el problema de los salarios en datos agrupados:
24
Estadística I
CAPITULO 5
PERCENTILES
Un percentil es una medida que señala los valores, no necesariamente
en una localización central. Un percentil da información acerca de cómo se
distribuyen los valores sobre el intervalo, desde el menor hasta el mayor. Para
valores que no tienen muchos valores repetidos el p-ésimo (se dice “peésimo”)
percentil divide los datos en dos partes. Más o menos el p por ciento de los
elementos tienen valores menores que el p-ésimo percentil. Aproximadamente
el (100 –p) por ciento de los elementos tienen valores mayores que el p-ésimo
percentil. Este percentil se define como sigue:
Percentil
El p-ésimo percentil es un valor tal que por lo menos un p por ciento de
los elementos tienen dicho valor o menos y, al menos (100 –p) por ciento de los
elementos tienen este valor o más.
i = (p/100) n
Ejemplo:
1. Determinar el 85º. percentil de los siguientes datos:
2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825
2. De los mismos datos calcule el 50º. percentil
CUARTILES
Con frecuencia se dividen los datos en cuatro partes, cada una con
aproximadamente la cuarta parte (25% de los elementos). A los puntos de
división se les llama cuartiles y se definen como sigue:
Q1 = Primer cuartil ó 25% percentil
Q2 = Segundo cuartil ó 50% percentil (mediana)
Q3 = Tercer cuartil ó 75% percentil
Ejemplo:
3. Determinar el segundo cuartil (o la mediana) de los siguientes datos:
2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825
4. Determinar de los mismos datos Q1 y Q3.
5. De los problemas 2 y 3 de la página 17 determine los valores de Q1, Q2 y
Q3.
25
Estadística I
CAPÍTULO 6
MEDIDAS DE VARIACIÓN
(DISPERSIÓN)
El objetivo de las medidas de variación es determinar que tanta similitud
o diferencia (variación) existe entre los datos bajo estudio.
Las medidas de dispersión dan idea de la separación de los datos
numéricos alrededor de un valor medio.
Las dos medidas de dispersión de mayor utilidad son la desviación
estándar y la amplitud (“range”).
Las medidas de variación se calculan en base al valor de la media
aritmética y entre las principales podemos mencionar:
a) Desviación media (DM)
b) Varianza y desviación estándar ( o típica)
c) Coeficiente de variación
DM N ( población)
M Xi
DM n (muestra)
x X i
M Xi 2
2 N ( población )
Varianza
x X i 2
s 2 n 1 ( muestra )
26
Estadística I
2 ( población )
Desviación
Estándar o
Típica
s s 2 ( muestra )
c) Coeficiente de variación.-
Es útil para comparar la variación de dos grupos de datos cuyos valores
sean de distinta naturaleza. Se expresa como un porcentaje de la
magnitud de la desviación estándar con respecto a su propia media
aritmética.
Cv 100
M
( población)
Cv sx 100 (muestra)
Ejemplo: Determine las medidas de variación en datos sin agrupar para el
problema de las horas extra.
x 2.44
Xi x Xi x Xi
2
2 0.44 0.1936
2.5 0.06 0.0036
3 0.56 0.3136
1.5 0.94 0.8836
2.5 0.06 0.0036
2 0.44 0.1936
1.5 0.94 0.8836
1 1.44 2.0736
3 0.56 0.3136
2.5 0.06 0.0036
2 0.44 0.1936
2.5 0.06 0.0036
4 1.56 2.4336
3 0.56 0.3136
3.5 1.06 1.1236
2.5 0.06 0.0036
∑ 9.24 8.9376
27
Estadística I
DM
x Xi 9 . 24
n 16 0 . 5775 hrs
2
s n 1
2 x Xi 8 . 9376
15 0 . 5958 hrs 2 (var)
s 0 .5958 0 . 7719 hrs ( DE )
Cv s
x
100 0 . 7719
2 . 44 100 31 .63 %
2) DATOS AGRUPADOS
a) Desviación media
fi M Xci
DM fi ( población )
fi x Xci
DM fi ( muestra )
fi frecuencia absoluta de cada clase.
Xci Marca de cada clase.
b) Varianza y desviación estándar.
fi M Xci 2
2
( población )
fi
Varianza
s2
fi x Xci ( muestra )
2
fi 1
28
Estadística I
2 ( población)
Desviación
estándar
s s 2 ( muestra )
c) Coeficiente de variación.
Cv 100 ( población )
M
Cv sx 100 ( muestra )
29
Estadística I
TAREA:
1. El departamento de transito de la ciudad de Irapuato está preocupado
por la velocidad a la que los conductores manejan en un tramo de la
carretera principal. Los datos de la velocidad de 45 conductores en
Km / hr son los siguientes:
15 32 45 46 42 39 68 47 18
31 48 49 56 52 39 48 69 61
44 42 38 52 55 58 62 58 48
56 58 48 47 52 37 64 29 55
38 29 62 49 69 18 61 55 49
Calcule:
a. Las medidas de tendencia central y de dispersión de los datos no
agrupados
b. Las medidas de tendencia central y de dispersión de los datos
agrupados
c. El departamento de transporte informa que a nivel nacional, no más del
10% de los conductores excede 55 Km / hr ¿Se comportan los
conductores del municipio de Irapuato de acuerdo con las afirmaciones
del Departamento de Transporte acerca de los patrones de manejo?
30
Estadística I
2. Se tiene la muestra de tamaño 5 con los valores de datos: 10, 20, 12, 17
y 16. Determine el valor de z para cada uno de los siguientes valores.
3. Se tiene una muestra con media de 500 y desviación estándar de 100
¿Cuál es el valor z de cada uno de los siguientes valores: 520, 650, 500,
450 y 280?
4. Los siguientes datos son salarios anuales para una muestra de gerentes
de tienda. Los datos están en miles de pesos.
31
Estadística I
ASIMETRÍA Y LA CURTOSIS.
Las medidas de distribución nos permiten identificar la forma en que se
separan o aglomeran los valores de acuerdo a su representación gráfica. Estas
medidas describen la manera como los datos tienden a reunirse de acuerdo
con la frecuencia con que se hallen dentro de la información. Su utilidad radica
en la posibilidad de identificar las características de la distribución sin
necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la
Curtosis.
1. Asimetría
Esta medida nos permite identificar si los datos se distribuyen de forma
uniforme alrededor del punto central (Media aritmética). La asimetría presenta
tres estados diferentes, cada uno de los cuales define de forma concisa como
están distribuidos los datos respecto al eje de asimetría.
32
Estadística I
CAPITULO 7
PROBABILIDAD
Jacob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), el
reverendo Thomas Bayes (1702-1761) y Joseph Lagrange (1736-1813)
desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo
XIX, Pierre Simón, marqués de Laplace (1749-1827), unificó todas estas ideas
y compiló la primera teoría general de probabilidad.
La teoría de la probabilidad fuè aplicada con éxito en las mesas de juego
y, lo que es más importante a la resolución de problemas sociales y
económicos.
Históricamente se han desarrollado tres enfoques para definir y calcular
la probabilidad:
a) Clásico (axiomático)
b) Frecuencia relativa
c) Subjetivo
Enfoque clásico.-
La probabilidad se determina de la siguiente manera:
Si existen N(A) resultados que son favorables a un evento de un total de
N(S) resultados posibles, y todos los resultados son igualmente probables y
mutuamente excluyentes, entonces la probabilidad de que ocurra el evento
(A) está dada por:
N ( A)
P ( A)
N (S )
Se dice que dos resultados son mutuamente excluyentes si no pueden
ocurrir simultáneamente, es decir; que al ocurrir uno de ellos
automáticamente la ocurrencia del otro se anula.
33
Estadística I
P sol 1
2 0 .5 50 %
2. Lanzar un dado.
Dado A: 6 resultados.
Dado B: 6 resultados.
6*6=36
P 3 puntos 2
36
0.05 5.55 %
34
Estadística I
1 2 3 4 5 6
El número 7.
P 7 6
36 0.166 16.67%
1 A A A A S S S S
2 A A S S S S A A
3 A S S A S A A S
35
Estadística I
FRECUENCIA RELATIVA.
Ejemplo:
A continuación se muestra una distribución de frecuencias para las
comisiones mensuales que obtuvieron un grupo de 300 vendedores.
SUBJETIVO.
La probabilidad esta determinada por el grado de confianza que una
persona tiene en que un evento en particular ocurra, basándose en la evidencia
que tiene disponible.
36
Estadística I
0 P A 1
La probabilidad de que un evento ocurra más la probabilidad de que no
ocurra debe ser igual a uno. (100%)
P A P A' 1
P A 1 P A '
P A ' 1 P A
P(A)= Probabilidad de que ocurra “A”.
P (A’)= Probabilidad de que no ocurra “A”.
Ejemplo:
Grupo Edad
1 Hombre 30 años
2 Hombre 32
3 Hombre 40
4 Mujer 45
5 Mujer 20
37
Estadística I
P mujer P 30 P mujer y 30
2
5 35 1
5 4
5 0 .8 80 %
bb)) P
30 ó
40
A B
P 30 P 40
1
5 1
5 2
5 0 .4 40 %
cc)) Sea hombre ó tenga >35 años.
PHombre, 40 años 2
5
40%
P Hombre P mujer 53 2
5 5
5
100%
P 20 años y P 28 años
0
38
Estadística I
Otro Ejemplo:
En una fábrica hay un total de 130 técnicos que trabajan en tres
departamentos distintos:
39
Estadística I
P mantenimie nto 65
130 0.5 50 %
A B A B
P(A ó B) P (AB)
40
Estadística I
P (A’)
Ejemplo:
A
B
.3
.1
.2
.4
41
Estadística I
Regla de la Multiplicación.
Para determinar la probabilidad conjunta de dos eventos: P(A B), que pueden
ocurrir simultáneamente ó en sucesión se utiliza la regla de multiplicación la
cual difiere según los eventos sean dependientes ó independientes:
32
P 100 0.32 32% P 1 buen y 2 def . 108 102 100
16
P buen P 17.77%
def
buen
8
10
2
9
16
90
42
Estadística I
ÁRBOL DE PROBABILIDAD.
Es un diagrama que nos permite determinar probabilidades conjuntas P
(AB), es decir ilustrar las operaciones para la regla de multiplicación.
En los nodos se anotan las probabilidades conjuntas y sobre las ramas las
probabilidades individuales de los eventos.
Con reemplazo.
P buena 0.8
.64 P1 buena y 2 buena
Pbuena 0.8
0.8
.16 P1 buena y 2 def
Pdef 0.2
1
Pbueno 0.8
Pdef 0.2
1° Refacción 2° Refacción
43
Estadística I
Sin reemplazo.
Pbueno 0.8
.6222 P1 buena y 2buena
0.8
1° Refacción
1 9 P def 1 def . 1111 2° Refacción
44
Estadística I
TAREA:
1. De los 300 estudiantes de una Universidad:
170 son de Contaduría, 70 son de Administración, 40 son de Comercio
y el resto son de Mercadotecnia.
En cada carrera hay alumnos que cuentan con beca:
50 de Administración, 30 de Contaduría, 10 de Comercio y 15 de
Mercadotecnia.
Determine la probabilidad de que al elegir un estudiante:
a) Sea de Comercio y tenga beca
b) Sea de Contabilidad o tenga beca
c) Sea de Administración o no tenga beca
d) No sea de Mercadotecnia o tenga beca
e) Sea de Comercio o no tenga beca
45