Estadistica
Estadistica
Estadistica
Facultad de Ingeniería
PRESENTACION
INTRODUCCION
Los temas aquí incluidos son de gran interés en el campo de la Ingeniería por
cuanto son de múltiple aplicación en el desarrollo de la carrera, los cuales son
presentados mediante una breve explicación del tema, desarrollados a través
de ejemplos y complementados con ejercicios prácticos.
1
Será función del estudiante profundizar, mediante la consulta de la bibliografía
aquí presentada o en la que tenga a su disposición, el contenido de los mismos
hasta lograr sus propios objetivos; para lo cual siempre tendrá el apoyo y
dirección del tutor además que podrá contar con el apoyo y experiencia de sus
compañeros virtuales.
JUSTIFICACION:
2
Con lo anterior es de esperar que el futuro ingeniero este en condiciones de
generar, transformar y estimar información para la toma de decisiones.
Para el estudio del presente módulo se han agrupado los temas que lo
componen en dos partes la primera corresponde a la estadística descriptiva en
la cual se estudiarán y analizaran temas como la definición y clasificación de
variables, gráficos y distribuciones de frecuencia, medidas de tendencia central
y medidas de dispersión. La segunda parte corresponde al estudio de las
probabilidades, en la cual se abordarán temas como espacios y eventos
muestrales, concepto e interpretación de la probabilidad de un evento,
probabilidad dependiente e independiente, esperanza matemática, variables
aleatorias adicionalmente, Distribuciones de probabilidad, metodologías y
distribuciones de muestreo, estimación de parámetros y prueba de hipótesis.
Cada uno de los temas aquí tratados fueron divididos en lecciones para que
mediante una breve explicación del tema y la presentación de algunos
ejercicios resueltos el estudiante pueda desarrollar los ejercicios propuestos,
apoyados el las lecturas complementarias. Cada lección y la correspondiente
unidad finaliza con una evaluación o retroalimentación del tema o temas
tratados.
IMPORTANCIA
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad
se entiende mejor si tenemos en cuenta que los quehaceres y decisiones
diarias embargan cierto grado de incertidumbre... y la Estadística ayuda en la
incertidumbre, trabaja con ella y nos orienta para tomar las decisiones con un
determinado grado de confianza.
3
uno de los más estruendosos fracasos, debido a los abusos en la toma de una
muestra:
Se trata del error cometido por la Literary Digest que, en sus pronósticos para
las elecciones presidenciales en EE.UU. para 1936, afirmó que Franklin D.
Roosvelt obtendría 161 votos electorales y Alfred Landon, 370. La realidad
mostró a Roosvelt con 523 votos y a Landon con 8 solamente. El error se debió
a que la muestra fue tomada telefónicamente a partir de la lista de suscriptores
de la Digest y, en 1936, las personas que se daban el lujo de tener teléfonos y
suscripciones a revistas no configuraban una muestra representativa de los
votantes de EE.UU. y, por ende, no podía hacerse un pronóstico confiable con
tan sesgada información.
OBJETIVO
HISTORIA
4
encargó un censo. La información obtenida con este censo, llevado a cabo en
1086, se recoge en el Domesday Book. El registro de nacimientos y
defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662
apareció el primer estudio estadístico notable de población, titulado
Observations on the London Bills of Mortality (Comentarios sobre las partidas
de defunción en Londres).
OBJETIVO
ESTADÍSTICA
5
Clasificación de la Estadística
Estadística Descriptiva
Distribución o no parametricas
Para cumplir con esas finalidades, la estadística utiliza el método científico que
aplica en su campo del saber. Este método consiste en un conjunto específico
y sistemático de pasos para observar, recolectar, describir numéricamente,
clasificar, tabular y analizar datos de un fenómeno bajo estudio, formulando
leyes que simplifiquen la descripción de un gran número de experiencias y
observaciones.
6
Al iniciar una investigación hay que definir exactamente el plan de trabajo y
reparar con detalle los aspectos de la investigación, para lo cual se debe tener
en cuenta las etapas de la planeación, las cuales incluyen:
Presupuesto de la investigación
7
Organización
Recolección
Crítica y Codificación
8
En el caso en que la característica bajo estudio sea un atributo, es necesario
codificar las respuestas obtenidas con el fin de facilitar la manipulación de la
información estadística obtenida en la investigación.
Clasificación
Tabulación
Análisis e interpretación
Finalidades de la estadística
Variables de medición
Introducción
9
La información recopilada en una investigación estadística, generalmente tiene
una estructura de datos categóricos, es decir basados en observaciones que
son clasificadas en categorías.
En algunos casos puede requerirse agrupar o clasificar una población por sexo,
edad, religión, peso o de acuerdo a su nacionalidad, en estos casos las
categorías estarán definidas por aspectos cualitativos.
Para entender un poco mejor el tipo de datos que se pueden analizar con los
métodos que veremos a lo largo de este curso, es importante que conocer las
variables de medición existentes. Esto es fundamental ya que el análisis de
datos categóricos esta enfocado básicamente a datos cualitativos, es decir, a
datos que se encuentran medidos en variables nominales y ordinales y como
se dijo anteriormente es también aplicable a datos cuantitativos, que utilizan
las variables de intervalo o de razón.
Mutuamente Excluyentes
Exhaustividad
10
República, se le incluirá en la categoría de "no sabe" o "no piensa votar"
dependiendo del caso.
Igualdad
8 Clasificación
CLASIFICACION
Variable Nominal
11
Variable Ordinal
Una categoría es mayor que la siguiente, esto es, que una categoría uno es
mayor que una categoría dos, y que una categoría dos es mayor que una
categoría tres, y así sucesivamente.
Sin embargo no puede decirse que una categoría codificada como uno es dos
veces más o mejor que una categoría codificada como dos, y así
sucesivamente. Solo se puede decir que la categoría uno es superior a la dos y
esta a su vez superior a la tres. Por ejemplo, en un concurso de belleza un juez
puede estar seguro de que una concursante que haya pasado a la final es más
bella que otra que no paso. No obstante, dicho juez seguramente no estaría
dispuesto a exponer un juicio cuantitativo del tipo: una concursante que paso a
la final es seis veces más bella que una que no paso. Lo que comúnmente se
hace en esta variable, es asignar números a las categorías de una variable
ordinal para distinguir el orden implícito; por ejemplo, al clasificar el ingreso
podría usarse el número uno para indicar bajo, el dos para medio y el tres para
alto.
Variable de Intervalo
Casi todas las técnicas estadísticas comunes son aplicables a datos medidos
en esta variable; las variables de tiempo calendario ofrecen un ejemplo de
variables de intervalo; las fechas de un calendario son transformables a las de
otro mediante una relación lineal; otro ejemplo del uso de esta variable lo
tenemos con la medición de la temperatura. Las puntuaciones en un cierto
12
examen y las calificaciones en uno de historia o de matemáticas también son
ejemplos de la variable de medición de intervalo.
13
notan con letras mayúsculas de nuestro alfabeto, generalmente las últimas (X,
Y, Z etc.).
Variable Discreta
Es aquella que sólo toma valores enteros. También podemos definirla como
aquella cuyo recorrido es finito o infinito numerable.
Variable continua
Es aquella que puede tomar tanto valores enteros como valores fraccionarios.
También se puede definir como aquella cuyo recorrido es infinito.
Ejemplo: Las ventas mensuales de una compañía durante los últimos doce
meses, medidas en millones de pesos.
Datos originales
14
Diciembre 4, 1997 7.64 4.87 19.42
15
Diciembre 25, 1997 7.73 3.01 19.12
Datos originales
DISTRIBUCIÓN DE FRECUENCIA
Objetivo
16
Ejemplo 1
EJEMPLO 1
Representaciones Gráficas
Diagrama de Barras
17
Diagrama de Pareto
5 Pictograma
El Pictograma
18
Ejemplo 2
19
EJEMPLO 2
20
Calcular la EDC:
c) .Diagrama de pareto.
Solución:
a.
EJEMPLO 2
b.
21
Diagrama de barras.
c.
Diagrama pareto
22
1 DISTRIBUCIONES DE FRECUENCIA ABSOLUTA ACUMULADA. -
Ejemplo 1
EJEMPLO 1
23
EJEMPLO 1 (continuación)
EJEMPLO 1
Solución:
FRECUENCIA
24
b.
fA(0)=15
FRECUENCIA ACUMULADA
c.
Histograma
25
Ejemplo 2
EJEMPLO 2
Si tomamos por ejemplo la clase 4 de la gráfica nos indica que entre la clase
1,2,3 incluida la 4 hay 30 familias.
26
Ejercicios
Ejemplo 1
EJEMPLO 1
Sumamos 7.500.000+5.006.000+3.290.000+635.000+1.800.000+450.000=
=18.681.000
27
.fr, f1=7.500.000/18.681.000=0.40
f2=5.006.000/18.681.000=0.27
f3=0.18
EJEMPLO 1
PICTOGRAMA
28
Ejemplo 2
EJEMPLO 2
Ejercicios
29
Ejemplo 1
EJEMPLO 1
Sumamos 7.500.000+5.006.000+3.290.000+635.000+1.800.000+450.000=
=18.681.000
fr, f1=7.500.000/18.681.000=0.40
f2=5.006.000/18.681.000=0.27
f3=0.18
fA(1)=0.40
EJEMPLO 1
30
Ejemplo 2
EJEMPLO 2
31
HISTOGRAMA
Ejercicios
RESUMEN
Este tipo de variables representan una cualidad o atributo que clasifica a cada
caso en una de varias categorías. La situación más sencilla es aquella en la
que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano,
fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en
muchas ocasiones este tipo de clasificación no es suficiente y se requiere de
un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión,
etcétera).
32
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es una forma de observar o medir en la que los datos
se ajustan por categorías que no mantienen una relación de orden entre sí
(color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo
o enfermedad, etcétera).
Ejemplo 1
33
EJEMPLO 1
34
Reglas Generales para Formar las Distribuciones de Frecuencias
Ejemplo 2
35
INTERVALO CLASES
RANGO DE CLASES:
a.
EJEMPLO 2
b.
36
Ejemplo 3
Hallar:
Respuestas:
a.100
37
b.89
c. (70+79)/2=74.5
d.
Ejercicios
1. Una moneda fue lanzada al aire 1.000 series, de 5 veces cada serie y se
observó el número de caras de cada serie.
38
a. Construya la tabla de distribución de frecuencias.
b. Construya el histograma correspondiente.
Ejemplo 1
En una clase de 50 alumnos, las notas obtenidas en una cierta asignatura son:
fA(0)=1
39
fA(8)= fA(7)+ fA(8)=42+4=46
EJEMPLO 1
Ejemplo 2
fA(60.0-69.6)=6
40
EJEMPLO 2
Ejemplo 3
41
EJEMPLO 3
EJEMPLO 3
Histograma
Ejercicios
42
2. El la siguiente tabla corresponde a las estaturas de ciertos estudiantes
de un colegio.
MUESTRA EJERCICIO 2
Ejemplo 1
43
Construya una tabla de frecuencias relativas para la distribución de
frecuencias que se presenta en la Tabla:
EJEMPLO 1
EJEMPLO 1
44
Ejemplo 2
EJEMPLO 2
Ejercicios
45
2.La siguiente tabla corresponde a las estaturas de ciertos estudiantes de un
colegio.
EJERCICIO 1
Ejemplo 1
EJEMPLO 1
46
Solución
EJEMPLO 1
Ejemplo 2
EJEMPLO 2
47
Ejercicios
EJERCICIO
48
Construya la tabla de distribución de frecuencias relativa acumulada.
RESUMEN
Objetivo
49
2 Media Aritmética
Ejemplo 1
5,10,25,30,35,40,90,110,130,200
Ejemplo 2
50
La discusión y él calculo hasta este punto han estado enfocados en la
identificación de la media, para grupos de observaciones individuales. Estas
medidas también pueden obtenerse de datos tabulados en una distribución de
frecuencias simples. Esto se realiza por lo común para facilitar al calculo de
estas medidas. Una distribución de frecuencias simples es aquella basada en
unidades "simples" de cualquier unidad de medida que sea usada.
DATOS AGRUPADOS
Ejemplo 3
NOTAS DE UN EXAMEN
51
Como se observa en la tabla, fi es el numero de estudiantes, y xi son las notas.
Sería más fácil calcular previamente, cuánto vale cada paréntesis. Por eso, en
la práctica, para calcular la media se crea en la tabla una nueva columna en la
que se escribe el producto xifi.
NOTAS DE UN EXAMEN
Para una distribución que se da con los datos agrupados, la media es:
52
Ejemplo 4
FRECUENCIAS E INTERVALOS
53
Ejercicios
ALUMNOS
TROZOS DE MADERA
EJEMPLO 5
54
x1=(118+126)/2=122
x2=(127+135)/2=131
Mediana
55
que la media, en aquellos grupos de datos que se inclinan en una dirección u
otra (que tienen uno o más valores extremos).
Ejemplo1
3, 4, 5, 5, 6, 6, 7, 8, 10,
Tras ordenar los valores obtenidos en las calificaciones, habrá uno de ellos que
esté en la mitad de la tabla
3,4,5,5 6, 6,7,8,10
la mediana será 6
Ejemplo 2
56
Ejemplo 3
7 / 2 = 3.5
22 / 2= 11.
57
Ejemplo 4
EJEMPLO 4
Acumulamos la Frecuencia fA
EJEMPLO 4
58
EJEMPLO 4
59
8 Ejemplo 5_1
Ejemplo 5
EJEMPLO 5
EJEMPLO 5
60
En este caso la clase que contiene la mediada es la que incluye el valor
400/2=200. La primera cuya frecuencia acumulada es igual o superior a 200 es
la clase que tiene los límites nominal 700-799; asi, la interpolación para
determinar el valor especifico de la mediana se realiza en esta clase.
Ejercicios
61
Moda
Ejemplo 1
Ejemplo 2
Hay 2 números que ocurren con igual frecuencia, entonces esta distribución
tiene 2 modas, el 4 y el 9.
62
LA MODA PARA DATOS AGRUPADOS
Ejemplo 3
EJEMPLO 3
Con referencia a los datos de la tabla la clase modal es la que tiene límites
nominales 145-153.
63
Ejemplo 4
EJEMPLO 4
64
6 Moda6
Ejercicios
39,46,57,65,70,72,72,75,77,79,81,81,84,84,84,87,93,94,97 y 97.
Calcular la moda.
EJERCICIOS
65
EJERCICIO
Construir el Histograma.
La Media Geométrica
Ejemplo 1
Ejemplo 2
66
LA MEDIA GEOMETRICA PARA DATOS AGRUPADOS
Ejemplo 3
EJEMPLO 3
67
EJEMPLO 3
Ejemplo 4
EJEMPLO 4
68
5 Media geo5
EJEMPLO 4
Ejercicios
69
2. Hallar la media geométrica de los números 3,5,8,3,7,2
EJERCICIOS
MEDIA ARMÓNICA
Ejemplo 1
70
Ejemplo 2
Ejemplo 3
EJEMPLO 3
71
Calculamos x1=(9.3+9.7)/2=9.5, x2=(9.8+10.2)/2=10,.......x8=(12.8+13.2)/2=13
EJEMPLO3
EJEMPLO 3
72
Ejemplo 4
EJEMPLO 4
X9=(1100+1199)/2=1149.50
73
EJEMPLO 4
EJEMPLO 4
74
Ejercicios
EJERCICIOS
75
EJERCICIOS
Ejemplo 1
76
Ejemplo 2
1000,1000,2500,2500,2500,3500,4000,5300,9000,12500,13500,24500,27500
30900 y 41000
77
CUARTILES,DECILES Y PERCENTILES AGRUPADOS
Ejemplo 1
EJEMPLO 1
78
Acumulamos la Frecuencia Fa así:
Continua..
En este caso la clase que contiene el tercer cuartil es la que incluye el valor
3(40)/4=30. La primera cuya frecuencia acumulada es igual o superior a 30 es
la clase que tiene los límites nominal 154-162; así, la interpolación para
determinar el valor especifico del tercer cuartil se realiza en esta clase.
79
En este caso la clase que contiene el 6 decil es la que incluye el valor
6(40)/10=24. La primera cuya frecuencia acumulada es igual o superior a 24 es
la clase que tiene los límites nominal 145-153; así, la interpolación para
determinar el valor específico del tercer cuartil se realiza en esta clase.
80
C. En este caso la clase que contiene el 40 percentil es la que incluye el
valor 40(40)/100=16. La primera cuya frecuencia acumulada es igual o
superior a 16 es la clase que tiene los límites nominal 136-144; así, la
interpolación para determinar el valor específico del tercer cuartil se
realiza en esta clase.
EJERCICIOS
81
240000,240000,240000,240000,240000,240000,240000,
240000,255000,255000,265000,265000,280000,280000
Calcular:
EJERCICIOS
RESUMEN
Una vez que se recogieron los valores que toman las variables de nuestros
módulos anteriores (datos), procedimos al análisis descriptivo de los mismos.
Para variables categóricas, como la estatura, el peso, salario etc se quiere
conocer el número de casos en cada una de las categorías, reflejando
habitualmente el porcentaje que representan del total, y expresándolo en una
tabla de frecuencias.
82
Para variables numéricas, en las que puede haber un gran número de valores
observados distintos, se ha de optar por un método de análisis distinto,
respondiendo a la siguiente pregunta:
MEDIDAS DE DISPERSION
Objetivos
83
Una medida razonable de la variabilidad podría ser la amplitud o rango, que se
obtiene restando el valor más bajo de un conjunto de observaciones del valor
más alto. Es fácil de calcular y sus unidades son las mismas que las de la
variable, aunque posee varios inconvenientes:
No utiliza todas las observaciones (sólo dos de ellas); Se puede ver muy
afectada por alguna observación extrema; El rango aumenta con el número de
observaciones, o bien se queda igual. En cualquier caso nunca disminuye.
Ejemplo 1
El rango R=10
Ejemplo 2
Los datos de unos vendedores de aparatos electrónicos son: 5, 8, 8, 11, 11, 14,
16. Calcular el rango (R) al 50%.
84
El RANGO Y LOS RANGOS MODIFICADOS PARA DATOS AGRUPADOS
Para datos agrupados en una distribución de frecuencias, por lo general se
define el rango como la diferencia entre el límite exacto superior de la clase
más alta, y el límite exacto inferior de la clase más baja.
95*90.44/100=85.92
85
10*90.44/100=9.044
Ejemplo 4
86
En el cuadro de salarios calcular: a) EL rango b) El rango Central del 50%
Tenemos que:
R=119-50=69
b) 75*65/100=48.75
25*65/100=23.75
87
Ejercicios
88
LA DESVIACIÓN MEDIA
Ejemplo 1
Ejemplo 2
89
$1.000, 1.000, 2.500,2.500, 3.500,4.000, 5.300 9.000, 12.500, 13.500, 24.500,
27.500, 30.900, 41.000.
LA VARIANZA
90
DESVIACIÓN ESTÁNDAR O TÍPICA
A veces, la desviación típica de los datos de una muestra viene definida con
(N-1) en lugar de N en los denominadores de la expresión, porque el valor
resultante representa un estimador mejor de la desviación típica de una
población de la que se ha tomado una muestra. Para valores grandes de N
(por ejemplo N>30), prácticamente no hay diferencia entre las dos definiciones.
Ejemplo 1.
91
Ejemplo 2.
92
Ejemplo 3
Ejemplo 4
93
LA VARIANZA Y LA DESVIACION ESTANDAR DATOS AGRUPADOS
Ejemplo 5
94
EJEMPLO 5
fixi=f1x1=5*61=305...................f5x5=584
EJEMPLO 5
9 Ejemplo5_2
Calculamos
EJEMPLO 5
95
Ejemplo 6
EJEMPLO 6
96
EJEMPLO 6
11 Ejemplo6_2
97
EJEMPLO 6
Ejercicios
98
EJERCICIOS
EJERCICIOS
El COEFICIENTE DE VARIACION
Ejemplo 1
99
Supongamos que en un cierto grupo el promedio de las edades es de 26 años,
con una desviación estándar de 3; y en otro, el promedio es de 38 años, con
una desviación estándar de 5.
Ejemplo 2
COEFICIENTE DE ASIMETRIA
100
Para una distribución simétrica, el valor del coeficiente de asimetría es siempre
0, porque la media y la mediana son iguales. Para una distribución con
asimetría positiva, la media es siempre mayor que la mediana y, por ello, el
valor del coeficiente es positivo. Para una distribución con asimetría negativa,
la media es siempre menor que la mediana y, por ello, el valor del coeficiente
es negativo.
Ejemplo 3
EJEMPLO 3
101
4 coef3
EJEMPLO 3
Si tomamos N-1
102
EJEMPLO 3
EJERCICIOS
103
Esta medida mide el mayor o menor apuntamiento central de una distribución
con respecto a la distribución normal, que es campaniforme (forma de
campana) y simétrica. Es decir, la curtosis o asimetría es una medida
estadística necesaria para conocer en cuánto se parece una distribución a la
distribución llamada " curva normal " y constituye un indicador del lado de la
curva donde se agrupan las frecuencias.
Ejemplo 1
EJEMPLO1
104
EJEMPLO 1
105
Ejemplo 2
106
EJEMPLO 2
EJEMPLO 2
107
Ejercicios
108
RESUMEN
Medidas de dispersión
109
Son índices que describen la variabilidad o dispersión y por
tanto cuando los datos están muy alejados de la media, el
numerador de sus fórmulas será grande y la varianza y la
desviación típica lo serán.
Al aumentar el tamaño de la muestra, disminuye la
varianza y la desviación típica. Para reducir a la mitad la
desviación típica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribución son iguales, la
varianza y la desviación típica son iguales a 0.
Para su cálculo utilizaremos todos los datos de la
distribución; por tanto, cualquier cambio de valor será
detectado.
Otra medida que se utilizaremos es el coeficiente de
variación. Es una medida de dispersión relativa de los
datos y se calcula dividiendo la desviación típica muestral
por la media y multiplicando el cociente por 100. Su utilidad
estriba en que nos permite comparar la dispersión o
variabilidad de dos o más grupos.
Cuando los datos se distribuyen de forma simétrica (y ya
hemos dicho que esto ocurre cuando los valores de su
media y mediana están próximos), se usan para describir
esa variable su media y desviación típica. En el caso de
distribuciones asimétricas, la mediana y la amplitud son
medidas más adecuadas. En este caso, se suelen utilizar
además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia
central sino medidas de posición. El percentil es el valor
de la variable que indica el porcentaje de una distribución
que es igual o menor a esa cifra.
110