Módulo 2 (MABESA)
Módulo 2 (MABESA)
Módulo 2 (MABESA)
Dirigido a:
Módulo 2:
Aplicación de Estadísticas Básicas
Temas
Población:
Colección de individuos u objetos, de la cual existe el interés de conocer
alguna o algunas características. En el caso de producción, la
población en estudio, es el proceso de manufactura a analizar.
Muestra:
Un subconjunto de la población.
Muestra Aleatoria:
Cuando una muestra es seleccionada de tal modo que todos los
elementos (de la población) tienen la misma posibilidad de ser
seleccionados.
Población
Con la información
obtenida y una
Características de una Población: metodología adecuada
media, varianza, proporción, se estima o se infiere
diferencia de medias, diferencia la característica
de proporciones, cociente de poblacional de interés.
varianzas, etc.
Es importante recordar que al realizar inferencias (estimaciones)
sobre algún parámetro determinado de una población, por
medio de la información de una muestra, se pueden cometer
dos tipos de errores:
Errores Muestrales.
Errores no Muestrales.
Recomendación:
Observación:
0.3 0.3
Densidad
Densidad
0.2 0.2
0.1 0.1
0.0 0.0
7 8 9 10 11 12 5.5 6.6 7.7 8.8 9.9 11.0 12.1 13.2
100 datos 10000 datos
Problema:
POBLACIÓN
Media µ
Una muestra
Una Media Muestral
Otra muestra
Otra Media Muestral
Los valores particulares de la variable de interés (1250 datos) y las 50 medias
muestrales, se encuentran en el archivo de MINITAB : resistencias.MPJ.
A continuación se presentan:
Cualquier inferencia
0.2 Sobre la media
Poblacional, como
Distribución
0.1
intervalos de confianza,
pruebas de Hipótesis,
es usada la distribución
0.0
muestral de la media
65 75 85 95 105 115 125 135
Promedios muestral.
muestrales
Observaciones:
x
x x x x x
x
x x xx
x x x
x x x x
x x
x x x
x
x x x
x x
x x
x x
x
Los límites del intervalo son construidos con la información de la muestra y con
el conocimiento de la distribución del estimador puntual. Con los intervalos
existe la posibilidad de concluir y por lo tanto tomar decisiones.
Pruebas de Hipótesis:
0.3
0.2
0.1
0.0
Muestras pequeñas
Muestras grandes
Muestras Pequeñas
Cuando los datos (muestra aleatoria) provienen de una población normal, las
distribuciones más importantes que son usadas como distribuciones
muestrales son:
- Normal
Usada para realizar inferencia estadística para la media o
comparación de 2 medias.
- t-student
Usada para realizar inferencia para la media, diferencia de 2
medias, análisis de regresión, diseño de experimentos.
- Ji-Cuadrada
Usada para realizar inferencia para la varianza o desviación
estándar. También para comparar varias proporciones
- F
Usada para comparar varianzas, para análisis de varianza, análisis
de regresión, diseño de experimentos.
es aproximadamente NORMAL.
10 %
Acepta Ho Rechazar Ho
Ho verdadera 1-α α
Ho falsa β 1- β
Lo ideal es trabajar las P.H. con α y β “pequeños”. Con pequeñas
posibilidades de cometer los errores.
Observación:
Aclaraciones:
Aclaración:
Los paquetes estadísticos tratan ampliamente con P.H. y por lo tanto con el
cálculo del valor p.
Observación:
Entre más “grande” en valor absoluto es el estadístico de prueba, más
“pequeño” es el valor P y viceversa.
Pruebas de hipótesis
H0 : μ 500 Valor P
Ha : μ 500
Estadístico de Prueba
Problema:
Estadística de prueba
x7 Si t es “grande” apoyará Ha,
t n Si t es “pequeño” (cercano a 0)
S no apoyará Ha
Valor p
-6 -4 -2 0 2 4 6 Probabiliad de equivo-
carme al aceptar Ha
t
En este problema, la hipótesis a probar Ha, fue del tipo:
“promedio mayor que determinado valor”. En lugar de
mayor que, se puede usar, si así se requiere, …menor
que… o …diferente que….
Aclaración:
Caso 1)
La muestra deberá de ser aleatoria
La muestra puede provenir de cualquier población (distribución).
El tamaño de la muestra deberá de ser “suficientemente grande”. (No menos
de 30 datos).
La distribución muestral que se usa es la Normal.
En este caso, un I.C. y a la vez una P.H para la media, por medio de MINITAB, se
puede hacer por medio de dos caminos:
-Stat > Basic Statistics > 1-Sample Z
-Stat > Basic Statistics > 1-Sample t
Caso 2)
La muestra deberá de ser aleatoria.
La muestra deberá de provenir de una distribución Normal.
El tamaño de la muestra puede ser de cualquier tamaño.
La distribución muestral que se usa es la distribución t-Student.
En este caso, un I.C y a la vez una P.H. para la media, por medio de MINITAB se
pueden construir de la siguiente manera:
-Stat > Basic Statistics > 1-Sample t
Aclaración:
Con la finalidad de entender mejor los conceptos de I.C. y P.H., solo para el caso,
del promedio real y proporción real se mostrarán las fórmulas. Para los demás
parámetros, se pueden consultar en algún libro de estadística o en MINITAB.
La fórmula del intervalo de confianza para un promedio real, para el segundo caso
es, con una confianza del (1-α) x 100 % es
( n 1) S ( n 1) S
x t ( ) , x t ( )
2 n 2 n
( n 1)
Donde t (
2es buscado en tablas de la distribución t-student con n-1 grados de
)
0.2
0.1
0.0
1-α
de confianza
Límite Inferior Límite superior
de confianza de confianza
En el caso de pruebas de hipótesis para un promedio, existen tres
posibilidades de plantear las hipótesis:
x 0
n
S
Para calcular el valor p, en el primer caso se usa la distribución normal y
para el segundo caso, la distribución t- student con n-1 grados de libertad.
I.C. y P.H. para una proporción
La variable involucrada es cualitativa o por atributos, sus valores son solo dos:
“éxito” o “fracaso”.
Cabe señalar que la muestra aleatoria son datos de unos (éxitos) y ceros
(fracasos). Esto es, cada dato es:
-1 si es “éxito” (rechazado)
- 0 si es “fracaso” (aceptado)
Cuando la muestra aleatoria es suficientemente “grande” (no menor que 30), por el
Teorema de Límite Central (el teorema más importante de la estadística), se
puede construir un I.C para la proporción real, usando la distribución normal,
con una confianza del (1-α) x 100 %. La fórmula del intervalo es:
Variabilidad
De la
pˆ (1 pˆ ) pˆ (1 pˆ )
pˆ ( )
z z
, pˆ ( ) Proporción
n n
2 2
muestral
ˆ p0
p
ˆ (1 p
p ˆ)
n
Por ejemplo, nos puede interesar comparar dos procesos de producción diferentes (como
diferentes máquinas o diferentes turnos o diferentes materias primas, etc.).
La construcción de I.C. y/o P.H. para la diferencia de dos medias se divide en:
Caso 1)
Cada muestra (son dos) deberá de ser aleatoria.
Las muestras se deberán de obtener en forma independiente.
Cada muestra deberá de provenir de una distribución normal.
Las varianzas de ambas poblaciones o producciones deberán de ser
iguales.
La distribución muestral que se usa es la t-student.
Para realizar la inferencia estadística sobre la diferencia de medias, por medio de
este camino, es importante verificar la normalidad de cada muestra y por otro
lado comprobación de que las varianzas no son diferentes.
Más adelante se verán algunas pruebas para comprobar que los datos provienen
de una distribución normal, así como también algunas pruebas para comprobar
igualdad de varianzas.
Caso 2:
Cada muestra deberá de ser aleatoria.
Entre las dos muestras deberá de existir independencia.
Cada muestra deberá de provenir de una distribución normal
La varianzas pueden ser diferentes.
Observación:
MINITAB considera los dos casos: Stat > basic statistics > 2-Sample t.
Comparación de dos proporciones
Por ejemplo, puede ser de interés, si dos máquinas o dos turnos diferentes
están produciendo los mismos porcentajes de artículos rechazados. Si dos
marcas diferentes de un mismo producto están produciendo al mismo nivel,
en cuanto a artículos defectuosos.
Para realizar una inferencia (I.C. y/o P.H.) sobre la diferencia de proporciones,
es importante tener dos muestras aleatorias independientes entre si (cada
muestra de una población o proceso diferente). Donde cada dato es 1 (si es
“éxito”) o cero (si es “fracaso”). Se sugiere que rl tamaño de cada muestra
deberá ser no menor a 30.
La distribución muestral utilizada para la inferencia de la diferencia de
dos proporciones es, en forma aproximada la distribución normal,
es una vez más una aplicación del Teorema del Límite Central.
Cabe señalar, que entre más grande sean los tamaños de cada
muestra, mejor será la aproximación a la normal.
Por otro lado, cuando se quiere realizar una comparación entre más de
dos proporciones a la vez, por ejemplo, más de dos máquinas, más
de dos turnos o más de dos marcas, la comparación se realizará
por medio de otra prueba diferente, la cual se analizará más
adelante (inferencia estadística para variables por atributos).
Un cociente de dos números puede tener tres opciones: igual a uno y entonces
los dos números son iguales; mayor que uno y entonces el numerador es
mayor que el denominador; menor que uno y entonces el numerador es
menor que el denominador.
Para realizar inferencia estadística para el cociente de dos varianzas
es necesario que se cumplan la siguientes condiciones:
Puede verse como una muestra en pares (“antes” y “después”). Como son los
mismos trabajadores para ambas muestras, entonces ambos grupos de
datos son dependientes.
1) Histograma.
2) Papel probabilidad Normal.
3) Pruebas de Hipótesis.
Problema 1:
40
Data
35
30
25
estándar nuevo
Una primera impresión nos indica que el nuevo método es mejor, ya que en
la gráfica de cajas, se nota la segunda caja más baja que la primera.
Percent
columna: nuevo. 60
50
40
30
pruebas de normalidad se 10
5
muestran a la derecha.
1
25 30 35 40 45 50
estándar
Interpretación:
Probability Plot of nuevo
Normal
En ambos casos los puntos siguen la 99
Mean 31.56
60
los datos. 10
5
1
20 25 30 35 40 45
nuevo
El siguiente paso es realizar la P.H. para verificar si las varianzas son iguales o
no.
Por MINITAB:
En ambas pruebas el valor p es más grande que 0.1, por lo que no se rechaza
que ambas varianzas son iguales.
Hasta el momento, se han cumplido todos los supuestos para realizar la
inferencia estadística sobre la diferencia de medias.
Por MINITAB:
-0.21429 0
µ1 - µ2
• Test of mu = 40 vs < 40
• 95%
• Upper
• Variable N Mean StDev SE Mean Bound T P
• nuevo 9 31.5556 4.4752 1.4917 34.3295 -5.66 0.000
34.3295 40
Intervalo de confianza
Para el Promedio real
Abrir MINITAB
Stat > Basic Statistics > 1 Proportion
Seleccionar en Summarized data, en Number of trials: 500 y en Number of events: 36.
En options en Test escribir 0.1 y en Alternative seleccionar: less than
Hacer click en Use test and interval…
Ok > ok
Los resultados se dan a continuación:
9.1% 10%
Intervalo para p
3000
2500
2000
C3
1500
1000
500
10
5
1
-1000 0 1000 2000 3000 4000
C3
En este caso las hipótesis que se plantearon fueron: Ho: el promedio de las
diferencias es =0 contra Ha: el promedio de las diferencias es diferente a cero.
Con un valor p muy cercano a cero, nos indica que si existe diferencia en el
rendimiento promedio entre los dos tipos de llanta. Y según el intervalo para el
promedio de diferencia, este promedio resultó ser mayor que cero, véase el
diagrama de abajo. Por lo tanto , en promedio, tiene un mejor rendimiento la
llanta de la marca 1 que la llanta de la marca 2.
Intervalo
Para el
Promedio
2359.24 De diferencias
0 512.51
Problema 5:
-0.01 0
Comparación de varias medias
El objetivo es verificar si entre varios promedios (más de dos) existe alguna
diferencia, o estadísticamente no son diferentes. Cada promedio de una
población o proceso diferente.
60
50
40
30
20
10
5
1
-300 -200 -100 0 100 200 300
RESI1
Variables ordinales. Toman varios valores, pero entre ellos existe una
jerarquía: “malo”, “regular”, “bueno”, “excelente”.
La metodología para proporciones, solo sirve para variables binarias.
En este parte se tratarán pruebas de hipótesis, para verificar si dos
variables por atributos son independientes o de alguna manera
están relacionadas.
Problema:
Abrir MINITAB
File > Open project
Seleccionar el archivo tipodedefecto.MPJ
Stat > Tables > Cross tabulation and Chi-Square
Seleccionar en For rows: Tipo de defecto
Seleccionar en For columns: Turno
Seleccionar en Frecuencies are in: Número de cápsulas
En Display seleccionar: counts
En Chi-Square sleccionar: Chi-Square Analysis y Expected cells counts
Ok>ok
Lo que se espera
Los resultados se dan a continuación: en cada casilla
si entre las dos
• Tabulated statistics: Tipo de Defecto, Turno variables existiera
• Using frequencies in Número de cápsulas
•
independencia
Rows: Tipo de Defecto Columns: Turno
• TURNO 1 TURNO 2 TURNO 3 All
200
Número de cápsulas
100
0
TURNO 3
300
200
100
0
GRAVE MEDIANO NO GRAVE
Tipo de Defecto
Panel variable: Turno
Y = a + bX + є
20
y6
y
10
15
10
0
0 10 20 0 10 20
x x6
Lineal Polinomial
175
150 Valor de un
125 residual
100
75
50
Problema:
Para darnos una idea si entre ambas variables existe una relación se
realizará primero un diagrama de dispersión:
600
500
Consumo
400
300
200
20 30 40 50 60 70
Temperatura
Mostrándose una relación fuerte entre ambas variables. Por lo tanto, realizaremos el
análisis de regresión completo:
• Analysis of Variance
• Source DF SS MS F P
• Regression 1 272350 272350 944.45 0.000
• Error 10 2884 288
• Total 11 275234
En este caso el valor p, es igual a cero, lo cual nos indica que la pendiente es
diferente de cero. En palabras del problema, significa que es evidente que
por cada cambio que se tiene en al temperatura ambiental, se tendrá un
cambio en el consumo de vapor, en la planta. En este caso, se estima que,
por cada unidad de temperatura que se aumente, 9.373 libras aumentará el
consumo de vapor.
La gráfica de los puntos observados con la línea ajustada resultó ser:
Fitted Line Plot
Consumo = - 4.78 + 9.373 Temperatura
700 S 16.9815
R-Sq 99.0%
R-Sq(adj) 98.8%
600
500
Consumo
400
300
200
20 30 40 50 60 70
Temperatura
Residual
Percent
50 0
-10
10
-20
1
-40 -20 0 20 40 200 300 400 500 600
Residual Fit t ed Value
3 10
Frequency
Residual
2 0
-10
1
-20
0
-20 -10 0 10 20 1 2 3 4 5 6 7 8 9 10 11 12
Residual Observat ion Order