ESTADISTICA para Los Negocios (1a. Parte) 2
ESTADISTICA para Los Negocios (1a. Parte) 2
ESTADISTICA para Los Negocios (1a. Parte) 2
Actualmente el entorno global de los negocios y la economía nos lleva a hacer uso de una gran
cantidad de información estadística. Por ejemplo:
En Contabilidad, las firmas contables utilizan procedimientos de muestreo estadístico
cuando realizan auditorías para sus clientes.
en Finanzas, los analistas utilizan una variedad de información estadística como guía
para recomendación de inversión.
En Mercadotecnia, los escáneres electrónicos en las cajas de cobro de los
establecimientos recolectan datos para investigación de mercados.
En Producción, una variedad de gráficas estadísticas de control de calidad se usan para
monitorear el resultado de un proceso de producción haciendo énfasis en la calidad de
los productos manufacturados y los servicios prestados..
En Economía, los economistas a menudo proporcionan pronósticos acerca del futuro de
la economía. Por ejemplo, para pronosticar las tasas de inflación recurren a información
estadística sobre indicadores como el índice de precios al consumidor, la tasa de
desempleo y el uso de la capacidad de manufactura.
El método estadístico es una secuencia de actividades que abarca la ciencia Estadística. Estas
actividades son: Recopilación de datos, Organización, Presentación, Análisis, Muestreo,
Estimación de parámetros, Prueba de hipótesis, Interpretación, Toma de decisiones.
1
Las observaciones deben incluir a todos los grupos relevantes y representados en los datos.
Además los datos deben ser:
Confiables
No tendenciosas sus fuentes
No apoyar ni contradecir alguna tendencia
Lógicas las conclusiones a la que lleven.
Datos brutos.-(o Iniciales) Son los datos tal y como se tomaron y antes de ser organizados y/o
analizados.
La recolección de datos requiere una de las escalas de medición siguiente: nominal, ordinal, de
intervalo o de razón. La escala de medición determina la cantidad de información contenida en
los datos e indica la manera más apropiada de resumirlos y analizarlos estadísticamente.
Nominal.- Cuando los datos de una variable se componen de etiquetas o nombres para
identificar un atributo del elemento. Ejemp.: Color de ojos
Ordinal.- Si los datos exhiben las propiedades de los datos nominales y su orden o
clasificación es significativo. Ejemp.: Conducta: Excelente, Buena, Regular y Mala.
Escala de Intervalo.- Cuando los datos presentan todas las propiedades de los datos
ordinales y el intervalo entre los valores se expresa en términos de una unidad de medida
fija. Los datos de intervalo son siempre numéricos. Ejemp.: Edades (en años) de los
asistentes a un concierto.
Escala de razón.- Cuando los datos presentan todas las propiedades de los datos
ordinales y la razón de dos valores es significativa. Ejemp: estatura o peso.
Los datos categóricos se resumen mediante el conteo del número de observaciones en cada
categoría o por medio del cálculo de la proporción de las observaciones en cada categoría. Sin
embargo para los datos cuantitativos, los cálculos matemáticos si proporcionan resultados
significativos. A su vez, los datos cuantitativos pueden ser: Discretos o Continuos.
Datos discretos.-Son aquellos que pueden asumir un número limitado de valores enteros.
Datos continuos.- Son aquellos que pueden tomar una medida incluso fraccionaria .
Muestra.- Es una colección de algunos de los elementos que componen una población.
Población.- Es una colección de todos los elementos que estamos estudiando y acerca de los
cuales intentamos extraer conclusiones.
Parámetro.- Es una medida que se calcula para describir una característica de una población
completa.
Estadístico.- Es una medida que se calcula para describir una característica de una muestra
representativa de una población.
2
valores máximo y mínimo, tendencia, en torno a que dato se agrupan, valores que aparecen
con mayor frecuencia, etc.
Las estadísticas extraen datos de las muestras y la información obtenida de estos datos sirve
para hacer inferencias sobre la población que la muestra representa.
Existen dos métodos para seleccionar las muestras de poblaciones: el muestreo no aleatorio
o de juicio y el muestreo aleatorio o probabilístico.
Muestreo de Juicio.- En éste se usan el conocimiento y la opinión personal para identificar los
elementos de la población que van a incluirse en la muestra. En ocasiones sirve de base para
decidir como seleccionar después una muestra aleatoria.
Muestreo aleatorio.- En este tipo de muestreo, todos los elementos de la población tienen
probabilidad de figurar en la muestra.
Sin embargo, cualquiera que sea el método lo importante es seleccionar una muestra
verdaderamente representativa de la población, es decir minimizar el Error de muestreo
Aunque muchas veces desconocemos la media poblacional hay que ser consciente de que este
error existe.
El error de muestreo se da ya sea por el azar o por tomar una muestra sesgada, es decir
tendenciosa, por lo que se recomienda garantizar que la recolección de los datos de la muestra
sigan un método que haya probado su capacidad para minimizar dicho error. Existen cuatro
métodos de muestreo aleatorio:
Muestreo Aleatorio Simple.- Con este método se garantiza que cualquier muestra de algún
tamaño dado tenga la misma probabilidad de ser seleccionada y cada elemento de la población
tenga la misma probabilidad de quedar incluida en la muestra. Para hacer este tipo de muestreo
nos podemos ayudar de una tabla de números aleatorios, generada por computadora.
Muestreo Sistemático.- Una muestra sistemática se forma tomando cada i-ésimo ítem de una
población, es decir, en un intervalo uniforme en el tiempo, en el orden o en el espacio. La
diferencia con el muestreo aleatorio simple es que aquí, aunque también cada elemento tiene
igual probabilidad de ser seleccionado, cada muestra no tiene esa misma probabilidad. Para
hacer un muestreo sistemático es necesario que la población se ordene o numere en forma
aleatoria y determinar aleatoriamente también el valor inicial. Por ejemplo, si tenemos 1000
elementos de una población podemos formar una muestra con cada (i=10) décimo elemento de
3
la población. Este tipo de muestreo no es apropiado si la población muestra algún tipo de patrón
en el ordenamiento de la población.
Muestreo Estratificado.- Con este método una muestra se forma dividiendo a la población en
grupos homogéneos llamados estratos. Después se recurre a alguno de los dos siguientes
métodos:
- Se selecciona al azar en cada estrato un número especificado de elementos
correspondiente a la proporción del estrato en la población total.
- Se selecciona un número igual de elementos en cada estrato y damos un peso a los
resultados de acuerdo con la proporción del estrato en la población total.
Con cualquiera de los métodos, el muestreo estratificado garantiza que todos los elementos de
la población tengan posibilidad de ser seleccionados. Este tipo de muestreo es adecuado
cuando la población ya está dividida en grupos de diferentes tamaños y reconocemos ese
hecho.
Muestreo por Conglomerados.- Para este tipo de muestreo, también la población total se divide
en grupos o conglomerados y luego se selecciona una muestra aleatoria de ellos, es decir,
todos los elementos de los conglomerados seleccionados forman parte de la muestra.
Como se puede observar tanto en el muestreo estratificado como en el muestreo por
conglomerados, la población se divide, o ya está dividida, en grupos bien definidos. Usamos el
estratificado cuando cada grupo presenta una pequeña variación en su interior, pero existe una
amplia variación entre los grupos. Usamos el muestreo por conglomerados cuando se advierte
considerable variación en el interior de cada grupo pero los grupos son semejantes entre sí.
Los datos obtenidos deben ser clasificados o simplemente ordenados con la finalidad de
permitirnos ver más rápidamente todas las características posibles.
Un arreglo de datos permite ver algunas de las características descriptivas del conjunto de datos
que con los datos brutos no es fácil apreciar. Una forma de sintetizar los datos consiste en
valerse de una tabla que muestra la distribución de la frecuencia de los mismos. En estas tablas
llamadas de “distribución de frecuencia” se sacrifican algunos detalles pero en cambio nos
ofrece nuevas perspectivas del comportamiento de los datos.
La distribución de frecuencia es una tabla que organiza los datos en “clases”, es decir, en
grupos de valores que describen una característica común de los datos. La distribución de
frecuencia muestra el número de observaciones provenientes del conjunto de datos que caen
dentro de cada una de las clases.
También podemos expresar la frecuencia de cada valor como una fracción o porcentaje del
número total de observaciones en cuyo caso se conoce como frecuencia relativa.
4
Exhaustivas.- Es decir, cualquier dato debe caer en al menos una clase. Es decir, las clases
deben abarcar todas las posibilidades.
Se llama clase “abierta” cuando alguno de sus extremos (superior o inferior) es ilimitado o bien
no está definido. Además las clases pueden ser: Cuantitativas o Cualitativas, según el tipo de
dato que contenga.
Las gráficas de distribución de frecuencia y distribución de frecuencia relativa son útiles porque
ponen de relieve y aclaran las tendencias que no son perceptibles en las tablas. Para datos
cualitativos, las más usadas son las gráficas de barra (Histogramas) y las gráficas circulares.
Sin embargo existen otras como: Polígono de frecuencia, Grafica de línea, Pictograma y Ojivas.
Cuando lo que necesitamos es un análisis exploratorio de datos usamos los diagramas de Tallo
y Hoja.
Siguiendo el proceso estadístico, después de recopilar, organizar y presentar los datos, el paso
siguiente es el análisis de los mismos. Para hacer este análisis es necesario calcular algunas
medidas que nos muestren el comportamiento de los datos. Estas medidas se llaman
Estadísticos y son números que describen algunas características representativas de un
conjunto de datos. Cuatro de estas características son:
Medidas de Tendencia Central.- Nos indican el punto medio (o típico) de los datos, que cabe
esperar. También reciben el nombre de medidas de localización.
Ejemplo:
5
Medidas de Dispersión.- Esta medida se refiere al esparcimiento de los datos, o sea, al grado
de dispersión de las observaciones. Las curvas siguientes tienen igual media pero diferente
dispersión.
Medidas de Sesgo.- Las curvas de frecuencia que representan a los datos pueden ser:
Simétricas o Asimétricas ( es decir, Sesgadas).
Las curvas simétricas son tales que una línea vertical trazada desde la cumbre de la curva al
eje horizontal divide el área bajo la curva en dos partes iguales. Ejemplo:
Nota: Obsérvese que existe una relación _________________ entre las medidas de
desviación y las medidas de curtosis.
6
Medidas de Tendencia Central.
Media Aritmética.- Se define como la suma de los valores observados entre el No. de
observaciones. Para definirla algebraicamente, consideramos los siguientes símbolos
convencionales:
Hay que hacer notar que así como la media aritmética de una muestra ( x ) es una
estimación de la media aritmética de la población (), la media aritmética calculada con los
datos agrupados estima el valor de la media aritmética de los datos sueltos.
Ejemplo: Si para aprobar un curso un alumno debe aprobar 3 exámenes parciales, una tarea
por computadora y una investigación, donde cada uno de ellos vale el 20%, 15%,15%, 20% y
30% respec., y obtiene 90,100,87,40 y 70 en cada uno, ¿Qué calificación obtuvo? ¿Aprobó?
Mg = n (x1 * x2 * x3 * ......xn )
7
Si se calcula la media aritmética de los factores de crecimiento de cada año, sería:
x =
Si utilizo esta medida como representativa de todos los años, al ser aplicada a mi inversión
inicial tendría al final de 5 años:
100 ( x )5 =
En cambio si calcula la media geométrica de los factores de crecimiento, sería:
Mg =
Que al ser aplicada a mi inversión inicial, al final de 5 años tendría:
100 (Mg ) 5 =
Con esto se demuestra que la M.G. es la mejor estimación de la realidad en este caso.
Mediana.- Mide el elemento central de los datos, es decir, la mitad de los elementos se
encuentran por arriba de este punto y la otra mitad cae debajo de él. Se define así,
Para datos sueltos:
n 1
2 F 1
m = Lm + *w
fm
Donde F – Suma de las frecuencias hasta la clase inmediata anterior a la clase que contiene
a la mediana.
fm – Frecuencia de la clase que contiene a la mediana.
W – Ancho de cada clase.
Lm – Límite inferior de la clase que contiene a la mediana.
Moda.- Es el valor que más se repite de un conjunto de datos. La moda NO nos indica como
se comporta la mayoría de los datos, sino sólo cuál se repite más. La clase con el mayor No.
de observaciones se conoce como la Clase Modal y generalmente es más representativa de
los datos que la moda misma. Se define así,
Para datos sueltos:
8
Para datos agrupados en clases:
d1
Mo = L Mo + * w
d1 d 2
|__________|__________|__________|__________|
Valor mas chico Q1 Q2 Q3 Valor mas grande
Análogamente los valores que dividen al conjunto de datos en 10 partes iguales se llaman
Deciles y se denotan D1,D2,....D9 y los que los dividen en 100 partes iguales se llaman
Percentiles y se denotan P1,P2,....P99.
Nótese que:
Medidas de Dispersión.
Las medidas de tendencia central nos informan sobre parte de las características de los datos,
pero es necesario que tengamos información que nos permita juzgar la confiabilidad de estas
medidas. Esta información nos la proporcionan las medidas de dispersión o variabilidad.
Además estas medidas nos permiten comparar las dispersiones de varias muestras y de
acuerdo a nuestra conveniencia tomar la distribución que mejor convenga. Existen tres tipos de
medidas de dispersión:
9
Medidas de Distancia.- La dispersión puede medirse en términos de la diferencia existente
entre dos valores seleccionados del conjunto de datos. Algunas de estas medidas son:
Intervalo.- Es la diferencia entre el valor más alto y el más bajo del conjunto de datos. También
conocida como Rango. Es fácil de entender y calcular pero es escasa su utilidad como
medida de dispersión, pues solamente incluye los valores máximo y mínimo de una distribución
sin tomar en cuenta ninguno de los datos restantes. Como solo mide dos valores, cambia
drásticamente de una muestra a otra, aun cuando los valores intermedios sean similares. Las
distribuciones abiertas no tienen Intervalo ya que no existe un valor máximo o mínimo.
Intervalo de Interfractil.- Es una medida de la dispersión entre dos valores del fractil. Un
ejemplo de esta medida es:
Intervalo de Intercuartil = Q3 – Q1
|__________|__________|__________|__________|
Valor mas chico Q1 Q2 Q3 Valor mas grande
10
Medidas de Desviación Promedio.- Las medidas que describen mejor la dispersión son
aquellas que ser refieren a la desviación promedio respecto a alguna medida de tendencia
central. Dos de esas medidas son: la varianza y la desviación estándar. Ambas nos indican una
distancia promedio de cualquier observación del conjunto de datos a la media de la distribución.
Para comprenderlas mejor utilizaremos una medida auxiliar:
D.A.P. = x – x
n
Varianza (o Variancia).- Se parece a la desviación absoluta promedio, sólo que aquí utilizamos
la suma de los cuadrados de las distancias entre la media y cada elemento en lugar del valor
absoluto. Al elevar al cuadrado cada distancia, automáticamente la hacemos positiva. Se define
de la siguiente manera:
x x x
2 2
Sin embargo las unidades en que se expresa la varianza causan confusión, es por eso que, se
introduce una nueva medida de la desviación llamada Desviación Estándar que se define
como la raíz cuadrada positiva de la varianza. De esta manera la desviación estándar se da en
las mismas unidades que los datos, y se expresa así:
Para la población: = 2
La desviación estándar nos permite determinar, con mayor grado de precisión, donde se sitúan
los valores de una distribución de frecuencia en relación con su media, como lo establece el
Teorema de Chebychev (o Tsebyshev) que dice, para k>1:
1
... Cualquiera que sea la forma de la distribución al menos (1 - ) de las observaciones
k2
caen dentro de k desviaciones estándar de la media...
Más aún, existe una regla conocida en algunos libros como “Regla Empírica”, que afirma:
Puntuación Estándar.- Es una medida que nos da el No. de desviaciones estándar a que
determinado valor de la población se encuentra por debajo o encima de la media.
𝑥−𝑥̅
Z= para una muestra
𝑠
12
MODELOS DE DISTRIBUCIÓN
Conceptos básicos:
Evento.- Es uno o varios de los resultados posibles que se consiguen al hacer alguna actividad.
Se dice que dos o más eventos son mutuamente excluyentes si uno y solo uno de ellos puede
tener lugar a la vez.
Se dice que un conjunto de eventos (o una lista de ellos) es colectivamente exhaustiva si incluye
todos los resultados posibles.
Probabilidad clásica
Bajo este enfoque se define la probabilidad así:
1
Ejemp.: Prob.(que neve en Mérida) =
2
Frecuencia relativa de ocurrencia
Bajo este enfoque se define la probabilidad de dos formas:
1.- Como la frecuencia relativa observada de un evento en un gran No. de ensayos en
condiciones similares.
ó
2.- Como la proporción de las veces que un evento sucede a la larga cuando las condiciones
son estables.
Este método (para calcular la probabilidad) utiliza las frecuencias relativas de ocurrencias
pasadas como probabilidad. Determinamos la frecuencia con que algo ha ocurrido en el pasado
y con esta cifra predecimos la probabilidad de que vuelva a suceder en el futuro.
13
Cuando usamos la frecuencia relativa para establecer la probabilidad de un evento, la cifra de
ésta será más exacta y confiable a medida que aumentemos el No. de observaciones. Su
desventaja consiste en que la gente la utiliza sin evaluar un No. suficiente de resultados. Ejemp.:
Si analizo solo el semestre pasado puede ser una probabilidad diferente que si analizo los tres
años de preparatoria y/o los tres años de secundaria para saber cuál ha sido la proporción de
veces que ha reprobado Matemáticas; mientras mayor No. de observaciones considere más
confiable será mi probabilidad.
Probabilidad subjetiva
Esta probabilidad se basa en las creencias e ideas del que realiza la evaluación de la
probabilidad. Así podemos definirla como:
Esta asignación puede tener la forma de frec. relativa de ocurrencia o puede consistir en una
conjetura inteligente. Ejemp.:
Cuando una anciana dice: “ Me duelen los huesos, es probable que llueva”
Así podemos observar que un mismo evento puede tener diferentes probabilidades de que
ocurra según el enfoque que se le de: Ejemp: Sea A el evento consistente en “Que llueva en
Mérida hoy”, el cual se denota así: A= Que llueva en Mérida hoy
Según la probabilidad clásica:
Tipos de probabilidad
Existen tres tipos de probabilidad según la situación en que se presenten los eventos:
Marginal
14
Conjunta
Condicional
En ocasiones deseamos conocer la probabilidad de que suceda uno u otro evento, donde
ambos pueden o no ser excluyentes. Supongamos dos eventos: A y B. Si son mutuamente
excluyentes, gráficamente los podríamos representar como conjuntos y los veríamos así:
A B
A B
Esta probabilidad da lugar a los diagramas de árbol, donde para cada posible resultado
de un evento, puede haber el mismo u otro No. posible de resultados del siguiente evento.
P(A/B) = P(A,B)
P(B)
P(A) = Suma de las Probabilidades Conjuntas de los eventos en los que ocurra A.
Este teorema permite evaluar nueva información y revisar estimaciones precedentes para
calcular probabilidades “ a posteriori”
Ejemp.: Supongamos que tenemos dos colores de dados “cargados” y el mismo número de
cada uno de ellos. Además se sabe que la probabilidad de que caiga un "6“ si es de color rojo
es de .40 y si es de color azul es de .70. Se extrae un dado al azar se lanza y cae un 6, ¿Cuál
es la probabilidad de que sea rojo?
Solución:
Tenemos los siguientes eventos Tenemos los siguientes datos:
Sea A=Que caiga un 6 P(R) = .5
R= Que el dado sea rojo P(Z) = .5
Z = Que el dado sea azul P(A/R)=.4
P(A/Z) = .7
De acuerdo al Teorema de Bayes:
16
Distribuciones de probabilidad
Las distribuciones de probabilidad pueden ser: discretas o continuas, según la variable (discreta
o continua) que utilicen.
Variable aleatoria.- Es aquella que asume diferentes valores como resultado de un experimento
aleatorio, es decir, sus resultados son al azar.
Ejemp. Si el no. De personas atendidas de cáncer en un día varía entre 8 y 20, la variable es
aleatoria discreta. ¿por que?. Porque solo podrá ser 8,9,10,11 ... 20, nunca 8.5 pacientes.
De la observación de 30 días se obtuvo el siguiente cuadro:
No. de pacientes No. de días en p(que haya ese
atendidos en 1 día que se atendió No. de pacientes)
8 1 .033
9 1 .033
10 1 .033
11 1 .033
12 3 .1
13 4 .133
14 5 .166
15 4 .133
16 3 .1
17 3 .1
18 2 .066
19 1 .033
20 1 .033
TOTAL: 30
Si tomamos esos 30 días como representativos del comportamiento anual, podemos asignarle
una probabilidad a cada No. posible de pacientes y encontrar una distribución de probabilidad.
Además con esta distribución podemos calcular el valor esperado de la variable aleatoria
discreta.
Valor esperado de una variable.- Es la media ponderada de los resultados que se esperan en
un futuro. El "peso" de cada resultado posible es la frecuencia (o probabilidad) con que se
supone ocurrirá. Algebraicamente se expresaría así:
E(X) = x * w = x * Px
w P(x)
17
La distribución de probabilidad de una variable aleatoria se puede expresar en forma algebraica.
A continuación veremos dos distribuciones de variable aleatoria discreta (binomial y poisson) y
una de variable aleatoria continua (normal)
Distribución Binomial
Esta distribución, de una variable aleatoria discreta, describe los resultados posibles de un
experimento denominado "Proceso de Bernoulli". Este proceso tiene las siguientes
características:
1.- Cada ensayo (del experimento) tiene solo dos posibles resultados, éxito o fracaso.
2.- La probabilidad de cada uno de estos resultados permanece fija con el tiempo.
3.- Los ensayos son estadísticamente independientes.
n! r (n-r) = C r (n-r)
P(r éxitos en n ensayos) = p q n,r p q
r!*n r !
donde
p = Prob. de éxito
q = Prob. de fracaso
r = No. de éxitos deseados
n = No. de ensayos efectuados
= n*p = n* p*q
Solución:
p(0) =
p(1) =
p(2) =
p(3) =
p(4) =
p(5) =
18
Si graficáramos la probabilidad para todos los valores posibles, la veríamos así:
Distribución de Poisson.
Existen varios procesos que describen la distribución de Poisson, los cuales tienen un elemento
en común: la variable aleatoria es discreta. Las características de estos procesos son:
1.- La media (o promedio) de los valores pueden estimarse a partir de datos
anteriores.
2.- Si tomamos un periodo de tiempo, la probabilidad de que exactamente un valor
sea tomado por la variable en ese periodo es muy pequeño y constante para cada
intervalo de tiempo.
3.- La probabilidad de que dos o más valores sean tomados en un periodo de tiempo
es tan reducido que podemos asignarle un valor de 0.
4.- El no. De valores que toma la variable en un determinado periodo es
independiente del momento en que ese periodo ocurre.
5.- El no. De valores que ocurren en un periodo de tiempo es independiente del no.
De valores en cualquier otro periodo igual.
Si un proceso cumple estas características, podremos tomar una distribución de Poisson para
describirlo. Su expresión algebraica es la siguiente:
P(x) = (λx ) * (e -λ )
x!
En estos casos podemos sustituir la media binomial (np), en lugar de la media de poisson (λ),
de modo que la formula quedaría así:
19
P(X) = (np)x * e-np
x!
Ejemplo:
Usaremos las 2 fórmulas en un mismo ejemplo para observar esto: supongamos que en un
hospital hay 20 maquinas de diálisis renal y la probabilidad de que alguna no sirva en un día
determinado es de .02. ¿Cuál es la probabilidad de que un día cualquiera 3 no sirvan?
Solución:
Binomial Poisson
Nótese que la diferencia es menor que .01, por lo que se considera una buena aproximación.
Distribución Normal
Esta distribución es solo una de varias que existen de variable aleatoria continua. Esta
distribución se conoce también como distribución de Gauss. Sus características son las
siguientes:
1.- La curva tiene un solo pico, es decir, es unimodal. Presenta una forma de
campana.
2.- La media de una población normal se encuentra en el centro de la curva.
3.- Como es simétrica, la mediana y la moda se hallan también al centro y coinciden
en valor con la media.
4.- Las dos colas (o extremos) de una distribución normal se extienden de manera
indefinida y nunca tocan el eje horizontal.
20
Representación gráfica de esta función de probabilidad
Además sabemos por la regla empírica derivada del teorema de Chebyshev que:
Sin embargo, no siempre esos porcentajes son los que necesitamos, es por eso que existen
tablas que nos indican que partes del área bajo una curva normal están contenidas dentro de
cualquier no. De desviaciones estándar de su media.
Como no es factible ni necesario tener una tabla para cada curva normal posible se utiliza una
distribución normal estándar de probabilidad, para calcular el área bajo cualquier curva normal.
Para entender mejor este concepto, observemos lo siguiente: para cualesquiera 2 curvas
normales con media y desviación estándar diferentes, tenemos:
21
El área a y el área b corresponden a la misma proporción del área total bajo la curva, porque
en ambas es el área entre la media y 1 desviación estándar a la derecha. Esto vale para todas
las curvas normales, es decir, todos los intervalos que contienen el mismo no. De desviaciones
estándar respecto a la media incluirán la misma proporción del área total bajo la curva.
En las tablas que miden el área bajo la curva normal entre la media y cualquier valor de la
variable aleatoria, se utiliza el " no. De desviaciones estándar " representado por z y
denominado "unidades estándar o puntuación estándar" y se calcula así:
z= x - x
s
Estas tablas contienen solo la mitad del área bajo la curva normal, empezando con 0 en la
media.
22
Aproximación de la Normal a la Binomial
Observamos que la probabilidad Binomial de 5,6,7 u 8 caras puede aproximarse con el área
bajo una curva normal entre 4.5 y 8.5 donde .5 se conoce como factor de corrección de
continuidad
Como la diferencia es menor que .01 podemos decir que es una buena aproximación.
23
DISTRIBUCIONES MUESTRALES
Estadística Inferencial
Generalmente las poblaciones son muy grandes para ser estudiadas en su totalidad. Por eso
es necesario seleccionar una muestra representativa de un tamaño más manejable. Esta
muestra se utiliza luego para sacar conclusiones sobre la población. Desde el punto de vista
matemático podemos describir las muestras y las poblaciones mediante sus medidas de
tendencia central y de dispersión. Cuando estas medidas describen las características de una
muestra se les llama estadísticos y cuando describen las características de una población
reciben el nombre de parámetros, por lo tanto un estadístico se utiliza como estimador del
parámetro correspondiente.
Al confiar en una muestra para sacar una conclusión o inferencia sobre la población, se está
haciendo uso de la Estadística Inferencial (Definición: Uso de un estadístico para sacar una
conclusión o inferencia sobre el parámetro correspondiente). Sin embargo el valor estadístico
depende de la muestra tomada. De cualquier población dada de tamaño N, es posible obtener
muchas muestras diferentes de tamaño n.
Distribuciones muestrales
Con vemos, existen varios métodos para extraer una muestra de una población y calcularle
estadísticos como la media y la desviación estándar. Si aplicamos esto a varias muestras de
una población no necesariamente los estadísticos que calculemos a cada muestra serán iguales
y lo más probable es que varíen de una muestra a otra. Por ejemplo, supongamos que tenemos
6 cuentas con importes respectivos de: $103, $156,$129,$ 138, $166 y $ 142 y con importe
promedio de $139. Supongamos ahora que deseo hacer un muestreo de solo dos cuentas de
estas seis sin reemplazo. El No. total de posibles muestras con dos cuentas se calcula con
combinaciones de 6 elementos tomados de 2 en 2 (C6,2) y resultan 15 posibles muestras que
se dan a continuación: (Si fuera con reemplazo, el total de muestras sería Nn.)
Muestra No. Elementos Media muestral
1 103,156 129.5
2 103,129 116.0
3 103,138 120.5
4 103,166 134.5
5 103,142 122.5
6 156,129 142.5
7 156,138 147.0
8 156,166 161.0
9 156,142 149.0
10 129,138 133.5
11 129,166 147.5
12 129,142 135.5
13 138,166 152.0
14 138,142 140.0
15 166,142 154.0
Las 15 muestras tienen la misma probabilidad de ser seleccionadas y de que su media difiera
de la media poblacional ( = $139.0). A esta diferencia entre la media poblacional ( ) y la
24
media muestral x que se utiliza para estimarla se le conoce como error de muestreo, como
vimos antes, este se define como la diferencia entre el parámetro poblacional y el estadístico
de la muestra utilizado para estimar el parámetro (x- µ).
Aunque muchas veces desconocemos la media poblacional hay que estar consciente de que
este error existe.
Cada una de estas muestras las podemos ordenar, listar y calcularle su probabilidad de
ocurrencia en una tabla conocida como:
Distribución muestral.- Es una lista de todos los valores posibles para un estadístico y la
probabilidad relacionada con cada valor.
Media Muestral
Estas medias muestrales al igual que cualquier lista de números tiene una media denominada
“ la media de las medias muestrales” o “gran media”. Se calcula igual, pero se lee “x doble
barra”:
𝑋̿ = x
K donde k es el No. de muestras.
𝑋̿ = 139
Nótese que la media de las medias muestrales es igual a la media de la población lo cual no es
una coincidencia.
25
También esta distribución de medias muestrales tiene una varianza:
Error Muestral
A la raíz cuadrada de la varianza de las medias muestrales se le conoce como el error estándar
de la distribución muestral, que es análogo a la desviación estándar de las observaciones en
cada muestra. El error estándar mide la dispersión de las medias muestrales alrededor de .
Como la diferencia entre x y es el error de muestreo, toda medida de la tendencia de la
media muestral a desviarse de la media poblacional se le denomina error estándar. Por lo tanto,
el error estándar mide el grado de exactitud de la estimación de .
2x = 2/n y x = / n
Pero esta fórmula sólo es apropiada si el muestreo se realiza con reemplazo o si la muestra se
toma de una población muy grande. Si no es así, es decir, si la muestra se realiza sin reemplazo
y si el tamaño de la muestra es mas del 5% de la población (n > 0.05N), debe aplicarse el factor
de corrección para poblaciones finitas (fpc), por lo que la fórmula para el error estándar
quedaría:
N n N n
x = * donde es el fpc
n N 1 N 1
Si n es pequeño respecto a N (n<0.05N), el fpc se aproxima a 1, por lo que el valor del error
estándar no cambia. Por el contrario a medida que n se aproxima a N, el fpc se aproxima a
cero, es decir, el error estándar disminuye. En otras palabras, a medida que la muestra
aumenta, el error estándar disminuye.
26
Teorema del Limite Central
Teorema del Límite Central.- A medida que n se vuelve más grande, la distribución de las
medias muestrales se aproximará a una distribución normal con una media X = y un error
estándar de x = / n
27
La siguiente gráfica muestra lo que sucede a medida que el tamaño de la muestra aumenta. Si
el tamaño de la muestra aumenta a n=100, el error estándar se vuelve x = /n = 100 /100
= 10. Esto es la distribución de las medias muestrales tiende siempre a = 1000 pero en una
forma mas compacta. Por esto es probable que las muestras más grandes produzcan
estimados más precisos de la media poblacional.
La importancia de esto reside en que muchas decisiones se toman con base en los resultados
muestrales. Una aplicación muy común es la de determinar la probabilidad de que una media
muestral se encuentre dentro de un rango dado.
Z= X– .
x
Ejemplo: Supongamos que conozco que la distribución de gastos semanales de los estudiantes
de la Facultad es normal con una media = $150 y =15. Si deseara conocer la probabilidad
de que un alumno cualquiera gaste entre $150 y $155, la calcularía de la siguiente manera:
Pero si deseara conocer la probabilidad de que una muestra de n=50 alumnos gastara entre
$150 y $155, sería:
Z=
155 150 = 2.36 que corresponde a P(150< x < 155) = .4909
15
50
28
Si se puede predecir la probabilidad de que un estadístico esté en un rango dado, entonces es
posible determinar la probabilidad de error. Veamos, en una población con media = 25 y una
desviación estándar = 8.5, si se toma una muestra de n= 50 se presentará un error de
muestreo de 2 o más si la media muestral es 27 o más o 23 o menos. Por lo tanto P(error) = P(
x >27)+P( x <23)
Aunque generalmente las decisiones se toman analizando las medias muestrales, en ocasiones
la proporción de una característica en la población () es importante. En cualquier población es
posible obtener muchas muestras diferentes de un tamaño dado y cada muestra tendrá su
propia proporción de éxitos (p), sin embargo, al igual que en las medias, el valor esperado de
la distribución de las proporciones muestrales será igual a la proporción de éxitos de la
población
E(p)=
Ejemplo: Supongamos que tenemos una población de 6 maestros (M1, M2, M3, M4, M5, M6)
de los cuales 2 (M1 y M6) son mujeres, es decir, la proporción poblacional de mujeres
(éxitos) es = .33 . Se toman muestras de tamaño n=2 y la proporción de mujeres en cada
muestra es:
E (p)= p
K
( (1 - )
p =
n
De la misma manera que con las medias, si n>.05N, se requiere el fpc y el error estándar se
vuelve:
( (1 - ) N n
p =
n N 1
Ejemplo:
Una Tienda Departamental tiene una tasa de clientes morosos del 10% y acaba de establecer
la siguiente política:
Si toma una muestra de 200 clientes, que acción es más probable que lleve a cabo? (Supón
que n<.05N)
p = (.1)(.9) = .021
200
Es más probable que emprenda una campaña para alentar los pagos.
31
ESTIMACION CON INTERVALOS DE CONFIANZA
Hasta ahora hemos visto como estimar el valor de un parámetro a partir de un estadístico. Este
tipo de estimación se le conoce como “estimación puntual”, pero existe otra llamada “ estimación
por intervalo”, que especifica el rango dentro del cual está el parámetro desconocido. Este
intervalo generalmente va acompañado de una afirmación sobre el nivel de confianza que se
da en su exactitud, por lo que se le conoce como “intervalo de confianza”.
Existen tres niveles de confianza, denominados coeficientes de confianza que son 99, 95 y 90%
que están relacionados con los intervalos de confianza.
Un intervalo de confianza se determina con un límite inferior y un límite superior, los cuales se
hallan restando y sumando a la media muestral, cierta cantidad.
Como vimos en la unidad anterior, dado que las distribuciones muestrales se distribuyen
normalmente, según la Regla Empírica el 95.5% de todas las medias muestrales caen dentro
de dos errores estándar de la media poblacional, es decir, como la media poblacional está a lo
más a dos errores estándar para el 95.5% de las medias muestrales, entonces dada una media
muestral cualquiera se puede estar 95.5% seguros (o tener una confianza del 95.5%) de que el
intervalo de dos errores estándar alrededor de dicha media muestral contiene a la media
poblacional desconocida.
1. Si es conocida
Esto último significa que el 5% de los intervalos estaría errado, es decir, no contendría a la
media poblacional. Este 5%, hallado como (1-Coeficiente de confianza) es denominado el valor
alfa y representa la probabilidad de error de que un intervalo cualquiera no contenga la media
poblacional.
2. Si es desconocida.
Cabe hacer notar que si reduzco mi nivel de confianza, el intervalo resultante es más estrecho
y ofrece mayor precisión, el cual es más útil y significativo.
Como puede suceder no siempre es posible obtener por lo menos 30 observaciones por lo que
debe tomarse una muestra más pequeña ( por ejemplo, para probar una nueva medicina, puede
no encontrarse 30 personas disponibles como “conejillos de indias”). Pero recordemos que el
teorema del Límite Central sólo asegura normalidad en el proceso de muestreo si la muestra
es grande.
Cuando se usa una muestra pequeña, es necesario una distribución alterna, la distribución
de Student. Específicamente ésta se utiliza cuando se cumple:
La muestra es pequeña
es desconocida
La población es normal o casi normal.
33
como a medida que n crece, la distribución se aproxima a la distribución z ( o normal) , es por
eso que se puede usar z cuando n>=30.
En otras palabras es el No. de observaciones que se pueden escoger libremente; por ejemplo
si tengo 4 observaciones que deben producir una media de 10, ésta es una restricción pues
solo podré escoger (n-1) 3 valores libremente pues el 4º valor está determinado al despejar:
Es decir puedo escoger libremente, por ejemplo, 8,9 y11 pero el 4º. valor tendrá que ser 12
para que cumpla con la restricción de que tengan un promedio de 10.
Como se puede observar la distribución produce intervalos más amplios que z, debido a que
se pierde algo de precisión porque es desconocida y debe estimarse, por lo tanto, el intervalo
de confianza para estimar la media poblacional con muestras pequeñas es:
s
I.C. para estimar = x sx = x
n
El valor de puede hallarse en la tabla de Student que está en función del nivel de confianza
y de los grados de libertad que se tienen.
Ejemplo:
Una empresa de construcción fue culpada de inflar los comprobantes que registra para los
contratos con el gobierno federal. Este tipo de contrato establece que ciertos tipos de trabajos
deben promediar $11,500. Por motivos de tiempo, solo 12 dependencias de gobierno dieron
información sobre los comprobantes de la empresa. Se calculo que éstos promediaban $12,750
con una desviación estándar de $ 2,350. Un intervalo del 95% de confianza apoyaría el caso
legalmente? Se asume que los montos de los comprobantes son normales.
34
Solución:
Para un nivel de confianza del 95% y (12-1) 11 g.l. buscamos en la tabla de la distribución su
valor = 2.201
Legalmente se puede tener un 95% de confianza de que los montos promedio de los
comprobantes están entre 11,256.90 y 14,243.10; como este rango contiene lo estipulado por
el contrato (11,500), la empresa no ha violado lo acordado.
Cabe hacer notar que si la muestra hubiera sido más grande el intervalo resultante al usar z,
hubiera sido mas angosto.
Sugerencia: Copia el diagrama de flujo que viene en la pag. 179 de tu libro para que te oriente
respecto a cuál estadístico usar.
p zsp
Ejemplo:
El gerente de una estación de televisión debe estimar la proporción de casas que tiene más de
un televisor. De una muestra aleatoria de 500 casas se reveló que 275 tienen 2 o más
televisores. ¿Cuál es el intervalo de confianza del 90% para estimar la proporción de todas las
casas que tienen dos o más televisores?
Solución:
p = 275/500 = .55
Sp= (.55)(.45)/500 =.022
Para 90%, busco .45 en la tabla normal (z) y determino que corresponde a z=1.65, por lo que:
I.C. para = .55 (1.65)(.022)
Como podemos ver es preferible un intervalo más estrecho debido a la precisión adicional que
proporciona. Hay dos métodos para lograr un intervalo más preciso: (1) reducir el nivel de
confianza o (2) incrementar el tamaño de la muestra.
Sin embargo esta ventaja tiene su precio, pues una muestra más grande significa más tiempo
y más dinero para recolectar y manejar los datos, por esto la decisión respecto a que método
emplear para tener mayor precisión en el intervalo de confianza se vuelve una decisión
gerencial.
36
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA.
El tamaño del error depende del trabajo para el cual se requiere estimar una medida, sí por
ejemplo en medicina si de esta estimación depende una vida humana, el error deberá ser muy
pequeño, en cambio en otros casos un error más grande puede no tener consecuencias tan
graves.
Por otro lado sabemos que el intervalo resultante es de ancho igual a dos veces el error
tolerable, pues si por ejemplo el error tolerable es igual a 2, la máxima diferencia con el
parámetro estimado será de 2 ya sea menor o mayor. Dicho al revés el error tolerable es la
mitad del ancho del intervalo.
Z = X = X
x /n
Si conozco N:
z 2 * * N
n=
N 1 * x 2 * z 2
Ejemplo:
El propietario de un centro de esquí está considerando la compra de una máquina para hacer
nieve. Para esto desea estimar las pulgadas promedio de nieve que cae en el área cada nevada,
pero no tiene idea de qué tan grande debería ser la muestra, sólo sabe que desea un nivel de
confianza del 99% en sus hallazgos y que el error no debe de exceder de una pulgada.
37
Solución: Con una muestra piloto grande(n>=30) estima la desviación estándar en 3.5 pulgadas
y con la fórmula siguiente estima el tamaño de la muestra:
n= Z2 2
(X - )2
= (2.58)2(3.5)2 = 81.5
(1)2
es decir deberá revisar 82 nevadas durante los últimos años para hacer su estimación.
Z=p - = p -
p (1- )/n
Si conozco N:
z2 * p *q * N
n=
N 1 * p 2 p * q * z 2
Ejemplo: El consejo de la ciudad está planeando una ley que prohiba fumar en edificios
públicos. Sin embargo antes de aprobarla desea estimar la proporción de residentes que
apoyan este plan. Su primer paso será estimar el tamaño muestral necesario. Su error no
deberá de exceder del 2% y deberá estar 95% seguro de sus resultados.
Solución:
38
Podemos suponer = .5 para calcular el tamaño muestral:
n= Z2 ( )(1- )
(p – )2
= (1.96)2(.5)(.5) = 2,401
(.02)2
Es decir, con los datos de 2,401 personas podrá estimar la proporción de residentes que están
a favor de la ley.
Debe hacerse una distinción entre un estimador y una estimación. Un estimador es la regla o
procedimiento, generalmente expresado como una fórmula, que se utiliza para derivar la
estimación. Por ejemplo:
X = x
n
Insesgados
Eficientes
Consistentes
Suficientes
E(X) = x =
39
Eficiente.- Dado todo estimador insesgado el estimador más eficiente es aquel que tenga la
varianza más pequeña.
Consistente.- Un estimador es consistente si, a medida que n aumenta, el valor del estadístico
se aproxima al parámetro.
Para que estimador sea consistente, debe ser insesgado y su varianza aproximarse a cero a
medida que n aumenta. La varianza de la distribución muestral de las medias muestrales es x2
= 2/n . A medida que n aumenta, esta varianza se aproxima a cero, por lo tanto X es un
estimador consistente de .
40
UNIDAD 2: PRUEBAS DE HIPÓTESIS
La prueba de hipótesis es una herramienta analítica para obtener suficiente información para
reducir el nivel de incertidumbre en el proceso de la toma de decisiones. Por ejemplo:
Si se pueden obtener respuestas a estas preguntas con algún grado de garantía, la toma de
decisiones se vuelve más segura y menos probable que conduzca a un error costoso.
Para realizar una prueba de hipótesis, se hacen algunas inferencias o supuestos (llamadas
hipótesis) acerca de la población. Por ejemplo, el embotellador de refrescos puede asumir o
plantear la hipótesis de que el contenido promedio es de 16 onzas (=16). Esta hipótesis nula
(Ho:) se prueba contra la hipótesis alternativa (HA: ) que establece lo contrario. La hipótesis
nula tradicionalmente contiene una referencia con el signo igual (=, , ≤ ).
Con base en los datos muestrales, la hipótesis nula es rechazada o no rechazada. Nunca se
puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente
significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su
rechazo. Incluso si 𝑥̅ = 16, no prueba que = 16. Podría ser que = 15.8 y debido al error de
muestreo la media muestral iguale al valor 16.
Cuando se realiza una prueba de hipótesis, la hipótesis nula se supone verdadera hasta que
una preponderancia de la evidencia indique que es falsa. Antes de rechazar la hipótesis nula,
la media muestral debe diferir significativamente de la media poblacional planteada en la
hipótesis nula, es decir, la evidencia debe ser muy convincente y concluyente. Una conclusión
que llegue al rechazo de la hipótesis nula es más significativa que una que decida no rechazar.
Entonces, ¿qué tan grande debe ser esta diferencia para que sea estadísticamente significativa
y conduzca a un rechazo de la hipótesis nula?
41
Determinación de la regla de decisión
Como recordaremos la Regla Empírica dice que al menos el 95% de las medias muestrales
( x ) están a Z = 1.96 errores estándar de la media poblacional desconocida. Estos valores Z
de 1.96, que resultan de buscar en la tabla de la normal el área de (95%/2=.4750), se
denominan valores críticos y determinan las zonas de rechazo, como se muestra en la
siguiente gráfica
Es decir el 5% restante de las medias muestrales está distribuido entre las dos colas, con un
2.5% en cada zona de rechazo.
Siguiendo con el ejemplo anterior, quiere decir que si la hipótesis del embotellador es verdadera
y =16, solo hay un 5% de probabilidad de que una muestra cualquiera tenga un valor de Z (es
decir, su puntuación estándar Z) que caiga en las zonas de rechazo. Es decir, si una muestra
produce un valor de Z >1.96 o Z<-1.96, no es probable que = 16 y la hipótesis nula debe ser
rechazada.
Estos valores críticos permiten establecer una regla de decisión que diga si se rechaza o no
la hipótesis nula.
Regla de decisión:
“No se rechaza la hipótesis nula si los valores de Z están entre 1.96”
“Se rechaza la hipótesis nula si el valor Z es <-1.96 o Z>1.96”
Como vimos anteriormente cuando la hipótesis nula sea verdadera existe una probabilidad
pequeña (5%) de producir un valor de rechazo. Este 5% es el nivel de significancia o valor alfa
(valor ) que representa la probabilidad de un error tipo I.
A la probabilidad de cometer el error tipo II se le conoce como , y aunque no podemos asumir
que + =1, cuando uno crece el otro decrece y viceversa.
42
Los niveles de significancia, o valores comúnmente seleccionados para hacer pruebas de
hipótesis son del 10%, 5% y 1%, sin embargo se podría probar una hipótesis con un nivel de
significancia del 4% si así se decide. La selección del valor depende del tipo de error (I o II)
que más se desea evitar. Si rechazar una hipótesis verdadera (error tipo I) es más grave o
riesgoso en la toma de decisiones que no rechazar una hipótesis falsa, se debe seleccionar una
valor bajo, como 1% o 5% para minimizar este error. Si por el contrario no rechazar una
hipótesis falsa (error tipo II) es más grave, es preferible seleccionar un valor más alto como
el 10%.
En el ejemplo anterior, cometer el error tipo I, significaría rechazar que la =16 y esto implicaría
detener el proceso de embotellado para ajustar el nivel de contenido, siendo que estaba
correcto ( es decir si es = 16). Cometer el error tipo II significaría permitir que continúe el
proceso de embotellado aunque 16. Si cometer el error tipo I es más costoso que cometer
el error tipo II debe seleccionar una valor bajo como 1%.
Hay cuatro pasos que hay que seguir en una prueba de hipótesis:
Ho: = 16
HA : 16
Paso 2.- Se calcula Z y se compara con los valores críticos según el nivel de confianza.
Z = 16.357 – 16 = 2.91
.866/ 50
Para = 5%, los valores críticos de Z = 1.96 que corresponden al área que resulta de dividir
95%/2 = .4750
Paso 3.- Se determina si se rechaza o no de acuerdo a la regla de decisión.
Regla de decisión: “No se rechaza la hipótesis nula si –1.96 < Z < 1.96.
Se rechaza si Z< -1.96 o Z >1.96”
43
Cabe hacer notar que como la zona de rechazo se encuentra en ambas colas, se le denomina
prueba de dos colas o bilateral.
Paso 4.
a) Conclusión
Como Z=2.91>1.96 cae en la zona de rechazo, cola a la derecha, por lo tanto se rechaza la
hipótesis nula.
b) Interpretación.
Esto quiere decir que el contenido promedio de las botellas NO es igual a 16 onzas, con un 5%
de significancia.
Explicación: La hipótesis nula es rechazada a un nivel de significancia del 5%. Esto es, si la
media poblacional fuera 16 hay solo un 2.5% de probabilidad de que Z >1.96. Sin embargo,
¿esto significa que la media NO es 16? No completamente, después de todo, si = 16 el
2.5% de todas las muestras de tamaño n=50 generarían una Z>1.96 y si se rechaza una
hipótesis verdadera se estaría cometiendo el error tipo I, pero esto no es cierto pues la
probabilidad de cometer el error tipo I es =5% y la P(Z>1.96,si =16)=2.5%.
Por otro lado la interpretación siempre va acompañada del nivel de significancia con el que se
afirma, es decir, con la probabilidad de estar equivocado al rechazar o no la hipótesis nula. La
interpretación anterior equivaldría a decir: “El contenido promedio de las botellas NO es igual a
16 onzas, con una probabilidad de equivocarme del 5%”
Hay ocasiones en las que se está interesado solo en un extremo u otro. Por ejemplo, un
restaurante de comida fresca del mar, sólo le interesará cuando el tiempo que tarden en llegar
sus productos del mar sea alto o una tienda minorista sólo se preocupará si sus ingresos caen
a niveles demasiado bajos. En cada uno de estos casos el interés se concentra en un extremo
u otro y se realiza una prueba de una cola.
44
Ho: 16
HA : > 16
En este caso sólo los valores que están significativamente por encima de 16 causarán un
rechazo, por lo tanto la zona de rechazo está sólo en la cola derecha y el valor total de se
coloca en esta única zona de rechazo
Si por el contrario el embotellador dice que el contenido promedio es “por lo menos 16 onzas” ,
las hipótesis quedan así:
Ho: 16
HA : < 16
En este caso sólo los valores del estadístico que estén significativamente por debajo de 16
pueden causar un rechazo de la hipótesis nula, por lo tanto la zona de rechazo aparece en la
cola izquierda y el monto total de se coloca en esta zona única de rechazo, como se muestra
en la siguiente gráfica.
Cabe señalar que en las pruebas de una cola el signo igual se coloca siempre en la hipótesis
nula, esto es porque la prueba se está realizando para un valor específico (como 5%) y el
signo igual da a la hipótesis nula un valor específico (como 16) para probarla.
Ejemplo: En una reunión informativa el gerente de un hotel reportó que el número promedio de
habitaciones alquiladas por noche es de por lo menos 212, es decir, 212. Uno de los
presentes considera que esta cifra puede estar sobreestimada. Una muestra de 150 noches
produce una media de 201.3 habitaciones y una desviación estándar de 45.5 habitaciones. Si
estos resultados sugieren que el gerente ha “inflado” su reporte será amonestado severamente.
A un nivel del 1% de significancia, ¿cuál es el destino del gerente?
45
Solución: Paso 1:
Ho: 212
HA : < 212
Paso 2:
Para un =1% acumulado a la izquierda, el área restante hasta 212 es del 49% que da el valor
crítico de Z=-2.33
Ejemplo:
Los estudiantes de Estadística de cierta Universidad cuestionan la afirmación de que
McDonald´s coloca .25 libras de carne en sus “hamburguesas de cuarto de libra” . Algunos
estudiantes afirman que se utiliza más y otros que menos. Para probar la afirmación publicitaria
de que el peso promedio es de .25 libra, cada estudiante compra una hamburguesa de ese tipo
y la lleva a clase para ser pesada. Los resultados de la muestra son: x = .22 libras y s= 0.09
libras. Si hay 25 estudiantes en clase, a que conclusión llegarían con un 5% de nivel de
significancia?
Paso 4: Debido a que =1.667 está entre 2.064, no se rechaza la hipótesis nula. Esto significa
que la muestra confirma la afirmación de McDonald´s de que contienen efectivamente .25 libras
de carne en promedio.
Como es de esperarse una prueba para una cola es similar, solo hay una pequeña diferencia
al buscar el valor en la tabla, ya que se buscará en la columna respectiva al valor .
Ejemplo:
Una asociación de propietarios de perros afirma que los cocker spaniels de un año de edad
deberían pesar “un poco más de 40 libras ( > 40) si han recibido una nutrición adecuada”.
Para probar la hipótesis:
Paso 1: Ho: 40 HA : > 40
Un productor de alimentos para perros, pesa 15 perros cocker de un año de edad y descubre
una x = 41.17 libras con s = 4.71 libras. Seleccionando una probabilidad del 1% de cometer un
error tipo I se tiene:
Paso 4: Como cae en la zona de no rechazo, la hipótesis nula ( 40) no se rechaza. Esto es
la muestra no confirma la afirmación de la asociación.
Pruebas para
𝜋ℎ ∗ (1 − 𝜋ℎ )
𝜎𝑝 = √
𝑛
Ejemplo:
El director de las operaciones de mercadeo de una gran cadena minorista considera que el 60%
de sus clientes son graduados universitarios e intenta establecer una política respecto a la
estructura de precios basado en esta proporción. Una muestra de 800 clientes revela que 492
son graduados universitarios. A un nivel del 5% ¿qué puede concluir sobre la proporción de
graduados de todos sus clientes?
Paso 1:
Ho: =.60 HA : .60
Paso 2 :
Como p = H * (1- H )/n = .60*(1-.60)/800 =.017
Paso 3: La regla de decisión es: “No rechazar la hipótesis nula si Z está entre 1.96
Rechazar si Z>1.96 o Z< -1.96”
Paso 4: Como Z=.88 está entre 1.96 no se rechaza la hipótesis nula. Es decir, la muestra
confirma la hipótesis de que =.60; ahora es posible desarrollar su política de precios.
Al igual que con las pruebas para las medias, las pruebas de hipótesis de una sola cola para
las proporciones pueden ser a la derecha o a la izquierda. Ejemplo:
Una firma manufacturera debe garantizar que por lo menos 75% de sus empleados ha concluido
un curso avanzado de capacitación. De los 1200 empleados seleccionados aleatoriamente 875
lo han concluido. A un nivel de significancia del 5% ¿qué conclusiones debe reportar?
Paso 1: Debido a que “por lo menos el 75%” se escribe como .75, las hipótesis son:
Paso 2:
Paso 3:
La regla de decisión es: “No rechazar la hipótesis nula si Z -1.65,
Rechazar si Z < -1.65”
Paso 4:
Como Z =-1.68< -1.65, se rechaza la hipótesis nula. Esto es la manufacturera debe tomar
medidas para aumentar la proporción de empleados capacitados”
Un método alternativo para probar hipótesis es el uso del valor p de una prueba. Esto es:
Valor p .- Es el nivel más bajo de significancia (valor ) al cual se puede rechazar la hipótesis
nula. Es el área en la cola que está más allá del valor del estadístico para la muestra.
Veamos un ejemplo:
Un jefe de personal considera que sus empleados gastan en promedio más de $31,000 en sus
cuentas de pensiones ( >31,000). Toma como muestra 100 empleados y encuentra una media
de $31,366 con una s=$1,894. Desea conocer el valor p relacionado con esta prueba de cola a
la derecha.
Por otro lado, si = 1% , el valor crítico para una cola sería z=2.33, en cuyo caso, como
Z=1.93<2.33 la hipótesis nula no se rechazaría.
Como podemos observar para α=5%, se rechaza y para α=1% no se rechaza, entonces hay un
valor de α intermedio en donde cambia la decisión, ese punto es el valor p.
49
Por lo tanto el valor p es el nivel de significancia más bajo (valor mínimo) que puede
seleccionarse y sin embargo rechazar la hipótesis nula.
Por lo tanto el valor p nos dice de antemano a que conclusión llegará la prueba de hipótesis
según el valor seleccionado, antes de realizar la prueba. Esto es, nuestro regla de decisión
cambiaría a:
Nota: Si se está realizando una prueba de dos colas, el valor p obtenido hay que multiplicarlo x
2.
50
INFERENCIAS CON DOS POBLACIONES
Hasta ahora hemos visto como estimar el valor de un parámetro poblacional o como
probar que se comporta igual (ó ≥ ó ≤) que determinado valor. El procedimiento adecuado
para realizar una inferencia respecto al comportamiento de dos poblaciones depende de la
técnica de muestreo que se utilice. Las muestras pueden ser:
Independientes.- Donde el muestreo se realiza recolectando muestras independientes
de cada población. Incluso las muestras no tienen que ser del mismo tamaño.
Pareadas (o por pares).- Donde las observaciones de cada población tienen un elemento
correspondiente en la otra población.
La estimación puntual de la diferencia entre (µ1 - 2) está dada por la diferencia
entre las dos medias muestrales ( x1 x2 ). Si tanto n1 como n2 son grandes, la distribución
de las diferencias entre las medias muestrales es una distribución normal centrada en
(µ1 - 2 ) tal y como lo muestra la figura:
Dada esta distribución normal de las diferencias entre las medias muestrales, la
desviación normal Z puede utilizarse para construir el intervalo. Utilizando (x1 – x2) como
la estimación puntual de la diferencia entre las dos medias poblacionales, se aplica un
multiplicador de confianza para obtener los limites superior e inferior del intervalo.
51
Error estándar de las diferencias entre medias muestrales
21 22
x1 – x2 =
n1 n2
S x1 – x2 = s12 + s22
n1 n2
Vale la pena destacar que no se está interesado en el valor de cualquiera de las medias
poblacionales, sino solamente en la diferencia que existe entre las dos medias poblacionales.
Ejemplo: Transfer Truncking transporta remesas entre Chicago y Kansas City por dos rutas.
Una muestra de 100 camiones enviados por la ruta del norte reveló un tiempo promedio de
tránsito de 17.2 horas con una desviación estándar de 5.3 horas, mientras que 75 camiones
que utilizan la ruta del sur necesitaron un promedio de 19.4 horas con una desviación de 4.5
horas. Delmar, el despachador de Transfer Truncking, desea desarrollar un intervalo de
confianza del 95% para la diferencia en el tiempo promedio entre estas dos rutas alternas.
Debido a que las desviaciones estándar de las respectivas poblaciones (del norte y del sur) son
desconocidas, el error estándar es:
I.C. para (µ1 - 2) = (x1 – x2) ± Z S x1 – x2 = (17.2 – 19.4) ± 1.96 (0.742) = -2.2 ± 1.45432
-3.7 µ1 - 2 -0.75
Si cualquier muestra es menor que 30, las poblaciones están distribuidas normalmente
o distribuidas casi normalmente y las varianzas son desconocidas, se debe utilizar la
distribución t para estimar la diferencia entre las dos medias poblacionales.
Si las varianzas de las dos poblaciones son iguales, existe alguna varianza 2 común a
ambas poblaciones. Debido a esto los datos de ambas muestras pueden mancomunarse
(pooled) para obtener un solo estimado de 2 . Esto se hace calculando el promedio
ponderado de las dos varianzas de las muestras, en donde los pesos son los grados de
libertad (n-1) de cada muestra:
El intervalo de confianza para la diferencia entre las dos medias poblacionales se halla con
una distribución t con n1 + n2 -2 grados de libertad y sustituyendo la varianza mancomunada
en lugar de cada una de las varianzas en la fórmula del error estándar para la diferencias de
las medias.
S2C = s12 (n1 – 1) + s22 (n2 -1) = 3.5 (14) + 3.9 (9) = 3.66
n1 + n2 -2 15 + 10 - 2
I.C. para (µ1 - 2) = (x1 – x2) ± t s2C + s2C = (15.3 – 17.1) ± 2.069 3.66 + 3.66
n1 n2 15 10
53
= -1.8 ± 1.61
-3.41 µ1 - 2 -0.19
Restando el contenido promedio después del ajuste, del nivel del contenido promedio antes del
ajuste, resultan valores negativos para ambos extremos del intervalo, esto es, no contiene al
cero. Por consiguiente se puede tener un nivel de confianza del 95% , en que el ajuste
incremento el contenido promedio entre 0.19 onzas y 3.41 onzas.
Si las varianzas de las poblaciones son desiguales o no existe evidencia para asumir
una igualdad, los grados de libertad se calculan de la siguiente manera:
Debido a que los g.l. se calcula de esta manera alterada, el estadístico t se simboliza con t’,
por lo que el I.C. queda:
Ejemplo.- The Wall Street Journal descubrió dos programas de entrenamiento utilizados por
IBM. Doce ejecutivos quienes se les dio el primer tipo de entrenamiento obtuvieron un promedio
de 73.5 en la prueba de competencia. Aunque el artículo de noticias no reportó la desviación
estándar para estos doce empleados, se asume que la varianza en los puntajes para este grupo
fue de 100.2 . Quince ejecutivos a quienes se les administró el segundo programa de
entrenamiento obtuvieron un promedio de 79.8. Se asume una varianza de 121.3 para este
segundo grupo. Haga un intervalo de confianza del 95% para la diferencia en los puntajes
promedio para todos los ejecutivos que ingresaron a estos programas.
Si g.l. es fraccionario, se aproxima hacia abajo, hacia en entero inmediato anterior. Así, g.l.=
24, es decir, el valor t’ para un I.C. del 95% con 24 g.l es ±2.064
I.C. para (µ1 - 2) = (x1 – x2) ± t’ s12 + s22 = (73.5 – 79.8) ±2.064 100.2 + 121.3 =
n1 n2 12 15
54
= -6.3 ± 8.36
-14.66 µ1 - 2 2.06
Debido a que el intervalo contiene al cero, no existe una fuerte evidencia de que exista
diferencia alguna en la efectividad de los programas de entrenamiento.
Ejemplo.- Suponga que tiene los puntajes de la prueba de 10 empleados antes y después de
habérseles impartido capacitación laboral adicional. Los puntajes son los siguientes:
Sea di la diferencia entre todo par correspondiente. La media de las diferencias entre todos
los pares sería:
55
La desviación estándar de Sd = di2 – n d 2
éstas diferencias es: n-1
I.C. para d = d ± t Sd
n
-0.927 d -0.073
Debido a que se restaron los puntajes posteriores al entrenamiento de los puntajes anteriores
al entrenamiento y produjeron un intervalo con extremos negativos, se puede estar 90% seguro
de que la media de los puntajes posteriores al entrenamiento está entre 0.073 puntos y 0.927
puntos más alto.
A veces surgen situaciones en las cuales es necesario comparar las proporciones de dos
poblaciones diferentes. En general, muchos asuntos comerciales están determinados mediante
la estimación de proporciones relativas de dos poblaciones.
El error estándar de la diferencia entre dos proporciones muestrales (p1 - p2) se estima mediante
la siguiente fórmula:
56
El término S p1 - p2 reconoce que si se tomaran varios pares de muestras de cada población (p1
- p2) variaría. La fórmula tiene en cuenta dicha variación. El I.C. quedaría:
Ejemplo.- Una empresa realiza un estudio para determinar si el ausentismo de los trabajadores
en el turno del día es diferente al de los trabajadores del turno de la noche. Se realiza una
comparación de 150 trabajadores de cada turno. Los resultados muestran que 37 trabajadores
diurnos han estado ausentes por lo menos 5 veces durante el año anterior, mientras que 52
trabajadores nocturnos han faltado por lo menos cinco veces ¿Qué revelan esto datos sobre la
tendencia al ausentismo entre los trabajadores? Calcule un intervalo de confianza del 90% para
la diferencia entre las proporciones de trabajadores de los dos turnos que faltaron cinco veces
o más.
= -0.10 ± 0.087
-18.7% 1 - 2 -1.3%
Debido a que la proporción de trabajadores nocturnos que se ausentaron cinco veces o más
(p2) se restó de la proporción de trabajadores diurnos que se ausentaron, la empresa puede
estar 90% segura de que la proporción de trabajadores nocturnos es 1.3% y 18.7% más alta
que los del turno diurno.
El tamaño de las muestras cuando se hace muestreo pareado depende de: la varianza
de cada población y el grado de exactitud deseado en nuestra estimación.
Tamaño de muestra para estimar µ1 - 2
n = z2 (21+ 2 2)
(error)2
57
Ejemplo:
Una empresa americana pidió a un economista de la Universidad de Texas que desarrollara
un intervalo de confianza del 99% para la diferencia entre la duración promedio del servicio
prestado por empleados públicos y el de los trabajadores del sector privado. La comisión
desea un ancho de intervalo de tres años. Las muestras pilotos produjeron varianzas de 15 y
21 años respectivamente, ¿Qué tan grandes deberán tomarse las muestras de cada
población?
R: Debido a que el intervalo es de 3 años, el error máximo deseado es la mitad, es decir 1.5
años, entonces:
n = (2.58)2 (15 + 21) = 106.5 107 empleados
(1.5) 2
n = Z2 [1 (1 - 1 ) + 2 (1 - 2 )]
(error)2
Ejemplo:
Un candidato lider en la carrera por una gubernatura desea desarrollar un intervalo de
confianza con un ancho de 3 puntos porcentuales y un nivel de confianza del 99% para hallar
la diferencia entre la proporcion de hombres y de mujeres que están a favor de su
candidatura. ¿Qué tan grandes deberían ser las muestras. Una muestra piloto para hombres
reveló que ph =.40 y pm = .30.
R: Si el ancho del intervalo deseado es de .03, el error máximo es .015, por lo que:
De manera análoga a las pruebas de hipótesis para una población, aquí también se deberán
seguir los cuatro pasos correspondientes a una prueba de hipótesis:
1. Planteamiento de hipótesis
2. Cálculo del estadístico de prueba y valores críticos
3. Regla de decisión
4. Conclusión e Interpretación.
Ejemplo:
Un jugador de golf desea saber si el tiempo promedio que requieren los hombres para jugar
los 18 hoyos es diferente al de las mujeres. Se mide el tiempo de 50 partidos de hombres y 45
de mujeres obteniendo la siguiente información:
Hombres Mujeres
x = 3.5 horas x = 4.9 horas
s = 0.9 horas s = 1.5 horas.
Ho: µh = µm µh - µm = 0
Ha: µh µm µh - µm 0
Paso 4: Como Z =-5.45 < -1.96, la Ho se rechaza, esto es la evidencia sugiere que si existe
diferencia en el tiempo promedio que emplean los hombres y las mujeres. Cabe hacer notar
eu el valor p relacionado con la prueba es virtualmente cero.
Pruebas con muestras pequeñas
Las muestras que involucran muestras pequeñas dependen de si las varianzas poblacionales
pueden asumirse como iguales o no.
59
Ejemplo:
Una persona desea probar si existe diferencia entre los salarios promedio de Atlanta y
NewPort. Para eso obtuvo la siguiente información muestral:
Atlanta NewPort
n = 23 n = 19
X = $17.53 X = $15.50
S = 92.10 S = 87.10
R: Ho: µA = µN µA - µN = 0
Ha: µA µN µA - µN 0
Por otro lado para alfa=2% y 23+19-2 =40 g.l., los valores críticos son: ± 2.423.
Como -2.423< t = .69 < 2.423 , la Ho no se rechaza. Esto es no hay evidencia de que exista
diferencia en el salario promedio.
Si las varianzas son desiguales, lo único que cambia es el estadístico de prueba que queda:
En las muestras pareadas se experimenta menor error de muestreo debido a ala reducción en
la variación entre observaciones porque se hace la correspondencia tan cerca como sea
posible. En este caso el estadístico de prueba queda así:
t = d – (µ1 - 2 )
Sd
n
Ejemplo:
60
Una persona desea probar la hipótesis de igualdad de medias con una muestra pareada de
15 datos, donde d = -884 y d2= 400,716.
R: Ho: µ1 = µ2 µ1 - µ2 = d = 0
Ha: µ1 µ2 µ1 - µ2 = d 0
t = -58.93 – 0 = -1.44
157.8/ 15
Dado que para un alfa de 5% y 15-1= 14 g.l. los valores críticos son: ± 2.145 , la Ho no se
rechaza, es decir, no existe evidencia de que la diferencia sea diferente de cero.
R. Ho: h = m
Ha: h m Sp1-p2 = ph(1-ph)/nh + pm(1-pm)/nm = .069
Como z está entre ± 2.58 la Ho no se rechaza, por lo tanto el minorista no puede concluir que
las proporciones de clientes hombres y mujeres que compran a crédito difieren.
61
COMPARACIÓN DE LA VARIANZA DE DOS POBLACIONES NORMALES
F = S2 1
S22
Como se asume que la mas grande excede a la más pequeña, entre más la exceda, menos
probable es que 21= 22 y más grande será la razón F. Por lo tanto un valor F grande llevará
a un rechazo de la hipótesis nula (Ho: 21= 22).
Manipular la razón F para garantizar que la varianza de la muestra más alta se coloque en el
numerador asegurará que el valor F siempre sea mayor que 1. Vale la pena destacar que la
distribución F no es simétrica y está limitada por cero en el extremo inferior.
Cuando se controla la razón F para asegurar que F>1, se realiza la prueba de dos colas de la
hipótesis Ho: 21= 22 como si fuera una prueba de una cola, por lo tanto es necesario dividir
entre dos el valor alfa ().
Ejemplo:
Un consultor gerencial desea probar una hipótesis respecto a dos medias poblacionales. Sin
embargo antes de hacerlo debe decidir si hay alguna evidencia que sugiera que las varianzas
poblacionales son iguales. Al recolectar sus datos encuentra que :
Muestra 1 Muestra 2
Tamaño muestral 10 10
Desviación estándar 12.2 15.4
Varianza 148.84 237.16
Desea probar:
Como F es menor que el V.C. , la Ho no se rechaza, por lo tanto el consultor puede proceder
con la prueba de hipótesis correspondiente a las medias poblacionales bajo la suposición de
que las varianzas son iguales.
63