ESTADISTICA para Los Negocios (1a. Parte) 2

ESTADISTICA PARA LOS NEGOCIOS
UNIDAD 1: ESTADISTICA INFERENCIAL Y ESTIMACIONES

ESTADÍSTICA DESCRIPTIVA
Actualmente el entorno global de los negocios y la economía nos lleva a hacer uso de una gran
cantidad de información estadística. Por ejemplo:
 En Contabilidad, las firmas contables utilizan procedimientos de muestreo estadístico
cuando realizan auditorías para sus clientes.
 en Finanzas, los analistas utilizan una variedad de información estadística como guía
para recomendación de inversión.
 En Mercadotecnia, los escáneres electrónicos en las cajas de cobro de los
establecimientos recolectan datos para investigación de mercados.
 En Producción, una variedad de gráficas estadísticas de control de calidad se usan para
monitorear el resultado de un proceso de producción haciendo énfasis en la calidad de
los productos manufacturados y los servicios prestados..
 En Economía, los economistas a menudo proporcionan pronósticos acerca del futuro de
la economía. Por ejemplo, para pronosticar las tasas de inflación recurren a información
estadística sobre indicadores como el índice de precios al consumidor, la tasa de
desempleo y el uso de la capacidad de manufactura.
Este enfoque administrativo, también conocido como administración de la calidad total es la

aplicación de ciertos métodos estadísticos y el uso del pensamiento estadístico por parte de los
administradores de las empresas. El pensamiento estadístico se puede definir como el conjunto
de procesos del pensamiento que se orientan a la forma de entender, administrar y reducir la
variación. Este pensamiento reconoce que los datos son intrínsecamente variables y que la
medición, control y reducción de la variación proporciona una oportunidad para mejorar la
calidad.
El método estadístico es una secuencia de actividades que abarca la ciencia Estadística. Estas
actividades son: Recopilación de datos, Organización, Presentación, Análisis, Muestreo,
Estimación de parámetros, Prueba de hipótesis, Interpretación, Toma de decisiones.
A la parte de la estadística que se encarga de recopilar, organizar, presentar y analizar un

conjunto de datos con el único objeto de describir sus características pero sin sacar ninguna
conclusión se le conoce como Estadística Descriptiva.
A la parte de la Estadística que hace posible la estimación de una característica de una

población o la toma de una decisión sobre una población, basándose en un muestreo tomado
de la misma se le denomina Estadística Inferencial o Inferencia Estadística.
Para entender estos conceptos tenemos las siguientes definiciones:
Datos.- Son colecciones de un número cualquiera de observaciones relacionadas entre sí. Se

le da el nombre de “punto de dato” a una sola observación.
1
Las observaciones deben incluir a todos los grupos relevantes y representados en los datos.
Además los datos deben ser:
 Confiables
 No tendenciosas sus fuentes
 No apoyar ni contradecir alguna tendencia
 Lógicas las conclusiones a la que lleven.
Datos brutos.-(o Iniciales) Son los datos tal y como se tomaron y antes de ser organizados y/o
analizados.
La recolección de datos requiere una de las escalas de medición siguiente: nominal, ordinal, de
intervalo o de razón. La escala de medición determina la cantidad de información contenida en
los datos e indica la manera más apropiada de resumirlos y analizarlos estadísticamente.
 Nominal.- Cuando los datos de una variable se componen de etiquetas o nombres para
identificar un atributo del elemento. Ejemp.: Color de ojos
 Ordinal.- Si los datos exhiben las propiedades de los datos nominales y su orden o
clasificación es significativo. Ejemp.: Conducta: Excelente, Buena, Regular y Mala.
 Escala de Intervalo.- Cuando los datos presentan todas las propiedades de los datos
ordinales y el intervalo entre los valores se expresa en términos de una unidad de medida
fija. Los datos de intervalo son siempre numéricos. Ejemp.: Edades (en años) de los
asistentes a un concierto.
 Escala de razón.- Cuando los datos presentan todas las propiedades de los datos
ordinales y la razón de dos valores es significativa. Ejemp: estatura o peso.
Los datos pueden ser: Cuantitativos o Numéricos o Cualitativos o Categóricos. El análisis

estadístico apropiado para una variable depende del tipo de datos que utilice.
Los datos categóricos se resumen mediante el conteo del número de observaciones en cada
categoría o por medio del cálculo de la proporción de las observaciones en cada categoría. Sin
embargo para los datos cuantitativos, los cálculos matemáticos si proporcionan resultados
significativos. A su vez, los datos cuantitativos pueden ser: Discretos o Continuos.
Datos discretos.-Son aquellos que pueden asumir un número limitado de valores enteros.
Datos continuos.- Son aquellos que pueden tomar una medida incluso fraccionaria .
Muestra.- Es una colección de algunos de los elementos que componen una población.
Población.- Es una colección de todos los elementos que estamos estudiando y acerca de los
cuales intentamos extraer conclusiones.
Parámetro.- Es una medida que se calcula para describir una característica de una población
completa.
Estadístico.- Es una medida que se calcula para describir una característica de una muestra
representativa de una población.
Una muestra representativa debe contener las características relevantes de la población de la

cual se tomó, en la misma proporción en que figuran en ella. Buscamos características como:
2
valores máximo y mínimo, tendencia, en torno a que dato se agrupan, valores que aparecen
con mayor frecuencia, etc.
Las estadísticas extraen datos de las muestras y la información obtenida de estos datos sirve
para hacer inferencias sobre la población que la muestra representa.
Análisis de los procedimientos de muestreo
Existen dos métodos para seleccionar las muestras de poblaciones: el muestreo no aleatorio
o de juicio y el muestreo aleatorio o probabilístico.
Muestreo de Juicio.- En éste se usan el conocimiento y la opinión personal para identificar los
elementos de la población que van a incluirse en la muestra. En ocasiones sirve de base para
decidir como seleccionar después una muestra aleatoria.
Muestreo aleatorio.- En este tipo de muestreo, todos los elementos de la población tienen
probabilidad de figurar en la muestra.
Sin embargo, cualquiera que sea el método lo importante es seleccionar una muestra
verdaderamente representativa de la población, es decir minimizar el Error de muestreo
Error de Muestreo = Diferencia entre el parámetro poblacional y el estadístico de la muestra

utilizado para estimar el parámetro.
Aunque muchas veces desconocemos la media poblacional hay que ser consciente de que este
error existe.
El error de muestreo se da ya sea por el azar o por tomar una muestra sesgada, es decir
tendenciosa, por lo que se recomienda garantizar que la recolección de los datos de la muestra
sigan un método que haya probado su capacidad para minimizar dicho error. Existen cuatro
métodos de muestreo aleatorio:
 Muestreo aleatorio simple.

 Muestreo sistemático.
 Muestreo estratificado.
 Muestreo por conglomerados.
Muestreo Aleatorio Simple.- Con este método se garantiza que cualquier muestra de algún
tamaño dado tenga la misma probabilidad de ser seleccionada y cada elemento de la población
tenga la misma probabilidad de quedar incluida en la muestra. Para hacer este tipo de muestreo
nos podemos ayudar de una tabla de números aleatorios, generada por computadora.
Muestreo Sistemático.- Una muestra sistemática se forma tomando cada i-ésimo ítem de una
población, es decir, en un intervalo uniforme en el tiempo, en el orden o en el espacio. La
diferencia con el muestreo aleatorio simple es que aquí, aunque también cada elemento tiene
igual probabilidad de ser seleccionado, cada muestra no tiene esa misma probabilidad. Para
hacer un muestreo sistemático es necesario que la población se ordene o numere en forma
aleatoria y determinar aleatoriamente también el valor inicial. Por ejemplo, si tenemos 1000
elementos de una población podemos formar una muestra con cada (i=10) décimo elemento de
3
la población. Este tipo de muestreo no es apropiado si la población muestra algún tipo de patrón
en el ordenamiento de la población.
Muestreo Estratificado.- Con este método una muestra se forma dividiendo a la población en
grupos homogéneos llamados estratos. Después se recurre a alguno de los dos siguientes
métodos:
- Se selecciona al azar en cada estrato un número especificado de elementos
correspondiente a la proporción del estrato en la población total.
- Se selecciona un número igual de elementos en cada estrato y damos un peso a los
resultados de acuerdo con la proporción del estrato en la población total.
Con cualquiera de los métodos, el muestreo estratificado garantiza que todos los elementos de
la población tengan posibilidad de ser seleccionados. Este tipo de muestreo es adecuado
cuando la población ya está dividida en grupos de diferentes tamaños y reconocemos ese
hecho.
Muestreo por Conglomerados.- Para este tipo de muestreo, también la población total se divide
en grupos o conglomerados y luego se selecciona una muestra aleatoria de ellos, es decir,
todos los elementos de los conglomerados seleccionados forman parte de la muestra.
Como se puede observar tanto en el muestreo estratificado como en el muestreo por
conglomerados, la población se divide, o ya está dividida, en grupos bien definidos. Usamos el
estratificado cuando cada grupo presenta una pequeña variación en su interior, pero existe una
amplia variación entre los grupos. Usamos el muestreo por conglomerados cuando se advierte
considerable variación en el interior de cada grupo pero los grupos son semejantes entre sí.
Los datos obtenidos deben ser clasificados o simplemente ordenados con la finalidad de
permitirnos ver más rápidamente todas las características posibles.
Un arreglo de datos permite ver algunas de las características descriptivas del conjunto de datos
que con los datos brutos no es fácil apreciar. Una forma de sintetizar los datos consiste en
valerse de una tabla que muestra la distribución de la frecuencia de los mismos. En estas tablas
llamadas de “distribución de frecuencia” se sacrifican algunos detalles pero en cambio nos
ofrece nuevas perspectivas del comportamiento de los datos.
La distribución de frecuencia es una tabla que organiza los datos en “clases”, es decir, en
grupos de valores que describen una característica común de los datos. La distribución de
frecuencia muestra el número de observaciones provenientes del conjunto de datos que caen
dentro de cada una de las clases.
Cuando lo que queremos es analizar el comportamiento de dos o más conjuntos de datos al

mismo tiempo con la intención de ver si existe algún patrón o relación entre ellos se construye
una tabla de clasificación cruzada conocida como Tabla de Contingencia o Cruzada.
También podemos expresar la frecuencia de cada valor como una fracción o porcentaje del
número total de observaciones en cuyo caso se conoce como frecuencia relativa.
En las distribuciones de frecuencia las clases deben ser:

Mutuamente excluyentes.- es decir, un dato encaja en una u otra clase pero no en ambas. De
aquí que la suma de todas las frecuencias relativas sea igual a 1.
4
Exhaustivas.- Es decir, cualquier dato debe caer en al menos una clase. Es decir, las clases
deben abarcar todas las posibilidades.
Se llama clase “abierta” cuando alguno de sus extremos (superior o inferior) es ilimitado o bien
no está definido. Además las clases pueden ser: Cuantitativas o Cualitativas, según el tipo de
dato que contenga.
Graficación de las distribuciones de frecuencia
Las gráficas de distribución de frecuencia y distribución de frecuencia relativa son útiles porque
ponen de relieve y aclaran las tendencias que no son perceptibles en las tablas. Para datos
cualitativos, las más usadas son las gráficas de barra (Histogramas) y las gráficas circulares.
Sin embargo existen otras como: Polígono de frecuencia, Grafica de línea, Pictograma y Ojivas.
Cuando lo que necesitamos es un análisis exploratorio de datos usamos los diagramas de Tallo
y Hoja.
Análisis de los datos.
Siguiendo el proceso estadístico, después de recopilar, organizar y presentar los datos, el paso
siguiente es el análisis de los mismos. Para hacer este análisis es necesario calcular algunas
medidas que nos muestren el comportamiento de los datos. Estas medidas se llaman
Estadísticos y son números que describen algunas características representativas de un
conjunto de datos. Cuatro de estas características son:
 Medidas de tendencia central.

 Medidas de dispersión.
 Medidas de sesgo.( Asimetría)
 Medidas de curtosis.
Medidas de Tendencia Central.- Nos indican el punto medio (o típico) de los datos, que cabe
esperar. También reciben el nombre de medidas de localización.
Ejemplo:
5
Medidas de Dispersión.- Esta medida se refiere al esparcimiento de los datos, o sea, al grado
de dispersión de las observaciones. Las curvas siguientes tienen igual media pero diferente
dispersión.
Medidas de Sesgo.- Las curvas de frecuencia que representan a los datos pueden ser:
Simétricas o Asimétricas ( es decir, Sesgadas).
Las curvas simétricas son tales que una línea vertical trazada desde la cumbre de la curva al
eje horizontal divide el área bajo la curva en dos partes iguales. Ejemplo:
Las asimétricas, en cambio, concentran en un extremo u otro de la gráfica la mayoría de sus

observaciones.
Medidas de curtosis.- Esta medida nos da el grado de pico de la gráfica. Ej.:
Nota: Obsérvese que existe una relación _________________ entre las medidas de
desviación y las medidas de curtosis.
6
Medidas de Tendencia Central.
Media Aritmética.- Se define como la suma de los valores observados entre el No. de
observaciones. Para definirla algebraicamente, consideramos los siguientes símbolos
convencionales:
 - Media aritmética de la población.

N – Tamaño de la población (No. total de observaciones)
x - Media aritmética de una muestra.
n – No. de observaciones que forma la muestra.
Así para datos sueltos tenemos: Y para datos agrupados en clases:

x = ( x ) x = (f x Mk)
N n
Donde f-frec. De cada clase y Mk- marca de clase de cada una.
Hay que hacer notar que así como la media aritmética de una muestra ( x ) es una
estimación de la media aritmética de la población (), la media aritmética calculada con los
datos agrupados estima el valor de la media aritmética de los datos sueltos.
Media Ponderada.- Es un promedio que toma en cuenta la importancia ( o el peso) de cada

valor para el total. Se define solo para datos sueltos así:
xw = (x * w) Donde w es el peso de cada

w Valor.
Ejemplo: Si para aprobar un curso un alumno debe aprobar 3 exámenes parciales, una tarea
por computadora y una investigación, donde cada uno de ellos vale el 20%, 15%,15%, 20% y
30% respec., y obtiene 90,100,87,40 y 70 en cada uno, ¿Qué calificación obtuvo? ¿Aprobó?
Media Geométrica.- Es el promedio de los datos que cambian a lo largo de un período de

tiempo. Se define solo para datos sueltos así:
Mg = n (x1 * x2 * x3 * ......xn )
Ejemplo: Si invierto $100 de acuerdo a la siguiente tabla:

Año Tasa de Inversión Factor de Crecimiento Ahorro al final del año
1 7 1.07 107.00
2 8 1.08 115.56
3 10 1.10 127.12
4 12 1.12 142.37
5 18 1.18 168.00
¿Cuál es el promedio de mi factor de crecimiento?
7
Si se calcula la media aritmética de los factores de crecimiento de cada año, sería:
x =
Si utilizo esta medida como representativa de todos los años, al ser aplicada a mi inversión
inicial tendría al final de 5 años:
100 ( x )5 =
En cambio si calcula la media geométrica de los factores de crecimiento, sería:
Mg =
Que al ser aplicada a mi inversión inicial, al final de 5 años tendría:
100 (Mg ) 5 =
Con esto se demuestra que la M.G. es la mejor estimación de la realidad en este caso.
Mediana.- Mide el elemento central de los datos, es decir, la mitad de los elementos se
encuentran por arriba de este punto y la otra mitad cae debajo de él. Se define así,
Para datos sueltos:
Mediana = m = el (n+1)/2- ésimo elemento de un arreglo de datos.
Para datos agrupados en clases:
 n 1 
  2   F  1 
 
m = Lm +  *w
 fm 
 
 
Donde F – Suma de las frecuencias hasta la clase inmediata anterior a la clase que contiene
a la mediana.
fm – Frecuencia de la clase que contiene a la mediana.
W – Ancho de cada clase.
Lm – Límite inferior de la clase que contiene a la mediana.
Moda.- Es el valor que más se repite de un conjunto de datos. La moda NO nos indica como
se comporta la mayoría de los datos, sino sólo cuál se repite más. La clase con el mayor No.
de observaciones se conoce como la Clase Modal y generalmente es más representativa de
los datos que la moda misma. Se define así,
Para datos sueltos:
Moda = Mo = El valor que más se repite.
8
Para datos agrupados en clases:
 d1 
Mo = L Mo +   * w
 d1  d 2 
Donde L Mo = Límite inferior de la clase modal.

d1 = Frecuencia de la clase modal menos frecuencia de la clase anterior
d2 = Frecuencia de la clase modal menos frecuencia de la clase sigte.
w = Ancho de la clase.
Análisis de las medidas de Tendencia Central.
La experiencia ha demostrado que cuando la distribución de la población tiene sesgo positivo

o negativo, la mediana es generalmente la mejor medida de tendencia central. En cambio en
las simétricas, media, mediana y moda coinciden.
Fractiles.-Si un conjunto se coloca en orden de magnitud, el valor medio que divide al

conjunto en dos partes iguales es la mediana. Por extensión se puede pensar en los valores
que dividen al conjunto de datos en cuatro partes iguales: estos se llaman cuartiles y se
denotan Q1, Q2 y Q3.
|__________|__________|__________|__________|
Valor mas chico Q1 Q2 Q3 Valor mas grande
Análogamente los valores que dividen al conjunto de datos en 10 partes iguales se llaman
Deciles y se denotan D1,D2,....D9 y los que los dividen en 100 partes iguales se llaman
Percentiles y se denotan P1,P2,....P99.
Nótese que:
M = Q2 = D5 = P50 ; P25= Q1 y P75 = Q3
Al conjunto de estos valores se les llama FRACTILES O CUANTILES.
Medidas de Dispersión.
Las medidas de tendencia central nos informan sobre parte de las características de los datos,
pero es necesario que tengamos información que nos permita juzgar la confiabilidad de estas
medidas. Esta información nos la proporcionan las medidas de dispersión o variabilidad.
Además estas medidas nos permiten comparar las dispersiones de varias muestras y de
acuerdo a nuestra conveniencia tomar la distribución que mejor convenga. Existen tres tipos de
medidas de dispersión:
9
Medidas de Distancia.- La dispersión puede medirse en términos de la diferencia existente
entre dos valores seleccionados del conjunto de datos. Algunas de estas medidas son:
Intervalo.- Es la diferencia entre el valor más alto y el más bajo del conjunto de datos. También
conocida como Rango. Es fácil de entender y calcular pero es escasa su utilidad como
medida de dispersión, pues solamente incluye los valores máximo y mínimo de una distribución
sin tomar en cuenta ninguno de los datos restantes. Como solo mide dos valores, cambia
drásticamente de una muestra a otra, aun cuando los valores intermedios sean similares. Las
distribuciones abiertas no tienen Intervalo ya que no existe un valor máximo o mínimo.
Intervalo de Interfractil.- Es una medida de la dispersión entre dos valores del fractil. Un
ejemplo de esta medida es:
Intervalo de Intercuartil = Q3 – Q1
|__________|__________|__________|__________|
Valor mas chico Q1 Q2 Q3 Valor mas grande
El Intervalo de Intercuartil contiene al 50% de los datos.
Desviación del Cuartil.- Se define así: Q3 - Q1

2
La desviación del cuartil mide el intervalo intermedio de un cuarto de los datos. Es

representativa de todos los cuartiles, ya que se obtiene tomando un promedio de la mitad
intermedia de los datos en vez de escoger una de las cuatro partes.
Medidas de Dispersión (o Desviación) Relativa.- La comparación de dos desviaciones estándar

de dos diferentes distribuciones no nos dice nada porque dependen de la media de cada una
de ellas. Lo que necesitamos es una medida relativa que nos dé una idea general de la magnitud
de la desviación estándar en relación con la magnitud de la media. Esta medida es el
Coeficiente de Variación (C.V.)
Coeficiente de variación.- Esta medida relaciona ambas expresando la desviación estándar

como un porcentaje de la media. De ahí que la unida de medida se llame “por ciento”, en vez
de las mismas unidades que los datos originales.
Para la población se define así: C.V. =  (100) %


Para una muestra: C.V. = s (100)%

x
Ejemp: Si el técnico de laboratorio A realiza 40 análisis diarios con una desv. Est. De 5 y el
técnico B hace 160 análisis con una desv. Estándar de 15, ¿Cuál técnico muestra menor
variabilidad en su trabajo?
10
Medidas de Desviación Promedio.- Las medidas que describen mejor la dispersión son
aquellas que ser refieren a la desviación promedio respecto a alguna medida de tendencia
central. Dos de esas medidas son: la varianza y la desviación estándar. Ambas nos indican una
distancia promedio de cualquier observación del conjunto de datos a la media de la distribución.
Para comprenderlas mejor utilizaremos una medida auxiliar:
Desviación Absoluta Promedio.- Es el promedio de las desviaciones de cada observación

con respecto a su media aritmética y se calcula así:
D.A.P. = x – x
n
Varianza (o Variancia).- Se parece a la desviación absoluta promedio, sólo que aquí utilizamos
la suma de los cuadrados de las distancias entre la media y cada elemento en lugar del valor
absoluto. Al elevar al cuadrado cada distancia, automáticamente la hacemos positiva. Se define
de la siguiente manera:
 x    x  x 
2 2
Para la población:  2 = Para una muestra: s2 =

N n 1
Sin embargo las unidades en que se expresa la varianza causan confusión, es por eso que, se
introduce una nueva medida de la desviación llamada Desviación Estándar que se define
como la raíz cuadrada positiva de la varianza. De esta manera la desviación estándar se da en
las mismas unidades que los datos, y se expresa así:
Para la población:  = 2
Para una muestra: s = s2
La desviación estándar nos permite determinar, con mayor grado de precisión, donde se sitúan
los valores de una distribución de frecuencia en relación con su media, como lo establece el
Teorema de Chebychev (o Tsebyshev) que dice, para k>1:
1
... Cualquiera que sea la forma de la distribución al menos (1 - ) de las observaciones
k2
caen dentro de k desviaciones estándar de la media...
Más aún, existe una regla conocida en algunos libros como “Regla Empírica”, que afirma:
“Si la curva de distribución es simétrica y en forma de campana:

11
- al menos el 68% de los datos caerá entre +-1 Desv. Estándar
- al menos el 95% de los datos caerá entre +-2 Desv. Estándar
- al menos el 99% de los datos caerá entre +-3 Desv. Estándar”
Esta “Regla Empírica” se ilustra así:
Puntuación Estándar.- Es una medida que nos da el No. de desviaciones estándar a que
determinado valor de la población se encuentra por debajo o encima de la media.
Esta se calcula así:

𝑥̅ −𝜇
z= para la población
𝜎
𝑥−𝑥̅
Z= para una muestra
𝑠
12
MODELOS DE DISTRIBUCIÓN
Conceptos básicos:
Probabilidad.-Es una medida de la creencia o posibilidad de que ocurra “algo”. La probabilidad

se expresa como fracción, como fracción decimal entre 0 y 1 o como porcentaje.
Tener una probabilidad de 0 significa que “algo” nunca ocurrirá y tener una
probabilidad de 1 significa que “algo” ocurrirá siempre.
Evento.- Es uno o varios de los resultados posibles que se consiguen al hacer alguna actividad.
Experimento.- Es la actividad mediante la cual se obtiene una observación de un fenómeno.
Espacio Muestral.- Es el conjunto de todos los resultados posibles de un experimento.
Se dice que dos o más eventos son mutuamente excluyentes si uno y solo uno de ellos puede
tener lugar a la vez.
Se dice que un conjunto de eventos (o una lista de ellos) es colectivamente exhaustiva si incluye
todos los resultados posibles.
Existen tres enfoques que se le pueden dar a la probabilidad:

 Probabilidad clásica.
 Frecuencia relativa de ocurrencia
 Probabilidad subjetiva.
Probabilidad clásica
Bajo este enfoque se define la probabilidad así:
Prob. De un evento = No. de veces que ocurre un evento

No. total de posibles resultados
También recibe el nombre de probabilidad “a priori”. Este enfoque
descarta situaciones muy poco probables, pero que podrían
presentarse:
1
Ejemp.: Prob.(que neve en Mérida) =
2
Frecuencia relativa de ocurrencia
Bajo este enfoque se define la probabilidad de dos formas:
1.- Como la frecuencia relativa observada de un evento en un gran No. de ensayos en
condiciones similares.
ó
2.- Como la proporción de las veces que un evento sucede a la larga cuando las condiciones
son estables.
Este método (para calcular la probabilidad) utiliza las frecuencias relativas de ocurrencias
pasadas como probabilidad. Determinamos la frecuencia con que algo ha ocurrido en el pasado
y con esta cifra predecimos la probabilidad de que vuelva a suceder en el futuro.
13
Cuando usamos la frecuencia relativa para establecer la probabilidad de un evento, la cifra de
ésta será más exacta y confiable a medida que aumentemos el No. de observaciones. Su
desventaja consiste en que la gente la utiliza sin evaluar un No. suficiente de resultados. Ejemp.:
Prob.(que un alumno reprueba Matemáticas)=
Si analizo solo el semestre pasado puede ser una probabilidad diferente que si analizo los tres
años de preparatoria y/o los tres años de secundaria para saber cuál ha sido la proporción de
veces que ha reprobado Matemáticas; mientras mayor No. de observaciones considere más
confiable será mi probabilidad.
Probabilidad subjetiva
Esta probabilidad se basa en las creencias e ideas del que realiza la evaluación de la
probabilidad. Así podemos definirla como:
Probabilidad de un evento = La que le asigna el individuo basándose en

la evidencia disponible.
Esta asignación puede tener la forma de frec. relativa de ocurrencia o puede consistir en una
conjetura inteligente. Ejemp.:
Cuando una anciana dice: “ Me duelen los huesos, es probable que llueva”
Así podemos observar que un mismo evento puede tener diferentes probabilidades de que
ocurra según el enfoque que se le de: Ejemp: Sea A el evento consistente en “Que llueva en
Mérida hoy”, el cual se denota así: A=  Que llueva en Mérida hoy
Según la probabilidad clásica:
P(A)= 1 Que llueva

2 Resultados posibles: Que llueva o que no llueva.
Según la Frecuencia relativa de ocurrencia:
P(A) = ______ Veces que ha llovido en un día como hoy

n No. de años observados.
A medida que n crezca, la P(A) será más exacta.
Según la probabilidad subjetiva:
P(A)= La que cada individuo le quiera dar según sus evidencias

disponibles
Tipos de probabilidad
Existen tres tipos de probabilidad según la situación en que se presenten los eventos:
 Marginal
14
 Conjunta
 Condicional
Probabilidad Marginal.- Es la probabilidad de que un solo evento suceda o tenga lugar.
En ocasiones deseamos conocer la probabilidad de que suceda uno u otro evento, donde
ambos pueden o no ser excluyentes. Supongamos dos eventos: A y B. Si son mutuamente
excluyentes, gráficamente los podríamos representar como conjuntos y los veríamos así:
A B
Y se define P(A o B) = P(A) + P(B)
Si no son mutuamente excluyentes, gráficamente los veríamos así:
A B
Y definimos P(A o B) = P(A) + P(B) – P(A,B)
Probabilidad conjunta.- Es la probabilidad de que se presenten dos o más eventos al mismo

tiempo o en sucesión.
Cuando se presentan dos eventos, el resultado del primero puede o no influir en el

resultado del segundo. En otras palabras, los eventos pueden ser dependientes o
independientes.
Si son independientes, la probabilidad conjunta se define así:
P(A,B) = P(A) * P(B)
Esta probabilidad da lugar a los diagramas de árbol, donde para cada posible resultado
de un evento, puede haber el mismo u otro No. posible de resultados del siguiente evento.
Probabilidad condicional.- Es la probabilidad de que ocurra un evento si otro ya ocurrió. Se

expresa así: P(A/B) y se lee como “la probabilidad de que ocurra A si B ya ocurrió”
Para calcular esta probabilidad pueden presentarse dos situaciones:
Si A y B son independientes, la ocurrencia de B no influye en la probabilidad de A

15
 P(A/B) = P(A)
Si A y B son dependientes, la probabilidad condicional se define así:
P(A/B) = P(A,B)
P(B)
Y de esta fórmula se deduce la probabilidad conjunta en condiciones de dependencia:
P(A,B) = P(A/B) * P(B)
Además podemos definir la probabilidad marginal en estado de dependencia estadística de la

siguiente manera:
P(A) = Suma de las Probabilidades Conjuntas de los eventos en los que ocurra A.
TEOREMA DE BAYES.-A la fórmula de la probabilidad condicional en estado de dependencia

estadística se le conoce como el Teorema de Bayes, y se puede expresar de varias formas:
P(A/B) = P(A,B) = P(B/A)*P(A) = P(B/A)*P(A)

P(B) P(B,A)+P(B,Ac) P(B/A)*P(A)+ P(B/Ac)*P(Ac)
Este teorema permite evaluar nueva información y revisar estimaciones precedentes para
calcular probabilidades “ a posteriori”
Ejemp.: Supongamos que tenemos dos colores de dados “cargados” y el mismo número de
cada uno de ellos. Además se sabe que la probabilidad de que caiga un "6“ si es de color rojo
es de .40 y si es de color azul es de .70. Se extrae un dado al azar se lanza y cae un 6, ¿Cuál
es la probabilidad de que sea rojo?
Solución:
Tenemos los siguientes eventos Tenemos los siguientes datos:
Sea A=Que caiga un 6 P(R) = .5
R= Que el dado sea rojo P(Z) = .5
Z = Que el dado sea azul P(A/R)=.4
P(A/Z) = .7
De acuerdo al Teorema de Bayes:
P(R/A) = P(A/R)*P( R) = (.40)* (.5) = .364

P(A/R)*P( R)+P(A/Z)*P(Z) (.40)* (.5) + (.70)*(.5)
Antes del lanzamiento del dado( es decir, antes de ver que cayo 6) sólo podíamos afirmar
que la probabilidad de un dado sea rojo era de .5; después de saber que sucedió la probabilidad
de que el dado sea rojo es de .364 es decir cambió.
16
Distribuciones de probabilidad
Se entiende una distribución de probabilidad como una distribución teórica de la frecuencia, es

decir, una distribución de probabilidad es como se espera que varíen las frecuencias de los
datos.
En otras palabras, una distribución de frecuencias es un listado de las frecuencias observadas
de todos los resultados de un experimento que ya se llevo a cabo; en cambio, una distribución
de probabilidad es un listado de las probabilidades de cada uno de los resultados posibles que
"podrían" presentarse si se efectúa el experimento.
Las distribuciones de probabilidad pueden ser: discretas o continuas, según la variable (discreta
o continua) que utilicen.
Variable aleatoria.- Es aquella que asume diferentes valores como resultado de un experimento
aleatorio, es decir, sus resultados son al azar.
Ejemp. Si el no. De personas atendidas de cáncer en un día varía entre 8 y 20, la variable es
aleatoria discreta. ¿por que?. Porque solo podrá ser 8,9,10,11 ... 20, nunca 8.5 pacientes.
De la observación de 30 días se obtuvo el siguiente cuadro:
No. de pacientes No. de días en p(que haya ese
atendidos en 1 día que se atendió No. de pacientes)
8 1 .033
9 1 .033
10 1 .033
11 1 .033
12 3 .1
13 4 .133
14 5 .166
15 4 .133
16 3 .1
17 3 .1
18 2 .066
19 1 .033
20 1 .033
TOTAL: 30
Si tomamos esos 30 días como representativos del comportamiento anual, podemos asignarle
una probabilidad a cada No. posible de pacientes y encontrar una distribución de probabilidad.
Además con esta distribución podemos calcular el valor esperado de la variable aleatoria
discreta.
Valor esperado de una variable.- Es la media ponderada de los resultados que se esperan en
un futuro. El "peso" de cada resultado posible es la frecuencia (o probabilidad) con que se
supone ocurrirá. Algebraicamente se expresaría así:
E(X) =  x * w =  x * Px
w  P(x)
17
La distribución de probabilidad de una variable aleatoria se puede expresar en forma algebraica.
A continuación veremos dos distribuciones de variable aleatoria discreta (binomial y poisson) y
una de variable aleatoria continua (normal)
Distribución Binomial
Esta distribución, de una variable aleatoria discreta, describe los resultados posibles de un
experimento denominado "Proceso de Bernoulli". Este proceso tiene las siguientes
características:
1.- Cada ensayo (del experimento) tiene solo dos posibles resultados, éxito o fracaso.
2.- La probabilidad de cada uno de estos resultados permanece fija con el tiempo.
3.- Los ensayos son estadísticamente independientes.
algebraicamente la distribución la podemos expresar así:
 n!  r (n-r) = C r (n-r)
P(r éxitos en n ensayos) =   p q n,r p q
 r!*n  r !
donde
p = Prob. de éxito
q = Prob. de fracaso
r = No. de éxitos deseados
n = No. de ensayos efectuados
Como es de suponerse en algunas ocasiones, calcular el factorial de un número grande

resultaría complejo, por eso se han construido tablas que abrevian este cálculo.
Si un conjunto de datos se distribuyen en forma binomial sus medidas de tendencia central y
de dispersión se definen así:
 = n*p = n* p*q
Ejemp. Supongamos que la probabilidad de que un niño llegue tarde a la escuela es .4 . Si 5

niños van a la escuela ¿cual es la probabilidad de que 2 lleguen tarde? ¿y cual es la
probabilidad de que todos lleguen tarde?
Solución:
p(0) =
p(1) =
p(2) =
p(3) =
p(4) =
p(5) =
18
Si graficáramos la probabilidad para todos los valores posibles, la veríamos así:
Distribución de Poisson.
Existen varios procesos que describen la distribución de Poisson, los cuales tienen un elemento
en común: la variable aleatoria es discreta. Las características de estos procesos son:
1.- La media (o promedio) de los valores pueden estimarse a partir de datos
anteriores.
2.- Si tomamos un periodo de tiempo, la probabilidad de que exactamente un valor
sea tomado por la variable en ese periodo es muy pequeño y constante para cada
intervalo de tiempo.
3.- La probabilidad de que dos o más valores sean tomados en un periodo de tiempo
es tan reducido que podemos asignarle un valor de 0.
4.- El no. De valores que toma la variable en un determinado periodo es
independiente del momento en que ese periodo ocurre.
5.- El no. De valores que ocurren en un periodo de tiempo es independiente del no.
De valores en cualquier otro periodo igual.
Si un proceso cumple estas características, podremos tomar una distribución de Poisson para
describirlo. Su expresión algebraica es la siguiente:
P(x) = (λx ) * (e -λ )
x!
donde λ = No. promedio de ocurrencias por periodo de tiempo.

e = 2.71828 (base del sist. de logaritmo natural)
P(x) = probabilidad de exactamente x ocurrencias.
Las tablas existentes de la distribución de Poisson abrevian el cálculo de e -λ
En algunas ocasiones se puede usar la distribución de Poisson como una aproximación

razonable de la distribución Binomial para evitar el trabajo de calcular ésta. Estas ocasiones se
dan cuando n es muy grande y p es muy pequeña, es decir, cuando el no. De ensayos es
extenso y la probabilidad de éxito (binomial) es pequeña. La experiencia recomienda usar esta
aproximación cuando n>=20 y p<=.05.
En estos casos podemos sustituir la media binomial (np), en lugar de la media de poisson (λ),
de modo que la formula quedaría así:
19
P(X) = (np)x * e-np
x!
Ejemplo:
Usaremos las 2 fórmulas en un mismo ejemplo para observar esto: supongamos que en un
hospital hay 20 maquinas de diálisis renal y la probabilidad de que alguna no sirva en un día
determinado es de .02. ¿Cuál es la probabilidad de que un día cualquiera 3 no sirvan?
Solución:
Binomial Poisson
P(3)= C20,3 (.02)3 * (.98)17 P(3) = (20*.02)3 * e –(20 * .02)

3x2x1
= =
Nótese que la diferencia es menor que .01, por lo que se considera una buena aproximación.
Distribución Normal
Esta distribución es solo una de varias que existen de variable aleatoria continua. Esta
distribución se conoce también como distribución de Gauss. Sus características son las
siguientes:
1.- La curva tiene un solo pico, es decir, es unimodal. Presenta una forma de
campana.
2.- La media de una población normal se encuentra en el centro de la curva.
3.- Como es simétrica, la mediana y la moda se hallan también al centro y coinciden
en valor con la media.
4.- Las dos colas (o extremos) de una distribución normal se extienden de manera
indefinida y nunca tocan el eje horizontal.
La mayoría de las poblaciones de la vida real no se extienden para siempre en ambas

direcciones, pero para esas poblaciones la distribución normal es una aproximación adecuada.
Para definir la expresión algebraica de una distribución normal necesitamos dos parámetros: la
media ( μ ) y la desviación estándar ( σ ).
Como la suma de las probabilidades de todos los valores posibles de la variable suma 1,
podemos considerar que las áreas bajo la curva normal son probabilidades.
20
Representación gráfica de esta función de probabilidad
Además sabemos por la regla empírica derivada del teorema de Chebyshev que:
- al menos el 68% de los valores de una población distribuida normalmente se encuentra

dentro de 1 desviación estándar (mas y una menos) respecto a su media.
- al menos el 95.5% de todos los valores de una población normal caen dentro de 2
desviaciones estándar respecto a su media.
- al menos el 99.7% de todos los valores de una población normal caen dentro de 3
desviaciones estándar respecto a su media.
Sin embargo, no siempre esos porcentajes son los que necesitamos, es por eso que existen
tablas que nos indican que partes del área bajo una curva normal están contenidas dentro de
cualquier no. De desviaciones estándar de su media.
Como no es factible ni necesario tener una tabla para cada curva normal posible se utiliza una
distribución normal estándar de probabilidad, para calcular el área bajo cualquier curva normal.
Para entender mejor este concepto, observemos lo siguiente: para cualesquiera 2 curvas
normales con media y desviación estándar diferentes, tenemos:
21
El área a y el área b corresponden a la misma proporción del área total bajo la curva, porque
en ambas es el área entre la media y 1 desviación estándar a la derecha. Esto vale para todas
las curvas normales, es decir, todos los intervalos que contienen el mismo no. De desviaciones
estándar respecto a la media incluirán la misma proporción del área total bajo la curva.
Uso de las tablas de distribución Normal
En las tablas que miden el área bajo la curva normal entre la media y cualquier valor de la
variable aleatoria, se utiliza el " no. De desviaciones estándar " representado por z y
denominado "unidades estándar o puntuación estándar" y se calcula así:
z= x - x
s
Estas tablas contienen solo la mitad del área bajo la curva normal, empezando con 0 en la
media.
Ejemplo: Se tiene un programa de capacitación para mejorar la habilidad de los

supervisores de la línea de producción. Cada quien le dedica el tiempo que
considere necesario, pero un estudio revela que el tiempo promedio dedicado al
programa es de 500 horas con una desviación estándar de 100 horas. Hallar las
siguientes probabilidades:
a) p(tarden mas de 500 horas)
b) p(tarden entre 500 y 650 horas)
c) p(tarden mas de 700 horas)
d) p(tarden entre 550 y 650 horas)
e) p(tarden menos de 580 horas)
f) p(tarden entre 420 y 570 horas)
22
Aproximación de la Normal a la Binomial
Cuando tenemos un probabilidad Binomial para calcular como por ejemplo: de 10

lanzamientos de una moneda, la probabilidad de que caigan 5,6,7 u 8 caras, se expresa así:
p(5,6,7,8) =p(5)+p(6)+p(7)+p(8) ó p(5 o más)- p(9 o más) = .6230 - .0107 = .6123
Gráficamente la veríamos así:
Observamos que la probabilidad Binomial de 5,6,7 u 8 caras puede aproximarse con el área
bajo una curva normal entre 4.5 y 8.5 donde .5 se conoce como factor de corrección de
continuidad
veamos, para x=4.5 ---> z =-.32

y para x=8.5 ---> z = 2.21
Buscando en la tabla de la curva normal tenemos:
p(4.5 < x < 8.5) = .1255 + .4864 = .6119
Como la diferencia es menor que .01 podemos decir que es una buena aproximación.
Esta aproximación sólo se puede hacer cuando np y nq >= 5 por lo menos.
23
DISTRIBUCIONES MUESTRALES
Estadística Inferencial
Generalmente las poblaciones son muy grandes para ser estudiadas en su totalidad. Por eso
es necesario seleccionar una muestra representativa de un tamaño más manejable. Esta
muestra se utiliza luego para sacar conclusiones sobre la población. Desde el punto de vista
matemático podemos describir las muestras y las poblaciones mediante sus medidas de
tendencia central y de dispersión. Cuando estas medidas describen las características de una
muestra se les llama estadísticos y cuando describen las características de una población
reciben el nombre de parámetros, por lo tanto un estadístico se utiliza como estimador del
parámetro correspondiente.
Al confiar en una muestra para sacar una conclusión o inferencia sobre la población, se está
haciendo uso de la Estadística Inferencial (Definición: Uso de un estadístico para sacar una
conclusión o inferencia sobre el parámetro correspondiente). Sin embargo el valor estadístico
depende de la muestra tomada. De cualquier población dada de tamaño N, es posible obtener
muchas muestras diferentes de tamaño n.
Distribuciones muestrales
Con vemos, existen varios métodos para extraer una muestra de una población y calcularle
estadísticos como la media y la desviación estándar. Si aplicamos esto a varias muestras de
una población no necesariamente los estadísticos que calculemos a cada muestra serán iguales
y lo más probable es que varíen de una muestra a otra. Por ejemplo, supongamos que tenemos
6 cuentas con importes respectivos de: $103, $156,$129,$ 138, $166 y $ 142 y con importe
promedio de $139. Supongamos ahora que deseo hacer un muestreo de solo dos cuentas de
estas seis sin reemplazo. El No. total de posibles muestras con dos cuentas se calcula con
combinaciones de 6 elementos tomados de 2 en 2 (C6,2) y resultan 15 posibles muestras que
se dan a continuación: (Si fuera con reemplazo, el total de muestras sería Nn.)
Muestra No. Elementos Media muestral
1 103,156 129.5
2 103,129 116.0
3 103,138 120.5
4 103,166 134.5
5 103,142 122.5
6 156,129 142.5
7 156,138 147.0
8 156,166 161.0
9 156,142 149.0
10 129,138 133.5
11 129,166 147.5
12 129,142 135.5
13 138,166 152.0
14 138,142 140.0
15 166,142 154.0
Las 15 muestras tienen la misma probabilidad de ser seleccionadas y de que su media difiera
de la media poblacional (  = $139.0). A esta diferencia entre la media poblacional (  ) y la
24
media muestral x  que se utiliza para estimarla se le conoce como error de muestreo, como
vimos antes, este se define como la diferencia entre el parámetro poblacional y el estadístico
de la muestra utilizado para estimar el parámetro (x- µ).
Aunque muchas veces desconocemos la media poblacional hay que estar consciente de que
este error existe.
Cada una de estas muestras las podemos ordenar, listar y calcularle su probabilidad de
ocurrencia en una tabla conocida como:
Distribución muestral.- Es una lista de todos los valores posibles para un estadístico y la
probabilidad relacionada con cada valor.
Media Muestral Frecuencia Probabilidad

116.0 1 1/15
120.5 1 1/15
122.5 1 1/15
129.5 1 1/15
133.5 1 1/15
134.5 1 1/15
135.5 1 1/15
140.0 1 1/15
142.5 1 1/15
147.0 1 1/15
147.5 1 1/15
149.0 1 1/15
152.0 1 1/15
154.0 1 1/15
161.0 1 1/15
Media Muestral
Estas medias muestrales al igual que cualquier lista de números tiene una media denominada
“ la media de las medias muestrales” o “gran media”. Se calcula igual, pero se lee “x doble
barra”:
𝑋̿ =  x
K donde k es el No. de muestras.
Así, en nuestro ejemplo la media de las medias muestrales sería:
𝑋̿ = 139
Nótese que la media de las medias muestrales es igual a la media de la población lo cual no es
una coincidencia.
25
También esta distribución de medias muestrales tiene una varianza:
2x = ( 𝑥̅ - 𝑥̿ )2 =  (𝑥̅ - )2 =

K K
Error Muestral
A la raíz cuadrada de la varianza de las medias muestrales se le conoce como el error estándar
de la distribución muestral, que es análogo a la desviación estándar de las observaciones en
cada muestra. El error estándar mide la dispersión de las medias muestrales alrededor de .
Como la diferencia entre x y  es el error de muestreo, toda medida de la tendencia de la
media muestral a desviarse de la media poblacional se le denomina error estándar. Por lo tanto,
el error estándar mide el grado de exactitud de la estimación de  .
Otra forma de calcular la varianza y error estándar, cuando la varianza de la población es

conocida es:
2x = 2/n y x =  /  n
Corrección con poblaciones finitas.
Pero esta fórmula sólo es apropiada si el muestreo se realiza con reemplazo o si la muestra se
toma de una población muy grande. Si no es así, es decir, si la muestra se realiza sin reemplazo
y si el tamaño de la muestra es mas del 5% de la población (n > 0.05N), debe aplicarse el factor
de corrección para poblaciones finitas (fpc), por lo que la fórmula para el error estándar
quedaría:
 N n N n
x = * donde es el fpc
n N 1 N 1
Si n es pequeño respecto a N (n<0.05N), el fpc se aproxima a 1, por lo que el valor del error
estándar no cambia. Por el contrario a medida que n se aproxima a N, el fpc se aproxima a
cero, es decir, el error estándar disminuye. En otras palabras, a medida que la muestra
aumenta, el error estándar disminuye.
De la gráfica de la distribución de medias muestrales, podemos observar que si la población

se distribuye normalmente, las medias muestrales también. Ejemplo: Para una población con
 =500 y  = 50
26
Teorema del Limite Central
Pero, ¿cómo sería la distribución de las medias muestrales, si la población no se distribuye

normalmente?. Veamos que dice el siguiente Teorema:
Teorema del Límite Central.- A medida que n se vuelve más grande, la distribución de las
medias muestrales se aproximará a una distribución normal con una media X =  y un error
estándar de x =  / n
Por lo tanto, incluso si la población no está distribuida normalmente, la distribución de muestreo

de las medias muestrales será normal si n es lo suficientemente grande. La regla general es
que si n es por lo menos 30, el teorema del límite central asegurará una distribución normal en
las medias muestrales incluso si la población no es normal.
Gráficamente se vería así. Primero veremos la gráfica de una población no distribuida

normalmente con una media  = 1000 y una  = 100.
La siguiente es la gráfica de la distribución de las medias muestrales si se tomaran muestras

de tamaño n=50. De acuerdo al Teorema del Límite Central, ésta tendría una media  =1000
y un error estándar de x =  /n = 100/50 = 14.14. Cabe hacer notar que las medias
muestrales están menos dispersas de la media poblacional que las observaciones mismas, es
decir, x < 
27
La siguiente gráfica muestra lo que sucede a medida que el tamaño de la muestra aumenta. Si
el tamaño de la muestra aumenta a n=100, el error estándar se vuelve x =  /n = 100 /100
= 10. Esto es la distribución de las medias muestrales tiende siempre a  = 1000 pero en una
forma mas compacta. Por esto es probable que las muestras más grandes produzcan
estimados más precisos de la media poblacional.
La importancia de esto reside en que muchas decisiones se toman con base en los resultados
muestrales. Una aplicación muy común es la de determinar la probabilidad de que una media
muestral se encuentre dentro de un rango dado.
De manera análoga como determinamos la probabilidad de que una observación estuviera en

un rango dado con ayuda de la puntuación estándar (z), utilizaremos esta medida, ya adecuada,
para determinar la probabilidad de que una media muestral este en un rango dado. Esta medida
quedaría así:
Z= X– .
x
Ejemplo: Supongamos que conozco que la distribución de gastos semanales de los estudiantes
de la Facultad es normal con una media  = $150 y  =15. Si deseara conocer la probabilidad
de que un alumno cualquiera gaste entre $150 y $155, la calcularía de la siguiente manera:
z = (155-150)/15 = .33 que en la tabla de la normal corresponde a .1293,
por lo que P(150<x<155)= .1293
Pero si deseara conocer la probabilidad de que una muestra de n=50 alumnos gastara entre
$150 y $155, sería:
Z=
155  150 = 2.36 que corresponde a P(150< x < 155) = .4909
15
50
Esto se puede observar en las gráficas correspondientes. La gran diferencia en las

probabilidades se debe al hecho de que las medias muestrales están menos dispersas que las
observaciones individuales de la media poblacional  .
28
Si se puede predecir la probabilidad de que un estadístico esté en un rango dado, entonces es
posible determinar la probabilidad de error. Veamos, en una población con media  = 25 y una
desviación estándar  = 8.5, si se toma una muestra de n= 50 se presentará un error de
muestreo de 2 o más si la media muestral es 27 o más o 23 o menos. Por lo tanto P(error) = P(
x >27)+P( x <23)
Z = 27-25 = 1.66 que corresponde a un área de .4515

8 .5
50
P( x >27)=.5-.4515 = .0485 y P( x <23)=.0485 y P(error>=2)=9.7%

Es decir, existe casi un 10% de probabilidad de que el error de muestreo resultante al estimar
 sea por lo menos 2.
Distribución de las Proporciones Muestrales
Aunque generalmente las decisiones se toman analizando las medias muestrales, en ocasiones
la proporción de una característica en la población () es importante. En cualquier población es
posible obtener muchas muestras diferentes de un tamaño dado y cada muestra tendrá su
propia proporción de éxitos (p), sin embargo, al igual que en las medias, el valor esperado de
la distribución de las proporciones muestrales será igual a la proporción de éxitos de la
población
E(p)= 
Ejemplo: Supongamos que tenemos una población de 6 maestros (M1, M2, M3, M4, M5, M6)
de los cuales 2 (M1 y M6) son mujeres, es decir, la proporción poblacional de mujeres
(éxitos) es  = .33 . Se toman muestras de tamaño n=2 y la proporción de mujeres en cada
muestra es:
Muestra Elementos No. de mujeres P(Proporción de mujeres)

1 M1,M2 1 0.5
2 M1,M3 1 0.5
3 M1,M4 1 0.5
4 M1,M5 1 0.5
5 M1,M6 2 1.0
6 M2,M3 0 0.0
7 M2,M4 0 0.0
8 M2,M5 0 0.0
9 M2,M6 1 0.5
10 M3,M4 0 0.0
11 M3,M5 0 0.0
12 M3,M6 1 0.5
13 M4,M5 0 0.0
14 M4,M6 1 0.5
15 M5,M6 1 0.5
Suma 5.0
29
El valor esperado de las proporciones muestrales es:
E (p)=  p
K
E(p) = = 5.0 = .33 es decir, la proporción esperada de mujeres en

15 la población es de .33
Y el error estándar es:
( (1 -  )
p =
n
De la misma manera que con las medias, si n>.05N, se requiere el fpc y el error estándar se
vuelve:
( (1 -  ) N n
p =
n N 1
Análogamente a la aplicación de las distribuciones muestrales de la media, las distribuciones

muestrales de las proporciones son útiles para determinar la probabilidad de que una proporción
de éxitos esté en un rango dado.
Ejemplo:
Una Tienda Departamental tiene una tasa de clientes morosos del 10% y acaba de establecer
la siguiente política:
a) Si más del 12% es moroso, aumenta su tasa por pagos atrasados

b) Si entre el 10% y el 12% son morosos, emprende una campaña para alentar los pagos.
c) Si menos del 5% son morosos, les envía cartas-recordatorios de sus pagos.
Si toma una muestra de 200 clientes, que acción es más probable que lleve a cabo? (Supón
que n<.05N)
p = (.1)(.9) = .021
200
a) P(p>.12) = .5 - .3289 = .1711
Z = .12-.10 = .95 que corresponde a .3289

.021
30
b) P(.10< p < .12) = .3289
c) P(p<.05)= .5 - .4913 = .0087
Z = .05 -.10 = -2.38 que corresponde a .49113

.021
Es más probable que emprenda una campaña para alentar los pagos.
31
ESTIMACION CON INTERVALOS DE CONFIANZA
Hasta ahora hemos visto como estimar el valor de un parámetro a partir de un estadístico. Este
tipo de estimación se le conoce como “estimación puntual”, pero existe otra llamada “ estimación
por intervalo”, que especifica el rango dentro del cual está el parámetro desconocido. Este
intervalo generalmente va acompañado de una afirmación sobre el nivel de confianza que se
da en su exactitud, por lo que se le conoce como “intervalo de confianza”.
Existen tres niveles de confianza, denominados coeficientes de confianza que son 99, 95 y 90%
que están relacionados con los intervalos de confianza.
Un intervalo de confianza se determina con un límite inferior y un límite superior, los cuales se
hallan restando y sumando a la media muestral, cierta cantidad.
Como vimos en la unidad anterior, dado que las distribuciones muestrales se distribuyen
normalmente, según la Regla Empírica el 95.5% de todas las medias muestrales caen dentro
de dos errores estándar de la media poblacional, es decir, como la media poblacional está a lo
más a dos errores estándar para el 95.5% de las medias muestrales, entonces dada una media
muestral cualquiera se puede estar 95.5% seguros (o tener una confianza del 95.5%) de que el
intervalo de dos errores estándar alrededor de dicha media muestral contiene a la media
poblacional desconocida.
De manera más práctica, si se desea un intervalo de confianza del 95% se especifica un

intervalo de 1.96 errores estándar (por encima o por debajo) de la media muestral. A este valor,
del 95% se le conoce como el coeficiente de confianza.
Coeficiente de confianza.- Es el nivel de confianza que se tiene en que el intervalo contenga

el valor desconocido del parámetro.
Intervalo de confianza para muestras grandes(n>=30).
1. Si  es conocida
Como un intervalo de confianza se determina sumando y restando cierta cantidad a la media

muestral, esta cantidad dependerá del nivel de confianza deseado, el cual estará implícito en el
valor de la Z en la expresión siguiente:
Intervalo de confianza para estimar 

cuando  es conocida = x  z x
Por ejemplo: Un nivel de confianza del 95% requiere un valor de Z=1.96

( .95/2 = .4750, que en la tabla de la Normal corresponde a una z=1.96)
Este intervalo se puede interpretar de dos formas:

 Que existe un 95% de confianza en que la media poblacional desconocida este entre:
x -1.96x y x +1.96x .
32
 Si se construyeran todos los CN,n intervalos de confianza posibles, el 95% de ellos contendría
a la media poblacional desconocida.
Esto último significa que el 5% de los intervalos estaría errado, es decir, no contendría a la
media poblacional. Este 5%, hallado como (1-Coeficiente de confianza) es denominado el valor
alfa y representa la probabilidad de error de que un intervalo cualquiera no contenga la media
poblacional.
Valor alfa.- Es la probabilidad de error o la probabilidad de que un intervalo dado no contenga

la media poblacional desconocida.
2. Si  es desconocida.
Cuando la  es desconocida la “fórmula” para determinar el intervalo de confianza, cambia a

la siguiente manera:
Intervalo de confianza para estimar 

cuando  es desconocida = x  z sx
Cabe hacer notar que si reduzco mi nivel de confianza, el intervalo resultante es más estrecho
y ofrece mayor precisión, el cual es más útil y significativo.
Intervalo de confianza para muestras pequeñas (n<30).
Como puede suceder no siempre es posible obtener por lo menos 30 observaciones por lo que
debe tomarse una muestra más pequeña ( por ejemplo, para probar una nueva medicina, puede
no encontrarse 30 personas disponibles como “conejillos de indias”). Pero recordemos que el
teorema del Límite Central sólo asegura normalidad en el proceso de muestreo si la muestra
es grande.
Cuando se usa una muestra pequeña, es necesario una distribución alterna, la distribución 
de Student. Específicamente ésta se utiliza cuando se cumple:
 La muestra es pequeña
  es desconocida
 La población es normal o casi normal.
Si  es conocida se usa la distribución Z aunque la muestra sea pequeña. Además si no se

puede asumir una población normal se aumenta el tamaño de la muestra.
La distribución  es una distribución continua, que al igual que la z, tiene media =0, es
simétrica con respecto a la media y oscila entre - y +. Sin embargo mientras z tiene una
varianza = 1, la varianza de la distribución  es mayor que 1. Por lo tanto es más plana y
dispersa que la z.
En realidad la distribución  es una familia de distribuciones donde cada una tiene su propia
varianza que depende de los grados de libertad (g.l.). En la siguiente figura podemos observar
33
como a medida que n crece, la distribución  se aproxima a la distribución z ( o normal) , es por
eso que se puede usar z cuando n>=30.
Grados de libertad.- Es igual al número de observaciones menos el número de restricciones

impuestas sobre tales observaciones.
En otras palabras es el No. de observaciones que se pueden escoger libremente; por ejemplo
si tengo 4 observaciones que deben producir una media de 10, ésta es una restricción pues
solo podré escoger (n-1) 3 valores libremente pues el 4º valor está determinado al despejar:
valor4 = 4( x ) - valor1 - valor2 - valor3
Es decir puedo escoger libremente, por ejemplo, 8,9 y11 pero el 4º. valor tendrá que ser 12
para que cumpla con la restricción de que tengan un promedio de 10.
Como se puede observar la distribución  produce intervalos más amplios que z, debido a que
se pierde algo de precisión porque  es desconocida y debe estimarse, por lo tanto, el intervalo
de confianza para estimar la media poblacional con muestras pequeñas es:
 s 
I.C. para estimar  = x   sx = x    
 n
El valor de  puede hallarse en la tabla  de Student que está en función del nivel de confianza
y de los grados de libertad que se tienen.
Ejemplo:
Una empresa de construcción fue culpada de inflar los comprobantes que registra para los
contratos con el gobierno federal. Este tipo de contrato establece que ciertos tipos de trabajos
deben promediar $11,500. Por motivos de tiempo, solo 12 dependencias de gobierno dieron
información sobre los comprobantes de la empresa. Se calculo que éstos promediaban $12,750
con una desviación estándar de $ 2,350. Un intervalo del 95% de confianza apoyaría el caso
legalmente? Se asume que los montos de los comprobantes son normales.
34
Solución:
Para un nivel de confianza del 95% y (12-1) 11 g.l. buscamos en la tabla de la distribución  su
valor = 2.201
I.C. para estimar  = 12750  (2.201)(2350)/ 12
I.C. = 11256.90 <=  <= 14, 243.10
Legalmente se puede tener un 95% de confianza de que los montos promedio de los
comprobantes están entre 11,256.90 y 14,243.10; como este rango contiene lo estipulado por
el contrato (11,500), la empresa no ha violado lo acordado.
Cabe hacer notar que si la muestra hubiera sido más grande el intervalo resultante al usar z,
hubiera sido mas angosto.
Sugerencia: Copia el diagrama de flujo que viene en la pag. 179 de tu libro para que te oriente
respecto a cuál estadístico usar.
Intervalo de Confianza para la proporción poblacional.
Como vimos anteriormente la proporción de una característica en la población () se puede

estimar puntualmente con p (prob.de éxito). También vimos que cuando (n )() y (n)(1-  )son
ambos mayores que 5, la distribución de las proporciones muestrales será normal con una
media =  y un error estándar de p .
Como esta fórmula contiene al parámetro que deseamos estimar ( ), utilizamos en su lugar el
estadístico p y la estimación del error estándar de la distribución de las proporciones
muestrales queda:
p (1  p )
Sp =
n
Por lo tanto el I.C. para estimar la proporción poblacional () es:
p  zsp
Ejemplo:
El gerente de una estación de televisión debe estimar la proporción de casas que tiene más de
un televisor. De una muestra aleatoria de 500 casas se reveló que 275 tienen 2 o más
televisores. ¿Cuál es el intervalo de confianza del 90% para estimar la proporción de todas las
casas que tienen dos o más televisores?
Solución:
p = 275/500 = .55
Sp=  (.55)(.45)/500 =.022
Para 90%, busco .45 en la tabla normal (z) y determino que corresponde a z=1.65, por lo que:
I.C. para  = .55  (1.65)(.022)
 .514 <=  <= .586

35
Es decir, el gerente puede tener un 90% de confianza al afirmar que la proporción de casas que
tienen dos o más televisores está entre 51.4% y 58.6%
Como podemos ver es preferible un intervalo más estrecho debido a la precisión adicional que
proporciona. Hay dos métodos para lograr un intervalo más preciso: (1) reducir el nivel de
confianza o (2) incrementar el tamaño de la muestra.
Si reducimos el nivel de confianza, por ejemplo de 99% a 95% la z correspondiente disminuye

de 2.58 a 1.96, lo que hace que el intervalo sea más estrecho. Sin embargo hay que recordar
que a menor confianza existe una mayor probabilidad de error.
Si incrementamos el tamaño de la muestra, se reduce el error estándar ( /n) y por

consiguiente se disminuye el tamaño del intervalo. De hecho podríamos buscar la n con la cual
el intervalo resultante al 99% de confianza sea similar al resultante con 95% de confianza y otro
tamaño de muestra.
Sin embargo esta ventaja tiene su precio, pues una muestra más grande significa más tiempo
y más dinero para recolectar y manejar los datos, por esto la decisión respecto a que método
emplear para tener mayor precisión en el intervalo de confianza se vuelve una decisión
gerencial.
36
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA.
El tamaño de la muestra juega un papel importante al determinar la probabilidad de error así

como en la precisión de la estimación. Si ya se ha seleccionado el nivel de confianza dos
factores influyen en el tamaño de la muestra: (1) la varianza de la población (2 ) y (2) el tamaño
del error tolerable que el estimador está dispuesto a aceptar. Mientras que el primero no es
posible controlarlo, sí es posible limitar el tamaño del error.
El tamaño del error depende del trabajo para el cual se requiere estimar una medida, sí por
ejemplo en medicina si de esta estimación depende una vida humana, el error deberá ser muy
pequeño, en cambio en otros casos un error más grande puede no tener consecuencias tan
graves.
Por otro lado sabemos que el intervalo resultante es de ancho igual a dos veces el error
tolerable, pues si por ejemplo el error tolerable es igual a 2, la máxima diferencia con el
parámetro estimado será de 2 ya sea menor o mayor. Dicho al revés el error tolerable es la
mitad del ancho del intervalo.
Tamaño de la muestra para estimar  .
De la fórmula de la distribución normal z para las muestras:
Z = X  = X 
x  /n
de donde se puede despejar n.

Si no conozco el tamaño de la población:
Tamaño muestral para intervalos n= Z2 2

de la media poblacional. (X -  )2
En donde X –  es el error tolerable, Z depende del nivel de confianza requerido y 2 si es

desconocido, puede estimarse puntualmente con una muestra piloto (n>=30).
Si conozco N:
z 2 * * N
n=
N  1 * x   2   * z 2
Ejemplo:
El propietario de un centro de esquí está considerando la compra de una máquina para hacer
nieve. Para esto desea estimar las pulgadas promedio de nieve que cae en el área cada nevada,
pero no tiene idea de qué tan grande debería ser la muestra, sólo sabe que desea un nivel de
confianza del 99% en sus hallazgos y que el error no debe de exceder de una pulgada.
37
Solución: Con una muestra piloto grande(n>=30) estima la desviación estándar en 3.5 pulgadas
y con la fórmula siguiente estima el tamaño de la muestra:
n= Z2 2
(X -  )2
= (2.58)2(3.5)2 = 81.5
(1)2
es decir deberá revisar 82 nevadas durante los últimos años para hacer su estimación.
Tamaño de la muestra para estimar 
De manera semejante de la distribución Z normalizada de las muestras, tenemos:
Z=p - = p -
p  (1- )/n
de donde se puede despejar n. Si no conozco el tamaño de la población:
Tamaño muestral para intervalos n= Z2 ( )(1-  )

Para la proporción poblacional. (p –  )2
Si conozco N:
z2 * p *q * N
n=
N  1 *  p   2  p * q * z 2
En donde p –  es el error tolerable y Z depende del nivel de confianza requerido. Como la

fórmula involucra al parámetro que se desea estimar y éste es desconocido, se pueden tomar
alguna de estas acciones: se estima a partir de una muestra piloto como se hizo al determinar
el tamaño muestral para estimar la media o se puede determinar que  = .5, pues además de
conservador, garantiza el tamaño muestral más grande posible para cualquier error y nivel de
confianza deseado. Esto debido a que con este valor de  , el numerador es máximo, es decir,
no existe valor distinto a .5 que haga ( ) (1- ) más grande y por lo tanto n más grande.
Ejemplo: El consejo de la ciudad está planeando una ley que prohiba fumar en edificios
públicos. Sin embargo antes de aprobarla desea estimar la proporción de residentes que
apoyan este plan. Su primer paso será estimar el tamaño muestral necesario. Su error no
deberá de exceder del 2% y deberá estar 95% seguro de sus resultados.
Solución:
38
Podemos suponer  = .5 para calcular el tamaño muestral:
n= Z2 ( )(1-  )
(p –  )2
= (1.96)2(.5)(.5) = 2,401
(.02)2
Es decir, con los datos de 2,401 personas podrá estimar la proporción de residentes que están
a favor de la ley.
Propiedades de un buen estimador.
Debe hacerse una distinción entre un estimador y una estimación. Un estimador es la regla o
procedimiento, generalmente expresado como una fórmula, que se utiliza para derivar la
estimación. Por ejemplo:
X = x
n
es el estimador de la media poblacional. Si el valor del estimador es digamos 10, entonces 10

es la estimación de la media poblacional.
Por lo tanto:
Un estimador es el proceso mediante el cual se obtiene la estimación. Una estimación es el

resultado numérico del estimador.
Los estimadores para ser confiables deben ser:
 Insesgados
 Eficientes
 Consistentes
 Suficientes
Insesgado.- Un estimador es insesgado si la media de su distribución muestral es igual al

parámetro correspondiente.
Ejemplo: x es un estimador insesgado de  porque la media de la distribución muestral de

las medias muestrales es igual a  , es decir,
E(X) = x = 
39
Eficiente.- Dado todo estimador insesgado el estimador más eficiente es aquel que tenga la
varianza más pequeña.
Consistente.- Un estimador es consistente si, a medida que n aumenta, el valor del estadístico
se aproxima al parámetro.
Para que estimador sea consistente, debe ser insesgado y su varianza aproximarse a cero a
medida que n aumenta. La varianza de la distribución muestral de las medias muestrales es x2
= 2/n . A medida que n aumenta, esta varianza se aproxima a cero, por lo tanto X es un
estimador consistente de  .
Suficiente.- Un estimador es suficiente si ningún otro estimador puede proporcionar más

información sobre el parámetro.
40
UNIDAD 2: PRUEBAS DE HIPÓTESIS
La prueba de hipótesis es una herramienta analítica para obtener suficiente información para
reducir el nivel de incertidumbre en el proceso de la toma de decisiones. Por ejemplo:
 Un embotellador de refrescos necesita determinar si el peso promedio del contenido de sus

botellas es 16 onzas (  =16 onzas)
 Un productor de software desea certificar que la proporción de sus productos defectuosos
es menor del 3% (  < 0.03)
 Un fabricante de equipos deportivos desea saber si existe evidencia de que un proceso de
producción ha reducido los costos promedios de producción por debajo de su nivel actual
de $5.00 por unidad ( <5)
Si se pueden obtener respuestas a estas preguntas con algún grado de garantía, la toma de
decisiones se vuelve más segura y menos probable que conduzca a un error costoso.
Para realizar una prueba de hipótesis, se hacen algunas inferencias o supuestos (llamadas
hipótesis) acerca de la población. Por ejemplo, el embotellador de refrescos puede asumir o
plantear la hipótesis de que el contenido promedio es de 16 onzas (=16). Esta hipótesis nula
(Ho:) se prueba contra la hipótesis alternativa (HA: ) que establece lo contrario. La hipótesis
nula tradicionalmente contiene una referencia con el signo igual (=, , ≤ ).
Con base en los datos muestrales, la hipótesis nula es rechazada o no rechazada. Nunca se
puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente
significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su
rechazo. Incluso si 𝑥̅ = 16, no prueba que  = 16. Podría ser que  = 15.8 y debido al error de
muestreo la media muestral iguale al valor 16.
Cuando se realiza una prueba de hipótesis, la hipótesis nula se supone verdadera hasta que
una preponderancia de la evidencia indique que es falsa. Antes de rechazar la hipótesis nula,
la media muestral debe diferir significativamente de la media poblacional planteada en la
hipótesis nula, es decir, la evidencia debe ser muy convincente y concluyente. Una conclusión
que llegue al rechazo de la hipótesis nula es más significativa que una que decida no rechazar.
Pero, ¿cuándo esa diferencia es significativa?. Si tomáramos una muestra de n botellas y su

media da x = 16.15, ¿se podría concluir que la media  no es 16? Esta pequeña diferencia
podría ser estadísticamente insignificante puesto que podría deberse a un error de muestreo.
La evidencia muestral que x = 16.15 no es lo suficientemente fuerte como para llevar al rechazo
de la hipótesis nula de que  = 16.
Entonces, ¿qué tan grande debe ser esta diferencia para que sea estadísticamente significativa
y conduzca a un rechazo de la hipótesis nula?
41
Determinación de la regla de decisión
Como recordaremos la Regla Empírica dice que al menos el 95% de las medias muestrales
( x ) están a Z =  1.96 errores estándar de la media poblacional desconocida. Estos valores Z
de  1.96, que resultan de buscar en la tabla de la normal el área de (95%/2=.4750), se
denominan valores críticos y determinan las zonas de rechazo, como se muestra en la
siguiente gráfica
Es decir el 5% restante de las medias muestrales está distribuido entre las dos colas, con un
2.5% en cada zona de rechazo.
Este 5% se conoce como el nivel de significancia o valor alfa de la prueba.
Siguiendo con el ejemplo anterior, quiere decir que si la hipótesis del embotellador es verdadera
y  =16, solo hay un 5% de probabilidad de que una muestra cualquiera tenga un valor de Z (es
decir, su puntuación estándar Z) que caiga en las zonas de rechazo. Es decir, si una muestra
produce un valor de Z >1.96 o Z<-1.96, no es probable que  = 16 y la hipótesis nula debe ser
rechazada.
Estos valores críticos permiten establecer una regla de decisión que diga si se rechaza o no
la hipótesis nula.
Regla de decisión:
“No se rechaza la hipótesis nula si los valores de Z están entre  1.96”
“Se rechaza la hipótesis nula si el valor Z es <-1.96 o Z>1.96”
Al probar una hipótesis se pueden cometer dos tipos de errores:
 Un error tipo I es rechazar una hipótesis nula que es verdadera.

 Un error tipo II es no rechazar una hipótesis nula que es falsa.
Como vimos anteriormente cuando la hipótesis nula sea verdadera existe una probabilidad
pequeña (5%) de producir un valor de rechazo. Este 5% es el nivel de significancia o valor alfa
(valor ) que representa la probabilidad de un error tipo I.
A la probabilidad de cometer el error tipo II se le conoce como , y aunque no podemos asumir
que +  =1, cuando uno crece el otro decrece y viceversa.
42
Los niveles de significancia, o valores  comúnmente seleccionados para hacer pruebas de
hipótesis son del 10%, 5% y 1%, sin embargo se podría probar una hipótesis con un nivel de
significancia del 4% si así se decide. La selección del valor  depende del tipo de error (I o II)
que más se desea evitar. Si rechazar una hipótesis verdadera (error tipo I) es más grave o
riesgoso en la toma de decisiones que no rechazar una hipótesis falsa, se debe seleccionar una
valor  bajo, como 1% o 5% para minimizar este error. Si por el contrario no rechazar una
hipótesis falsa (error tipo II) es más grave, es preferible seleccionar un valor  más alto como
el 10%.
En el ejemplo anterior, cometer el error tipo I, significaría rechazar que la  =16 y esto implicaría
detener el proceso de embotellado para ajustar el nivel de contenido, siendo que estaba
correcto ( es decir  si es = 16). Cometer el error tipo II significaría permitir que continúe el
proceso de embotellado aunque   16. Si cometer el error tipo I es más costoso que cometer
el error tipo II debe seleccionar una valor  bajo como 1%.
Hay cuatro pasos que hay que seguir en una prueba de hipótesis:
1. Plantear las hipótesis

2. Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z
3. Determinar la regla de decisión con base en los valores críticos de Z.
4. Conclusión e Interpretación.
Resolveremos el primer ejemplo donde el embotellador desea probar la hipótesis de que la

media poblacional es 16 onzas y selecciona un nivel de significancia del 5%.
Paso 1.- Se plantean las hipótesis:
Ho:  = 16
HA :   16
Paso 2.- Se calcula Z y se compara con los valores críticos según el nivel de confianza.
Si el embotellador selecciona una muestra de n=50 botellas con una media de x =

16.357 onzas y una desviación estándar de s = 0.866 onzas,
Z = 16.357 – 16 = 2.91
.866/ 50
Para  = 5%, los valores críticos de Z =  1.96 que corresponden al área que resulta de dividir
95%/2 = .4750
Paso 3.- Se determina si se rechaza o no de acuerdo a la regla de decisión.
Regla de decisión: “No se rechaza la hipótesis nula si –1.96 < Z < 1.96.
Se rechaza si Z< -1.96 o Z >1.96”
43
Cabe hacer notar que como la zona de rechazo se encuentra en ambas colas, se le denomina
prueba de dos colas o bilateral.
Paso 4.
a) Conclusión
Como Z=2.91>1.96 cae en la zona de rechazo, cola a la derecha, por lo tanto se rechaza la
hipótesis nula.
b) Interpretación.
Esto quiere decir que el contenido promedio de las botellas NO es igual a 16 onzas, con un 5%
de significancia.
Explicación: La hipótesis nula es rechazada a un nivel de significancia del 5%. Esto es, si la
media poblacional fuera 16 hay solo un 2.5% de probabilidad de que Z >1.96. Sin embargo,
¿esto significa que la media  NO es 16? No completamente, después de todo, si  = 16 el
2.5% de todas las muestras de tamaño n=50 generarían una Z>1.96 y si se rechaza una
hipótesis verdadera se estaría cometiendo el error tipo I, pero esto no es cierto pues la
probabilidad de cometer el error tipo I es  =5% y la P(Z>1.96,si =16)=2.5%.
Por otro lado la interpretación siempre va acompañada del nivel de significancia con el que se
afirma, es decir, con la probabilidad de estar equivocado al rechazar o no la hipótesis nula. La
interpretación anterior equivaldría a decir: “El contenido promedio de las botellas NO es igual a
16 onzas, con una probabilidad de equivocarme del 5%”
Hay ocasiones en las que se está interesado solo en un extremo u otro. Por ejemplo, un
restaurante de comida fresca del mar, sólo le interesará cuando el tiempo que tarden en llegar
sus productos del mar sea alto o una tienda minorista sólo se preocupará si sus ingresos caen
a niveles demasiado bajos. En cada uno de estos casos el interés se concentra en un extremo
u otro y se realiza una prueba de una cola.
De acuerdo al ejemplo anterior, si el embotellador en lugar de plantear la hipótesis de que el

contenido promedio sea exactamente 16 onzas, considera que el nivel del contenido promedio
es “a lo más 16 onzas”, las hipótesis quedarían así:
44
Ho:   16
HA :  > 16
En este caso sólo los valores que están significativamente por encima de 16 causarán un
rechazo, por lo tanto la zona de rechazo está sólo en la cola derecha y el valor total de  se
coloca en esta única zona de rechazo
Si por el contrario el embotellador dice que el contenido promedio es “por lo menos 16 onzas” ,
las hipótesis quedan así:
Ho:   16
HA :  < 16
En este caso sólo los valores del estadístico que estén significativamente por debajo de 16
pueden causar un rechazo de la hipótesis nula, por lo tanto la zona de rechazo aparece en la
cola izquierda y el monto total de  se coloca en esta zona única de rechazo, como se muestra
en la siguiente gráfica.
Cabe señalar que en las pruebas de una cola el signo igual se coloca siempre en la hipótesis
nula, esto es porque la prueba se está realizando para un valor  específico (como 5%) y el
signo igual da a la hipótesis nula un valor específico (como 16) para probarla.
Ejemplo: En una reunión informativa el gerente de un hotel reportó que el número promedio de
habitaciones alquiladas por noche es de por lo menos 212, es decir,  212. Uno de los
presentes considera que esta cifra puede estar sobreestimada. Una muestra de 150 noches
produce una media de 201.3 habitaciones y una desviación estándar de 45.5 habitaciones. Si
estos resultados sugieren que el gerente ha “inflado” su reporte será amonestado severamente.
A un nivel del 1% de significancia, ¿cuál es el destino del gerente?
45
Solución: Paso 1:
Ho:   212
HA :  < 212
Paso 2:
Z = 201.3 – 212 = -2.88

45.5/150
Para un =1% acumulado a la izquierda, el área restante hasta 212 es del 49% que da el valor
crítico de Z=-2.33
Paso 3: La regla de decisión es : “No rechazar Ho si Z -2.33,

Rechazar Ho si Z < -2.33”
Paso 4: Como –2.88 < -2.33 se rechaza la hipótesis nula   212
El gerente se ha excedido en su estimación de la tasa de ocupación y recibirá una reprimenda.
Pruebas para  con muestras pequeñas
Al igual que con los intervalos de confianza, si la muestra es pequeña,  es desconocida y la

distribución de la población es normal o casi normal, puede utilizarse la distribución .
Ejemplo:
Los estudiantes de Estadística de cierta Universidad cuestionan la afirmación de que
McDonald´s coloca .25 libras de carne en sus “hamburguesas de cuarto de libra” . Algunos
estudiantes afirman que se utiliza más y otros que menos. Para probar la afirmación publicitaria
de que el peso promedio es de .25 libra, cada estudiante compra una hamburguesa de ese tipo
y la lleva a clase para ser pesada. Los resultados de la muestra son: x = .22 libras y s= 0.09
libras. Si hay 25 estudiantes en clase, a que conclusión llegarían con un 5% de nivel de
significancia?
Paso 1: Ho:  = .25 HA :   .25
Paso 2: Como n< 30,  se calcula con  = x –

S/ n
 = .22 - .25 = 1.667

.09/25
Para un  = 5% y con (n-1) 24 grados de libertad el valor crítico de  =2.064
Paso 3: La regla de decisión es:

46
“No rechazar Ho si  está entre  2.064,
Rechazar si  < -2.064 o > +2.064”
Paso 4: Debido a que  =1.667 está entre  2.064, no se rechaza la hipótesis nula. Esto significa
que la muestra confirma la afirmación de McDonald´s de que contienen efectivamente .25 libras
de carne en promedio.
Como es de esperarse una prueba para una cola es similar, solo hay una pequeña diferencia
al buscar el valor  en la tabla, ya que se buscará en la columna respectiva al valor  .
Ejemplo:
Una asociación de propietarios de perros afirma que los cocker spaniels de un año de edad
deberían pesar “un poco más de 40 libras ( > 40) si han recibido una nutrición adecuada”.
Para probar la hipótesis:
Paso 1: Ho:   40 HA :  > 40
Un productor de alimentos para perros, pesa 15 perros cocker de un año de edad y descubre
una x = 41.17 libras con s = 4.71 libras. Seleccionando una probabilidad del 1% de cometer un
error tipo I se tiene:
Paso 2:  = 41.17 - 40 = 0.96

4.71/15
En la tabla  para pruebas de una cola con 14 g.l. y  = .01  =2.624
Paso 3: Regla de decisión: “No rechazar si   2.624. Rechazar si  > 2.624”
Paso 4: Como  cae en la zona de no rechazo, la hipótesis nula ( 40) no se rechaza. Esto es
la muestra no confirma la afirmación de la asociación.
Pruebas para 
La proporción o porcentaje de una característica en la población puede ser en muchos casos el

factor de decisión en los negocios. Algunos ejemplos son: un especialista en mercadeo puede
querer saber la proporción de residentes de una ciudad grande que se ajusta al mercado
objetivo, un gerente se puede interesar en el porcentaje de empleados que considera que las
normas de la compañía son demasiado opresivas o los analistas financieros y económicos
pueden necesitar estimar la porción de los proyectos de capital que sufren de sobrecostos, etc.
El proceso de prueba de hipótesis para  es similar al de . Un valor Z calculado a partir de una

muestra se compara con valores críticos de Z con base al valor  seleccionado para la prueba.
La Z se calcula así: Z = p - H
p
donde p = proporción muestral de las observaciones que se consideran “éxitos”

H = es el valor de  planteado como hipótesis.
47
p = es el error estándar de las proporciones muestrales.
El p mide la tendencia de las proporciones muestrales a desviarse de  .

Como  es desconocida, lo calculamos así:
𝜋ℎ ∗ (1 − 𝜋ℎ )
𝜎𝑝 = √
𝑛
Ejemplo:
El director de las operaciones de mercadeo de una gran cadena minorista considera que el 60%
de sus clientes son graduados universitarios e intenta establecer una política respecto a la
estructura de precios basado en esta proporción. Una muestra de 800 clientes revela que 492
son graduados universitarios. A un nivel del 5% ¿qué puede concluir sobre la proporción de
graduados de todos sus clientes?
Paso 1:
Ho:  =.60 HA :   .60
Paso 2 :
Como p =  H * (1- H )/n =  .60*(1-.60)/800 =.017
Z = .615 - .60 = .88

.017
Para  =5%, en dos colas, 95%/2 = .4750 da valores críticos de z  1.96
Paso 3: La regla de decisión es: “No rechazar la hipótesis nula si Z está entre  1.96
Rechazar si Z>1.96 o Z< -1.96”
Paso 4: Como Z=.88 está entre  1.96 no se rechaza la hipótesis nula. Es decir, la muestra
confirma la hipótesis de que  =.60; ahora es posible desarrollar su política de precios.
Prueba de una cola para 
Al igual que con las pruebas para las medias, las pruebas de hipótesis de una sola cola para
las proporciones pueden ser a la derecha o a la izquierda. Ejemplo:
Una firma manufacturera debe garantizar que por lo menos 75% de sus empleados ha concluido
un curso avanzado de capacitación. De los 1200 empleados seleccionados aleatoriamente 875
lo han concluido. A un nivel de significancia del 5% ¿qué conclusiones debe reportar?
Paso 1: Debido a que “por lo menos el 75%” se escribe como   .75, las hipótesis son:
Ho:  .75 HA :  <.75 requiere una prueba de cola a la izq.
Paso 2:
Como p =  H * (1- H )/n =  .75*(1-.75)/1200 =.0125 y p = 875/1200 = .729

48
Z = .729 -.75 =-1.68 para  =5% en la región de rechazo a la izq.,busco .45
.0125 en la tabla y le corresponde un valor crítico de z=-1.65
Paso 3:
La regla de decisión es: “No rechazar la hipótesis nula si Z  -1.65,
Rechazar si Z < -1.65”
Paso 4:
Como Z =-1.68< -1.65, se rechaza la hipótesis nula. Esto es la manufacturera debe tomar
medidas para aumentar la proporción de empleados capacitados”
Método alternativo de contraste de hipótesis
Un método alternativo para probar hipótesis es el uso del valor p de una prueba. Esto es:
Valor p .- Es el nivel más bajo de significancia (valor ) al cual se puede rechazar la hipótesis
nula. Es el área en la cola que está más allá del valor del estadístico para la muestra.
Veamos un ejemplo:
Un jefe de personal considera que sus empleados gastan en promedio más de $31,000 en sus
cuentas de pensiones ( >31,000). Toma como muestra 100 empleados y encuentra una media
de $31,366 con una s=$1,894. Desea conocer el valor p relacionado con esta prueba de cola a
la derecha.
Paso 1: Ho:   31,000 HA :  > 31,000
Paso 2: Z = 31,366 – 31,000 =1.93

1,894/100
El valor p para esta Z se busca en la tabla de la normal y le corresponde un valor de .0268
De acuerdo al método tradicional de prueba de hipótesis, para un  = 5% el valor crítico para

una cola sería: 1.65 (buscando .45 en la tabla y ver a que Z corresponde), por lo tanto, como
Z=1.93 > 1.65 la hipótesis nula se rechazaría.
Por otro lado, si  = 1% , el valor crítico para una cola sería z=2.33, en cuyo caso, como
Z=1.93<2.33 la hipótesis nula no se rechazaría.
Como podemos observar para α=5%, se rechaza y para α=1% no se rechaza, entonces hay un
valor de α intermedio en donde cambia la decisión, ese punto es el valor p.
49
Por lo tanto el valor p es el nivel de significancia más bajo (valor  mínimo) que puede
seleccionarse y sin embargo rechazar la hipótesis nula.
Por lo tanto el valor p nos dice de antemano a que conclusión llegará la prueba de hipótesis
según el valor  seleccionado, antes de realizar la prueba. Esto es, nuestro regla de decisión
cambiaría a:
Si p <  se rechazará la hipótesis nula,

Si p   no se rechaza la Ho
Nota: Si se está realizando una prueba de dos colas, el valor p obtenido hay que multiplicarlo x
2.
50
INFERENCIAS CON DOS POBLACIONES
Hasta ahora hemos visto como estimar el valor de un parámetro poblacional o como
probar que se comporta igual (ó ≥ ó ≤) que determinado valor. El procedimiento adecuado
para realizar una inferencia respecto al comportamiento de dos poblaciones depende de la
técnica de muestreo que se utilice. Las muestras pueden ser:
 Independientes.- Donde el muestreo se realiza recolectando muestras independientes
de cada población. Incluso las muestras no tienen que ser del mismo tamaño.
 Pareadas (o por pares).- Donde las observaciones de cada población tienen un elemento
correspondiente en la otra población.
ESTIMACION POR INTERVALO – MUESTRAS INDEPENDIENTES

a) Estimación con muestras grandes.
La estimación puntual de la diferencia entre (µ1 - 2) está dada por la diferencia
entre las dos medias muestrales ( x1  x2 ). Si tanto n1 como n2 son grandes, la distribución
de las diferencias entre las medias muestrales es una distribución normal centrada en
(µ1 - 2 ) tal y como lo muestra la figura:
Dada esta distribución normal de las diferencias entre las medias muestrales, la
desviación normal Z puede utilizarse para construir el intervalo. Utilizando (x1 – x2) como
la estimación puntual de la diferencia entre las dos medias poblacionales, se aplica un
multiplicador de confianza para obtener los limites superior e inferior del intervalo.
Cuando las varianzas son conocidas:
Intervalo de confianza para la diferencia entre dos medias poblacionales

Varianzas conocidas
I.C. para (µ1 - 2) = ( x1  x2 ) ± Z  x1 – x2
donde  x1 – x2 es el error estándar de las diferencias entre las medias muestrales
51
Error estándar de las diferencias entre medias muestrales
 21  22
 x1 – x2 = 
n1 n2
donde 12 y 22 son las varianzas poblacionales.
Cuando las varianzas son desconocidas:
Intervalo de confianza para la diferencia entre dos medias poblacionales

Varianzas desconocidas
I.C. para (µ1 - 2) = ( x1  x2 ) ± Z S x1 – x2
Estimación del error estándar de las diferencias entre medias muestrales
S x1 – x2 =  s12 + s22
n1 n2
donde s12 y s22 son las varianza muestrales.
Vale la pena destacar que no se está interesado en el valor de cualquiera de las medias
poblacionales, sino solamente en la diferencia que existe entre las dos medias poblacionales.
Ejemplo: Transfer Truncking transporta remesas entre Chicago y Kansas City por dos rutas.
Una muestra de 100 camiones enviados por la ruta del norte reveló un tiempo promedio de
tránsito de 17.2 horas con una desviación estándar de 5.3 horas, mientras que 75 camiones
que utilizan la ruta del sur necesitaron un promedio de 19.4 horas con una desviación de 4.5
horas. Delmar, el despachador de Transfer Truncking, desea desarrollar un intervalo de
confianza del 95% para la diferencia en el tiempo promedio entre estas dos rutas alternas.
Debido a que las desviaciones estándar de las respectivas poblaciones (del norte y del sur) son
desconocidas, el error estándar es:
S x1 – x2 =  s12 + s22 =  (5.3)2 + (4.5)2 = 0.742

n1 n2 100 75
Un intervalo del 95%, requiere un valor de Z de ± 1.96 , entonces el intervalo es:
I.C. para (µ1 - 2) = (x1 – x2) ± Z S x1 – x2 = (17.2 – 19.4) ± 1.96 (0.742) = -2.2 ± 1.45432
-3.7  µ1 - 2  -0.75
Este intervalo puede interpretarse como:

52
1. Delmar puede estar 95% seguro de que µ1 - 2 está entre -3.7 horas y -0.75 horas.
2. Debido a que Delmar restó la media de la ruta del sur de la media de la ruta del norte y
obtuvo números negativos, Delmar puede tener un 95% de confianza en que la ruta del
sur se toma entre 0.75 horas y 3.7 horas más.
b) Estimación con muestras pequeñas.
Si cualquier muestra es menor que 30, las poblaciones están distribuidas normalmente
o distribuidas casi normalmente y las varianzas son desconocidas, se debe utilizar la
distribución t para estimar la diferencia entre las dos medias poblacionales.
Cuando las varianzas aunque desconocidas se suponen iguales:
Si las varianzas de las dos poblaciones son iguales, existe alguna varianza 2 común a
ambas poblaciones. Debido a esto los datos de ambas muestras pueden mancomunarse
(pooled) para obtener un solo estimado de 2 . Esto se hace calculando el promedio
ponderado de las dos varianzas de las muestras, en donde los pesos son los grados de
libertad (n-1) de cada muestra:
Estimación mancomunada de la varianza poblacional común
S2C = s12 (n1 – 1) + s22 (n2 -1)

n1 + n2 -2
El intervalo de confianza para la diferencia entre las dos medias poblacionales se halla con
una distribución t con n1 + n2 -2 grados de libertad y sustituyendo la varianza mancomunada
en lugar de cada una de las varianzas en la fórmula del error estándar para la diferencias de
las medias.
Ejemplo.- En la cafetería de los estudiantes, una máquina expendedora de bebidas dispensa

bebidas en tazas de papel. Una muestra de 15 tazas da una media de 15.3 onzas con una
varianza de 3.5 onzas2 . Después de ajustar la máquina, una muestra de 10 tazas produce un
promedio de 17.1 onzas con una varianza de 3.9 onzas2 . Si se asume que 2 es constante
antes y después del ajuste , construya un intervalo de confianza del 95% para la diferencia entre
los contenidos promedio de llenado. Se asume que las cantidades dispensadas están
distribuidas normalmente.
S2C = s12 (n1 – 1) + s22 (n2 -1) = 3.5 (14) + 3.9 (9) = 3.66
n1 + n2 -2 15 + 10 - 2
Con un  = 0.05 y n1 + n2 -2 = 23 grados de libertad, la tabla t indica un valor de ± 2.069
I.C. para (µ1 - 2) = (x1 – x2) ± t  s2C + s2C = (15.3 – 17.1) ± 2.069  3.66 + 3.66
n1 n2 15 10
53
= -1.8 ± 1.61
-3.41  µ1 - 2  -0.19
Restando el contenido promedio después del ajuste, del nivel del contenido promedio antes del
ajuste, resultan valores negativos para ambos extremos del intervalo, esto es, no contiene al
cero. Por consiguiente se puede tener un nivel de confianza del 95% , en que el ajuste
incremento el contenido promedio entre 0.19 onzas y 3.41 onzas.
Cuando las varianzas aunque desconocidas se suponen desiguales:
Si las varianzas de las poblaciones son desiguales o no existe evidencia para asumir
una igualdad, los grados de libertad se calculan de la siguiente manera:
Grados de libertad cuando

las varianzas poblacionales
no son iguales.
Debido a que los g.l. se calcula de esta manera alterada, el estadístico t se simboliza con t’,
por lo que el I.C. queda:
I.C. para (µ1 - 2) = ( x1  x2 ) ± t’  s12 + s22

n1 n2
Ejemplo.- The Wall Street Journal descubrió dos programas de entrenamiento utilizados por
IBM. Doce ejecutivos quienes se les dio el primer tipo de entrenamiento obtuvieron un promedio
de 73.5 en la prueba de competencia. Aunque el artículo de noticias no reportó la desviación
estándar para estos doce empleados, se asume que la varianza en los puntajes para este grupo
fue de 100.2 . Quince ejecutivos a quienes se les administró el segundo programa de
entrenamiento obtuvieron un promedio de 79.8. Se asume una varianza de 121.3 para este
segundo grupo. Haga un intervalo de confianza del 95% para la diferencia en los puntajes
promedio para todos los ejecutivos que ingresaron a estos programas.
Si g.l. es fraccionario, se aproxima hacia abajo, hacia en entero inmediato anterior. Así, g.l.=
24, es decir, el valor t’ para un I.C. del 95% con 24 g.l es ±2.064
I.C. para (µ1 - 2) = (x1 – x2) ± t’  s12 + s22 = (73.5 – 79.8) ±2.064  100.2 + 121.3 =
n1 n2 12 15
54
= -6.3 ± 8.36
-14.66  µ1 - 2  2.06
Debido a que el intervalo contiene al cero, no existe una fuerte evidencia de que exista
diferencia alguna en la efectividad de los programas de entrenamiento.
ESTIMACION POR INTERVALO – MUESTRAS PAREADAS
También denominadas pares correspondientes, las muestras pareadas involucran un

procedimiento en el cual varios pares de observaciones se equiparan de la manera más próxima
posible. Se llaman pares correspondientes a dos observaciones que son lo más similares
posible entre sí, sólo difieren en un aspecto relevante.
Las ventajas de las muestras pareadas son:
1. Pueden utilizarse muestras más pequeñas
2. Se encuentran varianzas más pequeñas.
3. Menos grados de libertad se pierden en el análisis.
4. Resulta un error de muestreo más pequeño.
Por estos motivos se prefieren las muestras pareadas si su aplicación es posible.
Ejemplo.- Suponga que tiene los puntajes de la prueba de 10 empleados antes y después de
habérseles impartido capacitación laboral adicional. Los puntajes son los siguientes:
Empleado Puntaje antes Puntaje después d1 d12

1 9.0 9.2 -0.2 0.04
2 7.3 8.2 -0.9 0.81
3 6.7 8.5 -1.8 3.24
4 5.3 4.9 0.4 0.16
5 8.7 8.9 -0.2 0.04
6 6.3 5.8 0.5 0.25
7 7.9 8.2 -0.3 0.09
8 7.3 7.8 -0.5 0.25
9 8.0 9.5 -1.5 2.25
10 7.5 8.0 -0.5 0.25
Suma 74.0 79.0 -5.0 7.38
Sea di la diferencia entre todo par correspondiente. La media de las diferencias entre todos
los pares sería:
Diferencia promedio entre las d =  di

observaciones pareadas n
Para nuestro ejemplo: d = -5.0/10 = -0.5
55
La desviación estándar de Sd =   di2 – n d 2
éstas diferencias es: n-1
Para nuestro ejemplo: Sd =   di2 – n d2 =  7.38 – 10 (-0.5)2 = 0.736

n–1 9
Como n<30 y la desviación estándar de las diferencias de los puntajes es desconocida, se

requiere el uso del estadístico t . Entonces con un nivel de confianza del 90% y n-1=9 g.l. el
intervalo quedaría:
Intervalo para la diferencia entre medias con observaciones pareadas
I.C. para d = d ± t Sd
n
Así nuestro ejemplo quedaría:

I.C. para d = 0.5 ± (1.833) 0.736/ 10
-0.927  d  -0.073
Debido a que se restaron los puntajes posteriores al entrenamiento de los puntajes anteriores
al entrenamiento y produjeron un intervalo con extremos negativos, se puede estar 90% seguro
de que la media de los puntajes posteriores al entrenamiento está entre 0.073 puntos y 0.927
puntos más alto.
ESTIMACION POR INTERVALO PARA LA DIFERENCIA ENTRE DOS PROPORCIONES
A veces surgen situaciones en las cuales es necesario comparar las proporciones de dos
poblaciones diferentes. En general, muchos asuntos comerciales están determinados mediante
la estimación de proporciones relativas de dos poblaciones.
El error estándar de la diferencia entre dos proporciones muestrales (p1 - p2) se estima mediante
la siguiente fórmula:
Error estándar de la diferencia entre dos proporciones muestrales
S p1 - p2 =  p1 (1- p1) + p2 (1- p2 )

n1 n2
56
El término S p1 - p2 reconoce que si se tomaran varios pares de muestras de cada población (p1
- p2) variaría. La fórmula tiene en cuenta dicha variación. El I.C. quedaría:
Intervalo de confianza para la diferencia entre proporciones muestrales
I.C. para 1 - 2 = (p1 - p2) ± Z S p1 - p2
Ejemplo.- Una empresa realiza un estudio para determinar si el ausentismo de los trabajadores
en el turno del día es diferente al de los trabajadores del turno de la noche. Se realiza una
comparación de 150 trabajadores de cada turno. Los resultados muestran que 37 trabajadores
diurnos han estado ausentes por lo menos 5 veces durante el año anterior, mientras que 52
trabajadores nocturnos han faltado por lo menos cinco veces ¿Qué revelan esto datos sobre la
tendencia al ausentismo entre los trabajadores? Calcule un intervalo de confianza del 90% para
la diferencia entre las proporciones de trabajadores de los dos turnos que faltaron cinco veces
o más.
P1 = 37/150 = 0.25 P2 = 52/150 = 0.35
S p1 - p2 =  (0.25)(0.75) + (0.35)(0.65) = 0.0526

150 150
I.C. para 1 - 2 = (p1 - p2) ± Z S p1 - p2 =( 0.25 – 0.35) ± 1.65 (0.0526)
= -0.10 ± 0.087
-18.7%  1 - 2  -1.3%
Debido a que la proporción de trabajadores nocturnos que se ausentaron cinco veces o más
(p2) se restó de la proporción de trabajadores diurnos que se ausentaron, la empresa puede
estar 90% segura de que la proporción de trabajadores nocturnos es 1.3% y 18.7% más alta
que los del turno diurno.
SELECCIÓN DEL TAMAÑO DE LAS MUESTRAS (PAREADAS)
El tamaño de las muestras cuando se hace muestreo pareado depende de: la varianza
de cada población y el grado de exactitud deseado en nuestra estimación.
Tamaño de muestra para estimar µ1 - 2
n = z2 (21+ 2 2)
(error)2
57
Ejemplo:
Una empresa americana pidió a un economista de la Universidad de Texas que desarrollara
un intervalo de confianza del 99% para la diferencia entre la duración promedio del servicio
prestado por empleados públicos y el de los trabajadores del sector privado. La comisión
desea un ancho de intervalo de tres años. Las muestras pilotos produjeron varianzas de 15 y
21 años respectivamente, ¿Qué tan grandes deberán tomarse las muestras de cada
población?
R: Debido a que el intervalo es de 3 años, el error máximo deseado es la mitad, es decir 1.5
años, entonces:
n = (2.58)2 (15 + 21) = 106.5  107 empleados
(1.5) 2
Tamaño de la muestra para estimar 1 - 2
n = Z2 [1 (1 - 1 ) + 2 (1 - 2 )]
(error)2
Ejemplo:
Un candidato lider en la carrera por una gubernatura desea desarrollar un intervalo de
confianza con un ancho de 3 puntos porcentuales y un nivel de confianza del 99% para hallar
la diferencia entre la proporcion de hombres y de mujeres que están a favor de su
candidatura. ¿Qué tan grandes deberían ser las muestras. Una muestra piloto para hombres
reveló que ph =.40 y pm = .30.
R: Si el ancho del intervalo deseado es de .03, el error máximo es .015, por lo que:
n = (2.58)2 [(.4)(.6) + (.3)(.7)] = 13,312

(.015)2
Esto es deberá encuestar a 13,312 hombres y 13,312 mujeres.
PRUEBAS DE HIPOTESIS PARA DOS MEDIAS CON MUESTRAS INDEPENDIENTES.
Pruebas con muestras grandes.
De manera análoga a las pruebas de hipótesis para una población, aquí también se deberán
seguir los cuatro pasos correspondientes a una prueba de hipótesis:
1. Planteamiento de hipótesis
2. Cálculo del estadístico de prueba y valores críticos
3. Regla de decisión
4. Conclusión e Interpretación.
Donde el estadístico de prueba tiene la siguiente expresión:

58
Z=
x1  x2   1   2 
S x1  x2
Ejemplo:
Un jugador de golf desea saber si el tiempo promedio que requieren los hombres para jugar
los 18 hoyos es diferente al de las mujeres. Se mide el tiempo de 50 partidos de hombres y 45
de mujeres obteniendo la siguiente información:
Hombres Mujeres
x = 3.5 horas x = 4.9 horas
s = 0.9 horas s = 1.5 horas.
R: Calculamos previamente SxH – xM :
SxH – xM =  (.9)2 + (1.5)2 = .257

50 45
Paso 1: Planteamiento de hipótesis
Ho: µh = µm  µh - µm = 0
Ha: µh  µm  µh - µm  0
Paso 2: Cálculo del estadístico de prueba y de los valores críticos:
Z = (3.5 – 4.9) – 0 = -5.45

.257
Para alfa=5%, z = ± 1.96

Paso 3: No rechazar si Z esta entre ± 1.96. De lo contrario rechazar.
Paso 4: Como Z =-5.45 < -1.96, la Ho se rechaza, esto es la evidencia sugiere que si existe
diferencia en el tiempo promedio que emplean los hombres y las mujeres. Cabe hacer notar
eu el valor p relacionado con la prueba es virtualmente cero.
Pruebas con muestras pequeñas
Las muestras que involucran muestras pequeñas dependen de si las varianzas poblacionales
pueden asumirse como iguales o no.
Si las varianzas poblacionales son iguales o pueden asumirse iguales, el estadístico de

prueba se calcula así:
t = (x1 – x2) - (µ1 - 2 )

 S2C + S2C
n1 n2
59
Ejemplo:
Una persona desea probar si existe diferencia entre los salarios promedio de Atlanta y
NewPort. Para eso obtuvo la siguiente información muestral:
Atlanta NewPort
n = 23 n = 19
X = $17.53 X = $15.50
S = 92.10 S = 87.10
R: Ho: µA = µN  µA - µN = 0
Ha: µA  µN  µA - µN  0
Como la varianza mancomunada= 89.85, entonces
t = (17.53 – 15.5) – 0 = .69

 (89.85/23) + (89.85/19)
Por otro lado para alfa=2% y 23+19-2 =40 g.l., los valores críticos son: ± 2.423.
Como -2.423< t = .69 < 2.423 , la Ho no se rechaza. Esto es no hay evidencia de que exista
diferencia en el salario promedio.
Si las varianzas son desiguales, lo único que cambia es el estadístico de prueba que queda:
t = (x1 – x2) - (µ1 - 2 )

 (s21 /n1) + (s22/n2)
PRUEBA DE HIPOTESIS CON MUESTRAS PAREADAS
En las muestras pareadas se experimenta menor error de muestreo debido a ala reducción en
la variación entre observaciones porque se hace la correspondencia tan cerca como sea
posible. En este caso el estadístico de prueba queda así:
t = d – (µ1 - 2 )
Sd
n
Ejemplo:
60
Una persona desea probar la hipótesis de igualdad de medias con una muestra pareada de
15 datos, donde d = -884 y d2= 400,716.
R: Ho: µ1 = µ2  µ1 - µ2 = d = 0
Ha: µ1  µ2  µ1 - µ2 = d  0
t = -58.93 – 0 = -1.44
157.8/ 15
Dado que para un alfa de 5% y 15-1= 14 g.l. los valores críticos son: ± 2.145 , la Ho no se
rechaza, es decir, no existe evidencia de que la diferencia sea diferente de cero.
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE DOS PROPORCIONES
El estadístico de prueba para la diferencia de dos proporciones es:
Z= (p1 - p2) - (1 - 2 )

Sp1-p2
Ejemplo: Un minorista desea probar la hipótesis de que la proporción de sus clientes

masculinos, quienes compran a crédito es igual a la proporción de clientes mujeres que
utilizan el crédito. Para esto él selecciona 100 clientes hombres y encuentra que 57 compran
a crédito mientras que 52 de 110 mujeres lo hicieron.
R. Ho: h = m
Ha: h  m Sp1-p2 =  ph(1-ph)/nh + pm(1-pm)/nm = .069
Z = (.57 -.473) – 0 = 1.41 Para alfa=1% V.C. = ± 2.58

.069
Como z está entre ± 2.58 la Ho no se rechaza, por lo tanto el minorista no puede concluir que
las proporciones de clientes hombres y mujeres que compran a crédito difieren.
61
COMPARACIÓN DE LA VARIANZA DE DOS POBLACIONES NORMALES
Esta sección demuestra como es razonable determinar la suposición de varianzas iguales.

Esta prueba se bas en la distribución F, la cual fue denominada así en 1924 en honor a Sir
Ronald A. Fisher (1890-1962).
Cuando se comparan las varianzas de dos poblaciones, se toma una muestra de cada
población. Las varianzas de las muestras sirven como estimados de sus varianzas
poblacionales respectivas. Una distribución F se forma por la razón de estas dos varianzas
muestrales y sirve como estadístico de prueba para la comparación de ambas:
F = S2 1
S22
En donde S2 1 es la más grande de las dos varianzas muestrales

S22 es la más pequeña de las dos varianzas muestrales
Como se asume que la mas grande excede a la más pequeña, entre más la exceda, menos
probable es que 21= 22 y más grande será la razón F. Por lo tanto un valor F grande llevará
a un rechazo de la hipótesis nula (Ho: 21= 22).
Manipular la razón F para garantizar que la varianza de la muestra más alta se coloque en el
numerador asegurará que el valor F siempre sea mayor que 1. Vale la pena destacar que la
distribución F no es simétrica y está limitada por cero en el extremo inferior.
Cuando se controla la razón F para asegurar que F>1, se realiza la prueba de dos colas de la
hipótesis Ho: 21= 22 como si fuera una prueba de una cola, por lo tanto es necesario dividir
entre dos el valor alfa ().
Ejemplo:
Un consultor gerencial desea probar una hipótesis respecto a dos medias poblacionales. Sin
embargo antes de hacerlo debe decidir si hay alguna evidencia que sugiera que las varianzas
poblacionales son iguales. Al recolectar sus datos encuentra que :
Muestra 1 Muestra 2
Tamaño muestral 10 10
Desviación estándar 12.2 15.4
Varianza 148.84 237.16
Desea probar:
Ho: 21 = 22

Ha: 21  22
Utilizando la fórmula y asegurandome que la varianza más lata esté en el numerador , se

encuentra que:
62
F = (15.4)2 = 1.59
(12.2)2
Para alfa=5%, el valor crítico correspondiente es F /2,9,9 = 4.03 Esto se encuentra en la

tabla F de Fisher , en la sección de /2 = .025 , se mueve hacia la fila superior para hallar 9
g.l. y luego se baja a la columna de 9 g.l.
Como F es menor que el V.C. , la Ho no se rechaza, por lo tanto el consultor puede proceder
con la prueba de hipótesis correspondiente a las medias poblacionales bajo la suposición de
que las varianzas son iguales.
63

ESTADISTICA para Los Negocios (1a. Parte) 2

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA para Los Negocios (1a. Parte) 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ESTADISTICA para Los Negocios (1a. Parte) 2

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA PARA LOS NEGOCIOS

UNIDAD 1: ESTADISTICA INFERENCIAL Y ESTIMACIONES

Este enfoque administrativo, también conocido como administración de la calidad total es la

A la parte de la estadística que se encarga de recopilar, organizar, presentar y analizar un

A la parte de la Estadística que hace posible la estimación de una característica de una

Para entender estos conceptos tenemos las siguientes definiciones:

Datos.- Son colecciones de un número cualquiera de observaciones relacionadas entre sí. Se

Los datos pueden ser: Cuantitativos o Numéricos o Cualitativos o Categóricos. El análisis

Una muestra representativa debe contener las características relevantes de la población de la

Análisis de los procedimientos de muestreo

Error de Muestreo = Diferencia entre el parámetro poblacional y el estadístico de la muestra

 Muestreo aleatorio simple.

Cuando lo que queremos es analizar el comportamiento de dos o más conjuntos de datos al

En las distribuciones de frecuencia las clases deben ser:

Graficación de las distribuciones de frecuencia

Análisis de los datos.

 Medidas de tendencia central.

Las asimétricas, en cambio, concentran en un extremo u otro de la gráfica la mayoría de sus

Medidas de curtosis.- Esta medida nos da el grado de pico de la gráfica. Ej.:

 - Media aritmética de la población.

Así para datos sueltos tenemos: Y para datos agrupados en clases:

Media Ponderada.- Es un promedio que toma en cuenta la importancia ( o el peso) de cada

xw = (x * w) Donde w es el peso de cada

Media Geométrica.- Es el promedio de los datos que cambian a lo largo de un período de

Ejemplo: Si invierto $100 de acuerdo a la siguiente tabla:

Mediana = m = el (n+1)/2- ésimo elemento de un arreglo de datos.

Para datos agrupados en clases:

Moda = Mo = El valor que más se repite.

Donde L Mo = Límite inferior de la clase modal.

Análisis de las medidas de Tendencia Central.

La experiencia ha demostrado que cuando la distribución de la población tiene sesgo positivo

Fractiles.-Si un conjunto se coloca en orden de magnitud, el valor medio que divide al

M = Q2 = D5 = P50 ; P25= Q1 y P75 = Q3

Al conjunto de estos valores se les llama FRACTILES O CUANTILES.

El Intervalo de Intercuartil contiene al 50% de los datos.

Desviación del Cuartil.- Se define así: Q3 - Q1

La desviación del cuartil mide el intervalo intermedio de un cuarto de los datos. Es

Medidas de Dispersión (o Desviación) Relativa.- La comparación de dos desviaciones estándar

Coeficiente de variación.- Esta medida relaciona ambas expresando la desviación estándar

Para la población se define así: C.V. =  (100) %

Para una muestra: C.V. = s (100)%

Desviación Absoluta Promedio.- Es el promedio de las desviaciones de cada observación

Para la población:  2 = Para una muestra: s2 =

Para una muestra: s = s2

“Si la curva de distribución es simétrica y en forma de campana:

Esta “Regla Empírica” se ilustra así:

Esta se calcula así:

Probabilidad.-Es una medida de la creencia o posibilidad de que ocurra “algo”. La probabilidad

Experimento.- Es la actividad mediante la cual se obtiene una observación de un fenómeno.

Espacio Muestral.- Es el conjunto de todos los resultados posibles de un experimento.

Existen tres enfoques que se le pueden dar a la probabilidad:

Prob. De un evento = No. de veces que ocurre un evento

Prob.(que un alumno reprueba Matemáticas)=

Probabilidad de un evento = La que le asigna el individuo basándose en

P(A)= 1 Que llueva

Según la Frecuencia relativa de ocurrencia:

P(A) = ______ Veces que ha llovido en un día como hoy

Según la probabilidad subjetiva:

P(A/B) = P(A,B) = P(B/A)P(A) = P(B/A)P(A)

P(R/A) = P(A/R)P( R) = (.40) (.5) = .364

P(3)= C20,3 (.02)3 * (.98)17 P(3) = (20.02)3 e –(20 * .02)