Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

ESTADISTICAII

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 37

Prof.

: Jezabel Fermín
ASIGNATURA: ESTADISTICA II (0913863)

UNIDAD I: TEORIA DE MUESTREO Y ESTIMACION


La teoría del muestreo es el estudio de las relaciones existentes entre una población y muestras
extraídas de la misma.

Muestreo: Es el procedimiento por medio del cual se estudia una parte de la población llamada
muestra, con el objetivo de inferir con respecto a toda la población.

Ventajas del Muestreo:


 Costos reducidos.
 Mayor rapidez para obtener resultados.
 Mayor exactitud o mejor calidad de la información.
 Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas.

Tipos de Muestreo:
1. Muestreos No Probabilísticos: Los elementos o individuos de la muestra se eligen sin tomar en
cuenta su probabilidad de ocurrencia. Por tanto, es imposible determinar el grado de
representatividad de la muestra. Estas pueden ser:
a. Muestreo por Juicio: También conocido como muestreo por selección experta o selección
intencional. El investigador toma la muestra seleccionando los elementos que a él le parecen
representativos o típicos de la población.
b. Muestreo Casual o fortuito: Se utiliza en los casos en que no es posible seleccionar los
elementos, y deben sacarse conclusiones con los elementos que estén disponibles.
c. Muestreo de Cuota: Se utiliza en el estudio de opinión de mercado.
d. Muestreo de Poblaciones Móviles: En este tipo de muestreo se utiliza métodos de captura,
marca y recaptura. Se utiliza mucho en el estudio de migración de poblaciones de animales y
otras características.

2. Muestreos Probabilísticos: Los elementos de la muestra son seleccionados siguiendo un


procedimiento que brinde a cada uno de los elementos de la población una probabilidad conocida de
ser incluidos en la muestra. Dentro de este tipo tenemos:
a. Muestreo Aleatorio Simple: Es seleccionado de tal manera que cada muestra posible del
mismo tamaño tiene igual probabilidad de ser seleccionado de la población.

b. Muestreo Sistemático: Este tipo de muestreo se obtiene cuando los elementos son
seleccionados en una manera ordenada. La manera de selección depende del número de
elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la
población es dividido por el número deseado en la muestra y el cociente (resultado) se redondea al
entero más cercano, el cual indicará si cada décimo, cada onceavo, o cada centésimo elemento en
la población va a ser seleccionado.

N población
  cociente
n muestra

El primer elemento de la muestra es seleccionado al azar.

c. Muestreo Estratificado: Para este tipo de muestreo se divide la población en grupos,


llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la
muestra son seleccionados al azar o por un método sistemático de cada estrato. El número de
elementos seleccionado de cada estrato puede ser proporcional al tamaño del estrato en relación
con la población.
n n NE  n
 E  nE 
NT N E NT

d. Muestreo Por Conglomerado: Para este tipo de muestreo se divide la población en grupos
que son convenientes para el muestreo. Se selecciona una porción de los grupos al azar o por un
método sistemático y se toma todos los elementos o parte de ellos al azar o por un método
sistemático de los grupos seleccionados para obtener una muestra. Este tipo de muestreo
produce un mayor error muestral que una muestra aleatoria simple del mismo tamaño.

Calculo del tamaño de la muestra


El tamaño de la muestra depende de los siguientes elementos:
1. Tamaño de la población.
2. Nivel de confianza adoptado.
3. Error de estimación permitido.
4. Proporción en que se encuentre en el universo la característica estudiada (p)

Nota: Cuando no es posible estimar la característica mediante un ensayo piloto (p en %) adoptará la


suposición de que dicho porcentaje es igual al 50%.

La población se considera finita cuando no pasa de 100000 elementos e infinita cuando supera esa
cantidad.
Fórmulas para determinar el tamaño de la muestra:
1. Para Poblaciones Finitas:

 2 P(1  P) N
Cuando se conoce la varianza poblacional: n
e 2 ( N  1)   2 P(1  P)

Z 2 P(1  P) N
2
Cuando no se conoce la varianza poblacional: n
e ( N  1)  Z 2 P(1  P)
2
2

2. Para Poblaciones Infinitas:

 2 P(1  P)
Cuando se conoce la varianza poblacional: n
e2
Z 2 P(1  P)
Cuando no se conoce la varianza poblacional: n 2
e2

Distribuciones Muéstrales

La estadística inferencial involucra el uso de un estadístico para sacar una conclusión o inferencia
sobre el parámetro correspondiente.

El estadístico es una medida usada para describir alguna característica de una muestra, tal como
una media aritmética, una desviación típica o estándar de una muestra.
El parámetro es una medida usada para describir alguna característica de una población, tal como
una media aritmética, una desviación típica o estándar de una población.

El estadístico se utiliza como estimador del parámetro.

Los símbolos utilizados para representar los estadísticos y los parámetros son los siguientes:

Medida Parámetro Estadístico


Media Aritmética  x
Varianza 2 s2
Desviación Típica o Estándar  s
Proporción  p
Nº de Elementos N n

Distribuciones en el Muestreo:
Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos o más
muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado para cada
una de las muestras posibles extraídas de la población.

La distribución muestral es una lista de todos los valores posibles para un estadístico y la
probabilidad relacionada con cada valor.

Error Estándar: La desviación estándar de una distribución en el muestreo de un estadístico, es


frecuentemente llamada el error estándar del estadístico. La diferencia entre los términos desviación
estándar y error estándar es que la primera se refiere a los valores originales mientras que la última está
relacionada con valores calculados.

Error Muestral o Error de Muestreo: Es la diferencia entre el parámetro poblacional y el estadístico


de la muestra utilizado para estimar el parámetro. Un error de muestreo usualmente ocurre cuando no se
lleva a cabo la encuesta completa de la población, sino que se toma una muestra para estimar las
características de la población.

Media de las Medias Muéstrales: La distribución muestral de las medias muéstrales es una lista de
todas las medias muéstrales posibles. Estas medias muéstrales al igual que cualquier lista de números,
tienen una media denominada la media de las medias muéstrales o la gran media. Esta media de las
medias se obtiene aplicando la siguiente formula:
x
X
K
Donde k es el número de muestras en la distribución muestral, y esta se obtiene a través de la
fórmula de combinación.
N!
K  N Cn 
n! ( N  n)!
La media de la distribución muestral X es igual a la media de la población original  . ( X   )

Varianza y Error Estándar de las medias muéstrales:


La varianza en las medias muéstrales mide la dispersión de las observaciones individuales (medias
muéstrales) alrededor de su media (la gran media X ), esta se determina de la siguiente manera:
 (xi  X )  (xi  )
2 2
 x2    x2 
k k
El error estándar de la distribución muestral es una medida de la dispersión de las medias muéstrales
alrededor de  . Por tanto, el error estándar  x , mide la tendencia a sufrir del error de muestreo en el
esfuerzo por estimar  . Este se obtiene de la raíz cuadrada de la varianza de la distribución de las medias
muéstrales.

 (xi  X )
2
x    x   x2
k

Distribución de las Proporciones Muéstrales


De cualquier población es posible obtener muchas muestras diferentes de un tamaño dado. Cada
muestra tendrá su propia proporción de éxitos (p). sin embargo, al igual que con las medias, el valor
esperado de la distribución muestral de las proporciones será igual a la proporción de éxitos en la
población.
E ( p)  
Dónde: p es la proporción de éxito de la muestra
 es la proporción de éxito de la población
p
El valor esperado (medias) de la distribución muestral es: E ( p) 
k
 (1   )
El error estándar es: p 
n
Si n  0.05  N se requiere de un factor de corrección, por lo tanto el error estándar se determina de
la siguiente manera:
 (1   ) N n
p  
n N 1

Teorema del Límite Central


Si la población o proceso del cual se toma una muestra tiene una distribución normal, también la
distribución de muestreo de la media tendrá distribución normal, sin importar el tamaño de la muestra. El
teorema de límite central establece que cuando el tamaño de la muestra se incrementa la distribución de
muestreo de la media así como de otros estadísticos muéstrales se aproxima en cuanto a su forma a la
distribución normal, independientemente de la forma de la distribución de la población de la que fue tomada
la muestra.

Uso de la distribución muestral


Es importante ya que se pueden tomar decisiones con base en los resultados muéstrales.
Una aplicación de la distribución muestral es la de determinar la probabilidad de que una media
muestral clasifique dentro de un rango dado. La distribución muestral está distribuido normalmente si la
muestra se toma de una población normal (n  30 ) y el teorema del límite central garantiza la normalidad en
el proceso de muestreo, mientras que la desviación normal puede utilizarse para el proceso de toma de
decisiones.

Distribución Muestral de la Media


Si se toman muestras aleatorias repetidas de una población, y se calcula la media de cada muestra,
se puede observar que la mayoría de estas medias muéstrales ( x ) difieren entre si. La distribución de
probabilidad de estas medias muéstrales se denomina distribución muestral de la media, la cual tiene una
media  x y una desviación estándar o error estándar  x , entonces:
1. La distribución muestral de la media ( x ) tiene media  x , es decir:

E ( x)   x
2. La distribución muestral de la media tiene desviación estándar o error estándar:

x 
n
Nota: Si el tamaño muestral n no es una fracción pequeña del tamaño poblacional N, entonces, al
error estándar se le aplicará un factor de corrección, es decir:

Si n  0,05 N se requiere de un factor de corrección, por lo tanto, el error estándar a utilizar sería:

 N n
x  
n N 1
3. Si la distribución de la población es normal, entonces:

x  x
Z
x
Sigue una distribución normal estándar

4. A medida que aumenta el tamaño de la muestra, es decir, a medida que n   , la distribución


muestral de la media se aproxima a la distribución normal independientemente de la distribución de la
población de origen de la muestra. La aproximación es suficientemente buena cuando n  30 , entonces, el
teorema del límite central es aproximadamente válido y se aplica la distribución normal estándar (Z)

Distribución en el Muestreo de una Proporción Muestral


Sea p la proporción de éxito en una muestra aleatoria de n observaciones, entonces:
1. La distribución muestral de la proporción (p) tiene media  , es decir:
E ( p)  
2. La distribución muestral de la proporción tiene desviación estándar o error estándar:

 (1   )
p 
n
Nota: Si el tamaño muestral n no es una fracción pequeña del tamaño poblacional N, entonces, al
error estándar se le aplicará un factor de corrección, es decir:

Si n  0,05 N se requiere de un factor de corrección, por lo tanto, el error estándar a utilizar sería:

 (1   ) N n
p  
n N 1
3. Si la distribución de la población es normal, entonces:
p 
Z
p
Sigue una distribución normal estándar

4. A medida que aumenta el tamaño de la muestra, es decir, a medida que n   , la distribución


muestral de la media se aproxima a la distribución normal independientemente de la distribución de la
población de origen de la muestra. La aproximación es suficientemente buena cuando n  30 , entonces, el
teorema del límite central es aproximadamente válido y se aplica la distribución normal estándar (Z)

GUÍA DE EJERCICIOS DISTRIBUCIONES MUÉSTRALES

1.- En la sección de estadística 2 se encuentran inscritos 45 estudiantes enumerados del 01 hasta 45.
Determine:
a) Una muestra de 5 estudiantes utilizando la tabla de números aleatorios.
b) Una muestra de 6 estudiantes que debe consistir de cada 5to estudiante. El estudiante nº 3 es el punto
de partida.
c) Una muestra de 7 estudiantes utilizando su calculadora.
d) Una muestra de 8 estudiantes, tomando como punto de partida el estudiante nº 2

2.- De una población de 50 individuos, deseamos extraer una muestra de 5 individuos. Aplique:
a) Muestreo Aleatorio simple b) Muestreo Sistemático

3.- Una fábrica está conformada por 1000 empleados, se quiere tomar una muestra de 80 empleados. Se
sabe que hay 250 empleados en el departamento de herrería, 270 en mecánica, 200 en costura, 150 en
carpintería y 130 en administración.

4.- Para un trabajo de investigación de mercado en Venezuela, se cuenta con una población de 24.000.000
de habitantes con una desviación estándar de 2, se quiere saber cuántas personas viajarán al extranjero,
con la decisión de radicar definitivamente en el país de destino. a) ¿Cuál debe ser el tamaño de la muestra
para un nivel de confianza de la encuesta del 96% y un margen de error posible del 4%? b) Suponga que
no conoce la desviación estándar, ¿Cuál debe ser el tamaño de la muestra para un nivel de confianza de la
encuesta del 96% y un margen de error posible del 4%?

5.- Para el mismo trabajo de investigación de mercado en una ciudad de Venezuela que cuenta con una
población de 10000 habitantes con una desviación estándar de 2, se quiere saber cuántas personas
viajarán al extranjero, con la decisión de radicar definitivamente en el país de destino. a) ¿Cuál será el
tamaño de la muestra para un nivel de confianza de la encuesta del 96% y un margen de error posible del
4%? b) Suponga que no conoce la desviación estándar, ¿Cuál debe ser el tamaño de la muestra para un
nivel de confianza de la encuesta del 96% y un margen de error posible del 4%?

6.- En cierto barrio se desea realizar un estudio para conocer mejor el tipo de actividades de ocio que
gustan más a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar. Como los
gustos cambian con la edad y se sabe que en el barrio viven 2500 niños, 7000 adultos y 500 ancianos.
Determine el tamaño muestral correspondiente a cada estrato.

7.- Una población de las ventas semanales (en miles de dólares) en ensaladas de un restaurante
vegetariano es 27, 32, 17, 21 y 32. Determine la distribución muestral para muestras de tamaño 2, el error
estándar de la distribución muestral y compare la gran media con la media poblacional.

8.- Utilizando los datos del ejercicio 7, determine la distribución muestra para muestras de tamaño 3, el
error estándar y compare la media poblacional con la gran media.
9.- Los clientes de un salón de belleza son un promedio de 40,7 personas por día, con una desviación
estándar de 12,9. Si se toma una muestra de 100 días ¿Cuál es la probabilidad de que el número
promedio de clientes exceda de 43?

10.- Los depósitos promedios en una entidad bancaria equivalen a US$ 7.012 con una desviación estándar
de US$ 532 y están distribuido normalmente.
a) Si se selecciona un depósito aleatoriamente ¿Cuál es la probabilidad de que exceda de US$ 6.911?
b) Si se selecciona aleatoriamente 35 depósitos ¿Cuál es la probabilidad de que la media exceda de US$
6.911?

11.- En promedio, el nivel de producción en una planta de manufactura local es de 47,3 unidades por día,
con una desviación estándar de 12,7. El gerente de planta tomará una muestra de 100 días. Si la media
muestral excede de 49, promete dar a todos los empleados una bonificación de Navidad. ¿Qué tan
probable es que los empleados disfruten de una feliz navidad?

12.- Los ingresos para los trabajadores de una línea de producción tienen un promedio de US$ 21,15 por
hora con una desviación estándar de US$ 5,15. Si se toman 100 ingresos de los trabajadores ¿Cuál es la
probabilidad de que no exceda de US$ 20,35 por hora? ¿De qué se encuentre entre US$ 20,48 y US$ 21?
¿De que exceda de US$ 20,87?

13.- Un mecánico local en promedio cobra US$ 110 por hacer una reparación determinada. Los registros
muestran una desviación estándar de US$ 21,50 en cobros. Un cliente se quejó recientemente porque su
factura de US$ 115,50 era excesiva. Después de un regateo considerable, el mecánico acepto reembolsar
el dinero si la muestra de 36 trabajos similares revelaba tener una facturación promedio menor que la del
cliente. ¿Piensa usted que el mecánico fue sabio al ofrecer esta negociación?

14.- Un proceso de manufactura producen unidades que miden en promedio 10 pulgadas de largo con una
desviación estándar de 3,2 pulgadas. Si se toma una muestra de 100 unidades ¿Cuál es la probabilidad de
que la media se encuentre entre 9,5 y 10,5 pulgadas?

15.- En la clase de computadora que se le da a los estudiantes de estadística de segundo nivel, los
estudiantes tuvieron un promedio de 14,2 errores con una desviación estándar de 4,3.
a) ¿Cuál es la probabilidad de que 15 estudiantes tengan más de 13 errores en el curso?
b) ¿Cuál es la probabilidad de que 36 estudiantes tengan un promedio superior de 13 errores?
c) ¿Cuál es la probabilidad de que 36 estudiantes tengan un promedio menor a 13,5 errores?
d) ¿Cuál es la probabilidad de que 36 estudiantes tengan un promedio entre 14,4 y 16 errores?

16.- Los siguientes datos representan el número de días de ausencia al año de una población de seis
empleados de una empresa pequeña: 1, 3, 6, 7, 9 y 10. Selecciones todas las muestras de tamaño 3 y
construye la distribución muestral de la media. Determine la media de todas las medias muéstrales y
compárela con la media poblacional. Determine el error estándar.

17.- Los siguientes datos representan las respuestas obtenidas de una población de universitarios a la
pregunta: “¿Tiene usted actualmente acciones bursátiles de cualquier tipo?”. Las respuestas fueron: N1,
N2, Y3, N4, Y5 y Y6, donde Y es si y N es no. Determine la distribución de las proporciones muéstrales
para muestras de tamaño 3, el valor esperado y el error estándar.

18.- Millones de personas organizan sus planes de viaje por Internet. De acuerdo con un artículo publicado
en una revista, el 77% de los viajeros compran boletos de avión por Internet. Si usted selecciona una
muestra aleatoria de 200 viajeros. Determine: ¿Cuál es la probabilidad de que la muestra contenga entre el
75% y el 80% de viajeros con boleto comprado en Internet?
19.- Una empresa adquiere componentes para sus teléfonos celulares en lotes de 200 de una firma en Palo
Alto. El componente tiene una tasa de defectos del 10%. Una política establecida recientemente por la
empresa establece que si el siguiente envió tiene:
a) Más del 12% de defectos, definitivamente buscará un nuevo proveedor.
b) Entre el 10 y el 12% de defectos, considerará un nuevo proveedor.
c) Entre el 5 y el 10% de defectos, definitivamente no conseguirá un nuevo proveedor.
d) Menos del 5% de defectos, incrementará sus pedidos.
¿Cuál decisión es más probable que tome la empresa?

20.- Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una
media de 174,5 centímetros y desviación estándar de 6,9 centímetros. Si se toman 200 estudiantes:
a) ¿Cuál es la probabilidad que la estatura media de los estudiantes se encuentre entre 172,5 y 175,8
centímetros?
b) ¿Cuál es la probabilidad de que la estatura media de los estudiantes se encuentre por debajo de 172
centímetros?

21.-
ESTIMACIONES
Debido al coste, al tiempo y a la viabilidad, se suelen estimar los parámetros de la población a partir
de los estadísticos de una muestra. El estadístico de una muestra que se utiliza para estimar el parámetro
de una población se denomina estimador, y un determinado valor observado se denomina una
estimación.

Un estimador de un parámetro poblacional es una variable aleatoria que depende de la información


de la muestra y cuyas realizaciones proporcionan aproximaciones al valor desconocido del parámetro.

Estimación Puntual
Un estimador puntual de un parámetro poblacional es una función de la muestra que da como
resultado un único valor. Por ejemplo, la media muestral (X ) es un estimador puntual de la media
poblacional (  )

Formulas:
 Xi
Media muestral: X
n
2
 (X i  X )  X i  nX
2 2
Varianza muestral: S x2  
n 1 n 1

Desviación estándar o típica muestral: S x  S x2

X X : nº de éxito en la muestra
Proporción muestral: px  donde :
n n : nº de elementos en la muestra

Se dice que un estimador puntual es un estimador insesgado de un parámetro poblacional si su


valor esperado es igual a ese parámetro. Por ejemplo, la media muestral, la varianza muestral y la
proporción muestral son estimadores insesgado de sus correspondientes parámetros poblacionales:


La media muestral es un estimador insesgado de  , E ( X )   

La varianza muestral es un estimador insesgado de  2 , E ( s 2 )   2 
La proporción muestral es un estimador insesgado de  , E( p)   

Un estimador que no es insesgado es sesgado. El grado de sesgo es la diferencia entre la media


del estimador y el verdadero parámetro. Se deduce que el sesgo de un estimador insesgado es cero (0).

Se dice que un estimador puntual es un estimador consistente del parámetro si la diferencia entre
el valor esperado del estimador y el parámetro disminuye a medida que aumenta el tamaño de la muestra,
es decir, que el sesgo disminuye conforme aumenta el tamaño de la muestra.

Estimación con Intervalos de Confianza


Un intervalo de confianza (estimación por intervalo) denota un rango dentro del cual puede
encontrarse el parámetro, y el nivel de confianza que el intervalo contiene del parámetro.
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza
(LSC). Estos límites se determinan calculando primero la media muestral (X ) , luego se suma una cierta
cantidad a X para obtener el límite superior de confianza (LSC), y la misma cantidad se resta de X para
obtener el límite inferior de confianza (LIC).

El nivel de confianza es la probabilidad específica y se denota por (1   ) 100% , donde  es la


proporción de las colas de la distribución que queda fuera del intervalo de confianza. La proporción en la
cola superior de la distribución es  y la proporción en la cola inferior que queda fuera del intervalo de
2
confianza también es 
2

Intervalos de confianza para la media de una población con varianza ( ) o desviación


2

estándar poblacional ( ) conocida

Consideremos una muestra aleatoria de n observaciones extraídas de una población que sigue una
distribución normal de media  y varianza  2 . Si la media muestral es X , entonces el intervalo de
confianza al (1   ) 100% de la media poblacional, cuando la varianza es conocida, viene dado por:
  
 : X  Z → X  Z    X  Z
2 n 2 n 2 n

Intervalos de confianza para la media de una población con varianza ( ) o desviación


2

estándar poblacional ( ) desconocida


S S S
 : X  Z → X  Z    X  Z
2 n 2 n 2 n

Distribución t de Student
Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse. El teorema
del límite central asegura normalidad en el proceso de muestreo solo si la muestra es grande. Cuando se
utiliza una muestra pequeña, puede ser necesaria una distribución alternativa, la distribución t de Student.
Esta se utiliza cuando se cumple las tres (3) condiciones siguientes:

1. La muestra es pequeña (n < 30)


2. La desviación estándar poblacional ( ) es desconocida
3. La población proviene de una distribución normal o casi normal
Si la desviación poblacional ( ) es conocida la distribución normal se usa inclusive si la muestra es
pequeña.

Al igual que la distribución normal estándar, la distribución t tiene forma de campana, presenta una
media igual a cero, es simétrica con respecto a la media y oscila entre   y   . Sin embargo, mientras
que la distribución Z tiene una varianza igual a 1 (  1) , la varianza de la distribución t es mayor que 1,
2

por tanto, la distribución es platicurtica o más plana y más dispersa que la distribución Z.

Aunque sólo hay una distribución normal estándar, hay una distribución t distinta por cada tamaño
muestral n. Sin embargo, a medida que n se hace más grande, la distribución t se aproxima a la
distribución normal estándar hasta que, cuando n  30 , son aproximadamente iguales.
El estadístico t se calcula en gran parte como el estadístico Z.

X 
t Sigue una distribución t de Student con n – 1 grados de libertad
S
n

Los grados de libertad (g.l) es el número de valores u observaciones que se pueden elegir
libremente.

Intervalo de confianza para la media de una población con varianza poblacional ( 2 )


desconocida y muestra pequeña (n < 30)

S S S
 : X  t n1; → X  t n1;    X  t n1;
2 n 2 n 2 n

Determinación del tamaño de la muestra para la media de una población

X    
Z  Z  X 
  n
n

Sea e  X   el error de estimación, entonces:


   Z  Z 
2
Z    e  Z  e n  n  n 
 n e  e 

Intervalo de confianza para la proporción de una población


Sea p la proporción observada de éxito en una muestra aleatoria de n observaciones procedentes
de una población con una proporción  de éxitos. Entonces, si n es grande, un intervalo de confianza del
(1   ) 100% para la proporción poblacional viene dado por:

p1  p  p1  p  p1  p 


 : p  Z → p  Z    p  Z
2 n 2 n 2 n

Determinación del tamaño de la muestra requerido para la estimación de la proporción


Antes de recolectar la muestra, el tamaño de muestra mínimo requerido puede determinarse
especificando el nivel de confianza y el error de muestreo o error de estimación aceptable y haciendo una
estimación inicial de  la proporción poblacional desconocida.
p   (1   )
Z donde p 
p n

  (1   ) 
Z p  p   sustituyen do  p , se tiene Z   p 

 n 
Sea e  p   el error muestral o error de estimación, entonces, se tiene:
  (1   )  Z  (1   ) Z  (1  
Z  e
  e  Z  (1   )  e n  n
 n  n e
Z 2
   (1   )
n 
e2

Si no es posible determinar un estimado inicial de la proporción poblacional (  ), se le deberá


estimar en 50% (0,5). Esta estimación representa el valor para el que se requeriría del tamaño de muestra
mayor. Con base en este supuesto, la formula general para el tamaño de muestra sería:

2
Z  Z2
n  n 2
 2e  4e

Intervalos de confianza para la diferencia de medias de dos poblaciones normales


Con desviación estándar poblacional conocida (  ):

( X 1  X 2 )  Z  X 1 X 2  1   2  ( X 1  X 2 )  Z  X 1 X 2
2 2

Dónde:

 X 1 X 2   X2 1   X2 2 X 
n

Con desviación estándar poblacional desconocida (  ):

( X 1  X 2 )  Z S X 1 X 2  1   2  ( X 1  X 2 )  Z S X 1 X 2
2 2

Dónde:
S
S X 1 X 2  S X2 1  S X2 2 SX 
n

Intervalos de Confianza para la diferencia entre dos medias (Distribución t de Student)


Se debe cumplir las siguientes cuatro condiciones:
1. La muestra es pequeña (n < 30)
2. La desviación estándar poblacional ( ) es desconocidas
3. La población proviene de una distribución normal o casi normal
4. Las dos varianzas poblacionales (desconocidas) son iguales (  1   2 )
2 2

Por tanto, el error estándar de la diferencia entre medias cuando procede el uso de la distribución t
es combinar las dos varianzas muéstrales:
(n1  1) S12  (n2  1) S 22
S X2 
n1  n2  2

El error estándar de la diferencia entre muestras basadas en el uso de la varianza combinada


estimada es:
S X2 S X2 1 1 
S X 1 X 2    S X 1 X 2  S X2    con g.l  n1  n2  2
n1 n2  n1 n 2 

El intervalo de confianza es:

( X 1  X 2 )  t g .l ; S X 1 X 2  1   2  ( X 1  X 2 )  t g.l ; S X 1 X 2
2 2

Intervalos de confianza para la diferencia entre dos proporciones:

( p1  p2 )  Z  S p1 p2   1   2  ( p1  p2 )  Z  S p1 p2
2 2

Dónde:
S p1 p2  S p21  S p22

p1 (1  p1 ) p2 (1  p2 )
S p21  y S p22 
n1 n2

Distribución Ji cuadrada e intervalos de confianza para la varianza y desviación estándar


Dada una población de valores con distribución normal, puede demostrarse que la distribución ji
cuadrada (  2 ) son las distribuciones de probabilidad adecuada para la razón:
(n  1) S 2
2
Hay una distribución ji cuadrada diferente según el valor de n – 1, lo cual representa los grados de
libertad.

Dado que la varianza muestral es un estimador in sesgado de la varianza poblacional, el valor


esperado a largo plazo de la razón anterior es igual a los grados de libertad (n – 1). Sin embargo, en
cualquier muestra dada por lo general la varianza muestral no es idéntica en valor a la varianza
poblacional.

Las distribuciones ji cuadrada no son simétricas, en consecuencia, un intervalo de confianza de dos


extremos para una varianza o desviación estándar implica el uso de dos valores diferentes de ji cuadrado.

Intervalo de confianza para la varianza poblacional

(n  1) S 2 (n  1) S 2 (n  1) S 2 (n  1) S 2
2   2 
 g2.l superior  g2.l inferior 2  2 
n 1; n 1; 1
2 2

Intervalo de confianza para la desviación poblacional

(n  1) S 2 (n  1) S 2 (n  1) S 2 (n  1) S 2
    
 g2.l superior  g2.l inferior 2  2 
n 1; n 1; 1
2 2
GUÍA DE EJERCICIOS ESTIMACIONES DE PARÁMETROS

1. La longitud aleatoria de las unidades producidas por una máquina tiene desviación típica de 6 cm. Se
toma aleatoriamente una muestra de 100 unidades obteniéndose una media de 14,35 cm. Construir un
intervalo de confianza del 99% para la longitud media de las unidades producidas.

2. De una muestra de 26 embotelladoras automáticas se encontró que la media de botellas rellenadas por
minuto era de 71,2 y su varianza de 13,4. Suponiendo que la población es normal, calcular el intervalo
de confianza al 95% para el número medio de botellas a rellenar.

3. Para efectuar la estimación por intervalos de la diferencia de medias de dos poblaciones X1 e X2


normales e independientes, se tomaron de ambas poblaciones dos muestras aleatorias de tamaños n1
= 9 y n2= 4, respectivamente, las cuales arrojaron medias de 7,2 y 7,3 y desviaciones típicas de 0,1 y
0,12, respectivamente. Obtener un intervalo de confianza al nivel de significación del 1% suponiendo
que las desviaciones típicas de X1 y X2 son:
a) 0,4 y 0,36, respectivamente.
b) desconocidas pero iguales.

4. Una muestra aleatoria de 6 autos americanos de un determinado modelo consume las siguientes
cantidades en kilómetros por litro: 18,6 18,4 19,2 20,8 19,4 20,5.
Calcular un intervalo de confianza al 99% para el consumo de gasolina medio poblacional de los
automóviles de este modelo, suponiendo que la distribución de la población es normal.

5. De una población de trabajadores fumadores y no fumadores se extrae una muestra aleatoria de 96


fumadores y otra muestra aleatoria de 206 trabajadores que nunca han fumado. La primera muestra
arrojó un número medio de horas de ausencia laboral al mes de 2,15 y una desviación típica de 2,09
horas al mes, y la segunda un número medio de horas de 1,69 y una desviación típica de 1,91 horas al
mes. Calcular un intervalo de confianza para la diferencia entre las dos medias poblacionales al 99% de
confianza.

6. Un proceso produce bolsas de azúcar refinada. El peso del contenido de estas bolsas tiene una
distribución normal con desviación típica 15 gramos. Los contenidos de una muestra aleatoria de 25
bolsas tienen un peso medio de 100 gramos. Calcular un intervalo de confianza al 95% para el
verdadero peso medio de todas las bolsas de azúcar producidas por el proceso.

7. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos
al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 0,95; 1,08; 0,97; 1,12;
0,99; 1,06; 1,05; 1; 0,99; 0,98; 1,04; 1,1; 1,07; 1,11; 1,03; 1,1. Suponiendo que los precios de este
producto se distribuyen según una ley normal de varianza 0,0025 y media desconocida. Determine el
intervalo de confianza, al 95%, para la media poblacional.

8. En una determinada población se toma una muestra al azar de 256 personas. De esta muestra, el 20%
de las personas lleva gafas graduadas y el resto no. Calcula el intervalo de confianza aproximado para
la proporción poblacional de las personas que llevan gafas graduadas para un nivel de confianza del
95%.

9. La desviación típica de la altura de los habitantes de un país es de 10 cm. Calcular el tamaño mínimo
que ha de tener una muestra de habitantes de dicho país para que el error cometido al estimar la altura
media sea inferior a 1cm con un nivel de confianza del 99%. ¿Y si el nivel de confianza es del 95%?

10. Se ha tomado una muestra aleatoria de 100 individuos a los que se ha medido el nivel de glucosa en
sangre, obteniéndose una media muestral de 110 mg/cc. Se sabe que la desviación típica de la
población es de 20 mg/cc.
a) Obtén un intervalo de confianza para el nivel de glucosa en sangre de la población al 90% de
confianza.
b) ¿Qué error máximo se comete con la estimación anterior?

11. Se desea estudiar el gasto semanal de fotocopias, de los estudiantes de una Universidad. Para ello, se
ha elegido una muestra de 9 estudiantes elegidos al azar, resultando los gastos diarios:
1 1,5 0,9 0,7 1,05 2 1,2 0,8 0,75
Se supone que la variable aleatoria objeto de estudio sigue una distribución normal de media
desconocida y de desviación típica igual a 12. Determina un intervalo de confianza del 95% para la
media del gasto diario en fotocopias por estudiante y la desviación estándar.

12. Supongamos que las notas en la asignatura de Estadística siguen una distribución normal en los dos
grupos existentes. Se selecciona una muestra aleatoria simple de 21 alumnos del primer grupo y otra
de 26 alumnos del segundo grupo, ambas independientes, y se obtienen como varianzas 1250 y 900
respectivamente. Obtenga un intervalo de confianza para el cociente de varianzas poblacionales al nivel
de confianza del 90%.

13. Se selecciona una muestra aleatoria simple de 600 familias a las que se les pregunta si tienen
computadora en casa, resultando que 240 contestan afirmativamente. Obtener un intervalo de
confianza al nivel del 95% para estimar la proporción real de familias que poseen computadora.

14. Una muestra aleatoria de los salarios (en soles) por hora para nueve trabajadores es: 10,5; 11; 9,5; 12;
10; 11,5; 13; 9; 8,5. Si el muestreo se realizó sobre una población distribuida Normal, construya los
intervalos de confianza estimados del 95% para los salarios por hora promedio para todos los
trabajadores y la desviación estándar.

15. Un médico desea estimar la diferencia entre la proporción de hombres y mujeres, en edad madura, que
fuman en exceso y que desarrollan un cáncer pulmonar en los siguientes cinco años. Para ello
selecciona dos muestras, una de hombres y otra de mujeres verificando las condiciones anteriores. Los
datos son los siguientes:

Nº fumadores Enfermos de cáncer


Hombres 100 85
Mujeres 110 60

Calcule un intervalo de confianza al 95% para la diferencia entre las proporciones de enfermos. Y cuáles
son los límites para el intervalo de confianza al nivel de 99%?

16. El director de una escuela de negocios quiere estimar la cantidad media de horas que 500 estudiantes
que se encuentran en el campus trabajan por semana. Para el estudio el director toma una muestra
aleatoria de 49 estudiantes, los cuales arrojaron una media de 24 horas y desviación estándar de 4 horas.
Estime al 95% de confianza la cantidad media de horas que todos los estudiantes del campus trabajan por
semana.

17. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen
1000 cuentas de las cuales se toma una muestra aleatoria de 300 cuentas arrojando los siguientes
resultados:
- El promedio de la deuda por cobrar es de 1040 con varianza de 4500.
- 34% es el porcentaje de la deuda por cobrar.
a) Estime al 93% de confianza el promedio de la deuda por cobrar de todas las cuentas abiertas en la
empresa.
b) Estime al 93,5% de confianza la proporción de la deuda por cobrar de todas las cuentas abiertas en la
empresa.
18. Una tienda de computadoras realiza un estudio del inventario a fin de mes de las computadoras que se
encuentran en el almacén. Una auditora desea estimar el valor promedio de las computadoras en
inventario en ese momento. Ella desea una confianza del 99% de que su estimación del valor promedio es
correcto dentro de ± 200. Por experiencia, estima que la desviación estándar del valor de una computadora
es 400.
a) ¿Qué tamaño de muestra debe seleccionar?
b) Se utilizó la muestra seleccionada en (a) para realizar una auditoria con los siguientes resultados:
y Establezca una estimación del 99% de confianza para el valor
promedio de las computadoras al final del mes.

19. Los estudiantes de una clase de economía puntuaron el curso en una escala del 1 (malo) al 5
(excelente). Los valores de esta puntuación en una muestra aleatoria de tamaño 10 fueron:
3 3 4 3 5 2 4 4 4 5
a) Determine: Media, Varianza, Desviación estándar y la proporción de estudiantes que obtuvieron una
puntuación mayor que 3.
b) Estime al 90% de confianza la puntuación media de todos los estudiantes.
c) Estime al 90% de confianza la varianza y la desviación estándar de las puntuaciones de los estudiantes.
d) Estime al 90% de confianza la proporción de estudiantes que obtuvieron puntuaciones mayores que 3.

20. A una clase de estadística asisten estudiantes de la licenciatura de contaduría y gerencia. Una muestra
de 10 estudiantes de contaduría obtuvieron las siguientes calificaciones en el examen final:
62 57 85 59 64 63 71 58 77 72
Una muestra independiente de 8 estudiantes de gerencia obtuvieron las siguientes calificaciones:
73 79 73 62 51 60 57 49
a) Estime al 98% de confianza la diferencia del promedio de calificación obtenida por los estudiantes de
contaduría y gerencia.
b) Estime al 90% de confianza la varianza y la desviación estándar de la calificación obtenida por los
estudiantes de contaduría.
c) Estime al 90% de confianza la varianza y la desviación estándar de la calificación obtenida por los
estudiantes de gerencia.

21. Cada mes el consejo para la defensa del consumidor publica su índice de confianza para el
consumidor. También publica otras estadísticas basadas en una investigación mensual. Para el índice de
abril del 2012, el consejo investigó 5000 consumidores. De éstos, 43% indicó que creían que las
condiciones actuales de los negocios eran buenas y 15,9% que las oportunidades de empleo mejorarían en
el futuro cercano.
a) Estime al 95% de confianza la proporción de la población que piensa que las condiciones de los
negocios son buenas. ¿Cuál es el error de muestreo para esta estimación?
b) Estime al 95% de confianza la proporción poblacional que piensa que las oportunidades de empleo
mejoraran en el futuro próximo. ¿Cuál es el tamaño del error de muestreo para este intervalo?

22. El asesor inmobiliario del gobierno desea estudiar las diferentes características de las casas
unifamiliares. Una muestra aleatoria de 70 casas revela lo siguiente:
- Área de la casa con calefacción: y
- 42 casas tienen una central de aire acondicionado.
a) Estime al 99% de confianza la media poblacional de casas con área de calefacción.
b) Estime al 99% de confianza la proporción poblacional de casas que tienen una central de aire
acondicionado.
c) Si el asesor desea realizar un estudio a las casas bifamiliares: ¿Qué tamaño de muestra necesita para
tener un 94% de confianza al estimar la proporción poblacional con ± 3% si no hay una estimación previa?
UNIDAD II: PRUEBAS DE HIPÓTESIS

En la inferencia estadística es muy común, en tener que tomar decisiones sobre la población,
partiendo de las características de las muestras extraídas de la misma. A estas decisiones se le
denominan decisiones estadísticas.

HIPÓTESIS ESTADÍSTICAS
Para tomar decisiones, es conveniente hacer ciertos supuestos acercas de las poblaciones objeto de
investigación. Estos supuestos que pueden ser ciertos o falsos, en base a distribuciones de probabilidad
de las poblaciones se le llaman hipótesis estadística.

Una Hipótesis Estadística es un enunciado provisional referente a uno o más parámetros de una
población o grupo de poblaciones.

PRUEBAS DE HIPÓTESIS
Tiene como propósito determinar si el valor supuesto de un parámetro poblacional, como la media de
la población (µ), debe aceptarse como verosímil (como verdadera) con base en evidencias muéstrales.

PASOS BÁSICOS DE LA PRUEBA DE HIPÓTESIS:


Paso 1: Formule la hipótesis nula (H0) y la hipótesis alternativa (H1 ó Ha)
La hipótesis nula (H0) es el valor paramétrico hipotético que se compara con el resultado muestral. Se
le rechaza sólo si es poco probable que el resultado muestral haya ocurrido dado lo correcto de la
hipótesis.

La hipótesis alterna (H1 ó Ha) se acepta sólo si la hipótesis nula es rechazada.


Paso 2: Especifique el nivel de significancia por aplicar.
El nivel de significancia es el estándar estadístico que se especifica para rechazar la hipótesis nula.
Paso 3: Seleccione la estadística de prueba.
Paso 4: Determine el valor de la estadística de prueba.
Paso 5: Establezca el valor o valores crítico de la estadística de prueba.
Estos valores pueden ser uno o dos, dependiendo de si están implicadas las así llamadas pruebas
unilaterales o bilaterales. Un valor crítico identifica el valor de la estadística de prueba requerido para
rechazar o aceptar la hipótesis nula (H0)

Paso 6: Decisión.
El valor observado de la estadística muestral se compara con el valor (o valores) crítico (s) de la
estadística de prueba. Se rechaza o no entonces la hipótesis nula. Si la hipótesis nula es rechazada se
acepta la hipótesis alterna.

ERROR DE TIPO I Y ERROR DE TIPO II


ERROR DE TIPO I O RIESGO DE PRIMERA ESPECIE (α): es considerado como aquel que se comete al
rechazar la hipótesis nula a nivel de la muestra, siendo verdadera a nivel de la población. La probabilidad
de cometer este tipo de error se llama nivel de significación de la prueba y se denota con la letra griega
alfa (α).
ERROR DE TIPO II (β): ocurre cuando a nivel de la muestra se acepta la hipótesis nula siendo esta falsa
a nivel de la población. Este tipo de error se comete cuando la hipótesis nula no se rechaza y la hipótesis
de investigación es verdadera. La probabilidad de cometer un error tipo II se denota con la letra griega (β)

POTENCIA DE UNA PRUEBA (1 – β): se denomina así a la probabilidad de aceptar la hipótesis nula
cuando en realidad es falsa.

ZONAS DE RECHAZO, CONTRASTE BILATERAL Y UNILATERAL


La ZONA DE RECHAZO consiste en un conjunto de valores, tales que, cuando la hipótesis nula es cierta,
su probabilidad es muy pequeña. Esto también suele llamarse coeficiente de riesgo o nivel de significación.

La hipótesis alternativa es la que define la ubicación de la zona de rechazo, es decir, si la hipótesis


alternativa señala la dirección de la diferencia, entonces se tiene una prueba unilateral y habrá una zona de
rechazo que estará situada a la derecha o a la izquierda de la curva correspondiente a la distribución,
según sea la dirección ubicada por la hipótesis alternativa. Si la hipótesis alternativa no señala la dirección
de la diferencia, entonces se habla de una prueba, ensayo o contraste bilateral.

CONTRASTE BILATERAL: En este caso la hipótesis alternativa indica que existe diferencia entre las
medidas comparadas. Si la comparación es entre dos medias, las dos hipótesis y el gráfico serían:

H 0 :   0
H1 :    0
- Z0 Z0

CONTRASTE UNILATERAL: En este caso la hipótesis alternativa indica la dirección en que se presenta la
diferencia, si esta es hacia la derecha o hacia la izquierda.

H 0 :   0 ó H 0 :   0

H1 :    0
Z0

H 0 :   0 ó H 0 :   0

H1 :    0
- Z0
Z0 = Representa el valor crítico, es decir, el límite de separación de las dos zonas de contraste (Zona
de Rechazo y Zona de Aceptación).
PRUEBA DE HIPÓTESIS SOBRE LA MEDIA (µ) DE UNA POBLACIÓN

CASO 1: PRUEBA DE HIPÓTESIS PARA LA MEDIA CON σ CONOCIDA Y σ DESCONOCIDA

Hipótesis Nula Estadístico de Prueba

H 0 :   0 CON σ CONOCIDA CON σ DESCONOCIDA

H 0 :   0 X  0 X  0
ZC  ZC 
H 0 :   0  S
n n
Hipótesis Alterna Criterio de Rechazo Criterio de aceptación

H1 :    0 Z c  Z Z c  Z
H1 :    0 Z c  Z Z c  Z
H1 :    0 Z c  Z Z c  Z
2 2

CASO 2: PRUEBA DE HIPÓTESIS PARA LA MEDIA CON n < 30 (MUESTRAS PEQUEÑAS) Y σ DESCONOCIDA

Hipótesis Nula Estadístico de Prueba


H 0 :   0 X  0
H 0 :   0 tC   Tn1
S
H 0 :   0 n

Hipótesis Alterna Criterio de Rechazo Criterio de aceptación

H1 :    0 t c  t t c  t
H1 :    0 t c  t t c  t
H1 :    0 t c  t t c  t
2 2

CASO 3: PRUEBA DE HIPÓTESIS RELACIONADA PARA LA PROPORCIÓN


La prueba es apropiada cuando n  5 y n(1   )  5 , donde n es el tamaño de la muestra y π es
la proporción poblacional.

Hipótesis Nula Estadístico de Prueba


H0 :    0 p 0
H0 :    0 ZC 
 0 (1   0 )
H 0 :   0 n
Hipótesis Alterna Criterio de Rechazo Criterio de aceptación

H1 :    0 Z c  Z Z c  Z
H1 :    0 Z c  Z Z c  Z
H1 :    0 Z c  Z Z c  Z
2 2
CASO 4: PRUEBA DE HIPÓTESIS SOBRE LA VARIANZA DE UNA POBLACIÓN

Hipótesis Nula Estadístico de Prueba


H 0 :  x2  0
 C2 
n  1S 2
0
Hipótesis Alterna Criterio de Rechazo
H1 :  x2   0  c2   n21,

H1 :  x2   0  c2   n21,1

H 0 :  x2   0  c2   n21,
2

 c2   n1,1
2
2

CASO 5: PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS POBLACIONALES CON σ
CONOCIDA Y σ DESCONOCIDA

Estadístico de Prueba
Hipótesis Nula
CON σ CONOCIDA CON σ DESCONOCIDA
H 0 : 1   2
X1  X 2 X1  X 2
H 0 : 1   2 ZC  ZC 
H 0 : 1   2
 12  22 S12 S 22
 
n1 n2 n1 n2

Hipótesis Alterna Criterio de Rechazo Criterio de aceptación


H 1 : 1   2 Z c  Z Z c  Z
H 1 : 1   2 Z c  Z Z c  Z
H 1 : 1   2 Z c  Z Z c  Z
2 2

CASO 6: PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS POBLACIONALES CON
MUESTRAS PEQUEÑAS Y VARIANZAS DESCONOCIDAS IGUALES:

(n1  1) S12  (n2  1) S 22


S2 
n1  n2  2
Estadístico de Prueba
Hipótesis Nula X1  X 2
tC 
H 0 : 1   2 1 1 
S 2   
 n1 n2 
Hipótesis Alterna Criterio de Rechazo Criterio de aceptación

H 1 : 1   2 t c  t ,n1 n2 2 t c  t ,n1 n2 2
H 1 : 1   2 t c  t ,n1 n2 2 t c  t ,n1 n2 2
H 1 : 1   2 t c  t ,n  n  2
t c  t ,n  n  2
2 1 2 2 1 2

CASO 7: PRUEBA DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS PROPORCIONES POBLACIONALES

n1 p1  n2 p2

n1  n2

Hipótesis Nula Estadístico de Prueba


H 0 : 1   2 p1  p 2
ZC 
H 0 : 1   2  (1   )  (1   )

H 0 : 1   2 n1 n2

Hipótesis Alterna Criterio de Rechazo Criterio de aceptación


H1 :  1   2 Z c  Z Z c  Z
H1 :  1   2 Z c  Z Z c  Z
H1 :  1   2 Z c  Z Z c  Z
2 2

DISTRIBUCION F
Se define como la distribución que sigue el cociente de dos variables aleatorias independientes con
distribución Ji cuadrada (  2 ), cada una dividida por sus grados de libertad.
Suponga que se toman muestras aleatorias independientes de n x y n y observaciones de dos

poblaciones normales con varianzas  x2 y  y2 , y varianzas muéstrales S x2 y S 2y , entonces, la variable


aleatoria:
S x2
 x2
F  F( nx 1),( n y 1)
S y2
 y2
 F(nx 1),(n y 1) : tiene distribución F con ( n x  1 ) grados de libertad en el numerador y ( n y  1 )

grados de libertad en el denominador. Si se asume que las varianzas poblacionales  x2 =  2y , entonces:


S x2
F  F( nx 1),( n y 1)
S y2

La distribución F tiene una función de densidad asimétrica, definida solo para valores no negativos.

CONTRASTES DE IGUALDAD DE VARIANZAS DE DOS POBLACIONES NORMALES

Sean S x2 y S 2y las varianzas muéstrales observadas en dos muestras aleatorias independientes de

n x y n y observaciones de poblaciones normales con varianzas  x2 y  2y . Si S x2 es mayor que S 2y ,


entonces:

Hipótesis Nula Estadístico de Prueba


H 0 :  x2  2
S x2
y
Fc 
H 0 :  x2   y2 S y2

Hipótesis Alterna Criterio de Rechazo


H 1 :  x2   y2 Fc  F( nx 1),( n y 1),

H 1 :  x2   y2 Fc  F 
( nx 1),( n y 1),
2

Donde S x2 es la mayor de las dos varianzas muéstrales

GUÍA DE EJERCICIOS PRUEBA DE HIPÓTESIS

1.- El representante de un grupo comunitario le informa al posible desarrollador de un centro comercial que
el ingreso promedio por hogar en la zona es de 45000$ con una desviación estándar de 2000$. A partir de
una muestra aleatoria de 15 hogares, se determina que el ingreso domestico medio es de 44000$.
Determine al 5% de significancia si el ingreso promedio por hogar se mantiene.

2.- En referencia al problema 1, en realidad al posible desarrollador no le interesa la posibilidad de que el


ingreso domestico promedio sea mayor de los supuestos 45000$, sino sólo que sea menor. Reformule las
hipótesis y realice la estadística adecuada.

3.- En relación con el problema 2. Supongamos que se desconoce la desviación estándar de la población.
En una muestra de 30 hogares, la desviación estándar es de 2000$ y el promedio por hogar sigue siendo el
mismo. Al posible desarrollador le interesa que el ingreso medio por hogar sea de por lo menos 45000$
con un nivel de significancia de 5%.

4.- Un fabricante que estudia la compra de nuevo equipo para la fabricación de herramientas ha
especificado que, en promedio, el equipo no debe requerir de más de 10 minutos de tiempo de arranque
por hora de operación. El agente de compras visita una compañía en la que se ha instalado el equipo bajo
estudio; con base en los registros realizados ahí, advierte que 40 horas de operación aleatoriamente
seleccionadas incluyeron un total de 7 horas y 30 minutos de tiempo de arranque, y que la desviación
estándar de tiempo de arranque por hora fue de 3,0 minutos. Sobre la base de este resultado muestral,
¿puede rechazarse el supuesto de que el equipo satisface las especificaciones de tiempo de arranque al
nivel de significancia de 1%?

5.- Como gerente de compras para una gran empresa de seguros usted debe decidir si actualizar o no los
computadores de la oficina. A usted se le ha dicho que el costo promedio de los computadores es de
2100$. Una muestra de 64 minoristas revela un precio promedio de 2251$, con una desviación estándar
de 812$. ¿A un nivel de significancia del 5% parece que su información es correcta?

6.- Debido al tiempo excesivo que se gasta hacia el sitio de trabajo, la oficina en donde usted trabaja en el
centro está considerando espaciar las horas de trabajo para sus empleados. El gerente considera que los
empleados gastan un promedio de 50 minutos para llegar al trabajo. Setenta empleados se toman en
promedio 47,2 minutos con una desviación estándar de 18,9 minutos. Pruebe la hipótesis con un nivel de
significancia de 1%.

7.- A comienzo de los años 90, Hyundai, el fabricante coreano de automóviles, sufrió una severa caída en
las ventas, por debajo de su pico mensual de 25000 unidades de mayo de 1988. Hyundai Motor America
(verano de 1997) reportó que las ventas habían bajado a menos de 10000 unidades. Durante un período
de 48 meses que comenzó en enero de 1990, las ventas promedio fueron de 9204 unidades. Se asume
una desviación estándar de 944 unidades. ¿A un nivel de significancia del 1%, parece que el número
promedio de unidades ha caído por debajo de la marca de 10000?

8.- Un distribuidor de bebidas plantea la hipótesis de que las ventas por mes promedian 12000$. Diez
meses seleccionados como muestra reportan una media de 11277$ con una desviación estándar de 3772$.
Si se utiliza un nivel de significancia de 5%, ¿Qué puede concluir acerca de la impresión que tiene el
distribuidor sobre las condiciones del negocio?

9.- Los registros llevados por una gran tienda por departamentos indican que en el pasado las ventas
semanales tenían un promedio de 5775$. Para incrementar las ventas, la tienda comenzó recientemente
una campaña agresiva de publicidad. Después de 15 semanas, las ventas promediaron 6012$ con una
desviación estándar de 977$. ¿La tienda debería seguir con el programa publicitario? Utilice un nivel de
significancia del 1%.

10.- Un nuevo bombillo producido por General Electric está diseñado para incrementar la vida útil de los
bombillos a más de 5000 horas que es el promedio de los que actualmente existen. ¿El nuevo producto de
General Electric proporciona una mejora si 25 bombillos se funden en promedio a las 5117 horas con una
desviación de 1886 horas? Use un nivel de significancia del 5%.

11.- Una encuesta realizada en 1992 reveló que el 78% de quienes respondieron consideraron que estaban
mejor financieramente que sus padres. Una encuesta más reciente (abril del 2007) encontró que 370 de
500 personas quienes respondieron pensaron que sus fortunas financieras eran mejores que las de sus
padres. ¿Esto sugiere un descenso en la proporción que consideran que están financieramente más
estables de lo que estaban sus padres? Use un nivel de significancia de 1%.

12.- Se formula la hipótesis de que no más del 5% de las partes producidas en un proceso de manufactura
son defectuosas. En una muestra aleatoria de 100 partes, 10 de ellas fueron encontradas defectuosas.
Pruebe la hipótesis al nivel de significancia de 5%.

13.- Un consultor de ventas sostiene haber obtenido pedidos de al menos 30% de los prospectos
contactados. Supongamos que en una muestra de 100 prospectos se reciben pedidos de 20 de ellos.
Concediéndole al consultor el beneficio de la duda, ¿puede rechazarse el argumento al nivel de
significancia de 5% y de 1%?
14.- El patrocinador de un programa especial de televisión esperaba que al menos el 40% de la audiencia
lo viera en cierta zona metropolitana. En una muestra aleatoria de 100 hogares con televisor encendido, se
determinó que 30 de ellos veían el programa especial. Otorgándole al supuesto del patrocinador el
beneficio de la duda, ¿se le puede rechazar como aplicable a la totalidad de los espectadores de esa zona
metropolitana al nivel de significancia del 10% y 5%?

15.- Con base en las especificaciones provista por el diseñador del proceso, se formula la hipótesis de que
la desviación estándar de diámetros de fundición no es mayor de 3,0 mm. En una muestra de 12
fundiciones la desviación estándar es 4,2 mm. Se supone que la distribución de los diámetros es
aproximadamente normal. ¿Puede rechazarse la hipótesis nula de que la desviación estándar real no es
mayor de 3,0 mm al nivel de significancia de 5% y 1%?

16.- Supongamos que se formula la hipótesis de que la desviación estándar del ingreso domestico anual de
cierta comunidad es de 3000. En una muestra de 15 hogares aleatoriamente seleccionados, la desviación
estándar es 2000$. Se supone que las cifras de ingreso doméstico de la población siguen una distribución
normal. Con base en este resultado muestral, ¿puede rechazarse la hipótesis nula con un nivel de
significancia de 5%?

17.- En referencia al problema 16, supongamos que la hipótesis nula era que la desviación estándar de la
población es de al menos 3000$, use un nivel de significancia de 5%.

18.- Una muestra aleatoria de 12 estudiantes de contaduría de un instituto de administración de empresas


tiene un promedio de calificación medio de 2,70 con una desviación estándar de 0,40. En el caso de los
estudiantes de sistemas de información de cómputo, una muestra aleatoria de 10 estudiantes tiene un
promedio de calificación medio de 2,90 con desviación estándar de 0,30. Se supone que los valores de
calificación siguen una distribución normal. Pruebe la hipótesis de que las dos varianzas poblacionales son
iguales con un nivel de significancia de 10%.

19.- Se recolectan datos para determinar si hay diferencia en las varianzas de los ingresos diarios en las
dos tiendas. Dados los siguientes datos, ¿Cuál es su conclusión con base en una prueba de hipótesis
siendo un nivel de significancia del 1%?

Tienda1 45,78 34,66 65,89 54,78 98,66 12,55 37,77 21,87 23,45 56,98
Tienda2 67,89 76,45 87,12 98,65 65,87 34,91 56,88 45,99

20.- Un desarrollador considera dos ubicaciones alternativas para un centro comercial regional. Dado que
el ingreso doméstico de la comunidad es una consideración importante en la selección del sitio, el
desarrollador desea probar la hipótesis nula de que las dos varianzas son iguales. En una muestra de 30
hogares de la primera comunidad, el ingreso anual promedio es de 45500$ con una desviación estándar de
1800$. En una muestra de 40 hogares de la segunda comunidad se obtuvo una media de 44600$ con una
desviación estándar de 2400$. Use un nivel de significancia de 5%.

21.- Dos procesos de producción se utilizan para producir tubos de acero. Una muestra de 100 tubos
tomadas del primer proceso de producción tiene una longitud promedio de 27,3 pulgadas y desviación
estándar de 10,3 pulgadas. Una muestra de 100 tubos producidos por el segundo método de producción
tiene una longitud promedio de 30,1 y desviación estándar de 5,2. Al 1% de significancia la longitud
promedio en los tubos ha variado en los procesos reproducción.

22.- Con respecto al ejercicio 21, las varianzas de los tubos ha aumentado en el proceso de producción.
Use un nivel de significancia del 5%.

23.- En un artículo sobre viajes comerciales, de una revista de viajes, afirmó que el costo promedio en una
cadena hotelera a nivel nacional era de US$45,12 por noche, y el de una segunda cadena era de US$42,62
por noche. Se asume que estos estadísticos se basan en muestras de 82 y 97 respectivamente, y que las
varianzas poblacionales de cada cadena se sabe que son 9,48 y 8,29 dólares al cuadrado,
respectivamente. Usted debe determinar cual cadena de hoteles utilizará su compañía. A un nivel de
significancia del 1% ¿Hace alguna diferencia cuál cadena utiliza?

24.- Muchos países utilizan un impuesto al valor agregado (IVA), el cual es un impuesto sobre el valor
agregado a un bien en cada etapa de su producción. Ocho países que utilizan un IVA sobre el consumo
reportaron un ingreso promedio semanal per cápita de US$1.142 con desviación estándar de US$312.
Diez países que utilizan un IVA sobre el ingreso bruto, reportaron un impuesto semanal per cápita promedio
de US$1.372 con desviación estándar de US$502. Use un nivel de significancia del 5% para verificar que
los impuestos promedios de ambas poblaciones son iguales. Y utilice un nivel de significancia del 1% para
comparar las varianzas de ambas poblaciones.

25.- En finanzas, un mercado eficiente se define como el que adjudica fondos para el uso más productivo.
Existe una bibliografía considerable que está diseñada para determinar si los mercados de valores todavía
son eficientes. Business Week recientemente aplicó encuestas a los analistas financieros. De 110
analistas que trabajaban para empresas productoras privadas en su esfuerzo por vender los valores de sus
firmas, 42 consideraron que los mercados eran eficientes, mientras que 31 de los 75 analistas que
trabajaban para casa de corretaje que asisten tales ventas aceptaron que los mercados eran eficientes.
Use un nivel de significancia del 5% para verificar si hay alguna diferencia en la proporción de estos dos
tipos de analistas que aceptan el concepto de eficiencia del mercado.

26.- Como parte del proyecto prioritario, un especialista en mercado de la Universidad encuestó en un
centro comercial local a 100 hombres y 100 mujeres respecto a sus hábitos en las compras. De los
hombres, 79 dijeron que habían utilizado una tarjeta de crédito para hacer compras superiores a US$10 en
el último mes, mientras que 84 mujeres admitieron hacer este mismo tipo de pago. El estudiante estaba
intentando refutar el hecho de que es más probable que las mujeres utilicen la tarjeta de crédito. A un nivel
de significancia del 5% ¿lo logró? Plantee y pruebe la hipótesis apropiada.

27.- Un analista de valores siempre ha considerado que es más probable que los bonos convertibles se
sobrevaloren más que los bonos de ingresos. De 312 bonos convertibles analizados el año anterior 202
estaban sobrevalorados, mientras que 102 de los 205 bonos de ingresos estaban sobrevalorados. ¿Estos
datos confirman la suposición del analista? Use un nivel de significancia del 10% para probar la hipótesis.

28.- Se utilizan dos métodos de producción para ensamblar reproductores de discos compactos. El tiempo
promedio requerido por ambos métodos se ha estimado en 5,6 minutos aproximadamente. Sin embargo,
los estudios parecen sugerir que las varianzas en tales tiempos difieren. Es importante mantener horarios
de producción similares para coordinar los itinerarios de producción. Determine si las varianzas en los
tiempos de producción no son similares. Quince reproductores de discos compactos producidos por el
primer método reportan una desviación estándar de 5,4 minutos y 17 reproductores del segundo método
reportan una desviación estándar de 4,8 minutos. A un nivel de significancia del 5%, ¿qué concluiría usted
de la prueba de la hipótesis apropiada?

29.- Se recolectan datos para determinar si hay diferencia en las varianzas de los ingresos diarios en las
dos tiendas. Dados los siguientes datos, ¿Cuál es su conclusión con base en una prueba de hipótesis del
1% de significancia?

Tienda 1 Tienda 2 Tienda 1 Tienda 2


45,78 67,89 12,55 34,91
34,66 76,45 37,77 56,88
65,89 87,12 21,87 45,99
54,78 98,65 23,45
98,66 65,87 56,98
UNIDAD III: ANALISIS DE REGRESION LINEAL Y CORRELACION

ANALISIS DE REGRESIÓN:
Se utiliza para predecir el valor de la variable dependiente (Y) basada en la variable independiente
(X).
VARIABLE DEPENDIENTE (Y): Es la variable que se desea explicar o predecir, también se le denomina
variable de respuesta.

VARIABLE INDEPENDIENTE (X): Es la variable que proporciona la base para la estimación, también se le
denomina variable explicativa.

REGRESIÓN SIMPLE Y REGRESIÓN MÚLTIPLE:


REGRESIÓN SIMPLE: Se establece que Y es una función de sólo una variable independiente. Con
frecuencia se le denomina regresión bivariada porque sólo hay dos variables, una dependiente y una
independiente, la regresión simple se representa con la siguiente fórmula:

En un modelo de REGRESIÓN MÚLTIPLE, Y es una función de dos o más variables independientes. Un


modelo de regresión con k variables independientes, se expresa de la siguiente manera:

En donde son variables independientes que permiten explicar Y.

RELACIONES LINEALES Y CURVILÍNEAS:


Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia en una cantidad
constante. Si existe una relación curvilínea, Y cambia en una cantidad diferente a medida que X cambia.

ECUACIÓN DE REGRESIÓN LINEAL: Ecuación que expresa la relación lineal entre dos variables.

FORMA GENERAL DE LA ECUACIÓN DE REGRESIÓN LINEAL:

En donde:

Con frecuencia se encuentra que al utilizar una variable para explicar otra, existe alguna variación en
la relación. Por tanto, habrá algún error en el intento por explicar o predecir dicha variable. Se dice que un
modelo de esta naturaleza es estocástico, por la presencia de la variación aleatoria y puede expresarse
como:

Dicho modelo es la relación poblacional según la cual se hace regresión de Y sobre X. Además,
es la porción determinística de la relación, mientras que representa el carácter aleatorio que
muestra la variable dependiente y por tanto denota el término del error en la expresión. Los parámetros
permanecerán desconocidos y se pueden estimar con los datos muéstrales.
MODELO LINEAL CON BASE EN DATOS MUÉSTRALES:

En donde los valores de:


son estimaciones de
es el término aleatorio y se le denomina residual.

MODELO DE REGRESIÓN ESTIMADA:

En donde:
es el valor estimado de Y
es el intercepto
es la pendiente de la recta de regresión estimada.

MÍNIMOS CUADRADOS ORDINARIOS (MCO): La recta de mejor ajuste.

MÉTODO DE LOS MÍNIMOS CUADRADOS:


Este método calcula lo que comúnmente se conoce como la recta del “mejor ajuste”. Determina la
ecuación de la recta de regresión minimizando la suma de los cuadrados de las distancias verticales entre
los valores reales de Y y los valores pronosticados para Y.

El término de error es la diferencia entre los valores reales de Y , y el estimado de Y

Para determinar la recta de mejor ajuste, MCO requiere que se determine la suma de cuadrados y
productos cruzados:

SUMA DE LOS CUADRADOS DE X:

SUMA DE LOS CUADRADOS DE Y:

SUMA DE LOS PRODUCTOS CRUZADOS DE X Y Y:

LA PENDIENTE DE LA RECTA DE REGRESIÓN:

EL INTERCEPTO DE LA RECTA DE REGRESIÓN:


ERROR ESTÁNDAR DE ESTIMACIÓN (Se): Es una medida del grado de dispersión de los valores de Yi
alrededor de la recta de regresión.

El error estándar de estimación mide la variación de los puntos de datos por encima y por debajo de
la recta de regresión. Además, refleja la tendencia a desviarse del valor real de Y cuando se utiliza el
modelo de regresión para fines predictivos, es una medida del error típico.

Uno de los supuestos básicos del modelo MCO es que la varianza en los errores alrededor de la recta
de regresión es la misma para todos los valores de X. Entre menos sea el valor de la varianza poblacional
( ), menos será la dispersión de los puntos de datos alrededor de la recta.

Una estimación insesgada de es el Cuadrado Medio del Error (CME)

SUMAS DE CUADRADOS DEL ERROR:

CUADRADO MEDIO DEL ERROR:

ERROR ESTÁNDAR:

SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL:


1. Para cada valor de X, hay un grupo de valores de Y. Estos últimos siguen la distribución
normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de regresión.
3. Todas las desviaciones estándar de estas distribuciones normales son iguales. A este
supuesto se le denomina Homoscedasticidad que significa que las varianzas en los valores de
Y son las mismas en todos los valores de X.
4. Los valores Y son estadísticamente independientes. Esto significa, que al seleccionar una
muestra en particular X no depende de ningún otro valor de X.

ANALISIS DE CORRELACIÓN:
Es el estudio de la relación entre variables. Se utiliza para medir la fuerza de relación o grado de
asociación entre dos variables.

COEFICIENTE DE CORRELACIÓN: Describe la fuerza de la relación entre dos grupos de variables en


escala de intervalo o de razón. En otras palabras, el coeficiente de correlación es una medida de la
intensidad de la relación entre dos variables. Se representa con la letra r y a menudo se conoce como r de
Pearson y coeficiente de correlación producto-momento de Pearson. Puede asumir cualquier valor de -1 a
+1 inclusive, es decir,

 Valores de -1 ó +1 indican correlación fuerte y perfecta.


 Valores cerca de -1 ó +1 indican fuerte relación negativa o positiva.
 Valores cerca o igual a cero “0” indican poca o ninguna relación entre las variables.

DIAGRAMA DE DISPERSIÓN: Es la gráfica que describe la relación entre las dos variables de interés.

SUMA DE CUADRADOS TOTAL:

SUMA DE CUADRADOS DE LA REGRESIÓN:

SUMA DEL CUADRADO DEL ERROR:

COEFICIENTE DE CORRELACIÓN:

La desviación explicada es la diferencia entre lo que predice el modelo de regresión y el valor


promedio de Y, ( ).

El coeficiente de correlación proporciona una medida relativa de la capacidad del modelo para
explicar las desviaciones en los valores . Por ende mide la fuerza de la relación entre Y y la variable
explicativa X.

FÓRMULA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN:

COEFICIENTE DE DETERMINACIÓN: Es el porcentaje de la variación total en la variable dependiente Y


que se explica, o contabiliza, por la variación en la variable independiente X.

Formula:

PRUEBAS PARA LOS PARÁMETROS POBLACIONALES

PRUEBA DE HIPÓTESIS PARA (COEFICIENTE DE REGRESIÓN POBLACIONAL)


HIPÓTESIS:

ESTADÍSTICO DE PRUEBA:
Dónde:
Es el error estándar del coeficiente de regresión y se determina de la siguiente manera:

CRITERIO DE RECHAZO: Se rechaza Ho si donde

INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE REGRESIÓN POBLACIONAL ( )

PRUEBAS PARA EL COEFICIENTE DE CORRELACIÓN POBLACIONAL


HIPÓTESIS:

ESTADÍSTICO DE PRUEBA:

Dónde:
Es el error estándar del coeficiente de correlación y se determina de la siguiente manera:

CRITERIO DE RECHAZO: Se rechaza Ho si donde

INTERVALO DE CONFIANZA PARA LA MEDIA CONDICIONADA:


Para calcular este intervalo para el valor promedio condicional de Y, se debe hallar primero el Error
Estándar de la Media Condicionada ( ). El error estándar de la media condicionada reconoce que se
utiliza una muestra para calcular en la ecuación de regresión. Por tanto, están sujetos al
error de muestreo. El propósito de es tener en cuenta los diferentes valores de que resultan del
error de muestreo. Se determina de la siguiente manera:

Error Estándar de la Media Condicionada:

En donde:
= es el error estándar de estimación
= es el valor dado para la variable independiente

El intervalo de Confianza para la Media Condicionada viene dado por:


INTERVALO DE CONFIANZA PARA EL INTERVALO DE PREDICCIÓN:
Para calcular este intervalo de predicción, primero se debe hallar el Error Estándar del Pronóstico
( ). Este error estándar del pronóstico explica el hecho de que los valores individuales estén más
dispersos que las medias. El error estándar de pronóstico ( ) refleja el error de muestreo inherente al
error estándar de la media condicionada ( ) más la dispersión adicional, porque se están tratando con un
valor individual de Y. Se determina de la siguiente manera:
Error Estándar del Pronóstico:

El Intervalo de Confianza para el Intervalo de Predicción es:


GUIA DE EJERCICIO ANALISIS DE REGRESION Y CORRELACION

1.- Suponga que se quiere desarrollar un modelo para predecir el valor de la valuación con base en el área
que cuenta con calefacción. Se selecciona una muestra de 15 casas unifamiliares en cierta comunidad.
Se registró la valuación (en miles de Bolívares) y el área con calefacción de las casas (en miles de pies
cuadrados) con los siguientes resultados:
a) Construya un diagrama de dispersión y suponga una relación
Área con
Casa Valuación lineal, aplique el método de mínimos cuadrados para encontrar los
calefacción
coeficientes de regresión b0 y b1.
1 84.4 2.00
b) Interprete el significado de la ordenada b0 y la pendiente b1
2 77.4 1.71 c) Utilice el modelo de regresión desarrollado en (a) para
3 75.7 1.45 predecir el valor de la valuación para una casa cuya área con
4 85.9 1,76 calefacción es 1,750 pies cuadrados.
5 79.1 1.93 d) Determine el error estándar de la estimación.
6 70.4 1.20 e) Determine el coeficiente de determinación y explique su
7 75.8 1.55 significado
8 85.9 1.93 f) Calcule el coeficiente de correlación
9 78.5 1.59 g) Realice un análisis residual con los resultados y determine si
10 79.2 1.50 el ajuste del modelo es adecuado.
11 86.7 1.90 h) Para 0.05 de significancia, ¿existe evidencia de una relación
12 79.3 1.39 lineal entre la valuación y el área con calefacción?
13 74.5 1.54 i) Establezca un intervalo de confianza estimado de 95% del
14 83.8 1.89 valor promedio de la valuación para las casas con un área con
15 76.8 1.59 calefacción de 1,750 pies cuadrados.

j) Establezca un intervalo de predicción estimado de 95% de la valuación de una casa individual con un
área con calefacción de 1,750 pies cuadrados.
k) Establezca un intervalo de confianza estimado de 95% de la pendiente poblacional.
l) Suponga que el precio valuado de la cuarta casa era 79.7, resuelva los incisos (a) a (k) y compare los
resultados.

2.- El director del posgrado en una escuela de administración grande desea predecir el índice de
calificación de los estudiantes en un programa de maestría en administración con base en la calificación del
GMAT (Graduate Management Aptitude Test). Selecciona una muestra de 20 estudiantes que ya
terminaron dos años del programa, los resultados son los siguientes:

Observación Calif. GMAT Indice de calif. Observación Calif. GMAT Indice de calif.
1 688 3.72 11 567 3.07
2 647 3.44 12 542 2.86
3 652 3.21 13 551 2.91
4 608 3.29 14 573 2.79
5 680 3.91 15 536 3.00
6 617 3.28 16 639 3.55
7 557 3.02 17 619 3.47
8 599 3.13 18 694 3.60
9 616 3.45 19 718 3.88
10 594 3.33 20 759 3.76
a) Construya un diagrama de dispersión y suponga una relación lineal, aplique el método de mínimos
cuadrados para encontrar los coeficientes de regresión b0 y b1.
b) Interprete el significado de la ordenada b0 y la pendiente b1
c) Utilice el modelo de regresión desarrollado en (a) para predecir el índice de calificaciones para un
estudiante con calificación de 600 en el GMAT.
d) Determine el error estándar de la estimación.
e) Determine el coeficiente de determinación y explique su significado
f) Calcule el coeficiente de correlación
g) Realice un análisis residual con los resultados y determine si el ajuste del modelo es adecuado.
h) Para 0.05 de significancia, ¿existe evidencia de una relación lineal entre la calificación del GMAT y
el índice de calificaciones?
i) Establezca un intervalo de confianza estimado de 95% para el promedio de calificaciones de
estudiantes con 600 en el GMAT.
j) Establezca un intervalo de predicción estimado de 95% del promedio de calificaciones de cierto
estudiante con 600 en el GMAT.
k) Establezca un intervalo de confianza estimado de 95% de la pendiente poblacional.
l) Suponga que los índices de calificaciones de los estudiantes número 19 y 20 se capturaron mal. El
índice del estudiante 19 debe ser 3.76 y el índice del estudiante 20 debe ser 3.88, resuelva los incisos (a) a
(k) y compare los resultados.

3.- Los residentes de un pueblo pequeño están preocupados sobre el incremento en los costos de la
vivienda en la zona. El alcalde considera que los precios de la vivienda fluctúan con los valores de la tierra.
Los datos sobre 10 casas vendidas recientemente y el costo del terreno sobre el cual se construyeron se
observan en la siguiente tabla en miles de bolívares.

Valores de Costo de Valores de Costo de


N° N°
la tierra la casa la tierra la casa
1 7 67 6 3,8 36
2 6,9 63 7 8,9 76
3 5,5 60 8 9,6 87
4 3,7 54 9 9,9 89
5 5,9 58 10 10 92

a) Se trata el costo de las casas como la variable dependiente. Haga e interprete el modelo de
regresión. Sobre esta base ¿parece que el alcalde está en lo cierto?
b) Realice el diagrama de dispersión
c) Determine el error estándar de estimación
d) Determine el coeficiente de correlación y el coeficiente de determinación
TABLA DE NUMEROS ALEATORIOS
TABLA DE LA DISTRIBUCION NORMAL (DISTRIBUCION Z)
TABLA DE LA DISTRIBUCION T DE STUDENT (DISTRIBUCION T)
TABLA DE LA DISTRIBUCIÓN CHI_CUADRADO (DISTRIBUCION 2)

También podría gustarte