SE220231

E2-2023-1
Estadística Aplicada
Prof. Claudia Antonini y Prof. Orlando Galarza
Intrucciones generales:
Esta evaluación es de carácter estrictamente individual. Usted está tomando esta prueba
bajo conocimiento del reglamento de honestidad y buena conducta académica de la UTEC.
Cualquier violación del mismo será reportado a las instancias pertinentes, anexando las pruebas
recabadas, para su evaluación.
Puede utilizar un formulario con el contenido teórico del curso. Este formulario podría tener
también código en R comentado para ser utilizado durante el examen. El mismo no puede
contener ningún ejercicio resuelto. Puede usar R para hacer sus cálculos, pero debe mostrar
evidencia de haberlo hecho en el pdf que entregará en Gradescope.
Al final de la prueba deberá subir al Gradescope la solución de cada pregunta. Usted tendrá en
total 90 minutos para resolver el examen y sólo 10 minutos adicionales para subir el examen
e identificar correctamente cada pregunta con su solución. Si usted espera hasta el último
momento para subir todas las soluciones de su examen y luego no le da tiempo de subir todo
lo resuelto, usted será el único responsable de haberlo hecho así y se le corregirán únicamente
las preguntas recibidas a tiempo.
1
Ejercicio 1
Una empresa peruana se dedica a la venta de vehículos de segunda, que están en muy buen
estado. Ya llevan más de un año laborando y para obtener algunos indicadores, sobre sus
ventas han tomado 16 observaciones. La información básica lo han registrado en los siguientes
vectores:
Precio<-c(10, 10, 15, 12, 10, 16, 8, 13, 18, 16, 15, 9, 11, 20, 30, 28)
Antigüedad<- c(6, 6, 5, 5, 5, 5, 7, 7, 4, 4, 6, 6, 7, 3, 3, 3)
Marca<-c(“K”,“K”,“K”,“K”,“H”,“H”,“H”,“H”,“N”,“N”,“N”,“N”,“T”,“T”,“T”,“T”)
Adicionales <- c(1, 2, 1, 2, 2, 2, 1, 3, 0, 2, 3, 2, 1, 0, 1, 3)
Kmrec <- c(70, 65, 60, 72, 80, 50, 80, 70, 50, 70, 65, 85, 72, 40, 45, 40 )
Considerar lo siguiente:
Precio de venta en miles de dólares.
Antigüedad en años
Marcas: K=Kia, H=Honda, N=Nissan, T= Toyota
Adicionales: Pagos adicionales en miles de soles, que los clientes realizan por el auto a comprar
porque desean vidrios polarizados o luces led o accesorios extras.
Kmrec: miles de kilómetros recorridos hasta el momento en que la empresa lo compra para
revenderlo.
Un dólar equivale a 4 soles. Para todos los apartados en esta pregunte use 𝛼 = 0.05.
1.1) (7 puntos) ¿Se puede afirmar que el pago total promedio en miles de soles, realizado
por los clientes, es el mismo para todas las marcas? En caso que la respuesta sea negativa,
determine cuál de las marcas de autos usados es significativamente más costosa.
Justifique su respuesta: Formule las hipótesis nula y alternativa, muestre el código
y la salida en R, verifique suposiciones y emita una conclusión en función de los
hallazgos.
Solución:
Formulemos las hipótesis:
𝐻0 ∶ Los pagos totales promedio son iguales para todas las marcas
𝐻1 ∶ El pago total promedio difiere entre marcas
Primero preparemos el data frame:
2
Marca<-c("K","K","K","K","H","H","H","H","N","N","N","N","T","T","T","T")
Adicionales <- c(1, 2, 1, 2, 2, 2, 1, 3, 0, 2, 3, 2, 1, 0, 1, 3)
Precio<-c(10, 10, 15, 12, 10, 16, 8, 13, 18, 16, 15, 9, 11, 20, 30, 28)
Precio_soles <- Precio*4
#Convertimos el precio orginal de dólares a soles
Precio_total <- Precio_soles+Adicionales
#Calculamos el precio total en soles añadiendo los adicionales
DF<-data.frame(cbind(Marca, Precio_total))
head(DF)
Marca Precio_total
1 K 41
2 K 42
3 K 61
4 K 50
5 H 42
6 H 66
Verificar si los datos provienen de una distribución normal. Para ello hacemos un Test de
Shapiro-Wilk cn el cuál estamos sometiendo a prueba las siguientes hipótesis:
𝐻0 ∶ Los residuos siguen una distribución normal

𝐻1 ∶ Los residuos no siguen una distribución normal
shapiro.test(resid(aov(Precio_total~Marca,data = DF)))
Shapiro-Wilk normality test
data: resid(aov(Precio_total ~ Marca, data = DF))

W = 0.96792, p-value = 0.8039
Como el p-value = 0.8039 > 0.05 no se rechaza la hipótesis de que los datos sigan una dis-
tribución normal.
Procedemos a verificar la suposición de igualdad de varianzas a través del test de Levine con
el cuál ponemos a prueba las siguientes hipótesis:
3
𝐻0 ∶ 𝜎𝐾 = 𝜎𝐻 = 𝜎𝑁 = 𝜎𝑇
𝐻1 ∶ las varianzas de los precios totales difieren entre marcas
anova(aov(resid(aov(Precio_total~Marca,data = DF))**2~DF$Marca))
Analysis of Variance Table
Response: resid(aov(Precio_total ~ Marca, data = DF))^2

Df Sum Sq Mean Sq F value Pr(>F)
DF$Marca 3 1935166 645055 3.4686 0.05081 .
Residuals 12 2231636 185970
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como el p-value=0.05081 > 0.05 no se rechaza la hipótesis nula de que la varianzas de los
precios totales de las diferentes marcas sean iguales.
Por eso, podemos proceder a hacer la tabla anova de una vía para responder a la pregunta
¿Se puede afirmar que el pago total promedio en miles de soles, realizado por los clientes, es
el mismo para todas las marcas?
Para tal fin sometemos a prueba las siguientes hipótesis:
𝐻0 ∶ 𝜇 𝐾 = 𝜇 𝐻 = 𝜇 𝑁 = 𝜇 𝑇
𝐻1 ∶ las medias poblacionales de los precios totales difieren entre marcas
Anova<- aov(Precio_total ~ Marca, data = DF)

summary(Anova)
Df Sum Sq Mean Sq F value Pr(>F)

Marca 3 4617 1539.1 3.504 0.0495 *
Residuals 12 5270 439.2
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
4
Como el p-value=0.0495 es a penas menor que 0.05, se rechaza la hipótesis de que las medias
poblacionales de los precios totales sean iguales entre marcas.
Para responder a la pregunta ¿cuál de las marcas de autos usados es significativamente más
costosa?, hay que hacer un test de Tukey de comparaciones múltiples:
TukeyHSD(Anova, conf.level = 0.95)
Tukey multiple comparisons of means

95% family-wise confidence level
Fit: aov(formula = Precio_total ~ Marca, data = DF)
$Marca
diff lwr upr p adj
K-H -0.50 -44.496287 43.49629 0.9999854
N-H 10.75 -33.246287 54.74629 0.8850759
T-H 41.25 -2.746287 85.24629 0.0687022
N-K 11.25 -32.746287 55.24629 0.8710662
T-K 41.75 -2.246287 85.74629 0.0648637
T-N 30.50 -13.496287 74.49629 0.2213086
Vemos que ninguna de las diferencias entre los precios totales medios pagados por los clientes
de las diferentes marcas da significativa.
1.2) (3 puntos) Halle el intervalo de confianza del 95% para el kilometraje promedio de los
vehículos que vende la empresa. Interprete el resultado obtenido. Justifique su respuesta en
términos del tipo de intervalo seleccionado, muestre el código de R y su salida.Use
el lenguaje adecuado para la interpretación del resultado obtenido
Solución:
Kmrec <- c(70,65,60,72,80,50,80,70,50,70,65,85,72,40,45,40)

confint(lm(Kmrec~1), level=0.95)
2.5 % 97.5 %
(Intercept) 55.70752 71.04248
Podemos afirmar con un 95% de confianza que el kilometraje medio estará en el rango (55.70752,
71.04248). Aproximadamente el 95% de los intervalos de confianza de las muestras de tamaño
16, contendrán al verdadero valor del kilometraje medio. La probabilidad de que dcho valor
poblacional esté en el intervalo (55.70752, 71.04248) es cero o uno.
5
1.3)(5 puntos) Determine, mediante una prueba de hipótesis, si la antigüedad promedio de
los vehículos Honda supera a la de los vehículos Toyota. Justifique su respuesta. Formule
las hipótesis contextualizadas, explique porqué usa la prueba que escoja, emita la
conclusión usando el lenguaje estadístico correcto
Solución:
Antiguedad_Honda <- c(5,5,7,7) mu_H= mean(Antiguedad_Honda)
Antiguedad_Honda <- c(5,5,7,7)

mu_H= mean(Antiguedad_Honda)
mu_H
[1] 6
Queremos someter a prueba las siguientes hipótesis:
𝐻0 ∶ 𝜇𝑇 ≥ 6
𝐻1 ∶ 𝜇𝑇 < 6
Antiguedad_Toyota<-c(7,3,3,3)
t.test(Antiguedad_Toyota, mu=mu_H, alternative="less", conf.level=0.95)
One Sample t-test
data: Antiguedad_Toyota
t = -2, df = 3, p-value = 0.06966
alternative hypothesis: true mean is less than 6
95 percent confidence interval:
-Inf 6.353363
sample estimates:
mean of x
4
Como el p-valor=0.06966 > 0.05 podemos decir que hemos encontrado evidencia de que la
antigüedad media de os vehículos marca Toyota sea mayor que la antigüedad promedio de los
vehículos marca Honda. ## Ejercicio 2:
6
Suponga que 𝐸(𝜃1̂ ) = 𝐸(𝜃2̂ ) = 𝜃 y que 𝑉 𝑎𝑟(𝜃1̂ ) = 𝜎12 y 𝑉 𝑎𝑟(𝜃2̂ ) = 𝜎22 . Considere el estimador
𝜃3̂ ≡ 𝑎𝜃1̂ + (1 − 𝑎)𝜃2̂ . .
2.1) (1 punto) Demuestre que 𝜃3̂ es insesgado para 𝜃.
Solución:
𝐸 (𝜃3̂ ) =𝐸 (𝑎𝜃1̂ + (1 − 𝑎)𝜃2̂ )

=𝑎𝐸 (𝜃1̂ ) + (1 − 𝑎)𝐸 (𝜃2̂ )
=𝑎𝜃 + (1 − 𝑎)𝜃 = 𝜃.
2.2) (4 puntos) Si 𝜃1̂ y 𝜃2̂ son independientes, ¿Cómo debe escogerse la constante 𝑎 para
minimizar la varianza de 𝜃3̂ ¿Por qué es relevante esta pregunta?
Solución:
𝑉 𝑎𝑟 (𝜃3̂ ) =𝑉 𝑎𝑟 (𝑎𝜃1̂ + (1 − 𝑎)𝑉 𝜃2̂ )

por independencia de los estimadores y propiedades de la varianza
=𝑎2 𝑉 𝑎𝑟 (𝜃 ̂ ) + (1 − 𝑎)2 𝑉 𝑎𝑟 (𝜃 ̂ )
1 2
=𝑎2 𝜎12 + (1 − 𝑎)2 𝜎22
Para determinar el valor de la constante 𝑎 que minimice la 𝑉 𝑎𝑟 (𝜃3 ), debemos derivarla con
respecto a la constante 𝑎:
𝑑 𝑑
𝑉 𝑎𝑟 (𝜃3̂ ) = (𝑎2 𝜎12 + (1 − 𝑎)2 𝜎22 )
𝑑𝑎 𝑑𝑎
=2𝑎𝜎12 − 2(1 − 𝑎)𝜎22 = 0
𝜎22
⟹𝑎=
𝜎12 + 𝜎22
𝑑2
pues 𝑉 𝑎𝑟 (𝜃3̂ ) = 2𝜎12 + 2𝜎22 > 0
𝑑𝑎2
Esta pregunta es relevante porque estamos escogiendo entre todos los estimadores de 𝜃 que
sean combinación lineal convexa de dos estimadores insesgados, el que tiene menor varianza y
en consecuencia, menor error cuadrático medio.
7
2.3) (Extra-crédito de 4 puntos) Si ha de utilizarse una muestra de tamaño 𝑛 para es-
timar la diferencia de medias poblacionales 𝜇1 − 𝜇2 con base en muestras aleatorias simples
independientes de las dos poblaciones de interés, determine los tamaños de las muestras que
deben extraerse de cada población, 𝑛1 y 𝑛2 , para que 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) sea mínima. Suponga que
𝑛1 + 𝑛2 = 𝑛.
Sugerencia: Observe que 𝑌1 − 𝑌2 , la diferencia de las medias muestrales, es un estimador
insesgado de 𝜇1 − 𝜇2 y considere en hallar 𝑏, la fracción de las 𝑛 observaciones asignadas a la
muestra de la primera población, que minimice 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ). Es decir, considere que 𝑛1 = 𝑏𝑛
y 𝑛2 = (1 − 𝑏)𝑛.
Solución:
𝜎𝑖2
Recordemos que 𝑉 𝑎𝑟 (𝑌𝑖 ) = 𝑛𝑖 para 𝑖 = 1, 2. Entonces,
𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) =𝑉 𝑎𝑟 (𝑌1 ) + 𝑉 𝑎𝑟 (𝑌2 )

𝜎12 𝜎22
= +
𝑛1 𝑛2
𝜎2 𝜎22
= 1 +
𝑛𝑏 𝑛(1 − 𝑏)
Ahora derivemos cn respecto a 𝑏 para minimizar 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ):
2
𝑑 𝜎2 1 𝜎2 1
𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) = − 1 ( 2 ) + 2 ( ) =0
𝑑𝑏 𝑛 𝑏 𝑛 1−𝑏
𝜎1
Al despejar 𝑏 se determina que el valor de 𝑏 que minimiza a 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) es 𝑏 = 𝜎1 +𝜎2 .
Es decir, 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) se minimiza cuando 𝑛1 = 𝜎 𝜎+𝜎

1
𝑛 y 𝑛2 = 𝜎 𝜎+𝜎
2
𝑛. Es decir, cuando
1 2 1 2
los tamaños muestrales se asignan de manera proporcional a los tamaños de las desviaciones
estándar. Observe que 𝑛1 = 𝑛2 = 𝑛2 si 𝜎1 = 𝜎2 .

SE220231

Cargado por

Información del documentohacer clic para expandir la información del documentoFINAL

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

SE220231

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

SE220231

Cargado por

Copyright:

Formatos disponibles

E2-2023-1

Prof. Claudia Antonini y Prof. Orlando Galarza

Primero preparemos el data frame:

𝐻0 ∶ Los residuos siguen una distribución normal

Shapiro-Wilk normality test

data: resid(aov(Precio_total ~ Marca, data = DF))

Analysis of Variance Table

Response: resid(aov(Precio_total ~ Marca, data = DF))^2

Anova<- aov(Precio_total ~ Marca, data = DF)

Df Sum Sq Mean Sq F value Pr(>F)

TukeyHSD(Anova, conf.level = 0.95)

Tukey multiple comparisons of means

Fit: aov(formula = Precio_total ~ Marca, data = DF)

Kmrec <- c(70,65,60,72,80,50,80,70,50,70,65,85,72,40,45,40)

Antiguedad_Honda <- c(5,5,7,7)

Queremos someter a prueba las siguientes hipótesis:

One Sample t-test

𝐸 (𝜃3̂ ) =𝐸 (𝑎𝜃1̂ + (1 − 𝑎)𝜃2̂ )

𝑉 𝑎𝑟 (𝜃3̂ ) =𝑉 𝑎𝑟 (𝑎𝜃1̂ + (1 − 𝑎)𝑉 𝜃2̂ )

=𝑎2 𝜎12 + (1 − 𝑎)2 𝜎22

𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) =𝑉 𝑎𝑟 (𝑌1 ) + 𝑉 𝑎𝑟 (𝑌2 )

Ahora derivemos cn respecto a 𝑏 para minimizar 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ):

Es decir, 𝑉 𝑎𝑟 (𝑌1 − 𝑌2 ) se minimiza cuando 𝑛1 = 𝜎 𝜎+𝜎

También podría gustarte