Estadistica Tarea8 JGranoble

Tarea 8
Estadística Inferencial –
Pruebas de Hipótesis
Estadística
Actividades
Práctica: Ejercicios y problemas
Descripción de la actividad
Resolver los ejercicios mostrados a continuación, utilizando los conceptos teóricos revisados en
la unidad 3
Bibliografía: Información bibliográfica que fue requerida para la resolución de esta tarea
siguiendo las normas APA
Nombre del fichero: “primerApellido_primerNombre_siglasAsignatura_U#_T1”,
ejemplo: Lopez_Juan_CBCEESTAJUS_U3_T1 Formato de archivo a subir: PDF.
Rúbrica:
Criterios Nivel Bajo Nivel Medio Nivel Alto Sub-Puntajes
(0.25) (0.50) (0.75)
Orden y No se presenta la Es poco organizada La resolución
Presentación resolución del ejercicio en la presentación de del ejercicio se
forma organizada la resolución presenta de
ejercicio forma
organizada
Organización del No se presenta el código Es poco organizado El código es
código. ordenado y de forma el código y no organizado y es
secuencial siempre de forma secuencial.
secuencial
Compilación correcta La compilación no ocurre La compilación del La compilación
debido a errores código presenta del código no
significativos algunos errores presenta
errores
Terminología y La terminología y símbolos Se utilizan Se utiliza
símbolos usados corresponden a los terminología y terminología y
revisados en la sección símbolos que símbolos
dificultan la adecuados y
comprensión cuando se
introduce
simbología
nueva se
identifica
claramente su
significado
Totales
Universidad Politécnica Salesiana

2
ESTADISTICA
UNIDAD 3: TAREA 1
Para resolver los ejercicios prácticos de esta tarea se recomienda crear un proyecto llamado
U3EST T1
1. Una persona se sometió a una prueba para detectar una pandemia generalizada. El
médico hizo un diagnostico clínico de que la persona no tiene esta enfermedad. Más tarde,
cuando se realizó un análisis de sangre, salió positivo. ¿Cuál de los siguientes errores ha
cometido el médico?
a) Error tipo 0
b) Error tipo 2
c) Error tipo 1
d) No se cometió´ error
2. Supongamos que está probando la eficacia de los programas de aprendizaje electrónico
para mejorar la puntuación de los estudiantes. La puntuación media de los estudiantes se
mide antes y después de la introducción de los programas de e-learning. Después de
comparar las medias mediante una prueba de hipótesis, se obtiene un valor de p de 0,02.
Esto significa que:
a) La probabilidad de la hipótesis nula es 2%

La premisa es falsa.
3
3. En el archivo ventasprepost.csv se encuentran almacenadas las ventas promedio diarias
de un mes de 100 negocios de dos sectores de la ciudad previo a la declaración de la
emergencia sanitaria y las ventas promedio diarias de un mes posterior a la declaración
del sema ‘foro amarillo. Contestar las siguientes preguntas:
- ventas <- read_delim("ventasprepost.csv",
";", escape_double = FALSE, trim_ws = TRUE)
- Column specification ------------
- cols(
- NEGOCIO = col_character(),
- SECTOR = col_character(),
- VENTAS_PRECOVID = col_number(),
- VENTAS_POSTCOVID = col_number()
a) ¿El promedio de las ventas pre emergencia sanitaria es igual a 2000 dólares?
H0 = u es igual a 2000
H1 = u es diferente de 2000
desvest = sd(ventas$VENTAS_PRECOVID)
t.test(ventas$VENTAS_PRECOVID, mu = 2000, sigma.x = desvest, conf.level = 0.95)
No es igual, sino menor.

b) ¿El promedio de las ventas del SECTOR1 es mayor al promedio de las ventas del SECTOR2
previo a la emergencia sanitaria?
H0: u1 > u2
H1: u1 <= u2
vventas<-select(ventas,SECTOR,VENTAS_PRECOVID)
sect1<-filter(vventas, SECTOR %in% c("SECTOR1"))
sect2<-filter(vventas, SECTOR %in% c("SECTOR2"))
t.test(x=sect1$VENTAS_PRECOVID, sigma.x = sd(sect1$VENTAS_PRECOVID),

y=sect2$VENTAS_PRECOVID, sigma.y = sd(sect2$VENTAS_PRECOVID),
alternative = "greater", conf.level = 0.95)
El promedio de las ventas del SECTOR1 es igual o menor que el promedio de las ventas del SECTOR2.
c) ¿El promedio de las ventas post emergencia sanitaria es menor a 2000 dólares?
H0: u < = 2000
H1: u > 2000
desviacion = sd(ventas$VENTAS_POSTCOVID)
t.test(ventas$VENTAS_POSTCOVID, mu = 2000, sigma.x = desviacion, conf.level = 0.95)
La media es mayor a 2000.
d) ¿El promedio de las ventas del SECTOR1 es igual al promedio de las ventas del SECTOR2
posterior a la emergencia sanitaria?
H0: u1 es igual a u2
H1: u1 es diferente a u2
posterior<-select(ventas,SECTOR,VENTAS_POSTCOVID)
sec1<-filter(posterior, SECTOR %in% c("SECTOR1"))
sec2<-filter(posterior, SECTOR %in% c("SECTOR2"))
z.test(x=sec1$VENTAS_POSTCOVID,
sigma.x = sd(sec1$VENTAS_POSTCOVID),
y=sec2$VENTAS_POSTCOVID, sigma.y = sd(sec2$VENTAS_POSTCOVID),
El promedio de las ventas de ambos sectores es igual.
e) En general, ¿el promedio de las ventas pre emergencia sanitaria es mayor al promedio de
las ventas post emergencia sanitaria?
z.test(x=ventas$VENTAS_PRECOVID, sigma.x = sd(ventas$VENTAS_PRECOVID),
y=ventas$VENTAS_POSTCOVID, sigma.y = sd(ventas$VENTAS_POSTCOVID),
El promedio de las ventas post-COVID es menor a las ventas pre-COVID.
5
4. En el archivo PESOS.csv se encuentran almacenados los pesos promedios de un grupo de
hombres y mujeres previo y posterior a un tratamiento de reducción de peso que incluye
ejercicios, una guía de nutrición y un medicamento inhibidor del apetito.
pesos<- read_delim("PESOS (1).csv", ";",
escape_double = FALSE, trim_ws = TRUE)
-- Column specification --------------------------------------------------
cols(
SEXO = col_character(),
PREV_TRAT = col_number(),
POST_TRAT = col_number()
)
a) ¿El promedio de los pesos de las mujeres previo al tratamiento es igual a 70 kg.?
pesotratamiento<-select(pesos,SEXO,PREV_TRAT, POST_TRAT)
mujeres<-filter(pesotratamiento, SEXO %in% c("FEMENINO"))
Ho: U es igual 70
H1: U es diferente 70
desvest4ej=sd(mujeres$PREV_TRAT) t.test(mujeres$PREV_TRAT, mu = 70, sigma.x = desvest4ej, conf.level

= 0.95)
El peso de las mujeres previo al tratamiento es diferente de 70 kg.

b) ¿El promedio de los pesos de las mujeres previo al tratamiento es igual al promedio de los
pesos de los hombres previo al tratamiento?
hombres<-filter(pesotratamiento, SEXO %in% c("MASCULINO"))
z.test(x=hombres$PREV_TRAT, sigma.x = sd(hombres$PREV_TRAT),
y=mujeres$PREV_TRAT, sigma.y = sd(mujeres$PREV_TRAT),
Los promedios de los hombres y de las mujeres son diferentes.
c) ¿El promedio de los pesos de los hombres previo al tratamiento es menor a 80 kg.?
Ho: U < 80
H1: U => 80
devest=sd(hombres$PREV_TRAT)
z.test(hombres$PREV_TRAT, mu = 80, sigma.x = devest, conf.level = 0.95)
El promedio de los hombres previo al tratamiento es mayor o igual a 80 kg.

d) ¿El promedio de los pesos de las mujeres posterior al tratamiento es menor al promedio de
los pesos de los hombres posterior al tratamiento?
Ho: U1 < U2
H1: U1 => U2
t.test(x=mujeres$POST_TRAT, sigma.x = sd(mujeres$POST_TRAT),
y=hombres$POST_TRAT, sigma.y = sd(hombres$POST_TRAT),
Los pesos de las mujeres posterior al tratamiento son menores que el de los hombres.
e) En general, ¿el promedio de loa pesos previo al tratamiento es mayor al promedio de los
pesos posterior al tratamiento?
H0: u1 => u2
H1: u1 < u2
z.test(x=pesotratamiento$PREV_TRAT, sigma.x = sd(pesotratamiento$PREV_TRAT),
y=pesotratamiento$POST_TRAT, sigma.y = sd(pesotratamiento$POST_TRAT),
El promedio de los pesos previo al tratamiento es menor que cuando se está en tratamiento.
5. Los ferrocarriles de montaña de cierta montaña en Alemania quieren ajustar su oferta a los deseos
y necesidades de sus huéspedes para mejorar el atractivo de la zona de esquí. Para ello, la
dirección realiza una breve encuesta representativa y pregunta a 150 invitados (n = 150) sobre
su satisfacción con la oferta actual. En la hoja de cálculo “legends” del archivo tourism.xlsx se
encuentra (en inglés) el detalle de cada variable, mientras que en el archivo tourism.csv están los
datos.
7
turismo <- read_delim("tourism.csv", ";",
escape_double = FALSE, trim_ws = TRUE) ## ##
Column specification --------------------------------------------------
cols(
guest = col_double(),
accommodation = col_double(),
stay = col_double(),
diversity = col_double(),
waitingtime = col_double(),
safety = col_double(),
quality = col_double(),
satisfaction = col_double(),
price = col_double(),
expenses = col_double(),
recommendation = col_double(),
skiholiday = col_double(),
sex = col_double(),
country = col_double(),
age = col_double(),
education = col_double()
)
a) El gerente de turismo del destino intenta averiguar si la satisfacción de los huéspedes ha

aumentado en los últimos años. Sabe qué hace unos años se realizó´ la misma encuesta y la
satisfacción general fue de solo 60 puntos. Pruebe al nivel de significancia del 5% si la
satisfacción con la estación de esquí ha aumentado.
HO: mu < = 60
H1: mu > 60 desv5ej=sd(turismo$satisfaction)
z.test(turismo$satisfaction, mu = 60, sigma.x = desv5ej, conf.level = 0.95)
La satisfacción sí ha aumentado.
b) El gerente de turismo quiere saber si las mujeres gastan más dinero al día que los hombres.
Pruebe este problema con un nivel de significancia del 10%
H0: U1 > U2
H1: U1 < = U2
gastos<-select(turismo,sex,expenses)
gastodemujeres<-filter(gastos, sex %in% c("0"))
gastodehombres<-filter(gastos, sex %in% c("1"))
z.test(x=gastodemujeres$expenses, sigma.x = sd(gastodemujeres$expenses),
y=gastodehombres$expenses, sigma.y = sd(gastodehombres$expenses),
Las mujeres gastan más que los hombres.

6. El conjunto PimaIndianaDiabetes2 es un conjunto de datos de 9 medidas fisiológicas, como
glucosa, ´índice de masa y presión arterial de 768 mujeres de la tribu Pima ubicada en el sur de
Arizona. Los datos se encuentran en el paquete mlbench, para cargarlos puede utilizar el código:
library(mlbench)
data(PimaIndiansDiabetes2)
data(PimaIndiansDiabetes2)
a) Pruebe si la diferencia de medias de las variables insulin y mass es mayor que cero con un
nivel de significancia de 0,05.
H0: U1,U2 es igual a 0
H1: U1,U2 es diferente a 0
t.test(PimaIndiansDiabetes2$insulin,PimaIndiansDiabetes2$mass,
alternative = "two.sided", var.equal = T, mu=0, conf.level = 0.95)
La media de ambas variables es diferente de cero.
b) Realice una prueba de hipótesis para decidir que varianza, para las variables mass y tríceps,
es menor. Sugerencia: pruebe si el cociente entre las varianzas es menor que 1.
H0 los cocientes de las varianzas son menores a 1

H1 los cocientes son mayores
data1 <- PimaIndiansDiabetes2[!is.na(PimaIndiansDiabetes2$triceps),]
data2 <- PimaIndiansDiabetes2[!is.na(PimaIndiansDiabetes2$mass),]
desviacionv=sd(data1$triceps)
mediav=mean(data1$triceps)
CoefV <- desviacionv / mediav * 100
CoefV ## [1] 35.9374
desvnvm=sd(data2$mass)
mediavm=mean(data2$mass)
CVt <- desvnvm / mediavm * 100
CVt
[1] 21.33558
var.test(data1$triceps,data2$mass,alternative="greater",mu=0,var.equal=TRUE,c onf.level=0.95)
Los cocientes son mayores a 1.
9
7. Un gimnasio ofrece un programa de acondicionamiento físico y pérdida de peso, según los
administradores del gimnasio este programa dará´ como resultado una pérdida de peso mínima
de 3 kg después de 30 días. Para verificar esta afirmación se estudiaron 16 clientes que se
sumaron a este programa. Se compararon sus pesos antes y después de someterse a este
programa.
a) Con los datos mostrados en la tabla construya una data frase llamado programa Cuadro 1:
Pesos antes y después del programa
Cliente Antes Después
1 56,00 52,00
2 95,00 91,00
3 78,00 77,00
4 67,00 65,00
5 59,00 54,00
6 81,00 78,00
7 60,00 54,00
8 56,00 55,00
9 70,00 65,00
10 78,00 76,00
11 84,00 82,00
12 71,00 66,00
13 90,00 88,00
14 101,00 94,00
15 54,00 53,00
16 60,00 55,00
clientes <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
antes <-c(56.00,95.00,78.00,67.00,59.00,81.00,60.00,56.00,
••••••••••••70.00,78.00,84.00,71.00,90.00,101.00,54.00,60.00)
despues <- c(52.00,91.00,77.00,65.00,54.00,78.00,54.00,55.00,

•••••••••••••••65.00,76.00,82.00,66.00,88.00,94.00,53.00,55.00)
programa<-data.frame(clientes,antes,despues)
b) Realice la prueba adecuada para probar la hipótesis de que hay una pérdida de peso de por
lo menos 3 kg. (suponiendo que los pesos de la población se distribuyen normalmente).
H0: U1-U2 => 3
H1: U1-U2 < 3
t.test(programa$antes,programa$despues,alternative="greater",mu=3,var.equal=T RUE,conf.level=0.95)
Se pierde menos de 3kg.
8. En el cuadro 2 están los datos de los salarios anuales de 144 personas pertenecientes a dos grupos
de ocupación distintos. En el grupo 1 se encuentran trabajadores de medios de comunicación y
empresas de marketing, mientras que en el grupo 2 se encuentran trabajadores dedicados a
educación. Los datos además pueden ser encontrados en el archivo sueldos.xlsx. Se pide:
sueldos <- read_excel("sueldos.xlsx")

New names:
* `` -> ...2
* `` -> ...3
* `` -> ...4
* `` -> ...6
* `` -> ...7
* ...
a) Generar un conjunto de datos apropiado y leerlo en Rstudio.

grupoa<-c(sueldos$`Grupo 1`,sueldos$...2,sueldos$...3,sueldos$...4)
grupob<-c(sueldos$`Grupo 2`,sueldos$...6,sueldos$...7,sueldos$...8)
grupos<-data.frame(grupoa,grupob)
View(grupos)
b) Pruebe la hipótesis que las medias poblacionales de los dos grupos son iguales. Previamente,
verifique la igualdad de las varianzas.
sr = aov( lm(grupoa ~ grupob) )

summary(sr)
Df Sum Sq Mean Sq F value Pr(>F)

grupob 1 9.137e+07 91368996 2.254 0.138
Residuals 70 2.838e+09 40542880
var.test(grupoa,grupob)
La media de ambas es igual.
11
Cuadro 2: Salarios Anuales de Dos grupos Ocupacionales
Grupo 1 Grupo 2
17703,00 13796,00 13944,00 12000,00 25899,00 17378,00 15053,00 19236,00

42000,00 22958,00 23960,00 22900,00 21676,00 15594,00 30800,00 18780,00
18780,00 10750,00 11389,00 13440,00 15053,00 17375,00 37000,00 12459,00
15723,00 13552,00 12587,00 17574,00 19461,00 20111,00 48000,00 22700,00
13179,00 21000,00 17000,00 22149,00 22485,00 16799,00 16000,00 35750,00
37500,00 18245,00 9000,00 17547,00 17378,00 12587,00 20147,00 20539,00
22955,00 19358,00 35000,00 9500,00 15053,00 24102,00 15083,00 13115,00
13000,00 22000,00 18000,00 25000,00 10998,00 12755,00 10294,00 13605,00
13500,00 12000,00 30000,00 15723,00 18360,00 35000,00 11389,00 20539,00
13000,00 16820,00 12548,00 12300,00 22533,00 20500,00 11389,00 16629,00
11000,00 17709,00 17048,00 10750,00 23008,00 13000,00 26544,00 27500,00
12500,00 23065,00 13349,00 11000,00 24260,00 18066,00 14274,00 17378,00
13000,00 18693,00 11406,00 19000,00 25899,00 35403,00 31530,00 15053,00
10500,00 14472,00 23000,00 13500,00 18021,00 17378,00 16799,00 20594,00
12285,00 12000,00 15379,00 32000,00 17970,00 14855,00 15053,00 9866,00
13000,00 20000,00 21458,00 17783,00 21074,00 21074,00 14359,00 21074,00
16000,00 18900,00 21262,00 16600,00 15053,00 19401,00 15344,00 25598,00
15000,00 14481,00 20000,00 18000,00 20739,00 15053,00 31000,00 15053,00
13

Estadistica Tarea8 JGranoble

Cargado por

Copyright:

Formatos disponibles

Estadistica Tarea8 JGranoble

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Tarea8 JGranoble

Cargado por

Copyright:

Formatos disponibles

Tarea 8

Universidad Politécnica Salesiana

a) La probabilidad de la hipótesis nula es 2%

- ventas <- read_delim("ventasprepost.csv",

";", escape_double = FALSE, trim_ws = TRUE)

- Column specification ------------

No es igual, sino menor.

t.test(x=sect1$VENTAS_PRECOVID, sigma.x = sd(sect1$VENTAS_PRECOVID),

La media es mayor a 2000.

El promedio de las ventas de ambos sectores es igual.

y=ventas$VENTAS_POSTCOVID, sigma.y = sd(ventas$VENTAS_POSTCOVID),

alternative = "greater", conf.level = 0.95)

El promedio de las ventas post-COVID es menor a las ventas pre-COVID.

desvest4ej=sd(mujeres$PREV_TRAT) t.test(mujeres$PREV_TRAT, mu = 70, sigma.x = desvest4ej, conf.level

El peso de las mujeres previo al tratamiento es diferente de 70 kg.

Los promedios de los hombres y de las mujeres son diferentes.

El promedio de los hombres previo al tratamiento es mayor o igual a 80 kg.

z.test(x=pesotratamiento$PREV_TRAT, sigma.x = sd(pesotratamiento$PREV_TRAT),

y=pesotratamiento$POST_TRAT, sigma.y = sd(pesotratamiento$POST_TRAT),

alternative = "greater", conf.level = 0.95)

a) El gerente de turismo del destino intenta averiguar si la satisfacción de los huéspedes ha

gastodemujeres<-filter(gastos, sex %in% c("0"))

gastodehombres<-filter(gastos, sex %in% c("1"))

z.test(x=gastodemujeres$expenses, sigma.x = sd(gastodemujeres$expenses),

y=gastodehombres$expenses, sigma.y = sd(gastodehombres$expenses),

alternative = "greater", conf.level = 0.90)

Las mujeres gastan más que los hombres.

La media de ambas variables es diferente de cero.

H0 los cocientes de las varianzas son menores a 1

Los cocientes son mayores a 1.

clientes <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)

despues <- c(52.00,91.00,77.00,65.00,54.00,78.00,54.00,55.00,

H0: U1-U2 => 3

H1: U1-U2 < 3

Se pierde menos de 3kg.

sueldos <- read_excel("sueldos.xlsx")

a) Generar un conjunto de datos apropiado y leerlo en Rstudio.

sr = aov( lm(grupoa ~ grupob) )

Df Sum Sq Mean Sq F value Pr(>F)

La media de ambas es igual.

17703,00 13796,00 13944,00 12000,00 25899,00 17378,00 15053,00 19236,00

También podría gustarte