Tarea 8 U3 Robin Javier Ortega

Tarea 8.
Robin Ortega
Zambrano
Fecha:
#librerias necesarias
library(readr)
## Warning: package 'readr' was built under R version 4.0.5
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.0.4
## Attaching packages - tidyverse

1.3.0 --
## v ggplot2 3.3.5 v dplyr 1.0.5

## v tibble 3.0.4 v stringr 1.4.0
## v tidyr 1.1.3 v forcats 0.5.1
## v purrr 0.3.4
## Warning: package 'ggplot2' was built under R version 4.0.5
## Warning: package 'tidyr' was built under R version 4.0.4 ##
Warning: package 'dplyr' was built under R version 4.0.4 ##
Warning: package 'forcats' was built under R version 4.0.4
## Conflicts - -
tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(BSDA)
## Warning: package 'BSDA' was built under R version 4.0.5
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':

##
## Orange
library(mlbench)
## Warning: package 'mlbench' was built under R version 4.0.5
library(readxl)
#1. Una persona se sometio a una prueba para detectar una pandemia
generalizada. El medico
#hizo un diagnostico clinico de que la persona no tiene esta enfermedad. Mas
tarde, cuando
#se realizo un analisis de sangre, salio positivo. ?Cual de los siguientes
errores ha cometido
#el medico?
#es un error tipo 1
#2. Supongamos que esta probando la eficacia de los programas de aprendizaje

electronico
#para mejorar la puntuacion de los estudiantes. La puntuacion media de los
estudiantes
#se mide antes y despues de la introduccion de los programas de e-learning.
Despues de
#comparar las medias mediante una prueba de hipotesis, se obtiene un valor de
p de 0, 02.
#Esto significa que:
#a. La probabilidad de la hipotesis nula es 2 %
#el literal es falso
#3. En el archivo ventasprepost.csv se encuentran almacenadas las ventas

promedio diarias
#de un mes de 100 negocios de dos sectores de la ciudad previo a la
declaracion de la
#emergencia sanitaria y las ventas promedio diarias de un mes posterior a la
declaracion
#del semaforo amarillo. Contestar las siguientes preguntas:
ventas <- read_delim("ventasprepost.csv",

";", escape_double = FALSE, trim_ws = TRUE)
##
## Column specification -
## cols(
## NEGOCIO = col_character(),
## SECTOR = col_character(),
## VENTAS_PRECOVID = col_number(),
## VENTAS_POSTCOVID = col_number()
## )
#a. El promedio de las ventas pre emergencia sanitaria es igual a 2000
dolares?
#H0: u es igual a 2000

#H1: u es idferente de 2000
desvest = sd(ventas$VENTAS_PRECOVID)
t.test(ventas$VENTAS_PRECOVID, mu = 2000, sigma.x = desvest, conf.level =
0.95)
##
## One Sample t-test
##
## data: ventas$VENTAS_PRECOVID
## t = 64.992, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 2000
## 95 percent confidence interval:
## 190768.6 202657.9
## sample estimates:
## mean of x
## 196713.2
#el pvalor es de 2.2e-16 menor a 0.05 por consecuencia se rechaza

#la hipotesis nula de que la media es igual a 2000 y se acepta la
#alternativa
#b. El promedio de las ventas del SECTOR1 es mayor al promedio de las ventas
del
#SECTOR2 previo a la emergencia sanitaria?
#H0: u1 > u2
#H1: u1 <= u2
vventas<-select(ventas,SECTOR,VENTAS_PRECOVID)
sect1<-filter(vventas, SECTOR %in% c("SECTOR1"))
sect2<-filter(vventas, SECTOR %in% c("SECTOR2"))
#prueba
t.test(x=sect1$VENTAS_PRECOVID, sigma.x = sd(sect1$VENTAS_PRECOVID),
y=sect2$VENTAS_PRECOVID, sigma.y = sd(sect2$VENTAS_PRECOVID),
alternative = "greater", conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: sect1$VENTAS_PRECOVID and sect2$VENTAS_PRECOVID
## t = 1.9102, df = 93.966, p-value = 0.02958
## alternative hypothesis: true difference in means is greater than 0
## 1457.122 Inf
## mean of x mean of y
## 202079.6 190899.8
#siendo un pvalor de 0.02958 menor al nivel de significancia

#se rechaza la hipotesis nula y se acepta la alternativa
#el promedio del sector1 es igual o menor a los del sector 2
#c. El promedio de las ventas post emergencia sanitaria es menor a 2000

dolares?
#H0: u < = 2000
#H1: u > 2000
desviacion = sd(ventas$VENTAS_POSTCOVID)
t.test(ventas$VENTAS_POSTCOVID, mu = 2000, sigma.x = desviacion, conf.level =
0.95)
##
##
## data: ventas$VENTAS_POSTCOVID
## t = 74.751, df = 99, p-value < 2.2e-16
## 143355 151064
## mean of x
## 147209.5
#con un pvalor de 2.2e-16 menor al nivel de significancia

#se rechaza la hipotesis nula
#y se acepta la alternativa la media es mayor a 2000
#d. El promedio de las ventas del SECTOR1 es igual al promedio de las ventas
del
#SECTOR2 posterior a la emergencia sanitaria?
#H0: u1 es igual a u2
#H1: u1 es diferente a u2
posterior<-select(ventas,SECTOR,VENTAS_POSTCOVID)
sec1<-filter(posterior, SECTOR %in% c("SECTOR1"))
sec2<-filter(posterior, SECTOR %in% c("SECTOR2"))
z.test(x=sec1$VENTAS_POSTCOVID, sigma.x = sd(sec1$VENTAS_POSTCOVID),

y=sec2$VENTAS_POSTCOVID, sigma.y = sd(sec2$VENTAS_POSTCOVID),
##
## Two-sample z-Test
##
## data: sec1$VENTAS_POSTCOVID and sec2$VENTAS_POSTCOVID
## z = 1.2856, p-value = 0.09929
## -1387.858 NA
## 149593.4 144626.8
#nuestro pvalor es 0.09929 mayor a 0.05 se acepta

#la H0, es decir el promedio de las ventas de ambos sectores son iguales
#e. En general, el promedio de las ventas pre emergencia sanitaria es mayor

al promedio
#de las ventas post emergencia sanitaria?
#H0: u1 => u2
#H1: u1 < u2
z.test(x=ventas$VENTAS_PRECOVID, sigma.x = sd(ventas$VENTAS_PRECOVID),
y=ventas$VENTAS_POSTCOVID, sigma.y = sd(ventas$VENTAS_POSTCOVID),
##
##
## data: ventas$VENTAS_PRECOVID and ventas$VENTAS_POSTCOVID
## z = 13.864, p-value < 2.2e-16
## 43630.62 NA
## 196713.2 147209.5
#los resultados arrojan un pvalor de 2.2e-16 menor al nivel de significancia,

por esta razon
#podemos rechazar la H0 y aceptamos
#la hipotesis alternativa de que el promedio de las ventas poscovid es menor
a las ventas precovid
#4. En el archivo PESOS.csv se encuentran almacenados los pesos promedios de

un grupo de
#hombres y mujeres previo y posterior a un tratamiento de reduccion de peso
que incluye
#ejercicios, una guıa de nutricion y un medicamento inhibidor del apetito.
pesos<- read_delim("PESOS (1).csv", ";",

escape_double = FALSE, trim_ws = TRUE)
##
## cols(
## SEXO = col_character(),
## PREV_TRAT = col_number(),
## POST_TRAT = col_number()
## )
#a. El promedio de los pesos de las mujeres previo al tratamiento es igual a

70 kg.?
pesotratamiento<-select(pesos,SEXO,PREV_TRAT, POST_TRAT)
mujeres<-filter(pesotratamiento, SEXO %in% c("FEMENINO"))
#Ho: U es igual 70
#H1: U es diferente 70
desvest4ej=sd(mujeres$PREV_TRAT)
t.test(mujeres$PREV_TRAT, mu = 70, sigma.x = desvest4ej, conf.level = 0.95)
##
##
## data: mujeres$PREV_TRAT
## t = 34.275, df = 29, p-value < 2.2e-16
## 6687.402 7527.264
## mean of x
## 7107.333
#El pvalor es menor al nivel de significancia

#se rechaza la hipotesis nula y se acepta H1
#el promedio de los pesos en las mujeres es diferente a 70
#b El promedio de los pesos de las mujeres previo al tratamiento es igual al

promedio
#de los pesos de los hombres previo al tratamiento?
hombres<-filter(pesotratamiento, SEXO %in% c("MASCULINO"))
z.test(x=hombres$PREV_TRAT, sigma.x = sd(hombres$PREV_TRAT),

y=mujeres$PREV_TRAT, sigma.y = sd(mujeres$PREV_TRAT),
##
##
## data: hombres$PREV_TRAT and mujeres$PREV_TRAT
## z = 3.0544, p-value = 0.001127
## 401.4935 NA
## 7977.333 7107.333
#con un pvalor de 0.001127que es menor a 0.05 rechazamos la hipotesis nula

#y aceptamos la alternativa, los promedios de hombres y mujeres son
diferentes
#c. El promedio de los pesos de los hombres previo al tratamiento es menor a

80 kg.?
#Ho: U < 80
#H1: U => 80
devest=sd(hombres$PREV_TRAT)
z.test(hombres$PREV_TRAT, mu = 80, sigma.x = devest, conf.level = 0.95)
##
## One-sample z-Test
##
## data: hombres$PREV_TRAT
## z = 40.004, p-value < 2.2e-16
## 7590.411 8364.256
## mean of x
## 7977.333
#rechazamos la hipotesis nula por ser el pvalor menor a 0.05, el promedio de

los
#pesos de los hombres es igual o mayor a 80kg
#d. El promedio de los pesos de las mujeres posterior al tratamiento es menor

#al promedio de los pesos de los hombres posterior al tratamiento?
#Ho: U1 < U2
#H1: U1 => U2
t.test(x=mujeres$POST_TRAT, sigma.x = sd(mujeres$POST_TRAT),

y=hombres$POST_TRAT, sigma.y = sd(hombres$POST_TRAT),
##
## Welch Two Sample t-test
##
## data: mujeres$POST_TRAT and hombres$POST_TRAT
## t = -6.932, df = 56.65, p-value = 1
## -1221.783 Inf
## 6538.367 7522.700
#el pvalor es 1, es mayor al nivel de significancia

#se acepta la hipotesis nula, los pesos de las mujeres post tratamiento
#son menores a los de los hombres
#e. En general, el promedio de los pesos previo al tratamiento es mayor al

promedio
#de los pesos posterior al tratamiento?
#H0: u1 => u2
#H1: u1 < u2
z.test(x=pesotratamiento$PREV_TRAT, sigma.x = sd(pesotratamiento$PREV_TRAT),

y=pesotratamiento$POST_TRAT, sigma.y = sd(pesotratamiento$POST_TRAT),
##
##
## data: pesotratamiento$PREV_TRAT and pesotratamiento$POST_TRAT
## z = 2.8519, p-value = 0.002173
## 216.6108 NA
## 7542.333 7030.533
#nuestro pvalor de 0.002173 es menor a 0.05

#se rechaza la hipotesis nula el promedio de los pesos previo al tratamiento
es menor al promedio de los pesos pos tratamiento
#5. Los ferrocarriles de montana de cierta montana en Alemania quieren

ajustar su oferta a
#los deseos y necesidades de sus huespedes para mejorar el atractivo de la
zona de esquı.
#Para ello, la direccion realiza una breve encuesta representativa y pregunta
a 150 invitados
#(n = 150) sobre su satisfaccion con la oferta actual. En la hoja de calculo
“legends”del
#archivo tourism.xlsx se encuentra (en ingles) el detalle de cada variable,
mientras que en
#el archivo tourism.csv estan los datos.
turismo <- read_delim("tourism.csv", ";",
escape_double = FALSE, trim_ws = TRUE)
##
## cols(
## guest = col_double(),
## accommodation = col_double(),
## stay = col_double(),
## diversity = col_double(),
## waitingtime = col_double(),
## safety = col_double(),
## quality = col_double(),
## satisfaction = col_double(),
## price = col_double(),
## expenses = col_double(),
## recommendation = col_double(),
## skiholiday = col_double(),
## sex = col_double(),
## country = col_double(),
## age = col_double(),
## education = col_double()
## )
#a. El gerente de turismo del destino intenta averiguar si la satisfaccion de

los huespedes
#ha aumentado en los ultimos anos. Sabe que hace unos anos se realizo la
misma encuesta
#y la satisfaccion general fue de solo 60 puntos. Pruebe al nivel de
significancia
#del 5 % si la satisfaccion con la estacion de esquı ha aumentado.
#HO: mu < = 60
#H1: mu > 60
desv5ej=sd(turismo$satisfaction)
z.test(turismo$satisfaction, mu = 60, sigma.x = desv5ej, conf.level = 0.95)
##
## One-sample z-Test
##
## data: turismo$satisfaction
## z = 2.5887, p-value = 0.009635
## 60.88403 66.39597
## mean of x
## 63.64
#nos da un pvalor de 0.009635 menor a 0.05

#rechazamos la hipotesis nula y aceptamos H1
#la satisfaccion a aumentado con el deporte nuevo de esqui
#b. El gerente de turismo quiere saber si las mujeres gastan mas dinero al
dıa que los
#hombres. Pruebe este problema con un nivel de significancia del 10 %
#H0: U1 > U2
#H1: U1 < = U2
gastos<-select(turismo,sex,expenses)
gastodemujeres<-filter(gastos, sex %in% c("0"))
gastodehombres<-filter(gastos, sex %in% c("1"))
z.test(x=gastodemujeres$expenses, sigma.x = sd(gastodemujeres$expenses),

y=gastodehombres$expenses, sigma.y = sd(gastodehombres$expenses),
##
##
## data: gastodemujeres$expenses and gastodehombres$expenses
## z = -5.7641, p-value = 1
## -52.17103 NA
## 349.3647 392.0462
#nuestro pvalor es de 0.0096 es menor al nivel de significancia #se

rechaza la hiptesis nula las mujeres gastan mas que los hombres
#6. El conjunto PimaIndianaDiabetes2 es un conjunto de datos de 9 medidas

fisiologicas,
#como glucosa, ındice de masa y presion arterial de 768 mujeres de la tribu
Pima ubicada
#en el sur de Arizona. Los datos se encuentran en el paquete mlbench, para
cargarlos puede
#utilizar el codigo:
data(PimaIndiansDiabetes2)
#a. Pruebe si la diferencia de medias de las variables insulin y mass es

mayor que cero
#con un nivel de significancia de 0,05.
#H0: U1,U2 es igual a 0

#H1: U1,U2 es diferente a 0
t.test(PimaIndiansDiabetes2$insulin,PimaIndiansDiabetes2$mass, alternative =
"two.sided", var.equal = T, mu=0, conf.level = 0.95)
##
## Two Sample t-test
##
## data: PimaIndiansDiabetes2$insulin and PimaIndiansDiabetes2$mass
## t = 28.432, df = 1149, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 114.5965 131.5851
## 155.54822 32.45746
#el pvalor es de 2.2e-16 se rechaza la hipotesis nula

#las medias de ambas variables son diferentes a cero
#b. Realice una prueba de hipotesis para decidir que varianza, para las
variables mass
#y triceps, es menor. Sugerencia: pruebe si el el cociente entre las
varianzas es menor
#que 1.
#H0 los cocientes de las varianzas son menores a 1

#H1 los cocientes son mayores
data1 <- PimaIndiansDiabetes2[!is.na(PimaIndiansDiabetes2$triceps),]
data2 <- PimaIndiansDiabetes2[!is.na(PimaIndiansDiabetes2$mass),]
desviacionv=sd(data1$triceps)
mediav=mean(data1$triceps)
CoefV <- desviacionv / mediav * 100
CoefV
## [1] 35.9374
desvnvm=sd(data2$mass)
mediavm=mean(data2$mass)
CVt <- desvnvm / mediavm * 100
CVt
## [1] 21.33558
var.test(data1$triceps,data2$mass,alternative="greater",mu=0,var.equal=TRUE,c
onf.level=0.95)
##
## F test to compare two variances
##
## data: data1$triceps and data2$mass
## F = 2.2889, num df = 540, denom df = 756, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is greater than 1
## 2.009234 Inf
## ratio of variances
## 2.28894
#se rechaza la hipotesis nula, los cocientes son mayores a 1
#7. Un gimnasio ofrece un programa de acondicionamiento fısico y perdida de

peso, segun
#los administradores del gimnasio este programa dara como resultado una
perdida de peso
#minima de 3 kg despues de 30 dias. Para verificar esta afirmacion se
estudiaron 16 clientes
#que se sumaron a este programa. Se compararon sus pesos antes y despues de
someterse
#a este programa.
#a) Con los datos mostrados en la tabla construya un data frame llamado
programa
clientes <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
antes <-c(56.00,95.00,78.00,67.00,59.00,81.00,60.00,56.00,
70.00,78.00,84.00,71.00,90.00,101.00,54.00,60.00)
despues <- c(52.00,91.00,77.00,65.00,54.00,78.00,54.00,55.00,
65.00,76.00,82.00,66.00,88.00,94.00,53.00,55.00)
programa<-data.frame(clientes,antes,despues)
#b. Realice la prueba adecuada para probar la hipotesis de que hay una
perdida de
#peso de por lo menos 3 kg. suponiendo que los pesos de la poblacion se
distribuyen
#normalmente
#H0: U1-U2 => 3
#H1: U1-U2 < 3
t.test(programa$antes,programa$despues,alternative="greater",mu=3,var.equal=T
RUE,conf.level=0.95)
##
## Two Sample t-test
##
## data: programa$antes and programa$despues
## t = 0.083612, df = 30, p-value = 0.467
## -5.443393 Inf
## 72.5000 69.0625
#con un pvalor de 0.467 mayor a 0.05

#rechazamos la hipotesis nula, las perdidas son menores a 3kg
#8. En el cuadro 2 estan los datos de los salarios anuales de 144 personas
pertenecientes a
#dos grupos de ocupacion distintos. En el grupo 1 se encuentran trabajadores
de medios
#de comunicacion y empresas de marketing, mientras que en el grupo 2 se
encuentran trabajadores
#dedicados a educacion. Los datos ademas pueden ser encontrados en el archivo
sueldos.xlsx. Se pide:
sueldos <- read_excel("sueldos.xlsx")
## New names:
## * `` -> ...2
## * `` -> ...3
## * `` -> ...4
## * `` -> ...6
## * `` -> ...7
## * ...
#a) Generar un conjunto de datos apropiado y leerlo en Rstudio.

grupoa<-c(sueldos$`Grupo 1`,sueldos$...2,sueldos$...3,sueldos$...4)
grupob<-c(sueldos$`Grupo 2`,sueldos$...6,sueldos$...7,sueldos$...8)
grupos<-data.frame(grupoa,grupob)
View(grupos)
#b) Pruebe la hipotesis que las medias poblacionales de los dos grupos
#son iguales. Previamente, verifique la igualdad de las varianzas.
sr = aov( lm(grupoa ~ grupob) )

summary(sr)
## Df Sum Sq Mean Sq F value Pr(>F)

## grupob 1 9.137e+07 91368996 2.254 0.138
## Residuals 70 2.838e+09 40542880
var.test(grupoa,grupob)
##
## F test to compare two variances
##
## data: grupoa and grupob
## F = 0.81307, num df = 71, denom df = 71, p-value = 0.3854
## alternative hypothesis: true ratio of variances is not equal to 1
## 0.5086951 1.2995592
## ratio of variances
## 0.8130679
#con un pvalor de 0.3854 aceptamos la hipotesis nula

#las medias de ambos grupos son iguales

Tarea 8 U3 Robin Javier Ortega

Cargado por

Copyright:

Formatos disponibles

Tarea 8 U3 Robin Javier Ortega

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 8 U3 Robin Javier Ortega

Cargado por

Copyright:

Formatos disponibles

Tarea 8.

## Warning: package 'readr' was built under R version 4.0.5

## Warning: package 'tidyverse' was built under R version 4.0.4

## Attaching packages - tidyverse

## v ggplot2 3.3.5 v dplyr 1.0.5

## Warning: package 'ggplot2' was built under R version 4.0.5

## Warning: package 'tidyr' was built under R version 4.0.4 ##

Warning: package 'dplyr' was built under R version 4.0.4 ##

Warning: package 'forcats' was built under R version 4.0.4

## Warning: package 'BSDA' was built under R version 4.0.5

## Loading required package: lattice

## The following object is masked from 'package:datasets':

#es un error tipo 1

#2. Supongamos que esta probando la eficacia de los programas de aprendizaje

#a. La probabilidad de la hipotesis nula es 2 %

#el literal es falso

#3. En el archivo ventasprepost.csv se encuentran almacenadas las ventas

ventas <- read_delim("ventasprepost.csv",

#H0: u es igual a 2000

#el pvalor es de 2.2e-16 menor a 0.05 por consecuencia se rechaza

#siendo un pvalor de 0.02958 menor al nivel de significancia

#c. El promedio de las ventas post emergencia sanitaria es menor a 2000

#con un pvalor de 2.2e-16 menor al nivel de significancia

z.test(x=sec1$VENTAS_POSTCOVID, sigma.x = sd(sec1$VENTAS_POSTCOVID),

#nuestro pvalor es 0.09929 mayor a 0.05 se acepta

#e. En general, el promedio de las ventas pre emergencia sanitaria es mayor

#los resultados arrojan un pvalor de 2.2e-16 menor al nivel de significancia,

#4. En el archivo PESOS.csv se encuentran almacenados los pesos promedios de

pesos<- read_delim("PESOS (1).csv", ";",

#a. El promedio de los pesos de las mujeres previo al tratamiento es igual a

#El pvalor es menor al nivel de significancia

#b El promedio de los pesos de las mujeres previo al tratamiento es igual al

z.test(x=hombres$PREV_TRAT, sigma.x = sd(hombres$PREV_TRAT),

#con un pvalor de 0.001127que es menor a 0.05 rechazamos la hipotesis nula

#c. El promedio de los pesos de los hombres previo al tratamiento es menor a

#rechazamos la hipotesis nula por ser el pvalor menor a 0.05, el promedio de

#d. El promedio de los pesos de las mujeres posterior al tratamiento es menor

t.test(x=mujeres$POST_TRAT, sigma.x = sd(mujeres$POST_TRAT),

#el pvalor es 1, es mayor al nivel de significancia

#e. En general, el promedio de los pesos previo al tratamiento es mayor al

z.test(x=pesotratamiento$PREV_TRAT, sigma.x = sd(pesotratamiento$PREV_TRAT),

#nuestro pvalor de 0.002173 es menor a 0.05

#5. Los ferrocarriles de montana de cierta montana en Alemania quieren

#a. El gerente de turismo del destino intenta averiguar si la satisfaccion de

#nos da un pvalor de 0.009635 menor a 0.05

z.test(x=gastodemujeres$expenses, sigma.x = sd(gastodemujeres$expenses),

#nuestro pvalor es de 0.0096 es menor al nivel de significancia #se

#6. El conjunto PimaIndianaDiabetes2 es un conjunto de datos de 9 medidas

#a. Pruebe si la diferencia de medias de las variables insulin y mass es

#H0: U1,U2 es igual a 0

#el pvalor es de 2.2e-16 se rechaza la hipotesis nula

#H0 los cocientes de las varianzas son menores a 1

#7. Un gimnasio ofrece un programa de acondicionamiento fısico y perdida de

#con un pvalor de 0.467 mayor a 0.05

sueldos <- read_excel("sueldos.xlsx")

#a) Generar un conjunto de datos apropiado y leerlo en Rstudio.

sr = aov( lm(grupoa ~ grupob) )

## Df Sum Sq Mean Sq F value Pr(>F)

#con un pvalor de 0.3854 aceptamos la hipotesis nula