Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Parcial 2 Análisis

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 6

1.

Distribución normal: Se usa para modelar datos que se distribuyen simétricamente


alrededor de una media.
La distribución normal es una de las distribuciones más importantes en estadística. Tiene una forma de
campana simétrica y está completamente definida por dos parámetros:

 Media (μ): Determina la ubicación central de la curva.

 Desviación estándar (σ): Controla el ancho de la curva (qué tan dispersos están los datos alrededor
de la media).

Codio de R para graficar la distribución normal:


ggplot(data = data.frame(x = c(60, 140)), mapping = aes(x)) +
stat_function(fun = dnorm,
n=1001,
args = list(mean = 100, sd = 15),
color = "steelblue4",
linewidth = 0.75) + theme_light() +
labs(y = "Densidad", x = "Puntaje IQ",
title = "Distribución del Cociente Intelectual") + theme(axis.title = element_text(size = 7),

axis.text = element_text(size = 6), plot.title = element_text(size = 7))

2. Teorema Central del Límite: Nos permite suponer que las medias de muestras grandes
seguirán una distribución normal.
¿cuándo se usa?: hacer inferencias sobre una población completa a partir de una muestra, incluso cuando
no conocemos la distribución exacta de la población.

Ejemplo: Tenemos una población de bombillas con una media de vida útil de 1000 horas y una desviación
estándar de 100 horas. Queremos simular el muestreo de 100 bombillas repetidamente y observar la
distribución de las medias muestrales. Luego, calcularemos la probabilidad de que la media de una muestra
sea superior a 1020 horas. Al ejecutar este código, obtendrás un histograma que mostrará aproximadamente
una distribución normal de las medias muestrales, centrada en 1000 y con una desviación estándar menor
que la de la población original. El valor de probabilidad te dará una estimación de la probabilidad de que la
media de una muestra sea mayor a 1020.

Código de R:
mean(medias_muestras > 1020) cat("La probabilidad de que la media sea mayor a 1020 es:",
probabilidad) # Calcular la probabilidad de que la media sea mayor a 1020 probabilidad
Código del grafico de las muestras:
ggplot() + geom_histogram(aes(x = medias_10), bins = 30, fill = "lightblue", color = "black") +
ggtitle("Distribución de las medias muestrales (n = 10)")
3. Prueba Chi-cuadrado de bondad de ajuste: Se usa para probar si una distribución
observada se ajusta a una distribución esperada.
¿Cuándo se usa?: Esta prueba se utiliza cuando queremos verificar si las frecuencias observadas en
diferentes categorías coinciden con las frecuencias esperadas bajo una hipótesis nula. Por ejemplo, si
creemos que los encuestados tienen la misma probabilidad de elegir entre varias opciones.

Ejemplo: Queremos verificar si la preferencia por cuatro tipos de comida (Italiana, Mexicana, Japonesa y
Francesa) es uniforme, es decir, cada categoría tiene una probabilidad del 25%. Tenemos 200 encuestas con
estas respuestas:

Italiana: 55 ; Mexicana: 45 ; Japonesa: 60 ; Francesa: 40

Código en R:
Observado <- c(55, 45, 60, 40) #datos observados
Esperadoa <- rep(200 * 0.25, 4) #frecuencia esperada (25% cada plato de 200 encuestas)
chisq.test(x = observado, p = c(0.25, 0.25, 0.25, 0.25)) #prueba bondad de ajuste
Resultado en R:
X-squared = 5, df = 3, p-value = 0.1718
 X-squared = 5: Este valor representa la diferencia entre los datos observados y los esperados.
Cuanto mayor sea este valor, mayor será la diferencia entre lo observado y lo esperado.

 p-value = 0.1718: El valor p es mayor a 0.05, lo que indica que no rechazamos la hipótesis nula.
Concluimos que no hay evidencia significativa de que las preferencias por los tipos de comida sean
diferentes de las esperadas (uniforme).

4. Prueba Chi-cuadrado para dos variables (o independencia): Se usa para probar si existe
una relación entre dos variables categóricas.

¿Cuándo se usa?: Se usa para evaluar si hay relación/dependencia entre dos variables categóricas. Por
ejemplo, si queremos saber si la preferencia por tipos de comida depende del género.

Ejemplo: Queremos comprobar si la preferencia por comida italiana o mexicana es independiente del
género (Hombre, Mujer).

Código en R:
tabla_cruzada <- table(data$Genero, data$Preferencia) # Crear tabla cruzada
resultado_chi <- chisq.test(tabla_cruzada) # Prueba chi-cuadrado de independencia
en caso de necesitar los totales de los datos, en la tabla usar:
tabla_cruzada_con_margenes <- addmargins(tabla_cruzada)
Resultado en R:
X-squared = 1.1419, df = 1, p-value = 0.2851
el valor p es 0.2851, que es mayor que 0.05. Esto significa que no podemos rechazar la hipótesis nula de que
no existe una asociación entre el género y la preferencia por comida italiana o mexicana. En otras palabras,
los datos no sugieren que las mujeres prefieran un tipo de comida y los hombres otro.

Código para encontrar el valor crítico de una distribución chi cuadrado:


x <- qchisq( p = .95, df = 3 ) #p es la probabilidad y df son los grados de libertad

5. Prueba exacta de Fisher: Alternativa a la prueba chi-cuadrado para muestras pequeñas.


¿cuándo se usa?: para determinar si existe una asociación entre dos variables categóricas en una tabla de
contingencia de 2x2. Se utiliza cuando los tamaños de muestra son pequeños o las frecuencias esperadas en
alguna celda son muy bajas (menor a 5)

Ejemplo: Imaginemos que queremos saber si existe una asociación entre el género (hombre o mujer) y la
preferencia por un tipo de película (acción o drama). Para ello, realizamos una encuesta a 50 personas y
obtenemos los siguientes resultados:

Código de R:
# Crear una tabla de contingencia
tabla <- matrix(c(15, 10, 10, 15), nrow = 2, byrow = TRUE, #nrow es numero de filas y
byrow (TRUE) los elementos del vector se llenarán de izquierda a derecha, completando
una fila antes de pasar a la siguiente.
dimnames = list(Genero = c("Hombre", "Mujer"),
Pelicula = c("Acción", "Drama")))
# Realizar la prueba exacta de Fisher
resultado_fisher <- fisher.test(tabla)
print(resultado_fisher)
Resultado en R:
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1 #1 indica que no hay asociación entre las
variables.
95 percent confidence interval: 0.3333333 3.0000000
el valor p = 1 de la prueba indica la probabilidad de obtener un resultado tan extremo o más extremo (en
este caso, una asociación tan fuerte o más fuerte) asumiendo que no hay asociación real entre las variables.

6. Prueba de McNemar: Se usa para comparar proporciones en muestras relacionadas (antes


y después).
¿Cuándo se usa?: Cuando tenemos dos observaciones por cada individuo (antes y después de un
tratamiento, por ejemplo). La variable de interés debe tener solo dos categorías (por ejemplo, sí/no,
éxito/fracaso). Los datos se presentan en una tabla de contingencia de 2x2.

Ejemplo: Imagina que queremos evaluar la efectividad de una campaña publicitaria en cambiar la intención
de compra de un producto. Realizamos una encuesta antes y después de la campaña a un grupo de personas
y obtenemos los siguientes resultados:

Código de R:
# Crear una tabla de contingencia
tabla_mcnemar <- matrix(c(30, 10, 20, 40), nrow = 2, byrow = TRUE,
dimnames = list(c("Antes: Sí", "Antes: No"),
c("Después: Sí", "Después: No")))
# Realizar la prueba de McNemar
resultado_mcnemar <- mcnemar.test(tabla_mcnemar)
print(resultado_mcnemar)
Resultado en R:
data: tabla_mcnemar McNemar chi-squared = 4, df = 1, p-value = 0.0455
Dado que el valor p (0.0455) es menor que el nivel de significancia típico de 0.05, rechazamos la hipótesis
nula de que no hay diferencia en las proporciones antes y después de la campaña. Esto significa que hay
evidencia estadísticamente significativa de que la campaña publicitaria tuvo un efecto en la intención de
compra de los consumidores.

7. Prueba t student: Se usan para comparar medias entre dos grupos y asume que las
varianzas de las dos poblaciones son iguales.
¿cuándo se usa?: se utilizan con datos numéricos continuos. Los datos provienen de dos grupos
distintos y no relacionados. La hipótesis nula es que las medias de las dos poblaciones son iguales.
Ejemplo: Supongamos que queremos comparar la altura promedio de hombres y mujeres en una
determinada población. Recogemos una muestra de alturas de ambos grupos.
Código en R:
# Crear datos de ejemplo
grupo_A <- c(85, 90, 78, 82, 95)
grupo_B <- c(80, 75, 88, 92, 84)
# Prueba t de Student
resultado_t <- t.test(grupo_A, grupo_B, var.equal = TRUE)
print(resultado_t)
Resultado en R:
data: grupo_A and grupo_B t = 0.6325, df = 8, p-value = 0.5454
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -4.982932 6.982932
sample estimates: mean of x mean of y 86 ; 83.8
Como el valor p es mayor a 0.05, no podemos rechazar la hipótesis nula. Esto significa que no hay evidencia
suficiente para afirmar que existe una diferencia significativa en las calificaciones promedio entre los grupos
A y B.

8. Prueba t student de welch: Esta es la misma a la anterior pero no se asumen las varianzas
como iguales
¿Cuándo se usa?: Úsala en la mayoría de los casos, especialmente si no estás seguro de la igualdad de
varianzas

Ejemplo: Supongamos que queremos comparar el peso promedio de hombres y mujeres en una
determinada población. Recogemos una muestra de alturas de ambos grupos.
Código de R:
# Crear datos de ejemplo
peso_grupo1 <- c(20, 25, 18, 22, 24)
peso_grupo2 <- c(30, 35, 28, 32, 34)
# Prueba t de Welch
resultado_welch <- t.test(peso_grupo1, peso_grupo2)
print(resultado_welch)
Resultado en R:
data: peso_grupo1 and peso_grupo2 t = -3.1623, df = 7.668, p-value = 0.0123 alternative
hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -7.921879 -1.078121
sample estimates: mean of x mean of y 21.8 31.8
Como el valor p (0.0123) es menor a 0.05, rechazamos la hipótesis nula. Esto significa que sí hay evidencia
suficiente para afirmar que existe una diferencia significativa en el peso promedio entre los grupos 1 y 2. El
grupo 2 tiene un peso promedio significativamente mayor que el grupo 1.

También podría gustarte