ANOVA Test PDF
ANOVA Test PDF
ANOVA Test PDF
El test de análisis de varianzas ANOVA Test, conocido así en inglés, es una forma de
averiguar si los resultados de un experimento o encuesta, son significantes. Es una
herramienta que ayuda a saber si se rechazará la hipótesis nula o se aceptará la hipótesis
alterna.
De manera sencilla podemos decir que ANOVA sirve para saber si hay diferencia
significativa entre dos grupos que se están examinando.
De manera más estadística, ANOVA es una herramienta para determinar la influencia que
tienen las variables independientes sobre la variable dependiente en un análisis de regresión.
Se puede considerar que el test ANOVA es una extensión de la prueba t-Student y ha sido
utilizada principalmente en el campo de la psicología.
Nos es interesante entonces comparar ambas pruebas. La prueba t nos dirá si existe una
variación significante entre los grupos. La prueba t compara medias, mientras que ANOVA
compara las varianzas entre las poblaciones.
Existen dos tipos de análisis en ANOVA, “One way ANOVA” y “Two way ANOVA”. Esto se
refiere al número de variables independientes en nuestro análisis de varianza. “One way
ANOVA” cuenta con una variable independiente con dos “niveles”, mientras que el “Two way
ANOVA” cuenta con dos variables independientes y múltiples niveles. Con “niveles” nos
referimos a los grupos de estudio en nuestro análisis.
Una vez que hemos definido la prueba ANOVA de manera general, podemos proseguir a
justificarla en nuestro proyecto.
En primer lugar, debe mantenerse en mente que dado que nuestra muestra es mayor a 30
observaciones, podemos asumir normalidad e independencia. Esto asume que en el caso de
que los alumnos lleguen a tener clases con el mismo profesor y en la misma clase, no afecta
el estudio, este punto es de mucho interés, ya que nuestro estudio comprende un muestreo
por conglomerados.
Una vez aclarados estos puntos, proseguiremos con el uso de ANOVA en nuestro proyecto.
Durante el análisis exploratorio de los datos obtenidos, se encontró una respuesta que
impedía el correcto estudio de los datos. El problema se encontraba en que, un alumno de
segundo semestre introdujo una respuesta de texto para nuestra variable de Promedio
Actual, siendo su respuesta “No sé”.
Para tratar este caso de una manera correcta y que no se viera afectada la muestra,
decidimos buscar entradas pertenecientes al mismo estrato, Segundo semestre, que
mantuvieran respuestas muy similares en las demás variables. No fue el caso, puesto que no
habían alumnos que tuvieran un comportamiento suficientemente similar al de nuestro
problema.
Se continuó observando cómo era la población del estrato sin ser afectado por la respuesta a
tratar. Se deseaba entonces observar cómo era la distribución del promedio por cada
categoría.
Obtenemos entonces la variable explicativa que nos devuelve mayor información explicativa
a la variable objetivo. Mediante un contraste de hipótesis, asignamos a nuestra hipótesis nula
la siguiente hipótesis: “El promedio no depende de la respuesta en la respuesta i”, es decir,
que la distribución de la variable promedio se mantiene igual sin importar la respuesta en la
variable i. Se hizo esto para cada variable categórica en nuestro estudio. Se obtiene
entonces un dataframe con el valor de la prueba F y el p-value. Buscamos entonces cuál es
la variable que nos arroja el menor valor del p-value, siendo que esto nos implica que esa
variable es la que nos da una menor probabilidad de equivocarnos al rechazar nuestra
hipótesis nula. Se concluiría que si se rechaza la hipótesis nula, entonces la distribución del
promedio sí cambia dependiendo la respuesta en la variable i.
Finalmente creamos una regresión lineal ajustada a dicho conjunto para generar el valor que
e obtuvo un valor de
correspondería a reemplazar con un promedio, la respuesta “No sé”. S
7.85, que corresponde a su promedio a lo largo de la carrera.