Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

ANOVA Test PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 3

Analysis of variance (ANOVA Test)

El test de análisis de varianzas ANOVA Test, conocido así en inglés, es una forma de
averiguar si los resultados de un experimento o encuesta, son significantes. Es una
herramienta que ayuda a saber si se rechazará la hipótesis nula o se aceptará la hipótesis
alterna.
De manera sencilla podemos decir que ANOVA sirve para saber si hay diferencia
significativa entre dos grupos que se están examinando.

De manera más estadística, ANOVA es una herramienta para determinar la influencia que
tienen las variables independientes sobre la variable dependiente en un análisis de regresión.

Se puede considerar que el test ANOVA es una extensión de la prueba t-Student y ha sido
utilizada principalmente en el campo de la psicología.
Nos es interesante entonces comparar ambas pruebas. La prueba t nos dirá si existe una
variación significante entre los grupos. La prueba t compara medias, mientras que ANOVA
compara las varianzas entre las poblaciones.

Existen dos tipos de análisis en ANOVA, “One way ANOVA” y “Two way ANOVA”. Esto se
refiere al número de variables independientes en nuestro análisis de varianza. “One way
ANOVA” cuenta con una variable independiente con dos “niveles”, mientras que el “Two way
ANOVA” cuenta con dos variables independientes y múltiples niveles. Con “niveles” nos
referimos a los grupos de estudio en nuestro análisis.

Para obtener el valor de nuestra prueba ANOVA utilizamos la siguiente fórmula:

Donde ni es el número de observaciones en el grupo i, ir es el promedio del grupo i, r es el


promedio general de todos los rij.

Una vez que hemos definido la prueba ANOVA de manera general, podemos proseguir a
justificarla en nuestro proyecto.

En primer lugar, debe mantenerse en mente que dado que nuestra muestra es mayor a 30
observaciones, podemos asumir normalidad e independencia. Esto asume que en el caso de
que los alumnos lleguen a tener clases con el mismo profesor y en la misma clase, no afecta
el estudio, este punto es de mucho interés, ya que nuestro estudio comprende un muestreo
por conglomerados.

Una vez aclarados estos puntos, proseguiremos con el uso de ANOVA en nuestro proyecto.
Durante el análisis exploratorio de los datos obtenidos, se encontró una respuesta que
impedía el correcto estudio de los datos. El problema se encontraba en que, un alumno de
segundo semestre introdujo una respuesta de texto para nuestra variable de Promedio
Actual, siendo su respuesta “No sé”.

Para tratar este caso de una manera correcta y que no se viera afectada la muestra,
decidimos buscar entradas pertenecientes al mismo estrato, Segundo semestre, que
mantuvieran respuestas muy similares en las demás variables. No fue el caso, puesto que no
habían alumnos que tuvieran un comportamiento suficientemente similar al de nuestro
problema.

Se continuó observando cómo era la población del estrato sin ser afectado por la respuesta a
tratar. Se deseaba entonces observar cómo era la distribución del promedio por cada
categoría.

Obtenemos entonces la variable explicativa que nos devuelve mayor información explicativa
a la variable objetivo. Mediante un contraste de hipótesis, asignamos a nuestra hipótesis nula
la siguiente hipótesis: “​El promedio no depende de la respuesta en la respuesta i”, ​es decir,
que la distribución de la variable promedio se mantiene igual sin importar la respuesta en la
variable i. Se hizo esto para cada variable categórica en nuestro estudio. Se obtiene
entonces un dataframe con el valor de la prueba F y el p-value. Buscamos entonces cuál es
la variable que nos arroja el menor valor del p-value, siendo que esto nos implica que esa
variable es la que nos da una menor probabilidad de equivocarnos al rechazar nuestra
hipótesis nula. Se concluiría que si se rechaza la hipótesis nula, entonces la distribución del
promedio sí cambia dependiendo la respuesta en la variable i.

Mediante el uso de la librería “SciPy.stats”, que es una librería para el lenguaje de


programación Python de software libre para matemáticas, aprendizaje maquina, estructuras
de datos, ciencia e ingeniería, se obtuvo el siguiente dataframe al utilizar la prueba ANOVA:
Podemos observar que la variable con el p-value más pequeño es la información que tiene el
alumno antes de iniciar la carrea (Infcarr). Siendo así, creamos un subconjunto de nuestro
estrato que cumpla con la característica de haber contestado lo mismo para la variable
“Infcarr”.​ Es decir, los que presentan una respuesta “De acuerdo” para esta variable.

Finalmente creamos una regresión lineal ajustada a dicho conjunto para generar el valor que
​ e obtuvo un valor de
correspondería a reemplazar con un promedio, la respuesta ​“No sé”. S
7.85, que corresponde a su promedio a lo largo de la carrera.

También podría gustarte