Error de Medición
Error de Medición
Error de Medición
- Los índices de fiabilidad informan sobre la calidad de las calificaciones arrojadas por un instrumento. Estos índices permiten conocer cuan exenta de error se encuentra una
medida; por ello, conociendo la fiabilidad, es posible calcular el error de medición y emplearlo para hacer estimaciones de los puntajes de los sujetos
*Fiabilidad: Es la consistencia de los puntajes obtenidos por las mismas personas cuando se les evalúa en distintas ocasiones con la misma prueba, con conjuntos equivalente de
reactivos o en otras condiciones de exanimación.
*Fiabilidad: la medida en que las diferencias individuales en los resultados pueden atribuirse a “verdaderas diferencias” en la variable considerada y el grado en que pueden
deberse a errores azarosos.
-Para determinar si un instrumento es confiable es preciso calcular el índice de fiabilidad, el cual se obtiene de la correlación entre un conjunto de puntuaciones; la magnitud de la
correlación muestra qué porcentaje de la varianza total se debe a la varianza verdadera, y la magnitud restante es producto de la varianza de error o fuentes de error que se pueden
presentar en la construcción, administración y calificación del instrumento.
- la precisión de una prueba puede ser vista de dos maneras; a través de los índices de fiabilidad, y mediante el error de medición
* Propuesta de Spearman: plantea como primer supuesto que, la puntuación empírica (observada u obtenida) de un sujeto en una prueba (que denominaremos X), consta de dos
componentes, la puntuación que verdaderamente le corresponde en esa prueba (que designaremos V), y un cierto margen de error (e): X = V + e
- Esta ecuación indica claramente que cualquier medición realizada contendrá error. Por lo tanto, el interés de la TCT es determinar en qué medida la puntación observada es
puntación verdadera y en qué medida es error. El puntaje de error puede resultar de:
-errores constantes: al afectar a todas las observaciones por igual no influyen en las comparaciones, por lo que no suelen considerarse; sin embargo, este tipo de errores deben
ser tomados en cuenta en el caso de la determinación de la validez.
-errores de eventos aleatorio: afectan a las observaciones de manera distinta, pudiendo provenir de variadas fuentes y constituye lo que se conoce como error de medición; el
cual informa acerca de la discrepancia que existe entre el puntaje obtenido y el puntaje verdadero de una persona, pudiendo afirmarse que suministra una información
complementaria al coeficiente de confiabilidad.
* Error de medición: la noción de replicabilidad; ya que equivaldría a cualquier diferencia observada entre los resultados obtenidos en la administración repetida de un mismo
instrumento.
SUPUESTOS DE SPEARMAN”
“Spearman añadió al modelo el supuesto de que la puntuación verdadera de una persona en una prueba sería la que obtendría como promedio si se le aplicase infinitas veces el
instrumento”
“no existe relación entre la puntuación verdadera de las personas y los errores de medida (rve= 0)”,
-Gempp (2006) plantea que si el resultado obtenido en cada momento, no influye ni es influido por las aplicaciones anteriores o posteriores, se puede asumir al error como una
variable aleatoria continua y esperar que luego de varias mediciones en un mismo sujeto, tenga un promedio igual a cero
*Puntuación Verdadera: resultado promedio de una serie “hipotética” de puntajes observados replicados infinitamente por lo cual, no necesariamente representa al valor real del
constructo.
- La ecuación principal de la TCT no asume que exista alguna variable subyacente a los resultados de las pruebas; lo que implica que el puntaje verdadero (V) no está relacionado
con el concepto de validez. Lo que se plantea desde la TCT es que cualquier prueba tiene asociada una puntuación verdadera, independientemente de que los reactivos que la
componen representen adecuadamente el constructo. En conclusión una prueba puede ser confiable sin ser válida.
-TCT se derivan algunos corolarios que permiten extender el primer supuesto, a una situación en la que se analizan las respuestas de un grupo de evaluados, en lugar de un caso
individual.
1. ERROR DE MEDICIÓN
- Si los errores son aleatorios y no correlacionan con el puntaje verdadero ni entre sí, la varianza de los puntajes observados a través de los evaluados correspondería a la suma de
las varianzas verdadera y de error: var (x) = var (v) + var (e). Se indica que no se analiza entonces la variabilidad intrasujeto sino que se analizan las variaciones de las
puntuaciones interindividuales. Por lo que no hay forma de resolver la ecuación y determinar el valor de la varianza de error.
-Es posible llegar a fórmulas operativas para la estimación de los errores (e), y por lo tanto de los puntajes verdaderos (V) de los sujetos. Esto conduce a la conceptualización de la
confiabilidad como la razón entre la varianza de los puntajes verdaderos y la varianza de los puntajes observados; es decir, la confiabilidad estima cuánto de verdadero hay en las
puntuaciones observadas. rxx² = var (v) / var (x). La puntuación de cada evaluado en la distribución observada, es la misma que su puntuación verdadera, la varianza observada
será la misma que la de los puntajes verdaderos, y la varianza de error será cero, por la cual la confiabilidad resultaría igual 1.
- Cuando la confiabilidad aumenta, la varianza de error disminuye, lo que equivale a decir que la puntuación observada en un evaluado, se aproxima a su puntuación verdadera.
- si la varianza de error aumenta, los puntajes observados constituyen una mala estimación de los puntajes verdaderos. Cuando todo el puntaje observado de un sujeto es puntaje
de error, la varianza de los puntajes verdaderos será igual a cero y la varianza de los puntajes de error será la máxima e igual a la varianza observada, con lo cual la confiabilidad
resultaría equivalente a cero. rxx’ = 1 – var (e)/ var (x)
- A medida que la varianza de los puntajes de error disminuya la confiabilidad aumentará y viceversa
- La estimación empírica puede obtenerse a través de varias estrategias, dentro de las que destacan: a) la correlación entre dos formas paralelas de la prueba, b) la correlación entre
dos mitades aleatorias de la prueba, que luego es corregida mediante la fórmula de Spearman-Brown, y c) la correlación entre dos aplicaciones de una misma prueba a una
muestra de personas.
Las propiedades del coeficiente de confiabilidad, expresado en las dos ecuaciones anteriores son las siguientes:
Se deriva de la ecuación planteada en el primer supuesto de la TCT, por lo cual no es estrictamente calculable a partir de los datos.
Su máximo valor es 1, cuando toda la varianza observada es atribuible a la varianza verdadera.
Su mínimo valor es 0, cando no existe varianza verdadera y toda la varianza observada es debida a la varianza de error.
*Confiabilidad: el coeficiente de determinación de la correlación entre los puntajes verdaderos y observados (Gempp, 2006), si lograra controlarse artificialmente todas las
fuentes de varianza de error; en otras palabras como la proporción de varianza de los puntajes verdaderos explicada por la varianza de los puntajes observados. rxv = √rxx’
- Informa la medida en que los puntajes observados representan a los puntajes verdaderos. Cuando la confiabilidad de la prueba resulta baja también lo será su índice de
confiabilidad y los puntajes verdaderos estarán pobremente representados por los puntajes observados; pero si la confiabilidad es igual a 1, la puntuación verdadera se puede
predecir con exactitud desde las puntuaciones observadas.
- Muñiz (1998) señala que para cualquier valor de confiabilidad, la correlación entre los puntajes observados y verdaderos siempre será mayor que esta; por ello dentro de la TCT
se plantea que la puntación observada de cualquier prueba siempre correlacionará más alto con su puntuación verdadera que con el puntaje observado, de otras pruebas.
- Las ecuaciones de confiabilidad presentadas es que no permiten estimar el índice de confiabilidad, dado que requieren conocer previamente, la varianza de los puntajes
verdaderos o de error, los cuales son las cantidades que se desean estimar a partir de los puntajes observados.
“la confiabilidad no puede calcularse directamente, los distintos métodos y coeficientes sólo constituyen aproximaciones al índice”
- Gempp (2006) explica que dada la dependencia muestral de los estadísticos de la teoría clásica, la consecuencia es que los coeficientes de confiabilidad obtenidos en cualquier
estudio representan simplemente la confiabilidad de los puntajes de los evaluados que participaron en el estudio y no son representativas del instrumento sino de los individuos.
- aun cuando el coeficiente de confiabilidad indica la consistencia, estabilidad o equivalencia de los puntajes observados en una prueba, no informa directamente la cantidad de
discrepancias (error) que pueden esperarse entre unas mediciones y otras; lo cual se obtiene a partir del error de medición.
*Error de Medicion: señala el tamaño del error que se acepta cometer cuando se asume la puntuación observada como la verdadera, resultando un indicador preciso de cuán cierta
es la estimación del puntaje verdadero.
Según Magnusson (1975), para conocer el tamaño del error de medición se puede partir de una de dos hipótesis:
Errores diferentes para diferentes puntajes verdaderos: Este supuesto plantea que los errores se encuentran representados por los desvíos típicos de la
distribución de los puntajes verdaderos de un solo individuo alrededor de su puntaje verdadero.
- un test puede considerarse una muestra de ítems seleccionados al azar de una población, de la cual pueden derivarse infinitos test paralelos al azar. Asimismo, un sujeto
puede resolver un número de ítems de la población de donde se escogió la muestra. La proporción que ellos representan para ese individuo “j” es la probabilidad de que los
reactivos que puede resolver sean incluidos en la prueba, lo cual se denota como pj. De este modo, el puntaje verdadero a estimar es: Tj = n(pj)
- magnitud del error, esto significa que pruebas con el mismo número de ítems deberán tener un error estándar promedio, sin importar que sean test de diferente naturaleza.
- el tamaño del error estándar de medida, mientras más extremo sea el valor del puntaje verdadero más pequeño será este error. Cuando este índice sea empleado para
establecer intervalos de confianza, se debe tener en cuenta que está basado en las suposiciones de que los test paralelos son extraídos de una población infinita de ítems
paralelos, que el número de reactivos que un sujeto puede contestar varía de un test paralelo a otro, aún cuando provengan de la misma población y que no se toman en cuenta
las fuentes de varianza de error. No debe calcularse el error de medida a partir de este modelo para tests con límites de tiempo, ya que se basa en pruebas paralelas extraídas
de una población de reactivos paralelos
Errores iguales para diferentes puntajes verdaderos: Los errores se encuentran expresados por la dispersión de los puntajes obtenidos en torno a una calificación
verdadera fija (la misma para todos los test paralelos).
- Se indicará la variabilidad esperada de las calificaciones obtenidas en torno a las puntuaciones verdaderas.
- el tamaño del error de medición será el mismo para todas las pruebas paralelas y por ende, para todos los individuos que las presentan; será independiente de la magnitud del
puntaje verdadero y es mayor mientras más varíen los puntajes obtenidos respecto a los verdaderos.
- La ecuación de la confiabilidad se puede derivar una ecuación para computar el tamaño del error. En la ecuación, Sx representa el valor de la desviación típica de los
puntajes observados para la misma muestra de sujetos en los cuales se estimó la confiabilidad. De este modo, cuando la confiabilidad es igual a cero, el error asumirá su
máximo valor; lo que implica que toda la variabilidad observada será explicada por el error. Pero si la confiabilidad es uno, significa que el error de medición asume su
mínimo valor y la varianza observada será explicada en su totalidad por la varianza verdadera. Em = Sx √1 – rxx²
- una propiedad importante del error de medición, es que se expresa en las mismas unidades de escala que las puntuaciones de la prueba, lo que facilita su interpretación
directa. Sin embargo, resulta incorrecto hacer comparaciones entre los errores de pruebas cuyos puntajes se expresan en unidades diferentes.
- el error de medición se relaciona de forma particular con la longitud de la prueba y la homogeneidad de la muestra. En este sentido, el error se ve afectado por variaciones en
la longitud de la prueba; cuando se aumenta la cantidad de reactivos que conforman un instrumento, se incrementa la probabilidad de que los errores aleatorios se cancelen
entre sí, reduciéndose con ello el error de medición
- Respecto a la homogeneidad, el error resulta independiente de la variabilidad de la muestra para el cual se calculó, pues como es una característica del instrumento es el
mismo independientemente de si el grupo es heterogéneo u homogéneo.
Eliminación: Consiste en evitar el posible efecto de variables extrañas eliminándolas de la situación de evaluación; por ejemplo, procurando un ambiente exento de
ruidos e interrupciones, permite descartar el posible efecto de esas variables.
Constancia: Se refiere a que cuando la variable extraña no puede eliminarse, debe mantenerse constante para cada una de las condiciones de evaluación, de modo
que afecte por igual a todos los participantes. Esto es lo que se pretende con la estandarización, garantizar la uniformidad de procedimientos de aplicación y
calificación del instrumento; de manera que todos los sujetos sean evaluados en igualdad de condiciones (Mismos materiales, instrucciones, entre otros).
Balanceo: Consiste en equiparar el efecto de las variables extrañas en las distintas condiciones de evaluación, se lleva a cabo cuando no se pueden mantener
constantes las condiciones. Esto podría emplearse si se quiere conocer el posible efecto de la práctica sobre los resultados de las pruebas.
Contrabalanceo: Se refiere a que en situaciones de evaluación en las que se requieren repeticiones, cada condición debe presentarse a cada participante la misma
cantidad de veces y cada condición tiene que ocurrir igual cantidad de veces en cada sesión de práctica. De igual modo, cada condición debe preceder y seguir a
todas las condiciones, la misma cantidad de veces.
Aleatorización: Hace referencia a la posibilidad de que cada uno de los participante tenga la misma probabilidad de ser elegido, se utiliza la mayoría de las veces
cuando no es factible aplicar alguna de las anteriores técnicas de control. Por ello se hace especial énfasis en que la elección de las muestras se lleve a cabo de
forma probabilística.
Por otra parte, según Hernández, Fernández y Baptista (2006), el control se logra mediante dos formas:
Varios grupos de comparación: Es necesario que en las situaciones de evaluación que así lo requieran se tengan por lo menos dos grupos a comparar.
Equivalencia de los grupos: Además de tener más de un grupo es necesario que los grupos sean similares en todos los aspectos. Los grupos deben ser inicialmente
equivalentes y equivalentes durante la situación de evaluación. De igual modo los instrumentos de medición deben ser iguales y aplicados de la misma manera.
Para lograr la equivalencia de los grupos podría utilizarse la técnica del emparejamiento, este proceso consiste en igualar los grupos en torno a una variable
específica, que puede generar influencia en la medición.
- Las formas de control se utilizan para el análisis de los ítems y la validación de algunos tipos de pruebas. Específicamente, los diseños experimentales empleados:
Grupos contrastados : Se seleccionan intencionalmente los miembros de los grupos de modo que los integrantes de uno de ellos posean la variable estimada por la
prueba y los participantes del otro no la posean. Bajo igualdad de condiciones de evaluación se aplica la prueba a los dos grupos y se somete los datos a un análisis
estadístico, esperando que la mayoría de las personas que poseen la variable se comporten de una manera y quienes no poseen tal variable lo hagan distinto
Diseños pre-postest: Se selecciona un solo grupo de participantes al cual le administra la prueba, luego lo somete a alguna manipulación efectiva de la variable
medida por el instrumento (tratamiento o condición) y posteriormente se aplica la misma prueba o una forma paralela. Se espera que si la prueba evalúa la variable
estimada, los evaluados obtengan una ejecución distinta en el pretest que contrasta con su ejecución en el postest.
- Del error de medición es que previene el énfasis inadecuado en una sola puntuación; permitiendo considerar los resultados de una prueba psicológica como bandas de
calificaciones y no como puntos exactos; de manera que, cuanto más bajo resulte el error de medición más precisa resultará la estimación del puntaje verdadero, ya que el
rango donde se encontrará el mismo será corto. Existen varias estrategias para estimar el puntaje verdadero a partir del observado; sin embargo, sólo dos se consideran
legítimas: la aproximación tradicional y la aproximación basada en regresión.
- Error de medición: se analiza como cualquier otra desviación estándar, de manera que puede emplearse para interpretar las calificaciones individuales. De este modo,
conociendo el error de medición con un grado conocido de confianza, se pueden determinar los límites dentro de los cuales se encontrará el puntaje verdadero de un sujeto
que obtuvo un puntaje obtenido determinado, lo cual ha sido denominado intervalo de confianza.
- los errores de medida son independientes de las calificaciones verdaderas que representan, independientes entre sí, y distribuidos normalmente, la desviación estándar puede
usarse para determinar los intervalos de confianza y puede interpretarse de la misma forma que cualquier otro error estándar.
- Regresión lineal es posible, igualmente, hacer una estimación puntual de la calificación verdadera y además construir un intervalo de confianza. De acuerdo con Gempp
(2006) para emplear este método es necesario conocer, además de la confiabilidad y la desviación típica de los puntajes observados, el promedio obtenido por el grupo de
referencia en el cual se calculó la confiabilidad de las calificaciones.
- Esta aproximación está basada en un principio simple: el puntaje observado guarda una relación lineal con el puntaje verdadero. De este modo, si la confiabilidad fuera igual
a 1 (lo que equivaldría a la ausencia de error) los puntajes observados se corresponderían perfectamente con los verdaderos. En dicha situación habría una relación de
identidad entre ambos puntajes (X=V) para cualquier valor de la distribución y la recta de regresión tendría una pendiente igual a 1. A medida que la confiabilidad disminuye,
la pendiente de la recta de regresión también disminuye; tiende a ser más horizontal.