Medrano. Pp. 51-66 67-78 89-100

Manual de 2da edición
ampliada y corregida
til rt
ú
án A'lJfi
^Bditorkl Brujas
i'Y'ti»'' -A
'M ■ Táiirstii..
/'/. /i
Leonardo Medrano y Edgardo Pérez
Alberto Luis Fernández; María Marta Morales; María

Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia
Griñbuliére, Luis Pedro Morera; Lucas Lapuente; Carlos Spontón;
Estanislao Castellano; Ezequiel Flores Kanter; Mauricio Zalazar y
Javier Sánchez Rosas
Manual de Psicometría y
Evaluación Psicológica
BIBLIOTECA
UNIVERSIDAD de PALERMO
-|gE()itori¿ií Brujas
■o\
<;ev)ALOAaoN> (b»CA")<;;(4 0^' y
Título: Manual de Psicometría y Evaluación Psicológica

Compiladores: Leonardo Medrano y Edgardo Pérez
Autores: Leonardo Medrano y Edgardo Pérez; Alberto Luis Fernández; María Marta Morales;
María Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia Griffouliére, Luis Pedro
Morera; Lucas Lapuente; Carlos Spontón; Estanislao Castellano; Ezequiel Flores Kanter;
Mauricio Zalazar y Javier Sánchez Rosas
Medrano, Leonardo A.
Manual de psicometría y evaluaddn psicológica / Leonardo A Medra-
no : Edgardo Pérez. - 2a ed ampliada. - Córdot»; Brujas, 2019.
yWSIDAOOEPALERMO BIBLIOTECA
300p. ; 25x17 cm.
ISBN 978-987-760-203-6
1. Psicologia. 2. Psicometría. I. Pérez. Edgardo, 11. Titulo.

CDD 150.15195
Osó s^s
Procedencia: Govn^ppt^
© De todas las ediciones, los autores
Feclia ds ingreso: Os/o? f
© 2019 Editorial Brujas
1° Edición.
Impreso en Argentina
ISBN: 978-987-760-203-6
Queda hecho el depósito que marca la ley 11.723.

Ninguna parte de esta publicación, incluido el diseño de tapa, puede ser reproducida,
almacenada otransmitida por ningiín medio, ya sea electrónico, químico, mecánico,
óptico, de grabación o por fotocopia sin autorización previa.
-ijEáitoriíií BrMjíis Miembros de la CÁMARA

ARGENTINA DEL UBRO
ENCUENTRO
Grupo Editor
www.editorialbrujas.com.ar publicaclones@edÍtorialbru]as.com.ar
Tel/fax: (0351) 4606044/4691616- Pasaje España 1486 Córdoba-Argentina.
f\ Normas Psicométricas: Evidencias de Validez
1 Leonardo Medrano y Edgardo Pérez
Introducción
En el capítulo 1 definimos a los tests como un procedimiento por me

dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. Tal como señalamos el razo
namiento implícito es que, si la muestra de comportamientos seleccionados
(ítems) son representativos del dominio que se pretende medir, entonces el
puntaje obtenido por un sujeto en el test puede generalizarse a todo el domi
nio (figura 1).
Dominio
1 -«I--
Test
i 1-2-3-4-5
jC^'í j i—N--N
'';c)c^)YPA-Va y
r 1
( .íY'-'"
Figura 1. Representación del proceso subyacente en un test psicométrico.
Ahora bien, la pregunta que debemos hacernos es ¿qué garantías tene

mos de que la muestra de comportamientos que seleccionamos es representativa
del dominio que pretendemos medir? De hecho, es difícil determinar las ca
racterísticas de una muestra de elementos de un test para que sea representati
va, en cuanto a extensión y variedad de contenidos, del dominio o constructo
que la prueba intenta medir.
Puede ocurrir, por ejemplo, que al construir un test el investigador se
leccione conductas que no son propias del dominio delimitado (figura 2).
Supongamos que se intenta desarrollar una prueba para evaluar el nivel de
extiaversión, es decir, en qué medida una persona es sociable, le gusta asistir a
fiestas, hacer bromas, conversar con otras personas, entre otras características.
51
Puede ocurrir que el investigador cometa el error de elegir comportamientos
que no son representativos del constructo, como, por ejemplo: "me gusta
escuchar música y bailar" o "cuando salgo me gusta tomar alcohol". Si bien
estos comportamientos pueden estar asociados con la extraversión (es pro
bable que a una persona extravertida le guste la música o tomar alcohol), no
son representativos del dominio de interés. En consecuencia, el puntaje que
se obtiene del test no representa adecuadamente el constructo que se está mi
diendo, y, por ende, cometeríamos un error al generalizar los puntajes de la
pmeba a todo el dominio.
Dominio
Test
puntaje Total:
OWnOW
Figura 2. Representación de errores en la selección de elementos que compo

nen la muestra de comportamientos del dominio que se intenta medir.
Cuando los ítems que componen una prueba no representan adecuada

mente el dominio que se intenta medir decimos que las puntuaciones obte
nidas no son válidas. El concepto de validez es el más importante en la teoría
de los tests, y en términos generales hace referencia a que 'V/ test mide lo (]ue
pretende medir".
Delimitación del concepto de Validez

La definición habitual de validez es 'V/ grado en que una prueba mide
lo que pretende medir" (Hogan, 2004). De esta manera puede afirmarse que
las puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba (figura 1). Sin
52
embargo, pueden ocurrir diferentes errores en la selección de los elementos
de la prueba que lleven a que la muestra de comportamientos no represente
adecuadamente el constructo que se pretende medir, es decir, no se obtengan
puntuaciones válidas.
Por ejemplo, puede ocurrir que el investigador seleccione comporta
mientos que no son representativos del dominio (figura 2). La inclusión de
ítems que no reflejan el constructo lleva a que las puntuaciones de la prueba
se vean contaminadas con ítems sobre constructos que no se pretenden medir,
y por ende no se realicen inferencias adecuadas sobre el dominio de interés.
Seleccionar ítems que no provienen del constructo se denomina inclusión de
varianza. irrelevante del constructo, ya que la variabilidad del puntaje total de
la prueba se ve influenciada por respuestas sobre procesos ajenos al verdadero
propósito de la medición. Otro error habitual es el de seleccionar comporta
mientos que no cubran la totalidad del constructo (figura 3), generando una
sub-7-epresentació}2 del constructo.
Dominio
•( 1 N
Test
yPuntaje Total:!
\ I ¡' '-q- /
---S 'v_.- ' ^vP ''
Figura 3. Ejemplo de sub-representación del constructo que se pretende medir.
Como señala la APA (1999) la sub-representación del constructo alude

a que la prueba no capta aspectos de importancia del dominio que se pretende
medir. Retomando el ejemplo anterior, puede ocurrir que al construir una
prueba para evaluar extraversión solo incluyamos comportamientos referidos
a las "habilidades conversacionales", sin incluir otros comportamientos típi
cos de la extraversión como, por ejemplo, tener muchos amigos, ser asertivos,
buscar emociones positivas, evitar estar solos o ser despreocupados. Este tipo
de errores afecta la validez de las puntuaciones del test.
Antes de continuar con el desarrollo del capítulo es importante realizar
dos aclaraciones. La primera es que resulta impreciso referirse a la validez
53
de una prueba, ya que la validez es una propiedad de sus puntíiaciones (APA,
1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re
sultar o no válidas dependiendo del propósito con que se utilicen. No basta
con preguntarse ¿es el lAMI es una prueba válida?, sino que es necesario for
mularse cuestionamientos tales como ¿es válido utili2:ar las puntuaciones del
LAMI para examinar el perfil de autoeficacia para inteligencias miiltiples? ¿las
puntuaciones del LAMI permiten pronosticar la elección de carrera de estu
diantes del último año del secundario? En segundo lugar, es importante des
tacar que la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Esta concepción de validez se refleja en las Normas para Tests Psicoló
gicos y Educativos(APA, 1999), donde se define a la validez como la adecua
ción, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests. De esta manera, la validez sería un concepto unitario
y refiere al grado en que la evidencia empírica apoya estas inferencias. I-a
APA (1999) propone cinco evidencias de validez'. 1) evidencias basadas en el
contenido del test, 2) evidencias basadas en la estructura interna del test, 3)
evidencias basadas en el proceso de respuestas, 4) evidencias basadas en las
relaciones que las punmaciones del test presentan con variables externas, y 5)
evidencias relacionadas con las consecuencias de su aplicación. A continua
ción, se desarrollan cada una de estas evidencias, detallando el procedimiento
involucrado, los coeficientes estadísticos que se utilizan y brindando ejemplos
aplicados de cada una de ellas.
Evidencias de validez: descripción de procedimientos, estadísticos asociados

y ejemplos de aplicación.
Evidencia basada en el contenido del test

Este tipo de evidencia se obtiene demostrando que el contenido del test
(es decir, los ítems) son una muestra representativa del constructo o dominio
que se pretende medir. Tal como señalamos, la existencia de variaitza irrele
vante en las puntuaciones puede llevar que las inferencias que hacemos sobre
el dominio no sean correctas. Debemos brindar evidencias que garanticen
que la muestra de comportamientos que seleccionamos representan adecua
damente el dominio de interés.
El procedimiento más utilizado para recabar este tipo de evidencia se
centra en el juicio de expertos. Básicamente consiste en identificar expertos en
el dominio que pretendemos medir y solicitar que cada uno de ellos evalúe de
forma independiente (es decir, sin conocer el análisis que realizarán los otros
jueces), el grado en que el contenido del test es relevante y representativo del
54
dominio. Posteriormente, mediante un procedimiento estadístico se analiza
el acuerdo de los jueces y se determina cuáles son los ítems que representan
adecuadamente el constructo y cuáles no.
Por ejemplo, un equipo de investigación dirigido por Moretti desarrolló
un test con el objetivo de evaluar pensamientos negativos asociados a los exámenes
(Maurino, Vicente, Medrano y Moretti, 2017). Este constructo refiere a pensa
mientos que se dan de forma automática, con contenidos negativos, que gene
ran preocupaciones excesivas, dificultad para pensar en forma clara y disminu
ción de la confianza. Para elaborar im test que midiera este dominio realizaron
entrevistas a alumnos analizando que tipos de pensamientos solían tener antes
de un examen. A continuación, seleccionaron una muestra de pensamientos y
redactaron ítems preliminares. Posteriormente identificaron jueces expertos en
el tema y les solicitaron que realizaran una evaluación de los ítems considerando
su pertinencia para representar al constructo. Además,se les pidió que evaluaran
la calidad de los reactivos utilizando una escala numérica comprendida entre
1 y 5 (el puntaje de 5 es el más alto e indica ima alta calidad mientras que el
puntaje de 1 representa una baja calidad). Finalmente, se les solicitó que ana
lizaran aspectos formales vinculados a la redacción de los mismos (sintácticos,
por ejemplo). En la tabla 1,se expone un ejemplo de la guía que se proporcionó
a cada uno de los jueces que participó de la revisión de los ítems.
Tabla 1 Ejemplo de guía para revisión de ítems por parte de expertos
ítems
, ^ . Calidad
Pertinencia .,
f ®
formales o Observaciones
del Item .
sintácticos :3
"Es muy SI 5 Adecuado

difícil, no voy
a lograrlo"
"Me voy a SI Adecuado

quedar en
blanco"
"Seguro que SI Inadecuado La palabra "libre" puede
me quedo interpretarse de diferentes formas.
libre" Sería más adecuado decir "seguro
que desapruebo el examen"
"Soy un NO Tal como está redactado el ítem
fiacasado" pareciera que refleja aspectos
vinculados a la autoestima, y no a
un pensamiento negativo ante un
examen.
"Seguro me SI Adecuado
toman lo que
no sé"
Una vez recabada la información de cuatro jueces independientes se

calculó la Vde Aiken para evaluar el nivel de acuerdo entre los jueces. Dicho
coeficiente puede variar entre "O" y "1", debiendo alcanzar al menos un valor
55
crítico V = .50 para ser considerado aceptable (Aiken, 1985). Sin embargo,
estudios más recientes sugieren considerar valores V superiores a .70 (Soto y
Segovia, 2009). En el ejemplo seleccionado se estableció como criterio que
solo se incluirían en el test aquellos ítems que hayan obtenido valores V su
periores a .70. Los ítems con puntajes inferiores fueron eliminados o refor-
mulados, con el fin de garantizar que el contenido de los ítems represente
adecuadamente el constructo que se pretende medir.
Evidencia basada en la estructura interna del test

Para muchos especialistas esta es la evidencia más importante que se
debe aportar para garantizar la validez de las puntuaciones de una prueba. El
análisis de estructura interna consiste en determinar si los ítems se agrupan en
las dimensiones teóricas propuestas. El procedimiento utilizado para obtener
esta evidencia es el análisisfactorial, una técnica estadística multivariada que
permite analizar las inter-relaciones entre un grupo de variables observables
(ítems) e identificar factores comunes subyacentes.
Especificidad Especificidad
Variable 1 / Variable 2
Variable 2
Variable 1
Comunidad o
Rasgo latente en común
Figura 4. Representación del factor latente común entre dos variables observables.
La lógica del análisis factorial proviene de un concepto desarrollado por

Galton. Según este autor, el hecho de que dos variables se encuentran relacio
nadas entre sí se debe a que ambas poseen algo en comtin y algo que las dife
rencia. Ese factor común fue denominado por Galton como rasgo latente .
De esta forma,si un conjunto de variables se encuentran relacionadas entre si,
significa que poseen un factor o rasgo latente en común que explica en parte
la varianza de las variables (figura 4).
El análisis factorial permite agrupar las variables o ítems que se corre
lacionan fuertemente entre sí, y cuyas correlaciones con las variables de otros
agrupamientos es menor. De esta forma es posible identificar la existencia de
factores subyacentes en un conjunto de variables (figura 5). Por este motivo es
56
que el análisis factorial constituye una técnica útil para aportar evidencias de
que "se mide lo que se pretende medir".
Factor 1 Factor 2
Figura 5. Agrupamiento de los ítems según factores subyacentes identificados mediante

análisis factorial.
En otras palabras, la evidencia de estructura interna (también deno

minada validez de constructo) consiste en verificar estadísticamente que los
ítems se agrupan tal como teóricamente se había predicho (Carretero-Dios y
Pérez, 2005). Por ejemplo,supongamos que estamos desarrollando un instru
mento para medir Inteligencias Múltiples. El modelo teórico de las Inteligen
cias Múltiples señala que existen ocho tipos de inteligencia. Si los ítems de mi
prueba son una muestra representativa del constructo que se pretende medir,
al realizar un análisis factorial de los ítems éstos deberían agruparse en ocho
factores. En caso de realizar un análisis factorial y observar que los ítems se
agrupan en dimensiones distintas a las que teóricamente deberían agruparse,
entonces la muestra de comportamientos que conforman la prueba no refle
jan adecuadamente el constructo que pretendo medir. Por el contrario, si los
ítems se agrupan en las ocho dimensiones que se proponen teóricamente, se
obtienen evidencias favorables de validez.
Tomemos otro ejemplo a partir de un estudio realizado para adaptar la
Escala de Afecto Positivo y Negativo(PANAS; Moriondo, De Palma, Medrano
y Murillo, 2012). Tradicionalmente se ha conceptualizado a las emociones po
sitivas y negativas como dos polos de la misma variable (es importante señalar
que cuando hablamos de positivo o negativo solo hacemos referencia a su valor
hedónico, es decir, si son agradables o desagradables; no debe confundirse esta
57
denominación con buenas o malas ya que las emociones desagradables también
son necesarias para un buen funcionamiento psicosocial). De esta forma existi
ría un polo compuesto por emociones tales como la alegría, entusiasmo e interés
(afecto positivo), y otro polo compuesto por emociones tales como la tristeza,
el miedo o la ira (afecto negativo). Sin embargo, la evidencia proveniente de es
tudios empíricos y neurocientificos sugieren que más que tratarse de una única
dimensión, se trata de dos factores distintos. Es decir, que el afecto positivo y
el negativo serían dos factores independientes entre sí, por lo cual disminuir los
niveles de emociones negativas no implica que aumenten las emociones positi
vas. Se trataría por lo tanto de un modelo bidimensional, y no sólo de dos polos
de una misma dimensión (modelo unidimensional). Por lo tanto, si el PANAS
efectivamente evalúa afecto positivo y negativo desde un modelo bidimensio
nal, entonces al realizar un análisis factorial, los ítems deberían agruparse en dos
factores y no en uno solo. Los resultados obtenidos en este trabajo (figura 6)
corroboraron que a partir del patrón de covariación existente entre los ítems, se
identifican dos factores subyacentes.
Tabla 1 Saturación íáaorial de los reactivos del PANAS (matriz rotada)

Factor
ítems del PRANAS 1 2
Interesado 0.43
Afligido 0.59
Excitado 0.35
Disgustado 0.52
Fuerte 0.49
Culpable 0.63
Asustado 0.71
Hostil 0.48
Entusiasmado 0.47
Orgulloso
Irritable 0.53
Alerta 0.43
Avergonzado 0.56
Inspirado 0.53
Nervioso 0.65
Decidido 0.64
Atento 0.58
Intranquilo 0.58
Activo 0.56
Temeroso 0.72
Figura 6. Resultados del análisis factorial del PANAS (extraído de Moriondo, De Palma. Me-
drano y Morillo. 2012).
58
Al inspeccionar las cargas factoriales de cada ítem se aprecia que por
un lado se encuentran las emociones positivas, y en un factor distinto se en
cuentran las emociones negativas. Dado que los ítems se agruparon en las
dimensiones predichas a nivel teórico, entonces se obtienen evidencias sobre
la validez de la medición.
Evidencia basada en elproceso de respuesta

Este tipo de evidencia es poco utilizada en comparación a las anteriores.
Básicamente consiste en analizar la congruencia entre el constructo medido y
la naturaleza del rendimiento o respuesta emitida por los examinados (APA,
1999). El proceso para la obtención de este tipo de evidencia implica el uso
de entrevistas en profundidad con los examinados y cualquier procedimiento
que permita el análisis de las respuestas individuales a los ítems de un test. El
objetivo es examinar las estrategias de respuesta de las personas y analizar su
congruencia con el constructo que se pretende medir. El estudio de los pro
cesos involucrados en las respuestas de los examinados, permitiría esclarecer
si factores irrelevantes o accesorias están influyendo en las respuestas de los
participantes, y, por ende, afectando la validez de las puntuaciones para refle
jar el constructo en estudio.
En un estudio realizado por Maifei, Sponton, Sponton, Castellano y
Medrano (2012), por ejemplo, se efectuaron entrevistas en profundidad para
analizar el proceso de respuesta implicado en un instrumento que evalúa au-
toeficacia profesional. Este constructo refiere a las creencias que poseen los
trabajadores en sus propias capacidades para llevar a cabo, de manera exitosa
actividades asociadas a su profesión. Se ha observado que dichas creencias ac
túan frente a los estresores laborales disminuyendo o aumentando el malestar
psicológico. En general los trabajadores con mayores creencias de autoeficacia
son menos vulnerables al estrés crónico. Según Bandura (2001), la fuente
de mayor importancia en la elaboración de los juicios de autoeficacia son las
experiencias de ejecución previa, de esta manera las personas tienden a sen
tirse más capaces cuando cuentan con experiencias previas de éxito. Por ello
al momento de responder a un ítem de este instrumento (por ejemplo seré
capaz de resolver problemas difíciles en mi trabajo si lo intento )se esperaría
que el examinado recurra a información disponible en su memoria episódica
para analizar experiencias previas de éxito o fracaso vinculadas a este tipo de
situaciones. Este proceso se evaluó en las entrevistas en profundidad. Con
cretamente se solicitó a 15 trabajadores que respondieran a los ítems y que
explicitaran el proceso mental involucrado en la respuesta. Algunas de las
afirmaciones obtenidas fueron:
"me empiezo a acordar de otras veces que tuve un problema parecido y si pude resol
verlo... en general los resuelvo bien por eso puse un puntaje alto"
59
"para responder a esta pregunta me pongo recordar lo que me dice mi supervisor, por
ahí me corrige mucho y creo que eso hace que no tenga tanta confiansM"
"Yo mefijo en lo que dicen mis clientes, si ellos estdn satisfechos eso significa que hice
un buen trabajo y que soy bueno en lo que hago".
"Tengo mucha experiencia en este trabajo, hace más de 20 años que trabajo en estoy
he aprendido mucho... por eso creo que soy bastante bueno"
Como puede observarse, existe una congruencia entre el proceso men

tal implicado en las respuestas y el constructo que se pretende medir, ya que
como postula la teoría, los juicios de autoeficacia se elaborarían en gran me
dida de un análisis que hace el sujeto de sus experiencias previas de éxito o
fracaso. Esto constituiría, por lo tanto, otra evidencia de que el test mide lo
que pretende medir.
Evidencias basadas en las relaciones que las puntuaciones del testpresentan

con variables externas
El análisis de las relaciones de las puntuaciones del test con variables
externas constituye otra fuente importante de evidencia. Dentro de esta cate
goría suelen diferenciarse tres procedimientos: a) evidencias de relación test-
criterio, b) evidencias convergente-discriminante, y c) grupos contrastados(o
también denominada grupos conocidos).
La evidencia basada en las relaciones "test-criterio consiste en correla
cionar las puntuaciones de la prueba con un criterio externo, es decir, una
medida directa e independiente que el test intenta predecir. Por ejemplo, una
medida criterio para una prueba que evalúa aptitudes o inteligencia podría
ser el rendimiento académico obtenido por el alumno al final del cursado, o
para una prueba que evalúa depresión el diagnóstico que efectúa un terapeuta
mediante una entrevista estructurada. De la misma forma, una medida crite
rio para una prueba que evalúa motivación laboral puede ser el rendimiento
que reporta el supervisor del examinado. Es decir, que las medidas criterio
hacen referencia a una variable que puede medirse de manera independiente
al test y que teóricamente se encuentra relacionada con el constructo de inte
rés. De esta forma, si se corrobora que el test se relaciona con un criterio (con
el que teóricamente debería estar relacionado), entonces estamos obteniendo
evidencias de que el test mide lo que dice que mide.
Dentro de este tipo de evidencias se pueden diferenciar dos procedi
mientos, uno de tipo predictivo y otro concurrente. La diferencia entre ambos
procedimientos radica sobre todo en el tiempo que transcurre entre la admi
nistración del test y la medición del criterio. Cuando se utiliza un abordaje
predictivo (también denominado validez predictiva) se espera que la prueba
60
pronostique el valor que tendrá la medida criterio en el futuro. Por lo tanto,
debe transcurrir un tiempo entre ambas mediciones. Por el contrario, cuando
se realiza un estudio de tipo concurrente (también denominado validez concu
rrente) se analiza la concordancia entre las puntuaciones obtenidas en la prue
ba y la condición actual del examinado en otra variable o criterio. Es decir que
la medición se realiza de forma simultánea. Tal como señala Hogan (2004)
la diferencia radica entonces en el tiempo en que se mide la variable criterio.
Un ejemplo de validez predictiva se puede observar en una investiga
ción realizada por Medrano, Moretti, Ortiz y Pereno (2014), en donde se
recaban evidencias de validez para un Cuestionario de regulación emocional.
Este constructo refiere a toda estrategia (voluntaria o involuntario) que con
tribuye a mantener, aumentar o disminuir un estado afectivo en curso. Así,
la rumiación (pensar excesivamente sobre un evento displacentero) o la ca-
tastrofización (tener pensamientos que enfatizan o agradan las consecuencias
negativas de un evento) son estrategias automáticas que pueden aumentar
los niveles de ansiedad de una persona. En contrapartida, estrategias como
la reinterpretación positiva (pensamientos que otorgan un significado posi
tivo al evento displacentero) o poner en perspectiva (relativizar la gravedad
de un evento comparándolo con otros o analizando su impacto a lo largo
del tiempo), pueden generar una disminución de un estado emocional desa
gradable. Para recabar evidencias de validez predictiva se administró el test y
varias semanas después se evaluó el nivel de ansiedad que los alumnos presen
taban en un examen. Si la prueba efectivamente mide lo que dice que mide,
entonces debería poder pronosticarse los niveles de ansiedad a partir de las
puntuaciones de la prueba. Los resultados obtenidos al utilizar un coeficiente
de correlación de Pearson, corroboraron que existía una relación significativa
entre los niveles de rumiación (?• =.22) y catastrofización (r =.45) con los ni
veles de ansiedad que experimentaban los alumnos durante el examen. Como
estos resultados son coherentes con los esperados a nivel teórico, se obtienen
evidencias que indican que el test mide lo que dice que mide.
Un ejemplo de validez concurrente se observa en un estudio realizado
por Moretti, Medrano y Basler (2015) que tuvo por objetivo aportar eviden
cias de validez para una escala de locus de control del dolor. Este constructo
hace referencia a la creencia que posee la persona acerca de la relación entre
su conducta y los niveles de intensidad del dolor. Se trata de una variable de
importancia en personas que padecen dolor crónico ya que quienes poseen
mayor locus de control interno (creencia de que el nivel de dolor se asocia a
mi propio comportamiento) suelen mostrar mayor proactividad en acciones
beneficiosas para la salud que incluyen conductas de autocuidado, manteni
miento de habilidades de la vida cotidiana y, en consecuencia, menor inten
sidad del dolor. Por el contrario, mayor locus de control externo (creencia
de que el nivel de dolor no se asocia con mi comportamiento) se relaciona
61
con un peor afrontamiento y malestar psicológico, aumentando los niveles
de intensidad del dolor. Para recabar evidencias de validez concurrente se ad
ministró el cuestionario de locus de controljunto a un test que evalúa inten
sidad percibida del dolor. Los resultados obtenidos mediante el coeficiente
de correlación de Pearson indican que las personas que tenían puntuaciones
más elevadas de locus de control externo también presentaban mayor nivel
de dolor (r =.15). En consecuencia, se obtienen evidencias favorables sobre la
validez de las puntuaciones del test.
Es importante señalar que el comportamiento humano resulta dema
siado complejo como para esperar que a partir de los resultados de una única
prueba se logre una predicción exacta de un criterio. Por ello las correlacio
nes esperables en este tipo de estudio suelen ser moderadas, vale decir que
coeficientes de correlación significativamente distintos de cero y con valores
aproximados a .30 ya son aceptables. Actualmente la mayoría de las investi
gaciones realizadas para verificar la utilidad predictiva de las puntuaciones de
un test utilizan un enfoque multivariado puesto que permite esclarecer las
mterrelaciones entre un conjunto de predictores y un criterio, y no solamente
las relaciones entre una única variable predictora y un criterio. Mediante mé
todos multivariados como el análisis de regresión múltiple podemos estimar
cuanto se incrementa la precisión de las predicciones cuando un test se incluye
en una batería de tests en comparación con las ocasiones en que no se incluye
(Aiken, 2003). Este tipo de evidencia de validez se denomina incrementa!,
pero debido a su complejidad no será trabajada en el presente capítulo.
Un segundo tipo de procedimiento habitualmente utilizado para reca
bar evidencias mediante variables externas es la evidencia convergente-discrimi-
nante. Esta evidencia consiste en correlacionar las puntuaciones del test que
se pretende validar con las obtenidas en otros test que evalúan constructos
semejantes (validez convergente) o diferentes (validez discriminante o diver
gente). Se espera así que la prueba presente correlaciones más altas con el test
que mide un constructo semejante, que con aquellos que miden un construc-
to diferente.
En un estudio desarrollado por Medrano y Trógolo (2014), por ejem
plo, se correlacionaron las puntuaciones obtenidas en un cuestionario de difi
cultades en la regulación emocional con una prueba que evalúa extraversión y
otra que evalúa neuroticismo.
62
CwTflsiaonís avre!os ¿fírcues¡¿aores M DERS\ los rasgos ¿t murcdásna y ccraiojíán
Factoru 1 2 3 4 5 6 7 5
I Falta de acK>aaíner.ocona! » 0J9'* -034** om OJl»* 035** 0.43* ^114*
2 Intenere-idaenconduaosdajodasanietas ♦ -031** 0.11 0J5« 035« 03?« ^£0
3 Diác'jIadesenelccr.addíuTOuUoí 0 ■03?* •031** 0.4'* -0.12
4 Falta de conaciaa emjccrjJ - 035« 0.16* 0.b"* ^^31**
5 Falta de clar.dad e.T.K;iral .
0.1?** 0.4?** -O-IS**
6 Azcíio Imtado a etaategta! de tegulaasa emcconal . 03** -034**
7 Neacdá'rr.o . -036**
S Es3averi:ón ♦
*p < 0.05. < 0.01 (bilateral).

Fuerte: elaboración propia
Figura 7. Extracto del artículo de Medrano y Trógolo [20U| sobre evidencias de validez con-
vergente-discriminante.
Si las puntuaciones del test realmente evaliian dificultades para regular

emociones, entonces las puntuaciones deberían presentar una correlación po
sitiva con los niveles de neuroticismo (tendencia a la inestabilidad emocional
y a presentar estados emocionales displacenteros) y una correlación negativa
con los niveles de extraversión (tendencia a la sociabilidad, despreocupación
y búsqueda de emociones positivas). Los resultados (figura 7) son coheren
tes con los esperados a nivel teórico, obteniéndose evidencias favorables de
validez.
Un último tipo de procedimiento utilizado para recabar evidencias me
diante variables externas es la evidencia mediante grupos contrastados o también
denominada de grupos conocidos ("know-group validity")- En este caso el
criterio consiste en la pertenencia un determinado grupo. Este tipo de evi
dencia tiene sentido cuando existen argumentos teóricos como para suponer
que las puntuaciones de una prueba deberían variar entre dos o más grupos.
Es decir, donde el investigador ya conoce que entre dos grupos determinados
cabría esperar una diferencia de puntuaciones. El procedimiento consiste en
administrar la prueba en ambos grupos y luego comparar sus puntuaciones
mediante un procedimiento estadístico (t de Student o Análisis de Varianza,
por ejemplo). En caso de corroborarse la existencia de una diferencia esta
dísticamente significativa en las puntuaciones de dichos grupos (y con una
magnitud atendible), se obtienen evidencias de que la prueba mide lo que
dice que mide.
63
Tablas
Comparación de puntuaciones del STAI entre población general(n = 791)y hospita-
laria(n-242)
Grupos
General Hospitalaria
M DE M DE t
Ansiedad estado 6.16 5.63 7.63 6.91 -3.01"

Ansiedad rasgo 13.33 7.08 16.67 8.16 -5.74"
Bienestar estado 19.40 6.19 17.59 7.01 3.61"
Bienestar rasgo 14.97 3.92 14.20 4.41 2.44*
DE: desviación estándar: M: media.
Figuras. Extracto del artículo de García-Bastista et al. (2017) sobre evidencias de validez
mediante grupos contrastados.
En un estudio desarrollado por García-Bastista et al. (2017) se compa

raron las puntuaciones obtenidas en el STAI (una prueba que evalúa la ansie
dad rasgo-estado) entre una muestra de población general y otra de población
hospitalaria, esperando observar mayores niveles de ansiedad en ésta última.
Los resultados obtenidos (figura 8) fueron coherentes con los esperados a ni
vel teórico, obteniendo evidencias favorables de validez.
Evidencia de las consecuencias de la aplicación de tests

Esta liltima fuente de evidencia es bastante controvertida. Según la APA
(1999) no basta con afirmar que la prueba es válida, sino que también debe
efectuarse un análisis sobre las consecuencias sobre el uso y las interpretacio
nes que se realizarán a partir de la prueba. Según Hogan (2004), el interro
gante central en este tipo de evidencia seria: ¿Cuáles son las consecuencias,
resultados o repercusiones que puede tener el uso de este instrumento?
Por ejemplo, cuando se desarrolló el SESA-U (expuesto en el capítulo
2 del libro) los autores indicaron que: "el SESA-U constituye un sistema de
evaluación valido y confiable para la población de ingresantes universitarios.
Sumado a ello, al ser un sistema informatizado permite una evaluación mas
eficiente del colectivo de ingresantes, facilita una administración rápida y ac
cesible incluso en estudiantes que cursan a distancia, genera informes diag
nósticos de forma automática y permite trabajar con grandes colectivos de
alumnos. Asimismo, el SESA-U sirve como punto de partida para diagramar
intervenciones apropiadas a las demandas de cada ingresante en particular".
Si los autores desean proporcionar evidencias basadas en las consecuencias de
la aplicación del instrumento, deberían desarrollar nuevos estudios tendientes
a demostrar que efectivamente el SESA-U constituye una evaluación más efi-
64
cíente o que proporciona información para brindar intervenciones a ingresan
tes universitarios. Si se obtienen resultados que sustentan dichas afirmaciones
(por ejemplo, se corrobora que se logra una intervención más eficaz sobre
los alumnos al utilizar el test), entonces se obtienen evidencias favorables de
validez.
Este tipo de evidencia no se encuentra exenta de críticas, dado que mu
chos autores sostienen que las consecuencias de las aplicaciones de una prueba
no afectan directamente la validez de sus puntuaciones. Por lo cual, la validez
de las consecuencias no sería un concepto psicométrico legítimo. No obs
tante, otros autores sostienen que se trata de una evolución del concepto de
validez. En todo caso lo que queda claro es que la polémica sobre la validez de
las consecuencias continuará durante algún tiempo (Hogan,2004).
A modo de síntesis
En términos generales la validez hace referencia al "¿Wo en que una

prueba mide lo que pretende medir". De esta manera puede afirmarse que las
puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba. Sin embargo, es
importante aclarar que la validez es una propiedad de sus puntuaciones(APA,
1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re
sultar o no válidas dependiendo del propósito con que se utilicen. Por otra
parte, la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Según la APA (1999) existirían cinco evidencias de validez". 1) evidencias
basadas en el contenido del test, 2) evidencias basadas en la estrucmra interna
del test, 3) evidencias basadas en el proceso de respuestas, 4) evidencias ba
sadas en las relaciones que las puntuaciones del test presentan con variables
externas, y 5) evidencias relacionadas con las consecuencias de su aplicación.
Una síntesis de dichas evidencias se expone en la tabla 2.
65
Tabla 2. Síntesis de métodos y evidencias de validez propuestas por la APA (1999)
Métodos Contenido Estructura ! Proceso de Variables ProccMlImiento

Inteiua | Respuesta Extemas EstadtBttsi»^£go|ucrado
Juicio de V de Aiken
,'l'áv VHf
Expertos
Análisis ■M i* . Análisis Factorial
Factorial
Entrevista en Análisis Cualitativo

Profundidad
Test-Criterio
IL. X r de Pearson; Regresión
Múltiple
Convergente- X r de Pearson
Discriminanle
Grupos X t de Student. Análisis de

Contrastados Varianza
' j
Ci'"--
0 ■ >
* i'
•jip ,
66
Normas Psicométricas: Confiabilidad
Leonardo Medrano
Introducción
En el capítulo 1 definimos a ios tests como un procedimiento por me

dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. En el capítulo anterior des
tacamos la necesidad de garantizar que la muestra de comportamiento selec
cionada representa adecuadamente el dominio que se pretende medir, y, por
ende, que las puntuaciones de la prueba constituyen una medida válida del
constructo (figura 1). En este capítulo haremos hincapié en la segunda parte
de la definición de test, es decir, que la muestra de comportamiento es obteni
da y calificada empleando un proceso estandarÍ2^do. En efecto, durante el pro
ceso de administración, calificación e interpretación de una prueba pueden
ocurrir errores que lleven a que los puntajes del test sean inestables y sesgados
afectando la confiabilidad de la medición.
Dominio
/'',*1C) i ~ jf P C Test
fij1-2-3-4-5
O 1-2-3-4-5
01-2-3-4-5
<yr"^u ^(fi) 1-2-3-4-5
^Puntaje TotahfBB";
^ ) riO K
Figura 1. Representación del proceso subyacente en un test psicométrico.
Errores de medición y confiabilidad: Aproximación histórica y

conceptual
En términos generales, la confiabilidad hace referencia al grado en que

las puntuaciones de la prueba se encuentran libres de error. Aunque la validez
constituye la norma psicométrica más importante en la teoría de los test, es un
prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta
por ítems que reflejan adecuadamente el constructo, pero si el examinador
comete errores al administrar la prueba, o al interpretar sus puntuaciones,
entonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba. Esto puede ocurrir cuando los evaluadores utilizan
diferentes criterios para puntuar una misma prueba, por ejemplo, si uno de
los evaluadores es más "exigente" que otro respecto a las respuestas que con
siderará correctas. También puede ocurrir que el evaluador cometa errores en
la corrección de la prueba, tales como calificar accidentalmente las respuestas
de una prueba de opción múltiple al utilizar una grilla de corrección inco
rrecta. Otra fuente de error pueden ser las variaciones en la administración
de la prueba. Por ejemplo, si los evaluadores explican una misma consigna
de forma diferente, o cometen errores al dar las instrucciones de la prueba, o
administran la prueba en condiciones físicas inadecuadas (un lugar con poca
luz o mucho ruido, por ejemplo).
Las condiciones personales temporales del examinado también pueden
constituir una fuente de error. Supongamos que aplicamos la misma prueba
a una misma persona en diferentes ocasiones. Lo más probable es que las
puntuaciones de una ocasión a otra varíen ya que las condiciones temporales
de los examinados pueden ejercer una influencia no sistemática en sus pun
tuaciones. Puede ocurrir por ejemplo que un día se encuentre más cansado,
o tenga hambre, o se encuentre más enojado, triste o nervioso. Es decir, el
rasgo que se pretende medir (por ejemplo, inteligencia) no ha cambiado, las
condiciones de administración y la prueba son las mismas, pero los puntajes
cambian de una ocasión a otra debido a que la condición personal temporal
ha influido en las puntuaciones.
Todas estas leves variaciones van introduciendo errores que afectan la
precisión de la medición. En este marco surgen los siguientes interrogantes ¿Es
posible lograr una medición libre de error?¿De qué manera podemos determinar
el nivel de error de una medición y evaluar su impacto en las puntuaciones de ¡a
prueba?
El interrogante acerca de la precisión de los instrumentos y herramien
tas que utilizamos para aproximarnos a la realidad, constituye uno de los
problemas centrales de la filosofía de la ciencia y especialmente de la psico-
metría. El largo camino que conduce a los actuales coeficientes estadísticos de
confiabilidad {reliability en inglés), comienza en la astronomía del siglo XVII.
Los astrónomos observaban que sistemáticamente aparecían diferencias entre
las observaciones que realizaban mediante sus telescopios (Maradi, Archenti y
Piovani, 2007). En función de ello, se comenzó a hipotetizar que dichas dife
rencias se debían a fallas en las herramientas o personas que las manejaban. Es
decir, comienza a considerarse el problema de la precisión de los instrumentos
y herramientas utilizadas en el ámbito científico.
El primer ensayo sobre "fallas en la observación" es un artículo del ma
temático Thomas Simpson publicado en el año 1757. Posteriormente, aprin-
cipios del siglo XIX, el matemático Gauss recolectó una serie de registros
realizados por diferentes observatorios astronómicos europeos. Su objetivo
consistía en confrontar los resultados de observaciones repetidas del mismo
fenómeno para cuantificar la precisión de dichos instrumentos. A partir de
sus investigaciones, Gauss observó que las fallas de medición se distribuían de
una manera normal (figura 2).
Recién en el año 1904, el psicólogo Spearman propone un modelo para
abordar esta problemática. La teoría clásica de los tests(TCT)es un modelo
lineal de medición formulado por Spearman y posteriormente consolidado
por Thurstone (1935) y Gulliksen (1950). Su hipótesis fundamental es que la
puntuación observable de una persona en un test es una función de dos com
ponentes: su puntaje verdadero y el error de medición implícito en la prueba.
El postulado esencial de la TCT se expresa como:
PO = PV + E
Donde, PO refiere al puntaje observado, PV al puntaje verdadero y E

al error de medición. Esta función lineal indica que cuanto mayor sea el va
lor de E mayor diferencia existirá entre el puntaje observado y el verdadero.
También podemos derivar de la misma función que el error puede ser defini
do como la diferencia entre la puntuación verdadera y la observada. Es decir
que refiere a todos aquellos factores aleatorios que llevan a que la puntuación
observada no refleje el rasgo o constructo psicológico que se pretende medir.
E = PV - PO
Según la TCT, la puntuación verdadera sería la puntuación que se ob

tendría de la medición del rasgo o constructo psicológico sin la influencia de
error. Matemáticamnte se plantea el supuesto de que si se aplicara la prueba
infinita veces se obtendrían diferentes puntajes observados debido a los fac
tores de error o de inestabilidad. La distribución de estos infinitos puntajes
observados serían normal (figura 2), ya que en algunos casos las fuentes de
error afectarían negativamente, y en otros casos positivamente. Teóricamente,
el puntaje verdadero sería el promedio que hipotéticamente se obtendría de
las infinitas puntuaciones observadas. Obviamente este procedimiento nunca
se realiza*y no logra determinarse con certeza cuál es la puntuación verdadera.
En la práctica solo se obtiene la puntuación observada y a partir de ella de
bemos inferir la puntuación verdadera. Sin embargo, a lo largo de la historia
se han desarrollado diferentes métodos para estimar la magnitud del error, es
decir, cuanta diferencia podría haber entre la puntuación observada y verda
dera de una persona.
Frecuencia con que se
obtienen diferentes PO
ip
Vz/yy/y
Figura 2. Distribución hipotética de las puntuaciones observadas [PO] en torno a la puntua

ción verdadera.
El mismo Spearman es quien propone el primer método para medir la

confiabilidad de un test, el cual consiste en calcular un coeficiente de correla
ción entre dos conjuntos de datos obtenidos por la aplicación repetida de una
misma prueba (Buela-Casal y Sierra, 1997). Es decir, si aplicamos un mismo
test en dos momentos diferentes y luego correlacionamos sus puntuaciones,
obtendremos un coeficiente de confiabilidad del mismo. Esta técnica es co
nocida en la actualidad como el procedimiento test- retest. A principios de
1930, se propuso una técnica aún más sencilla. La misma consistía en aplicar
un solo test y luego dividir al mismo por la mitad para correlacionar am
bas partes. Este procedimiento conocido como partición en mitades, sufrió
fuertes críticas por parte de numerosos psicometristas, quienes consideraban
que la división en dos partes resultaba demasiado arbitraria. De esta manera,
podrían obtenerse diferentes coeficientes de confiabilidad según el criterio
utilizado para partir en mitades la prueba (Maradi, Archenti y Piovani, 2007).
Los psicometristas norteamericanos Kuder y Richarson propusieron a
finales de la década del '30, una técnica que superaba las limitaciones de los
coeficientes de confiabilidad formulados hasta ese momento. El coeficiente
KR 20 propuesto por estos autores calculaba la correlación entre todas las
respuestas del test, siempre y cuando éstas fueran dicotómicas. Finalmente,
esta última limitación fue superada por el coeficiente alfa (a) propuesto por
Cronbach en el año 1951, el cual no exigía las restricciones de calificación
dicotómica de los reactivos.
En el año 1999, la APA definió a la confiabilidad como el nivel de exac
titud o precisión de una medición, es decir, en qué medida las puntuaciones
de un test están libres de errores de medición. En otras palabras, refiere a la
consistencia entre los puntajes de un test, obtenidos por los mismos indivi
duos en distintas ocasiones o entre diferentes conjuntos de ítems equivalentes.
De manera semejante a como ocurre en la validez, la confiabílidad es
una cuestión de grado, y no existe un único procedimiento que permita es
timar todos los errores de una prueba. Ello se debe a que existen diferentes
fuentes de inestabilidad o error. Por este motivo suelen considerarse diferentes
dimensiones de la confiabílidad. A continuación, se expondrán tres procedi
mientos que se utilizan habitualmente para determinar el impacto de alguna
fuente de inestabilidad sobre las puntuaciones. Ninguno de estos procedi
mientos permite evaluar de manera "integral" a la confiabílidad, sino que
brinda información sobre alguna de sus dimensiones. Las dimensiones reco
nocidas por la APA (1999) son la estabilidad, consistencia interna y confiabi-
lidad inter-examinadores.
Dimensiones y métodos para verificar La confiabílidad
Estabilidad
En esta dimensión se pretende evaluar el grado en que el puntaje obser
vado está libre de errores causados por cambios en las condiciones personales
temporales del examinado (estado de ánimo, nivel de motivación o cansancio,
por ejemplo), y por variaciones en las condiciones de administración de la
prueba (condiciones físicas de la administración, por ejemplo). Cuando las
puntuaciones de una prueba no se ven seriamente afectadas por estas fuentes
de inestabilidad decimos que las puntuaciones son estables. Los procedimien
tos sugeridos para evaluar la estabilidad son el método test-retest, y el método
Atformas equivalentes {K^K, 1999).
El método consiste test-retest es el más utilizado para evaluar la estabili
dad. Consiste en admnistrar el mismo test en dos oportunidades a la misma
muestra de sujetos, con un intervalo de tiempo intermedio. Posteriormente
se calcula la correlación entre los puntajes obtenidos en la primera y segunda
administración. Cuando se obtienen valores elevados de correlación (valores r
de Pearson en torno a .80), significa que los puntajes obtenidos en la prueba
no se alteran sustancialmente por variaciones en las condiciones personales o
por las condiciones de administración.
A modo de ejemplo, para evaluar la estabilidad del lAMI se administro
la prueba a una muestra de 119 sujetos y un mes después los mismos suje
tos respondieron nuevamente al inventario. Los puntajes obtenidos en ambas
aplicaciones fueron correlacionados (r de Pearson). Los resultados obtenidos
(figura 3) indicaron niveles óptimos de estabilidad para alguna de sus escalas
(valores r superiores a .80) y aceptables para otras (valores r superiores a .70).
Tabla 2: Coeficiente de coirelación (test-retest) de cada escala del inventario
Escalas
Intrapersona!
Naturalista
Lingüística
Matemática
Espacial
Cinestésica
Musical
Interpersonal
Figura 3. Extracto del artículo de Pérez. Beltramino y Cupani (20031 sobre la estabilidad del
lAMI.
El intervalo entre el test y el retest es un factor crítico a considerar. Si

el lapso de tiempo es muy prolongado se corre el riesgo de que las diferencias
entre las puntuaciones se deban a cambios reales en el rasgo examinados más
que a deficiencias en la confiabilidad del test. Además, debe contemplarse
el constructo que se está evaluando. Por ejemplo, si el constructo medido es
"estado de ánimo" es esperable que se observen variaciones entre las medicio
nes debido a que se trata de una variable que fluctiía temporalmente. Por el
contrario, si trabajamos con rasgos estables (como personalidad o inteligen
cia) los intervalos pueden ser amplios, de meses o incluso años. Asimismo,
debe considerar la población involucrada. Si el estudio se realiza con niños
pequeños, se recomienda que el intervalo sea brve ya que durante esta etapa
del desarrollo se observan cambios de gran velocidad en la mayoría de las
variables psicológicas.
Un problema que presenta el método test-retest ocurre cuando se uti
lizan pruebas de ejecución máxima (pruebas de habilidades o neuropsicoló-
gicas, por ejemplo). Ello se debe a que la práctica previa con la prueba o el
recuerdo de los ítems, pueden afectar el rendimiento en el retese. Una alter
nativa para controlar el efecto de la práctica y la memoria es el uso deformas
paralelas o equivalentes. Este método exige contar con dos formas o versiones
de la misma prueba que sean muy similares en cuanto a la cantidad de reac
tivos, límites de tiempo y especificaciones de contenido, entre otros factores
(Hogan, 2004). El procedimiento es semejante al de método test-retest, pero
esta vez en vez de administrar la misma prueba en dos ocasiones se adminis
tran diferentes formas en cada ocasión (figura 4).
Figura 4. Diagrama de los métodos Test-Retest y Formas Equivalentes.
El estudio realizado por Navarro et al. (2015), constituye una adecuada

ilustración del procedimiento de formas equivalentes. Estos autores se pro
pusieron desarrollar versiones equivalentes del Fototest, una prueba neurop-
sicológica muy breve que utiliza imágenes para evaluar deterioro cognitivo o
demencia. Debido a que la aplicación repetida de la misma prueba podía in
ducir mejorías en el rendimiento producto de la práctica previa, desarrollaron
una versión equivalente. Como puede observarse en la figura 5} los ítems de
cada versión son distintos pero equivalentes entre sí. Los autores corroboraron
la equivalencia de dichas versiones, y consecuentemente, la estabilidad de las
puntuaciones del test.
Rpüia5.'«««•. l
Figura 5. Versiones equivalentes del Fototest

(extraídas de Navarro et al., 2015)
Cabe destacar que el método deformas equivalentes es más completo que

método de test-retest ya que permite evaluar la influencia de mayores fuentes de
inestabilidad. No solo contempla las variaciones en las condiciones personales
temporales del examinado o las variaciones en las condiciones de administra-
ción, sino que además considera variaciones en el contenido de la prueba. Es
por ello que se lo considera un método adecuado para evaluar las dimensiones
de estabilidadj consistencia interna de una prueba. A pesar de sus ventajas es un
procedimiento poco utilizado en psicometría por la sencilla razón de que son
pocas las pruebas que cuentan con versiones paralelas (Hogan, 2004).
Consistencia Interna
Esta dimensión de la confiabilidad consiste en determinar si las dife

rentes partes del test evalúan el mismo constructo, vale decir, si son homo
géneas. Tal como señala Hogan (2004), la homogeneidad (del griego hornos,
que significa "misma" y genos, que significa "clase") refiere al grado en que los
reactivos o ítems de una prueba son iguales en términos de lo que miden. La
fuente de inestabilidad que se intenta examinar en esta dimensión es la refe
rida a las variaciones en el contenido de los ítems o errores en el muestreo de
ítems, y resulta especialmente relevante cuando utilizamos el puntaje total de
la prueba (es decir, la sumatoria o promedio de los ítems). Supongamos que
una prueba incluye ítems que evalúan razonablemente bien el rasgo medido,
pero también incluye ítems que por variaciones en su contenido o por un
error en el muestreo examinan otro constructo. En consecuencia, al calcular
el puntaje total del test obtendremos una medida compuesta por ítems que
examinan adecuadamente el rasgo e ítems que examinan otra cosa, generando
que la puntuación de la prueba pierda precisión. La homogeneidad de una
prueba es deseable en tanto permite una interpretación relativamente directa
del rasgo examinado (Cohén y Swerdlik, 2006).
Como señala Kline (1983), es importante que una medida sea auto-
consistente por la sencilla razón de que, si las diferentes partes que componen
una prueba no se relacionan entre sí, entonces es probable que estén midien
do cosas distintas. El énfasis que se otorga a la consistencia interna implica
que de no ser consistente la prueba, sus puntuaciones reflejarán diferentes
constructos y por ende no serán válidas. No obstante, como veremos más
adelante, existen muchas críticas y posiciones que disienten sobre la relevancia
de esta dimensión.
Los procedimientos para evaluar la consistencia interna de un test son:
el método deformas equivalentes(descripto anteriormente), el método de par
tición en mitades, y los métodos basados en la covariación de ítems.
El método de partición en mitades fue muy popular, pero en la actuali
dad se encuentra prácticamente en desuso. El mismo analiza la consistencia
interna dividiendo la prueba en dos mitades comparables, y correlacionando
las puntuaciones obtenidas en ambas mitades. En caso de obtenerse correla
ciones elevadas, se corrobora que las diferentes partes de la prueba examinan
el mismo constructo. Sin embargo, esta metodología adolece de dos grandes
limitaciones. En primer lugar, los criterios para obtener las dos mitades son
arbitrarios y en algunos casos la división de la prueba puede generar mitades
no comparables (por ejemplo, si se trata de una prueba de dificultad crecien
te). Pero la segunda limitación es aún más preocupante, ya que como pueden
establecerse diferentes criterios para dividir la prueba (ítems pares vs. impares,
los primeros ítems vs. los últimos, división aleatoria, etc.), podrían existir tan
tos coeficientes de confiabilidad como posibilidades de división de la prueba.
Esto llevaría a que una misma prueba pueda presentar múltiples índices de
consistencia interna.
Los métodos basados en la covariación de ítems son los más utilizados en
la actualidad para estimar la consistencia interna de ima escala. El coeficiente
Alfa de Cronbach (para ítems politómicos) y las fórmulas Kuder-Ricbardson
(para ítems dicotómicos) son los procedimientos estadísticos preferidos para
examinar esta dimensión. A diferencia del método de partición en mitades
que solo correlacionaba dos partes de la prueba, analizan la intercorrelación
promedio entre todos los reactivos. Dicho de otra manera, producen una
estimación del promedio de todos los posibles coeficientes obtenidos por par
tición en mitades (Hogan, 2004).
En la actualidad, el coeficiente alfa de Cronbach es el estadístico más
citado para obtener una estimación de la consistencia interna de los test psico
lógicos. De hecho, se estima que el artículo de Cronbach (1951) se cita cerca
de 325 veces por año en diferentes investigaciones realizadas en el ámbito de
las ciencias sociales (Liu y Zumbo, 2007). El coeficiente alfa permite evaluar
que tan similares son el conjunto de ítems de una prueba determinada. A
diferencia del coeficiente de Pearson que fluctúa entre —1 y +1, el coeficiente
alfa varía típicamente en un rango entre O y 1 (Aiken, 2003). Esto quiere de
cir que la similitud de un agrupamiento de ítems va a variar entre O (no hay
similitud entre los reactivos) hasta 1 (los reactivos son idénticos).
Existe cierta disparidad entre los autores respecto a los valores que debe
presentar dicho coeficiente para considerar que la escala es consistente. Por
ejemplo, Nunnally y Bernstein (1994) consideran que un valor de a =.95
debe ser la norma aceptable. Por el contrario. Manzano y Tobio (2003) seña
lan que un valor de alfa superior a .90 s demasiado alto e indica redundancia
de reactivos. En general, se acepta que estimaciones de .80 o superiores son
consideradas entre moderadas y elevadas, mientras que puntajes cercanos a
.70 resultan aceptables (Hogan, 2004). Los mismos criterios se utilizan para
interpretar las puntuaciones del coeficiente KR-20 de Kuder-Richardson.
Un ejemplo del uso de esta metodología puede observarse en un estu
dio de Medrano yTrógolo (2016). En dicho trabajo se analizó la consistencia
interna de una serie de escalas que componen el DERS (Diíficulties in Emo-
tion Regulation Scale). Un instrumento que examina diferentes estrategias de
regulación emocional, como, por ejemplo, aceptación emocional o control de
impulsos. Los resultados obtenidos mediante el alfa de Cronbach (a) sugieren
que cada una de las escalas que componen el instrumento son consistentes
(figura 6), es decir, sus ítems son homogéneos en términos de lo que miden.
No. of Cronbach's Range of ítem Range of
inte ritem
Ítems Alpha total correlations

coirelations
NONNACEPTANCE 6 " 0.84 0.56-0,62

0.56 -0.62 0,43 - 0.64
0.43 0,64
• ' _ CLARITY 4 0.73
0.73 0.47 -0.56
0.47-0,56 0.30 -- 0.50
0,30 0.50
GOÁLS _ "5
" 5_"" 0.81
0.81 0.39 -- 0.69
0.39 0,69 0.31 -- 0,64
0,31 0,64
: _ IMPULSE 6 0.87 0.43 -0,79
- 0,79 0,35 -0.80
- 0.80
PROCESSING 10 0.82 0.33 • 0.64 0.31 - 0,65
RÉSPONSE 11
11 0.88 0.34 -0.70
0.34-0.70 0,15 -
0,15 - 0,80
0,80
Notes: NONACCEPTANCE = Nonacceptance of Emotional Experiences subscale;

CLARITY = Lack of Emotional Cíarity subscale. GOALS = Difficulty Engaging
in Goaí-Directed Behavior subscale: IMPULSE = impulse Control Difficulties
subscale; PROCESSING = Difficulties ín Emotion Processing: RESPONSE =
Difficulties in the Regulation of Emotional Response.
Table 4; Intemal consistency for DERS subscales.
Figura 6. Consistencia interna de las escalas del DERS (extraído de Medrano y Trógolo, 2017).
Acuerdo entre examinadores

En esta dimensión se analiza si el puntaje observado se ve afectado por
errores asociados a la subjetividad del evaluador. En efecto, la calificación e
interpretación de las respuestas de un test deben partir de normas claras y
precisas para disminuir el componente subjetivo presente en toda evaluación.
Si las puntuaciones obtenidas en una prueba dependen de la persona que la
administra, es decir, que el examinador A obtiene una puntuación muy dife
rente al del examinador B, utilizando la misma prueba en la misma persona,
entonces las puntuaciones del test no resultan confiables. Por el contrario, los
individuos deben obtener puntuaciones idénticas en sus ejecuciones indepen
dientemente de quien sea su examinador. El método adecuado para evaluar
esta dimensión es el acuerdo entrejueces.
El método de acuerdo entre jueces es consiste en que una prueba a la
que se somete un grupo de examinados se califica de forma independiente
por diferentes evaluadores. Posteriormente se utiliza un coeficiente estadístico
para correlacionar las calificaciones de los evaluadores (por ejemplo, el coefi
ciente Kappa o el coeficiente de correlación inter-clase). Los valores de dichos
coeficientes se interpretan de la misma forma que los restantes coeficientes
de confiabilidad, es decir, valores cercanos o superiores a .80 son óptimos, y
alrededor de .70 son aceptables (Hogan, 2004).
Naturalmente este procedimiento no se aplica en pruebas de auto-re
porte o en pruebas con formato de opción múltiple. Sólo adquiere importan
cia cuando interviene el criterio del examinador en el proceso de calificación
de la prueba. Por ejemplo, la Escala de Terapia Cognitiva(CTS)constituye una
prueba que evalúa competencias generales y específicas en terapeutas. Me
diante esta prueba se examina la habilidad del terapeuta para conceptualizar
los problemas del paciente desde un marco teórico específico y aplicar técnicas
o métodos terapéuticos congruentes con los objetivos del tratamiento y las ca
racterísticas del paciente. Para calificar la prueba el examinador debe observar
una sesión terapéutica y luego puntuar los comportamienos que se describen
en cada ítem (por ejemplo,"el terapeuta trabajó con el paciente para establecer
un plan apropiado con objetivos específicos adecuado al tiempo disponible",
o "el terapeuta desplegó niveles óptimos de calidez, preocupación, confianza
y autenticidad"). Mientras observa dichas conductas utiliza una escala que va
desde de O (pobre desempeño) a 6(excelente desempeño) para calificar el des
empeño observado. En un estudio realizado por Medrano y Moretti(2015)se
filmaron sesiones de diferentes terapeutas y luego se solicitó a 10 evaluadores
que calificaran a los terapeutas evaluando de forma independiente los mismos
videos. Posteriormente, se efectuó una correlación inter-clase obteniéndose
residtados de .81 para la escala de competencias generales y de .83 para las de
competencias específicas. Sin embargo, algunos ítems presentaron menores
niveles de acuerdo, por lo cual fueron reformulados (figura 7).
Con-elacióu btterclase pco-a competencias generales y especificas.
Sub-escala e Items ICC
Competencias Generales .818

Agenda .643
Feedback .653
Comprensión .692
Efecti\-idad Interpersooal .830
Coopci-ación .744
Tiempo .651
Competencias Especificas .831
Descubrimiento Guiado .628
Focoiising .605
Estrategias para el Cambio .660
-Aplicación de Técnica .809
Tareas .740
Figura 7. Acuerdo entre examinadores para la Escala de Terapia Cognitiva [extraído de Me

drano y Moretti, 201 7).
A modo de síntesis
En términos generales, la confiabilidad hace referencia algrado en que

las puntuaciones de la prueba se encuentran libres de error. Aunque la validez
constituye la norma psicométrica más importante en la teoría de los test, es un
prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta
por ítems que reflejan adecuadamente el constructo, pero si el examinador
comete errores al administrar la prueba, o al interpetar sus puntuaciones, en
tonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba, las variaciones en las condiciones de administración de
la prueba y por condicionespersonales temporales. Tal como ocurre en la validez,
la confiabilidad es una cuestión de grado, y no existe un único procedimiento
que permita estimar todos los errores de una prueba. Ello se debe a que exis
ten diferentes fuentes de inestabilidad o error. Por este motivo suelen conside
rarse diferentes dimensiones de la cofiabilidad. En la tabla 1 se exponen sinté
ticamente los procedimientos recomendados pot la APA (1999). Ninguno de
estos procedimientos permite evaluar de manera "integral" a la confiabilidad,
sino que brinda información sobre alguna de sus dimensiones
Tabla 1. Síntesis de los procedimientos, dimensiones de la confiabilidad.
Test-Retest r de Pearson
Formas r de Pearson
equivalentes
'Partición en r de Pearson con corrección
mitades Spearman-BrowTi
Covariancia de Alfa de Cronbach
ítems KR-20
Acuerdo entre Correlación Inter-clase: Kappa

examinadores
Construcción y Adaptación de Test Psicométricos
Leonardo Medrano, Edgardo Pérez y Alberto Fernández
Introducción
En el presente capítulo se presentan de manera resumida los pasos que

involucra un proceso de construcción y adaptación de un test psicometrico.
Asimismo, se pretende introducir al lector en una problemática a la que se
enfrentan psicometristas argentinos y latinoamericanos; la decisión de adap
tar o construir tests. En efecto, la utilización de tests psicológicos creados en
otros contextos culturales es una práctica habitual sobre todo en regiones con
menor desarrollo científico, tales como Latinoamérica. El uso de una prue
ba desarrollada en un contexto cultural diferente genera múltiples dificulta
des. El idioma, la familiaridad con los estímulos, y la comparabilidad de las
muestras de estandarización son ejemplos de fuentes de posibles sesgos
medición transcultural de constructos psicológicos. Esto Ueva a que no puede
presuponerse que las teorías e instrumentos desarrollados en una cultura sean
válidos en otra.
Un debate frecuente en la investigación psicológica es si los constructos
psicológicos se manifiestan de manera semejante en diferentes grupos ciúm-
rales. Los posicionamientos más radicales en este debate pueden diferenciarse
en dos grupos, aquellos que postulan que los constructos psicológicos poseen
un comportamiento universal y niegan la existencia de diferencias cultur es
(enfoque etic) o bien, aquellos que consideran que cada cultura es única 7
los constructos psicológicos deben indagarse considerando la particulan a
de cada cultura (enfoque emic). En general se acuerda en considerar que a
realización de una medición apropiada debe contemplar aspectos éw/coí y
éticos. No contemplar estos aspectos puede dar lugar a la aparición de sesgos
de medición. Dado que la mayoría de las teorías psicológicas actuales, an
sido desarrolladas en otros contextos culturales, sobre todo en universidades
norteamericanas, los psicometristas de países menos desarrollados se ven en la
necesidad de tener que adaptar pruebas o bien construir nuevos instrumentos
para lograr mediciones válidas y confiables para su contexto cultural.
89
Sesgos, Construcción y Adaptación de Test
Como se mencionó anteriormente, una medición apropiada de un

constructo debe contemplar aspectos étnicos (aspectos o características imiver-
sales) y éticos (aspectospropiosy característicos de una cultura en particular). Por
ejemplo, algunos constnictos en psicología poseen componentes universales
y espeíficos de cada cultura. Tal es el caso de los comportamientos socia
les, ya que algunas conductas sociales se manifíestan de manera semejante en
diferentes culturas (por ejemplo, la expresión facial de emociones básicas),
mientras que otros comportamientos sociales son particulares de una cultura
(por ejemplo, saludar a otra persona inclinando la cabeza, dando un beso o
tomando de la mano). Una prueba que pretenda evaluar apropiadamente los
comportamientos sociales, debería presentar ítems que reflejen tanto compo
nentes emicos, como éticos (figura 1).
No contemplar la existencia de estos componentes puede llevar a la
aparición de sesgos, esto significa que las diferencias observadas en las pun
tuaciones de un test no reflejan las diferencias reales en un rasgo o habilidad,
por el contrario, hablamos de equivalencia cuando las puntuaciones de un test
reflejan diferencias que existen verdaderamente en el rasgo en cuestión.
Po^.)0
cjpDQd
Figura 1. Ejemplos de componentes émicos y éticos en un constructo psicológico
90
Tomemos como ejemplo una hipotética investigación en donde se mi
diese la capacidad de denominar objetos o animales. Si entre los ítems estu
vieran incluidas las figuras de un canguro y un oso koala es más probable que
una muestra de australianos obtenga puntuaciones superiores a las de una
muestra de argentinos. Estos datos no estarían demostrando una mayor capa
cidad de denominación de los por parte de Is australianos, sino que sugerirían
que el indicador empleado en la medición está sesgado. Es decir, existe un ele
mento diferente (la familiaridad con el estímulo presentado en este ejemplo)
a la capacidad (de denominación en este caso) que influye en el desempeño
en la prueba. Entre los sesgos más habituales se encuentran el sesgo de ítem,
el sesgo de constructo y los sesgos metodológicos (Fernández, Pérez, Alderete
y Richaud de Minci, 2015; Van de Vijver y Tanzer, 1997).
El sesgo del ítem es habitual cuando un constructo posee muchos ele
mentos éticos y algunos componentes émicos (figura 2). Este sesgo consiste
en que la mayor parte de los elementos de la prueba son equivalentes en
ambas culturas, pero algunos ítems tienen un significado diferente. De esta
forma, ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un ítem determinado a pesar de obtener un puntaje total similar
en el test.
►Emic
W.'QoQd
Figura 2. Representación de sesgo de ítem.
Por ejemplo, el PANAS constituye un instrtimento desarrollado para

evaluar afecto positivo y negativo indagando sobre diferentes emociones. En
general la estructura de afecto positivo involucra emociones como estar ale
gre, interesado o activo, mientras que el afecto negativo implica emociones
como tener temor, sentirse culpable o nervioso. Esta estructura se ha replicado
en diferentes culturas. Sin embargo, en algunas culturas orientales, sentirse
avergonzado en vez de ser conceptualizado como una emoción displacentera
se asocia al afecto positivo, ya que mostrarse avergonzado se considera una
91
acción honorable. De la misma forma, en algunas culturas confucianas la
expresión de alegría se considera inadecuado ya que implica priorizar un sen
timiento individual por sobre uno colectvo (Keller & Otto, 2009). Estos son
ejemplo de ítems que pueden tener un significado diferente según la cultura,
aunque la mayor parte de los reactivos se mantengan equivalentes.
El sesgo de constructo ocurre cuando el constructo posee muchos ele
mentos émicos y pocos componentes éticos (figura 3). En este caso las di
ferencias culturales no se focalizan en solo algunos comportamientos, sino
que el constructo medido difiere entre una cultura y otra. Por ejemplo, una
variable tan clásica como la inteligencia tiende a ser conceptualizada de muy
diverso modo de unas culturas a otras; mientras en Occidente suele asociarse
a eficiencia y rapidez, en algunas sociedades del Este se asocia con actitudes
reflexivas y reposadas, más que con rapidez(Lonncr, 1990). En consecuencia,
difícilmente una prueba desarrollada en un contexto cultural pueda reflejar de
manera válida el constructo tal como se manifiesta en la otra cultura.
I ►Émic
f » I •
0 •*»»»« é I
V '
■ .*•- n'. //'
/
Etic
Figura 3. Representación de sesgo de constructo.
Finalmente, las diferencias culturales pueden introducir sesgos metodo

lógicos. Este ocurre cuando los factores culturales afectan aspectos metodo
lógicos vinculados a la ejecución de la prueba. Por ejemplo, en países árabes
la lectura se realiza de izquierda a derecha, esto puede afectar la manera en
que se completa algunas pruebas donde la disposición del texto tiene mucha
relevancia (por ejemplo, pruebas de completamiento de frases o cancelación
de letras). El idioma también puede ser fuente de sesgo metodológico, por
ejemplo, Lau y Hoosain (1999) demostraron que los individuos chino-par
lantes rinden más que los sujetos japonés-parlantes en una prueba de cálculo
mental. Estos últimos, a su vez, superan en su desempeño a las personas an-
glo-parlantes. Los autores pudieron demostrar que estas diferencias estaban
relacionadas a la duración de los dígitos cuando son pronunciados, lo que a
92
su vez está vinculado con la memoria de trabajo. La menor duración de los
dígitos en el japonés que en el inglés les otorgaba ventaja a los japoneses y, a
su vez, la menor duración de la pronunciación de los dígitos en chino com
parado al japonés e inglés, les daba ventaja a los chinos sobre los dos grupos
restantes. Este tipo de sesgo metodológico se suele denominar sesgo de instru
mento-, ya que afecta a la totalidad de la prueba.
La existencia de los diferentes sesgos mencionados demuestra que pue
den cometerse graves errores cuando se traslada automáticamente un test
construido en un grupo cultural a otro. Esto lleva a que los psicometristas de
países donde la producción de test es menor,se deban enfrentar con el proble
ma de optar por construir o adaptar una prueba. A continuación, se exponen
de manera sintética los métodos y pasos implicados en cada caso.
Métodos y pasos implicados en la construcción de Test
El procedimiento habitual en la construcción de test implica los siguien

tes pasos: 1) delimitación del dominio del test, características de la población
a la cual va dirigido y estructura formal del test (instrucciones, contenido y
formato de respuesta a los ítems),- 2) redacción de los ítems, 3) revisión de los
ítems por expertos,4)análisis de las propiedades psicométricas (confiabilida ,
validez y establecimiento del método de interpretación), y 5) elaboración e
los materiales definitivos de prueba (manual, cuadernillo de ítems, hoja de
respuesta). El análisis de las propiedades psicométricas (punto 4) se ha desa
rrollado a lo largo del libro, por lo que a continuación nos centraremos en las
fases restantes.
Definición del dominio

La construcción de un test requiere previamente un exhaustivo análisis
conceptual del dominio o constructo a medir. Este análisis implica a se ec
ción y revisión de las teorías más relevantes, rigurosas y contemporáneas en
relación al constructo de interés. Se deben obtener definiciones conceptu es
ajustadas del dominio que se desea medir, así como seleccionarlos indicadores
operacionales adecuados para describirlos.
Lograr una adecuada definición conceptual del dominio y seleccionar
los indicadores operacionales es una tarea muy compleja. Se han desarrollado
diferentes métodos para la elaboración de pruebas. El método de contenido o
también conocido como método lógico y racional, fue uno de los primeros
en desarrollarse en psicometría. Este método no se apela a teorías previas
para la redacción de reactivos, sino que se centra en la validez aparente y el
sentido común. En ejemplo de una prueba desarrollada con este método es el
Woodworth Personal Data Sheet. Sin embargo, en la actualidad es un método
en desuso.
93
Otra metodología tradicional de corte netamente empírico son los métodos de
clave empírica. Básicamente consiste en elegir los reactivos en función de su capacidad
para discriminar entre dos gmpos de referencia. No se parte de un modelo teórico
previo, sino de im pool inicial de reactivos que serán o no incluidos en la prueba en
función de su capacidad para discriminar dos gmpos(normal y clínico, por ejemplo).
El MMPI-II es un ejemplo de un test desarrollado mediante este método.
Con el perfeccionamiento del análisis factorial tomaron fuerzo los métodos de
reducción de datos oarao estrategia para la elaboración de pruebas. Este método con
siste en redactar ítems y examinar las correlaciones entre los reactivos e identificar
factores subyacentes mediante análisis factorial. Posteriormente se asigna un nombre
a los factores identificados que describe el significado de la dimensión subyacente. El
Cuestionario de Intereses Profesionales(CIP)constimye un ejemplo de esta metodo
logía, ya que los faaores obtenidos son empíricos, es decir, no parten de un modelo
teórico previo.
En la acmalidad los métodos de corte empírico "ateóricos" se encuentran en
declive. El método más recomendado para la elaboración de pruebas consiste en par
tir de una clara delimitación concepmal, para luego recabar evidencias empíricas que
permitan determinar su validez. Para ello resulta indispensable partir de un buen mo
delo teórico que describa con claridad no solo el constructo, sino también sus dimen
siones. Las estrategias de análisis, como el análisis factorial confirmatorio, permitirán
determinar si efectivamente el modelo de medición propuesto es plausible. Por ejem
plo, el Inventario de Autoeficacia para Inteligencias Múltiples constituye un buen
ejemplo de esta metodología, ya que parte de un modelo teórico bien delimitado (la
teoría de las ocho inteligencias propuestas por Gardner, 1983), en combinación con
métodos empíricos que aportan evidencias empíricas sobre la validez del modelo.
Antes emprender la redacción de los ítems, es necesario también delimi
tar aspectos complementarios del test, tales como: finalidad y población meta
del test (por ejemplo, un inventario de autoinforme para evaluar el autocon-
cepto en niños), modo de aplicación (individual o colectivo, por ejemplo),
formato de respuesta (dicotómica o tipo lickert, por ejemplo), y tiempo de
administración (duración del test), entre otras consideraciones preliminares
(Hogan, 2004).
Redacción de los ítems

Existen pautas convencionales para la redacción de ítems de tests. Estas
incluyen recomendaciones como redactar ítems congruentes con el objetivo
de medición, evitar ítems demasiados largos (de más de 20 vocablos), evitar
oraciones complejas con ambigüedades de sentido, evitar frases con dobles
negaciones, evitar el uso de expresiones extremas (nunca,siempre, todos), uti
lizar el nivel de dificultad del lenguaje más apropiado al nivel de maduración
y educativo de la población meta de la medición.
Para Nunnally (1991) los dos errores más comunes en la redacción de
94
ítems son la ambigüedad (preguntas vagas que admiten varias respuestas, por
ejemplo,"que pasó con el Arte en el siglo XV?"); y la trivialidad (centrarse en
aspectos poco importantes del constructo o dominio, por ejemplo, requerir
la memorización de fechas irrelevantes). Por su parte Bandura (2001), reco
mienda redactar ítems que consideren diferentes niveles de dificultad, sobre
todo cuando se evalúa autoeficacia o en pruebas de habilidades. Si no hay
obstáculos que superar todos los sujetos tendrán altas creencias de eficacia
en dicha actividad o responderán fácilmente al ítem. En contrapartida, ac
tividades absurdamente difíciles generarán que las personas expresen escasas
creencia de eficacia o no puedan responder correctamente. En cualquiera de
los dos casos los ítems pierden poder discriminativo. Para evitar problemas
de este tipo resulta recomendable redactar ítems con una amplia variedad de
niveles de dificultad.
Finalmente, debe evitarse la redacción de "ítems multidimensionales ,
los cuales se caracterizan por indagar sobre más de una actividad, ej: Cuales
son las creencias sobre tus capacidades para pintar un cuadro y cantar en un
coro". Redacciones de este tipo impiden medir con precisión un comporta
miento específico (Bandura, 2001). En efecto, en el ítem anterior la persona
puede sentirse confundida para responder, puesto que se siente competente
para cantar pero no para pintar, por ejemplo.
Revisión de expertos
La mayoría de los autores recomiendan que los ítems preliminares sean
revisados por expertos, tanto en construcción de pruebas, como en el domi
nio o rasgo a medir (autoeficacia, por ejemplo), y en la población a la cual se
dirije el test (preadolescentes, por ejemplo). Los tres aspectos esenciales que
los expertos deben evaluar en cada ítem son: a) claridad semántica y correc
ción gramatical, adecuación al nivel de comprensión de la población rneta
(niños, por ejemplo), y c) congruencia con el constructo o dominio medido.
Este último es el principal parámetro y hace referencia al grado de con
sistencia que debe existir entre un ítem particular y los constructos a medir
por el test. Los procedimientos empíricos para cuantificar el juicio de expertos
acerca de la calidad de los ítems fueron descriptos en el capítulo de validez
(apartado de evidencia relacionada con el contenido).
Además del juicio de experto siempre es conveniente administrar la ver
sión preliminar de la prueba a una muestra piloto, es decir una muestra de
menor tamaño pero relativamente representativa de la población meta. La
posibilidad de efectuar un estudio piloto permite confirmar si los ítems son
claros y comprensibles para la población meta del test que se esta desarrollan
do. Otro de los aspectos que se suelen evaluar en las pruebas piloto son: 1)
familiaridad con el vocabulario y expresiones utilizadas en los ítems y en las
instrucciones; 2) comprensión de los ítems y de las instrucciones; 3) motiva-
95
ción que genera en los evaluados; 4) el tiempo que insume la aplicación del
instrumento, y 7) análisis de dificultades en la codificación de las respuestas
(Moretti y Medrano, 2012).
Elaboración de bs materiabs definitivos de prueba

Habitualmente el trabajo de construcción de un instrumento fue tan
agotador, que muchos investigadores no desarrollan esta última etapa. Sin
embargo, los psicólogos que se dedican a la construcción de pruebas tiene la
obligación de elaborar un material (un manual, por ejemplo), que propor
cione información adecuada sobre las características técnicas del instrumen
to y una descripción cuidadosa del mismo. Muchas pruebas se publican en
manuales comercializados a través de editoriales (las cuales suelen tener un
catálogo de diferentes pruebas psicológicas). Cuando esto ocurre la editorial
toma los derechos sobre la prueba, y como consecuencia, los ítems solo son
accesibles con la compra del material. No obstante, muchos investigadores
prefieren poner a disposición el manual y los ítems de la prueba para que otros
usuarios e investigadores puedan acceder de forma libre.
Métodos y pasos implicados en la Adaptación de Tests

Actualmente se reconoce que la adaptación de un test es un proceso mu
cho más complejo que la mera traducción a un idioma diferente. Una adap
tación implica considerar no sólo las palabras utilizadas al traducir la prueba
sino también las variables culturales involucradas. La adaptación de una prue
ba no involucra solamente la traducción de los ítems, sino que conlleva una
serie de estudios tendientes a determinar la equivalencia entre las pruebas.
Concretmente los pasos involucrados en la adaptación son: 1) traducción de
la prueba, 2) estudios de equivalencia, 3) análisis de las propiedades psicomé-
tricas (confiabilidad, validez y establecimiento del método de interpretación),
y 4) elaboración de los materiales definitivos de prueba (manual, cuadernillo
de ítems, hoja de respuesta). Los pasos tres y cuatro fueron desarrollados an
teriormente, por lo cual solo se explicarán los dos primeros pasos.
Traducción de la prueba
El proceso de traducción de una prueba es complejo e implica más que
la traducción literal de las palabras escritas a un nuevo lenguaje. Existen dos
métodos fundamentales: la traducción directa (forward translation) e inversa
(backward translation). En el método de traducción directa un traductor o,
preferentemente, un grupo de traductores, traducen el test desde el idioma
original al nuevo idioma. Luego otro grupo de traductores juzga la equivalen
cia entre las dos versiones. De este modo pueden realizarse las correcciones
96
pertinentes a las dificultades o errores identificados. En el caso de la traduc
ción inversa, el más utilizado de los métodos, un grupo de traductores realiza
una traducción desde el idioma original al nuevo idioma; luego un segundo
grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a
traducirlo al idioma original. Seguidamente, se realizan las comparaciones
entre la versión original y la versión retraducida al idioma original para deter
minar su equivalencia. Ambos métodos poseen ventajas y desventajas que no
serán analizadas en este texto introductorio. El lector interesado en profundi
zar esta problemática específica puede consultar el texto clásico de Hambleton
(1994).
Independientemente del método de traducción que utilicemos, es im
portante señalar que las traducciones deben realizarse atendiendo a una equi
valencia conceptual, semántica y funcional de los ítems, más que a una equi
valencia literal (Herdman, FoxRushby y Badia, 1997; Mimura y Griffiths,
2008). Si bien existe cierto solapamiento entre estos tres tipos de equiva
lencia, las mismas refieren a diferentes aspectos necesarios para asegurar un
adecuado funcionamiento de los ítems traducidos.
La equivalencia conceptual consiste en que el ítem original y el tra
ducido evalúen el mismo constructo teórico. Por ello puede que algunas de
las traducciones realizadas no presenten las mismas palabras que los ítems
originales, ya que debe priorizarse una correspondencia con el constructo me
dido y no una correspondencia literal. Por ejemplo, durante el proceso de
adaptación de una escala norteamericana sobre Apoyo Percibido se incluían
la figura de consultor o consejero académico de la universidad. Estas figuras
son inexistentes en el contexto local, por lo que al realizar la adaptación del
instrumento Medrano, Pérez y Liporace (2014) optaron por modificar dich^
palabras por figuras académicas equivalentes (por ejemplo, get helpfid assis-
tancefrom my advisor" fue traducida como puedo obtener ayuda provechosa e
misprofesores"). ,
La equivalencia semántica hace referencia a que las palabras traduci
das tengan el mismo significado tanto a nivel connotativo como denotativo.
Mientras que la denotación de una palabra puede ser la misma (referirse a un
mismo objeto, acción o propiedad) su connotación o significado emocional
puede ser distinto. Este tipo de equivalencia resulta especialmente importante
en las expresiones idiomáticas que no poseen una traducción directa a nuestro
idioma. En caso de que exista un significado equivalente pero no una expre
sión idiomática del mismo, la solución es crear una expresión u oración de
significado equivalente. En caso de que no exista la expresión idiomatica ni el
significado de la misma, entonces se trata de un ítem especifico de la cultura
que no puede ser traducido. Por ejemplo, un ítem de una escala norteameri
cana sobre Expectativas de Resultados decía: "... do work that can make a di-
fference"in people's Uves", el cual fue traducido por Medrano, Pérez y Liporace
97
(2014)como "realizar un trabajo que pueda mejorar la vida de otras personas".
Finalmente, la equivalenciafuncional se circunscribe a que las acciones
involucradas en los reactivos posean metas y dificultades semejantes en am
bas culturas. De hecho, puede suceder que una misma acción posea metas
diferentes según la cultura (por ejemplo, ganar un buen salario), o bien que
la dificultad para realizarla varíe de una cultura a otra (acceder a un título
universitario o sobresalir en un área académica, por ejemplo). Por ejemplo,
un ítem de una escala norteamericana sobre Progreso de Metas Académicas
incluye la meta de "permanecer inscripto" en la universidad. Esta acción re
sulta más simple en nuestro contexto dado que un alumno de la universidad
nacional puede permanecer inscripto durante años sin necesidad de aprobar
materias o rendir exámenes. En función de ello Medrano, Pérez y Liporace
(2014) optaron por traducir el ítem como "permanecer regular en el curso'■,
manteniendo así un nivel semejante de dificultad.
Estudios de equivalencia
Una vez que se ha traducido adecuadamente la prueba debe establecerse
si esta la versión traducida es equivalente a la original. Existen dos estrategias
que son ampliamente utilizadas para determinar esta equivalencia. Una de
ellas es la administración del test original y traducido a individuos bilÍ7igües. En
este caso se Ies administra ambas versiones de un test a personas que hablen
ambos idiomas. Este método posee ventajas y limitaciones. En primer lugar
permite controlar las diferencias de los participantes en el test en el rasgo
que se está midiendo (inteligencia, por ejemplo), puesto que ambas versio
nes del test son administradas a las mismas personas. Sin embargo, posee la
desventaja de asumir que los individuos son igualmente competentes en am
bos idiomas, lo cual es difícil de sostener. Es probable entonces, que puedan
observarse diferencias entre los resultados de ambas versiones debido a una
menor capacidad de algunas personas para entender los ítems en alguno de
los dos idiomas. La segunda gran desventaja de este diseño es que no puede
asegurarse que los bilingües posean el mismo nivel de competencia que la po
blación general. Por el hecho de conocer otro idioma es probable que se trate
de personas con una mayor capacidad intelectual o mejor educación.
El segundo método es la zdministracióJT de la versión original del test y
su traducción inversa a monolingües en el idioma original. Supongamos que
traducimos una prueba de idioma ingles mediante tradución inversa. Enton
ces dispobemos de dos versiones en inglés, la orginal y la re-traducida. Este
método consiste entonces en administrar ambas versiones (la versión original
y la versión obtenida por traducción inversa) a personas cuyo idioma natal es
el inglés. La equivalencia en los ítems se determina comparando el desempeño
de cada individuo en cada ítem de ambas versiones. Nuevamente, la ventaja
98
i
está en el control de las diferencias en las características de los participantes.
Una gran limitación es que este diseño no permite obtener datos de la versión
en el idioma meta del test (español en este ejemplo).
A modo de síntesis
La utilización de tests psicológicos creados en otros cotextos culturales

es una práctica habitual en todo el mundo. Este fenómeno es particularmente
frecuente en los países de las regiones con menor desarrollo científico, como
Latinoamérica. El uso de un determinado test en un contexto cultural dife
rente al que fue creado genera diversas dificultades. La existencia de sesgos en
un test puede conducir a obtener resultados gravemente erróneos. En un test
utilizado con fines clínicos, por ejemplo, se puede concluir la presencia de un
rasgo de personalidad patológico cuando este rasgo es normal en la cultura del
individuo examinado.
Optar por construir o adaptar una prueba tests no posee, naturalmente,
una respuesta simple y categórica. Desde una perspectiva estrictamente psi-
cométrica ambas opciones son equivalentes en dificultad y costos. Excepto la
fase teórica inicial, las demás secuencias son requeridas tanto para la construc
ción como para la adaptación de tests (figura 4).
Oelimitación del dominio del test

Traducción de los ítems
Redacción de los ítems
<> Estudios de equivalencia

Revisión de expertos y prueba piloto
<>
Análisis de las propiedades psicométricas Análisis de las propiedades psicométricas
Validez |Confiabilidad | Normas Validez |Confiabilidad| Normas
Elabordción de tos materiales definitivos de la Elaboración de los materiales derinitivos de la

prueba prueba
Figura 4. Comparación de pasos para la construcción y adaptación de pruebas.
Probablemente la fase más compleja del proceso de construcción de un

test sea justamente la delimitación conceptual del constructo a medir. Esto
requiere contar con una teoría validada del constructo y su red de relaciones
causales, así como elaborar definiciones operacionales adecuadas de aquél.
Adaptar alguno de estos tests implica la problemátíca tarea de verificar la equi
valencia de sus propiedades métricas en otras culturas, pero nos asegura una
teoría subyacente bien establecida. La postura más conveniente parece ser la
99
adaptación de tests siempre y cuando la misma involucre un riguroso proceso
de investigación que asegure la equivalencia de constructos en primer lugar
y una correcta adaptación de la escala para evitar toda fuente de sesgos. La
construcción sería una alternativa cuando la adaptación no es conveniente
debido a la existencia de un sesgo de constructo o al hecho de que las caracte
rísticas del instrumento que se quiere adaptar haga que ese proceso sea tanto
o más laborioso que crear uno nuevo (Fernández, Pérez, Alderete y Richaud
de Minci, 2015).
100

Medrano. Pp. 51-66 67-78 89-100

Cargado por

Copyright:

Formatos disponibles

Medrano. Pp. 51-66 67-78 89-100

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Medrano. Pp. 51-66 67-78 89-100

Cargado por

Copyright:

Formatos disponibles

Manual de 2da edición

Leonardo Medrano y Edgardo Pérez

Alberto Luis Fernández; María Marta Morales; María

Título: Manual de Psicometría y Evaluación Psicológica

1. Psicologia. 2. Psicometría. I. Pérez. Edgardo, 11. Titulo.

Queda hecho el depósito que marca la ley 11.723.

-ijEáitoriíií BrMjíis Miembros de la CÁMARA

En el capítulo 1 definimos a los tests como un procedimiento por me

Figura 1. Representación del proceso subyacente en un test psicométrico.

Ahora bien, la pregunta que debemos hacernos es ¿qué garantías tene

Figura 2. Representación de errores en la selección de elementos que compo

Cuando los ítems que componen una prueba no representan adecuada

Delimitación del concepto de Validez

Figura 3. Ejemplo de sub-representación del constructo que se pretende medir.

Como señala la APA (1999) la sub-representación del constructo alude

Evidencias de validez: descripción de procedimientos, estadísticos asociados

Evidencia basada en el contenido del test

Tabla 1 Ejemplo de guía para revisión de ítems por parte de expertos

"Es muy SI 5 Adecuado

"Me voy a SI Adecuado

Una vez recabada la información de cuatro jueces independientes se

Evidencia basada en la estructura interna del test

La lógica del análisis factorial proviene de un concepto desarrollado por

Figura 5. Agrupamiento de los ítems según factores subyacentes identificados mediante

En otras palabras, la evidencia de estructura interna (también deno

Tabla 1 Saturación íáaorial de los reactivos del PANAS (matriz rotada)

ítems del PRANAS 1 2

Evidencia basada en elproceso de respuesta

Como puede observarse, existe una congruencia entre el proceso men

Evidencias basadas en las relaciones que las puntuaciones del testpresentan

*p < 0.05. < 0.01 (bilateral).

Si las puntuaciones del test realmente evaliian dificultades para regular

Ansiedad estado 6.16 5.63 7.63 6.91 -3.01"

DE: desviación estándar: M: media.

En un estudio desarrollado por García-Bastista et al. (2017) se compa

Evidencia de las consecuencias de la aplicación de tests

En términos generales la validez hace referencia al "¿Wo en que una

Métodos Contenido Estructura ! Proceso de Variables ProccMlImiento

Entrevista en Análisis Cualitativo

Grupos X t de Student. Análisis de

En el capítulo 1 definimos a ios tests como un procedimiento por me

Figura 1. Representación del proceso subyacente en un test psicométrico.

Errores de medición y confiabilidad: Aproximación histórica y

En términos generales, la confiabilidad hace referencia al grado en que

Donde, PO refiere al puntaje observado, PV al puntaje verdadero y E

Según la TCT, la puntuación verdadera sería la puntuación que se ob

Figura 2. Distribución hipotética de las puntuaciones observadas [PO] en torno a la puntua

El mismo Spearman es quien propone el primer método para medir la

Dimensiones y métodos para verificar La confiabílidad

El intervalo entre el test y el retest es un factor crítico a considerar. Si

El estudio realizado por Navarro et al. (2015), constituye una adecuada

Figura 5. Versiones equivalentes del Fototest

Cabe destacar que el método deformas equivalentes es más completo que

Esta dimensión de la confiabilidad consiste en determinar si las dife

Ítems Alpha total correlations

NONNACEPTANCE 6 " 0.84 0.56-0,62

Notes: NONACCEPTANCE = Nonacceptance of Emotional Experiences subscale;

Acuerdo entre examinadores

Sub-escala e Items ICC