Medrano. Pp. 51-66 67-78 89-100
Medrano. Pp. 51-66 67-78 89-100
Medrano. Pp. 51-66 67-78 89-100
ampliada y corregida
til rt
ú
án A'lJfi
^Bditorkl Brujas
i'Y'ti»'' -A
'M ■ Táiirstii..
/'/. /i
Manual de Psicometría y
Evaluación Psicológica
BIBLIOTECA
UNIVERSIDAD de PALERMO
-|gE()itori¿ií Brujas
■o\
<;ev)ALOAaoN> (b»CA")<;;(4 0^' y
Medrano, Leonardo A.
Manual de psicometría y evaluaddn psicológica / Leonardo A Medra-
no : Edgardo Pérez. - 2a ed ampliada. - Córdot»; Brujas, 2019.
yWSIDAOOEPALERMO BIBLIOTECA
300p. ; 25x17 cm.
ISBN 978-987-760-203-6
Impreso en Argentina
ISBN: 978-987-760-203-6
www.editorialbrujas.com.ar publicaclones@edÍtorialbru]as.com.ar
Tel/fax: (0351) 4606044/4691616- Pasaje España 1486 Córdoba-Argentina.
f\ Normas Psicométricas: Evidencias de Validez
1 Leonardo Medrano y Edgardo Pérez
Introducción
Dominio
1 -«I--
Test
i 1-2-3-4-5
jC^'í j i—N--N
'';c)c^)YPA-Va y
r 1
( .íY'-'"
51
Puede ocurrir que el investigador cometa el error de elegir comportamientos
que no son representativos del constructo, como, por ejemplo: "me gusta
escuchar música y bailar" o "cuando salgo me gusta tomar alcohol". Si bien
estos comportamientos pueden estar asociados con la extraversión (es pro
bable que a una persona extravertida le guste la música o tomar alcohol), no
son representativos del dominio de interés. En consecuencia, el puntaje que
se obtiene del test no representa adecuadamente el constructo que se está mi
diendo, y, por ende, cometeríamos un error al generalizar los puntajes de la
pmeba a todo el dominio.
Dominio
Test
puntaje Total:
OWnOW
52
embargo, pueden ocurrir diferentes errores en la selección de los elementos
de la prueba que lleven a que la muestra de comportamientos no represente
adecuadamente el constructo que se pretende medir, es decir, no se obtengan
puntuaciones válidas.
Por ejemplo, puede ocurrir que el investigador seleccione comporta
mientos que no son representativos del dominio (figura 2). La inclusión de
ítems que no reflejan el constructo lleva a que las puntuaciones de la prueba
se vean contaminadas con ítems sobre constructos que no se pretenden medir,
y por ende no se realicen inferencias adecuadas sobre el dominio de interés.
Seleccionar ítems que no provienen del constructo se denomina inclusión de
varianza. irrelevante del constructo, ya que la variabilidad del puntaje total de
la prueba se ve influenciada por respuestas sobre procesos ajenos al verdadero
propósito de la medición. Otro error habitual es el de seleccionar comporta
mientos que no cubran la totalidad del constructo (figura 3), generando una
sub-7-epresentació}2 del constructo.
Dominio
•( 1 N
Test
yPuntaje Total:!
\ I ¡' '-q- /
---S 'v_.- ' ^vP ''
ítems
, ^ . Calidad
Pertinencia .,
f ®
formales o Observaciones
del Item .
sintácticos :3
"Seguro me SI Adecuado
toman lo que
no sé"
55
crítico V = .50 para ser considerado aceptable (Aiken, 1985). Sin embargo,
estudios más recientes sugieren considerar valores V superiores a .70 (Soto y
Segovia, 2009). En el ejemplo seleccionado se estableció como criterio que
solo se incluirían en el test aquellos ítems que hayan obtenido valores V su
periores a .70. Los ítems con puntajes inferiores fueron eliminados o refor-
mulados, con el fin de garantizar que el contenido de los ítems represente
adecuadamente el constructo que se pretende medir.
Especificidad Especificidad
Variable 1 / Variable 2
Variable 2
Variable 1
Comunidad o
Rasgo latente en común
Figura 4. Representación del factor latente común entre dos variables observables.
56
que el análisis factorial constituye una técnica útil para aportar evidencias de
que "se mide lo que se pretende medir".
Factor 1 Factor 2
Interesado 0.43
Afligido 0.59
Excitado 0.35
Disgustado 0.52
Fuerte 0.49
Culpable 0.63
Asustado 0.71
Hostil 0.48
Entusiasmado 0.47
Orgulloso
Irritable 0.53
Alerta 0.43
Avergonzado 0.56
Inspirado 0.53
Nervioso 0.65
Decidido 0.64
Atento 0.58
Intranquilo 0.58
Activo 0.56
Temeroso 0.72
Figura 6. Resultados del análisis factorial del PANAS (extraído de Moriondo, De Palma. Me-
drano y Morillo. 2012).
58
Al inspeccionar las cargas factoriales de cada ítem se aprecia que por
un lado se encuentran las emociones positivas, y en un factor distinto se en
cuentran las emociones negativas. Dado que los ítems se agruparon en las
dimensiones predichas a nivel teórico, entonces se obtienen evidencias sobre
la validez de la medición.
"me empiezo a acordar de otras veces que tuve un problema parecido y si pude resol
verlo... en general los resuelvo bien por eso puse un puntaje alto"
59
"para responder a esta pregunta me pongo recordar lo que me dice mi supervisor, por
ahí me corrige mucho y creo que eso hace que no tenga tanta confiansM"
"Yo mefijo en lo que dicen mis clientes, si ellos estdn satisfechos eso significa que hice
un buen trabajo y que soy bueno en lo que hago".
"Tengo mucha experiencia en este trabajo, hace más de 20 años que trabajo en estoy
he aprendido mucho... por eso creo que soy bastante bueno"
60
pronostique el valor que tendrá la medida criterio en el futuro. Por lo tanto,
debe transcurrir un tiempo entre ambas mediciones. Por el contrario, cuando
se realiza un estudio de tipo concurrente (también denominado validez concu
rrente) se analiza la concordancia entre las puntuaciones obtenidas en la prue
ba y la condición actual del examinado en otra variable o criterio. Es decir que
la medición se realiza de forma simultánea. Tal como señala Hogan (2004)
la diferencia radica entonces en el tiempo en que se mide la variable criterio.
Un ejemplo de validez predictiva se puede observar en una investiga
ción realizada por Medrano, Moretti, Ortiz y Pereno (2014), en donde se
recaban evidencias de validez para un Cuestionario de regulación emocional.
Este constructo refiere a toda estrategia (voluntaria o involuntario) que con
tribuye a mantener, aumentar o disminuir un estado afectivo en curso. Así,
la rumiación (pensar excesivamente sobre un evento displacentero) o la ca-
tastrofización (tener pensamientos que enfatizan o agradan las consecuencias
negativas de un evento) son estrategias automáticas que pueden aumentar
los niveles de ansiedad de una persona. En contrapartida, estrategias como
la reinterpretación positiva (pensamientos que otorgan un significado posi
tivo al evento displacentero) o poner en perspectiva (relativizar la gravedad
de un evento comparándolo con otros o analizando su impacto a lo largo
del tiempo), pueden generar una disminución de un estado emocional desa
gradable. Para recabar evidencias de validez predictiva se administró el test y
varias semanas después se evaluó el nivel de ansiedad que los alumnos presen
taban en un examen. Si la prueba efectivamente mide lo que dice que mide,
entonces debería poder pronosticarse los niveles de ansiedad a partir de las
puntuaciones de la prueba. Los resultados obtenidos al utilizar un coeficiente
de correlación de Pearson, corroboraron que existía una relación significativa
entre los niveles de rumiación (?• =.22) y catastrofización (r =.45) con los ni
veles de ansiedad que experimentaban los alumnos durante el examen. Como
estos resultados son coherentes con los esperados a nivel teórico, se obtienen
evidencias que indican que el test mide lo que dice que mide.
Un ejemplo de validez concurrente se observa en un estudio realizado
por Moretti, Medrano y Basler (2015) que tuvo por objetivo aportar eviden
cias de validez para una escala de locus de control del dolor. Este constructo
hace referencia a la creencia que posee la persona acerca de la relación entre
su conducta y los niveles de intensidad del dolor. Se trata de una variable de
importancia en personas que padecen dolor crónico ya que quienes poseen
mayor locus de control interno (creencia de que el nivel de dolor se asocia a
mi propio comportamiento) suelen mostrar mayor proactividad en acciones
beneficiosas para la salud que incluyen conductas de autocuidado, manteni
miento de habilidades de la vida cotidiana y, en consecuencia, menor inten
sidad del dolor. Por el contrario, mayor locus de control externo (creencia
de que el nivel de dolor no se asocia con mi comportamiento) se relaciona
61
con un peor afrontamiento y malestar psicológico, aumentando los niveles
de intensidad del dolor. Para recabar evidencias de validez concurrente se ad
ministró el cuestionario de locus de controljunto a un test que evalúa inten
sidad percibida del dolor. Los resultados obtenidos mediante el coeficiente
de correlación de Pearson indican que las personas que tenían puntuaciones
más elevadas de locus de control externo también presentaban mayor nivel
de dolor (r =.15). En consecuencia, se obtienen evidencias favorables sobre la
validez de las puntuaciones del test.
Es importante señalar que el comportamiento humano resulta dema
siado complejo como para esperar que a partir de los resultados de una única
prueba se logre una predicción exacta de un criterio. Por ello las correlacio
nes esperables en este tipo de estudio suelen ser moderadas, vale decir que
coeficientes de correlación significativamente distintos de cero y con valores
aproximados a .30 ya son aceptables. Actualmente la mayoría de las investi
gaciones realizadas para verificar la utilidad predictiva de las puntuaciones de
un test utilizan un enfoque multivariado puesto que permite esclarecer las
mterrelaciones entre un conjunto de predictores y un criterio, y no solamente
las relaciones entre una única variable predictora y un criterio. Mediante mé
todos multivariados como el análisis de regresión múltiple podemos estimar
cuanto se incrementa la precisión de las predicciones cuando un test se incluye
en una batería de tests en comparación con las ocasiones en que no se incluye
(Aiken, 2003). Este tipo de evidencia de validez se denomina incrementa!,
pero debido a su complejidad no será trabajada en el presente capítulo.
Un segundo tipo de procedimiento habitualmente utilizado para reca
bar evidencias mediante variables externas es la evidencia convergente-discrimi-
nante. Esta evidencia consiste en correlacionar las puntuaciones del test que
se pretende validar con las obtenidas en otros test que evalúan constructos
semejantes (validez convergente) o diferentes (validez discriminante o diver
gente). Se espera así que la prueba presente correlaciones más altas con el test
que mide un constructo semejante, que con aquellos que miden un construc-
to diferente.
En un estudio desarrollado por Medrano y Trógolo (2014), por ejem
plo, se correlacionaron las puntuaciones obtenidas en un cuestionario de difi
cultades en la regulación emocional con una prueba que evalúa extraversión y
otra que evalúa neuroticismo.
62
CwTflsiaonís avre!os ¿fírcues¡¿aores M DERS\ los rasgos ¿t murcdásna y ccraiojíán
Factoru 1 2 3 4 5 6 7 5
I Falta de acK>aaíner.ocona! » 0J9'* -034** om OJl»* 035** 0.43* ^114*
2 Intenere-idaenconduaosdajodasanietas ♦ -031** 0.11 0J5« 035« 03?« ^£0
3 Diác'jIadesenelccr.addíuTOuUoí 0 ■03?* •031** 0.4'* -0.12
4 Falta de conaciaa emjccrjJ - 035« 0.16* 0.b"* ^^31**
5 Falta de clar.dad e.T.K;iral .
0.1?** 0.4?** -O-IS**
6 Azcíio Imtado a etaategta! de tegulaasa emcconal . 03** -034**
7 Neacdá'rr.o . -036**
S Es3averi:ón ♦
Figura 7. Extracto del artículo de Medrano y Trógolo [20U| sobre evidencias de validez con-
vergente-discriminante.
63
Tablas
Comparación de puntuaciones del STAI entre población general(n = 791)y hospita-
laria(n-242)
Grupos
General Hospitalaria
M DE M DE t
Figuras. Extracto del artículo de García-Bastista et al. (2017) sobre evidencias de validez
mediante grupos contrastados.
64
cíente o que proporciona información para brindar intervenciones a ingresan
tes universitarios. Si se obtienen resultados que sustentan dichas afirmaciones
(por ejemplo, se corrobora que se logra una intervención más eficaz sobre
los alumnos al utilizar el test), entonces se obtienen evidencias favorables de
validez.
Este tipo de evidencia no se encuentra exenta de críticas, dado que mu
chos autores sostienen que las consecuencias de las aplicaciones de una prueba
no afectan directamente la validez de sus puntuaciones. Por lo cual, la validez
de las consecuencias no sería un concepto psicométrico legítimo. No obs
tante, otros autores sostienen que se trata de una evolución del concepto de
validez. En todo caso lo que queda claro es que la polémica sobre la validez de
las consecuencias continuará durante algún tiempo (Hogan,2004).
A modo de síntesis
65
Tabla 2. Síntesis de métodos y evidencias de validez propuestas por la APA (1999)
Test-Criterio
IL. X r de Pearson; Regresión
Múltiple
Convergente- X r de Pearson
Discriminanle
' j
Ci'"--
0 ■ >
* i'
•jip ,
66
Normas Psicométricas: Confiabilidad
Leonardo Medrano
Introducción
Dominio
/'',*1C) i ~ jf P C Test
fij1-2-3-4-5
O 1-2-3-4-5
01-2-3-4-5
<yr"^u ^(fi) 1-2-3-4-5
^Puntaje TotahfBB";
^ ) riO K
ip
Vz/yy/y
Estabilidad
En esta dimensión se pretende evaluar el grado en que el puntaje obser
vado está libre de errores causados por cambios en las condiciones personales
temporales del examinado (estado de ánimo, nivel de motivación o cansancio,
por ejemplo), y por variaciones en las condiciones de administración de la
prueba (condiciones físicas de la administración, por ejemplo). Cuando las
puntuaciones de una prueba no se ven seriamente afectadas por estas fuentes
de inestabilidad decimos que las puntuaciones son estables. Los procedimien
tos sugeridos para evaluar la estabilidad son el método test-retest, y el método
Atformas equivalentes {K^K, 1999).
El método consiste test-retest es el más utilizado para evaluar la estabili
dad. Consiste en admnistrar el mismo test en dos oportunidades a la misma
muestra de sujetos, con un intervalo de tiempo intermedio. Posteriormente
se calcula la correlación entre los puntajes obtenidos en la primera y segunda
administración. Cuando se obtienen valores elevados de correlación (valores r
de Pearson en torno a .80), significa que los puntajes obtenidos en la prueba
no se alteran sustancialmente por variaciones en las condiciones personales o
por las condiciones de administración.
A modo de ejemplo, para evaluar la estabilidad del lAMI se administro
la prueba a una muestra de 119 sujetos y un mes después los mismos suje
tos respondieron nuevamente al inventario. Los puntajes obtenidos en ambas
aplicaciones fueron correlacionados (r de Pearson). Los resultados obtenidos
(figura 3) indicaron niveles óptimos de estabilidad para alguna de sus escalas
(valores r superiores a .80) y aceptables para otras (valores r superiores a .70).
Tabla 2: Coeficiente de coirelación (test-retest) de cada escala del inventario
Escalas
Intrapersona!
Naturalista
Lingüística
Matemática
Espacial
Cinestésica
Musical
Interpersonal
Figura 3. Extracto del artículo de Pérez. Beltramino y Cupani (20031 sobre la estabilidad del
lAMI.
Rpüia5.'«««•. l
Consistencia Interna
Figura 6. Consistencia interna de las escalas del DERS (extraído de Medrano y Trógolo, 2017).
Comprensión .692
Efecti\-idad Interpersooal .830
Coopci-ación .744
Tiempo .651
Competencias Especificas .831
Descubrimiento Guiado .628
Focoiising .605
Estrategias para el Cambio .660
-Aplicación de Técnica .809
Tareas .740
A modo de síntesis
Test-Retest r de Pearson
Formas r de Pearson
equivalentes
'Partición en r de Pearson con corrección
mitades Spearman-BrowTi
Covariancia de Alfa de Cronbach
ítems KR-20
Introducción
89
Sesgos, Construcción y Adaptación de Test
Po^.)0
cjpDQd
90
Tomemos como ejemplo una hipotética investigación en donde se mi
diese la capacidad de denominar objetos o animales. Si entre los ítems estu
vieran incluidas las figuras de un canguro y un oso koala es más probable que
una muestra de australianos obtenga puntuaciones superiores a las de una
muestra de argentinos. Estos datos no estarían demostrando una mayor capa
cidad de denominación de los por parte de Is australianos, sino que sugerirían
que el indicador empleado en la medición está sesgado. Es decir, existe un ele
mento diferente (la familiaridad con el estímulo presentado en este ejemplo)
a la capacidad (de denominación en este caso) que influye en el desempeño
en la prueba. Entre los sesgos más habituales se encuentran el sesgo de ítem,
el sesgo de constructo y los sesgos metodológicos (Fernández, Pérez, Alderete
y Richaud de Minci, 2015; Van de Vijver y Tanzer, 1997).
El sesgo del ítem es habitual cuando un constructo posee muchos ele
mentos éticos y algunos componentes émicos (figura 2). Este sesgo consiste
en que la mayor parte de los elementos de la prueba son equivalentes en
ambas culturas, pero algunos ítems tienen un significado diferente. De esta
forma, ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un ítem determinado a pesar de obtener un puntaje total similar
en el test.
►Emic
W.'QoQd
91
acción honorable. De la misma forma, en algunas culturas confucianas la
expresión de alegría se considera inadecuado ya que implica priorizar un sen
timiento individual por sobre uno colectvo (Keller & Otto, 2009). Estos son
ejemplo de ítems que pueden tener un significado diferente según la cultura,
aunque la mayor parte de los reactivos se mantengan equivalentes.
El sesgo de constructo ocurre cuando el constructo posee muchos ele
mentos émicos y pocos componentes éticos (figura 3). En este caso las di
ferencias culturales no se focalizan en solo algunos comportamientos, sino
que el constructo medido difiere entre una cultura y otra. Por ejemplo, una
variable tan clásica como la inteligencia tiende a ser conceptualizada de muy
diverso modo de unas culturas a otras; mientras en Occidente suele asociarse
a eficiencia y rapidez, en algunas sociedades del Este se asocia con actitudes
reflexivas y reposadas, más que con rapidez(Lonncr, 1990). En consecuencia,
difícilmente una prueba desarrollada en un contexto cultural pueda reflejar de
manera válida el constructo tal como se manifiesta en la otra cultura.
I ►Émic
f » I •
0 •*»»»« é I
V '
■ .*•- n'. //'
/
Etic
92
su vez está vinculado con la memoria de trabajo. La menor duración de los
dígitos en el japonés que en el inglés les otorgaba ventaja a los japoneses y, a
su vez, la menor duración de la pronunciación de los dígitos en chino com
parado al japonés e inglés, les daba ventaja a los chinos sobre los dos grupos
restantes. Este tipo de sesgo metodológico se suele denominar sesgo de instru
mento-, ya que afecta a la totalidad de la prueba.
La existencia de los diferentes sesgos mencionados demuestra que pue
den cometerse graves errores cuando se traslada automáticamente un test
construido en un grupo cultural a otro. Esto lleva a que los psicometristas de
países donde la producción de test es menor,se deban enfrentar con el proble
ma de optar por construir o adaptar una prueba. A continuación, se exponen
de manera sintética los métodos y pasos implicados en cada caso.
93
Otra metodología tradicional de corte netamente empírico son los métodos de
clave empírica. Básicamente consiste en elegir los reactivos en función de su capacidad
para discriminar entre dos gmpos de referencia. No se parte de un modelo teórico
previo, sino de im pool inicial de reactivos que serán o no incluidos en la prueba en
función de su capacidad para discriminar dos gmpos(normal y clínico, por ejemplo).
El MMPI-II es un ejemplo de un test desarrollado mediante este método.
Con el perfeccionamiento del análisis factorial tomaron fuerzo los métodos de
reducción de datos oarao estrategia para la elaboración de pruebas. Este método con
siste en redactar ítems y examinar las correlaciones entre los reactivos e identificar
factores subyacentes mediante análisis factorial. Posteriormente se asigna un nombre
a los factores identificados que describe el significado de la dimensión subyacente. El
Cuestionario de Intereses Profesionales(CIP)constimye un ejemplo de esta metodo
logía, ya que los faaores obtenidos son empíricos, es decir, no parten de un modelo
teórico previo.
En la acmalidad los métodos de corte empírico "ateóricos" se encuentran en
declive. El método más recomendado para la elaboración de pruebas consiste en par
tir de una clara delimitación concepmal, para luego recabar evidencias empíricas que
permitan determinar su validez. Para ello resulta indispensable partir de un buen mo
delo teórico que describa con claridad no solo el constructo, sino también sus dimen
siones. Las estrategias de análisis, como el análisis factorial confirmatorio, permitirán
determinar si efectivamente el modelo de medición propuesto es plausible. Por ejem
plo, el Inventario de Autoeficacia para Inteligencias Múltiples constituye un buen
ejemplo de esta metodología, ya que parte de un modelo teórico bien delimitado (la
teoría de las ocho inteligencias propuestas por Gardner, 1983), en combinación con
métodos empíricos que aportan evidencias empíricas sobre la validez del modelo.
Antes emprender la redacción de los ítems, es necesario también delimi
tar aspectos complementarios del test, tales como: finalidad y población meta
del test (por ejemplo, un inventario de autoinforme para evaluar el autocon-
cepto en niños), modo de aplicación (individual o colectivo, por ejemplo),
formato de respuesta (dicotómica o tipo lickert, por ejemplo), y tiempo de
administración (duración del test), entre otras consideraciones preliminares
(Hogan, 2004).
94
ítems son la ambigüedad (preguntas vagas que admiten varias respuestas, por
ejemplo,"que pasó con el Arte en el siglo XV?"); y la trivialidad (centrarse en
aspectos poco importantes del constructo o dominio, por ejemplo, requerir
la memorización de fechas irrelevantes). Por su parte Bandura (2001), reco
mienda redactar ítems que consideren diferentes niveles de dificultad, sobre
todo cuando se evalúa autoeficacia o en pruebas de habilidades. Si no hay
obstáculos que superar todos los sujetos tendrán altas creencias de eficacia
en dicha actividad o responderán fácilmente al ítem. En contrapartida, ac
tividades absurdamente difíciles generarán que las personas expresen escasas
creencia de eficacia o no puedan responder correctamente. En cualquiera de
los dos casos los ítems pierden poder discriminativo. Para evitar problemas
de este tipo resulta recomendable redactar ítems con una amplia variedad de
niveles de dificultad.
Finalmente, debe evitarse la redacción de "ítems multidimensionales ,
los cuales se caracterizan por indagar sobre más de una actividad, ej: Cuales
son las creencias sobre tus capacidades para pintar un cuadro y cantar en un
coro". Redacciones de este tipo impiden medir con precisión un comporta
miento específico (Bandura, 2001). En efecto, en el ítem anterior la persona
puede sentirse confundida para responder, puesto que se siente competente
para cantar pero no para pintar, por ejemplo.
Revisión de expertos
La mayoría de los autores recomiendan que los ítems preliminares sean
revisados por expertos, tanto en construcción de pruebas, como en el domi
nio o rasgo a medir (autoeficacia, por ejemplo), y en la población a la cual se
dirije el test (preadolescentes, por ejemplo). Los tres aspectos esenciales que
los expertos deben evaluar en cada ítem son: a) claridad semántica y correc
ción gramatical, adecuación al nivel de comprensión de la población rneta
(niños, por ejemplo), y c) congruencia con el constructo o dominio medido.
Este último es el principal parámetro y hace referencia al grado de con
sistencia que debe existir entre un ítem particular y los constructos a medir
por el test. Los procedimientos empíricos para cuantificar el juicio de expertos
acerca de la calidad de los ítems fueron descriptos en el capítulo de validez
(apartado de evidencia relacionada con el contenido).
Además del juicio de experto siempre es conveniente administrar la ver
sión preliminar de la prueba a una muestra piloto, es decir una muestra de
menor tamaño pero relativamente representativa de la población meta. La
posibilidad de efectuar un estudio piloto permite confirmar si los ítems son
claros y comprensibles para la población meta del test que se esta desarrollan
do. Otro de los aspectos que se suelen evaluar en las pruebas piloto son: 1)
familiaridad con el vocabulario y expresiones utilizadas en los ítems y en las
instrucciones; 2) comprensión de los ítems y de las instrucciones; 3) motiva-
95
ción que genera en los evaluados; 4) el tiempo que insume la aplicación del
instrumento, y 7) análisis de dificultades en la codificación de las respuestas
(Moretti y Medrano, 2012).
Traducción de la prueba
El proceso de traducción de una prueba es complejo e implica más que
la traducción literal de las palabras escritas a un nuevo lenguaje. Existen dos
métodos fundamentales: la traducción directa (forward translation) e inversa
(backward translation). En el método de traducción directa un traductor o,
preferentemente, un grupo de traductores, traducen el test desde el idioma
original al nuevo idioma. Luego otro grupo de traductores juzga la equivalen
cia entre las dos versiones. De este modo pueden realizarse las correcciones
96
pertinentes a las dificultades o errores identificados. En el caso de la traduc
ción inversa, el más utilizado de los métodos, un grupo de traductores realiza
una traducción desde el idioma original al nuevo idioma; luego un segundo
grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a
traducirlo al idioma original. Seguidamente, se realizan las comparaciones
entre la versión original y la versión retraducida al idioma original para deter
minar su equivalencia. Ambos métodos poseen ventajas y desventajas que no
serán analizadas en este texto introductorio. El lector interesado en profundi
zar esta problemática específica puede consultar el texto clásico de Hambleton
(1994).
Independientemente del método de traducción que utilicemos, es im
portante señalar que las traducciones deben realizarse atendiendo a una equi
valencia conceptual, semántica y funcional de los ítems, más que a una equi
valencia literal (Herdman, FoxRushby y Badia, 1997; Mimura y Griffiths,
2008). Si bien existe cierto solapamiento entre estos tres tipos de equiva
lencia, las mismas refieren a diferentes aspectos necesarios para asegurar un
adecuado funcionamiento de los ítems traducidos.
La equivalencia conceptual consiste en que el ítem original y el tra
ducido evalúen el mismo constructo teórico. Por ello puede que algunas de
las traducciones realizadas no presenten las mismas palabras que los ítems
originales, ya que debe priorizarse una correspondencia con el constructo me
dido y no una correspondencia literal. Por ejemplo, durante el proceso de
adaptación de una escala norteamericana sobre Apoyo Percibido se incluían
la figura de consultor o consejero académico de la universidad. Estas figuras
son inexistentes en el contexto local, por lo que al realizar la adaptación del
instrumento Medrano, Pérez y Liporace (2014) optaron por modificar dich^
palabras por figuras académicas equivalentes (por ejemplo, get helpfid assis-
tancefrom my advisor" fue traducida como puedo obtener ayuda provechosa e
misprofesores"). ,
La equivalencia semántica hace referencia a que las palabras traduci
das tengan el mismo significado tanto a nivel connotativo como denotativo.
Mientras que la denotación de una palabra puede ser la misma (referirse a un
mismo objeto, acción o propiedad) su connotación o significado emocional
puede ser distinto. Este tipo de equivalencia resulta especialmente importante
en las expresiones idiomáticas que no poseen una traducción directa a nuestro
idioma. En caso de que exista un significado equivalente pero no una expre
sión idiomática del mismo, la solución es crear una expresión u oración de
significado equivalente. En caso de que no exista la expresión idiomatica ni el
significado de la misma, entonces se trata de un ítem especifico de la cultura
que no puede ser traducido. Por ejemplo, un ítem de una escala norteameri
cana sobre Expectativas de Resultados decía: "... do work that can make a di-
fference"in people's Uves", el cual fue traducido por Medrano, Pérez y Liporace
97
(2014)como "realizar un trabajo que pueda mejorar la vida de otras personas".
Finalmente, la equivalenciafuncional se circunscribe a que las acciones
involucradas en los reactivos posean metas y dificultades semejantes en am
bas culturas. De hecho, puede suceder que una misma acción posea metas
diferentes según la cultura (por ejemplo, ganar un buen salario), o bien que
la dificultad para realizarla varíe de una cultura a otra (acceder a un título
universitario o sobresalir en un área académica, por ejemplo). Por ejemplo,
un ítem de una escala norteamericana sobre Progreso de Metas Académicas
incluye la meta de "permanecer inscripto" en la universidad. Esta acción re
sulta más simple en nuestro contexto dado que un alumno de la universidad
nacional puede permanecer inscripto durante años sin necesidad de aprobar
materias o rendir exámenes. En función de ello Medrano, Pérez y Liporace
(2014) optaron por traducir el ítem como "permanecer regular en el curso'■,
manteniendo así un nivel semejante de dificultad.
Estudios de equivalencia
Una vez que se ha traducido adecuadamente la prueba debe establecerse
si esta la versión traducida es equivalente a la original. Existen dos estrategias
que son ampliamente utilizadas para determinar esta equivalencia. Una de
ellas es la administración del test original y traducido a individuos bilÍ7igües. En
este caso se Ies administra ambas versiones de un test a personas que hablen
ambos idiomas. Este método posee ventajas y limitaciones. En primer lugar
permite controlar las diferencias de los participantes en el test en el rasgo
que se está midiendo (inteligencia, por ejemplo), puesto que ambas versio
nes del test son administradas a las mismas personas. Sin embargo, posee la
desventaja de asumir que los individuos son igualmente competentes en am
bos idiomas, lo cual es difícil de sostener. Es probable entonces, que puedan
observarse diferencias entre los resultados de ambas versiones debido a una
menor capacidad de algunas personas para entender los ítems en alguno de
los dos idiomas. La segunda gran desventaja de este diseño es que no puede
asegurarse que los bilingües posean el mismo nivel de competencia que la po
blación general. Por el hecho de conocer otro idioma es probable que se trate
de personas con una mayor capacidad intelectual o mejor educación.
El segundo método es la zdministracióJT de la versión original del test y
su traducción inversa a monolingües en el idioma original. Supongamos que
traducimos una prueba de idioma ingles mediante tradución inversa. Enton
ces dispobemos de dos versiones en inglés, la orginal y la re-traducida. Este
método consiste entonces en administrar ambas versiones (la versión original
y la versión obtenida por traducción inversa) a personas cuyo idioma natal es
el inglés. La equivalencia en los ítems se determina comparando el desempeño
de cada individuo en cada ítem de ambas versiones. Nuevamente, la ventaja
98
i
está en el control de las diferencias en las características de los participantes.
Una gran limitación es que este diseño no permite obtener datos de la versión
en el idioma meta del test (español en este ejemplo).
A modo de síntesis
<>
Análisis de las propiedades psicométricas Análisis de las propiedades psicométricas
Validez |Confiabilidad | Normas Validez |Confiabilidad| Normas
99
adaptación de tests siempre y cuando la misma involucre un riguroso proceso
de investigación que asegure la equivalencia de constructos en primer lugar
y una correcta adaptación de la escala para evitar toda fuente de sesgos. La
construcción sería una alternativa cuando la adaptación no es conveniente
debido a la existencia de un sesgo de constructo o al hecho de que las caracte
rísticas del instrumento que se quiere adaptar haga que ese proceso sea tanto
o más laborioso que crear uno nuevo (Fernández, Pérez, Alderete y Richaud
de Minci, 2015).
100