Diseño de Estudios Clínicos: 4. Edición
Diseño de Estudios Clínicos: 4. Edición
Diseño de Estudios Clínicos: 4. Edición
4.a E D I C I Ó N
Steven R. Cummings, MD
Founding Director, San Francisco Coordinating Center
Senior Scientist, California Pacific Medical Center Research Institute
Professor Emeritus, Department of Medicine, and of Epidemiology & Biostatistics
School of Medicine, University of California, San Francisco (California, EE.UU.)
Traducción y revisión:
M.a Jesús del Sol Jaquotot
Licenciada en Medicina y Cirugía
Antonio Díez Herranz
Doctor en Medicina y Cirugía
Se han adoptado las medidas oportunas para confirmar la exactitud de la información presentada y describir
la práctica más aceptada. No obstante, los autores, los redactores y el editor no son responsables de los
errores u omisiones del texto ni de las consecuencias que se deriven de la aplicación de la información que
incluye, y no dan ninguna garantía, explícita o implícita, sobre la actualidad, integridad o exactitud del
contenido de la publicación. Esta publicación contiene información general relacionada con tratamientos
y asistencia médica que no debería utilizarse en pacientes individuales sin antes contar con el consejo
de un profesional médico, ya que los tratamientos clínicos que se describen no pueden considerarse
recomendaciones absolutas y universales.
El editor ha hecho todo lo posible para confirmar y respetar la procedencia del material que se reproduce
en este
libro y su copyright. En caso de error u omisión, se enmendará en cuanto sea posible. Algunos
fármacos y productos sanitarios que se presentan en esta publicación sólo tienen la aprobación de la Food
and Drug Administration (FDA) para un uso limitado al ámbito experimental. Compete al profesional
sanitario averiguar la situación de cada fármaco o producto sanitario que pretenda utilizar en su práctica
clínica, por lo que aconsejamos la consulta con las autoridades sanitarias competentes.
Edición en español de la obra original en lengua inglesa Designing clinical research (4th ed.) de Stephen B
Hulley, publicada por Lippincott Williams & Wilkins
Copyright © 2013 Lippincott Williams & Wilkins
Two Commerce Square
2001 Market Street
Philadelphia, PA 19103
Colaboradores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii
SECCIÓN I.
Ingredientes básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Cómo empezar: anatomía y fisiología
de las investigaciones clínicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings
SECCIÓN II.
Diseño de los estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7 Diseño de estudios transversales y de cohortes . . . . . . . . . . . . . . . . . . . 85
Stephen B. Hulley, Steven R. Cummings y Thomas B. Newman
vii
SECCIÓN III.
Ejecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
14 Abordaje de cuestiones éticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Bernard Lo y Deborah G. Grady
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Respuestas a los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
Índice alfabético de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Bernard Lo, MD
President, The Greenwall Foundation
Professor of Medicine, Emeritus
Director of Program in Medical Ethics, Emeritus
University of California, San Francisco (California, EE.UU.)
ix
E sta 4.ª edición de Diseño de estudios clínicos marca el 25.º aniversario de la publicación de nuestra
1.ª edición. Se ha convertido en el libro de texto de este tipo más utilizado, con más de 130 000 copias
vendidas y ediciones en idiomas extranjeros publicadas en español, portugués, árabe, chino, coreano
y japonés. Lo diseñamos como manual para la investigación clínica en todas sus facetas: ensayos
clínicos, epidemiología observacional, ciencia aplicada, investigación orientada a patentes, ciencia
conductual e investigación de servicios sanitarios. Hemos utilizado términos y principios epidemio-
lógicos, presentado material conceptual avanzado de una forma práctica y amigable, y propuesto
formas sencillas de abordar los complejos criterios que intervienen en el diseño de un estudio.
Muchos de nuestros lectores son médicos, enfermeras, farmacéuticos y otros científicos del ám-
bito sanitario que, durante su formación y como miembros jóvenes del cuerpo docente, están desarro
llando su carrera profesional en investigación clínica y utilizan este libro como guía para diseñar y
realizar sus estudios. Otros muchos son médicos en programas de residencia y estudiantes predoc-
torales de facultades profesionales (Medicina, Enfermería, Farmacia y Salud Pública, entre otros) que
utilizan Diseño de estudios clínicos para poder convertirse en lectores perspicaces, capaces de apren-
der los puntos fuertes y las limitaciones de los estudios de investigación que dan forma a la práctica
clínica de base científica. Un tercer grupo de lectores son estudiantes preuniversitarios que se pre-
paran para solicitar su ingreso en estas escuelas y que están interesados en un futuro en el mundo
de la investigación clínica.
¿Qué hay de nuevo en la 4.ª edición? La innovación más visible es el color, que, además de me-
jorar la estética, acelerará la comprensión de los componentes codificados en colores. Las principa-
les revisiones de la 4.ª edición son la actualización y mejora del texto, las figuras y las tablas de todos
los capítulos; los muchos nuevos ejemplos y referencias biográficas; y las nuevas secciones que
abordan recientes avances en este campo. Por ejemplo:
• Se han reorganizado los capítulos sobre estudios de observación, con un capítulo entero dedicado
ahora a los diversos diseños de casos y testigos, incluyendo el abordaje de densidad de la inciden-
cia para analizar las modificaciones de los niveles de los factores de riesgo y las diferencias en el
tiempo de seguimiento.
• En los capítulos sobre ensayos clínicos hay una sección ampliada sobre los ensayos de ausencia de
inferioridad, que se han popularizado en la investigación de la eficacia comparativa, y se analiza
con más detalle el análisis de subgrupos y la modificación del efecto.
• En el capítulo sobre el estudio de pruebas médicas hay una nueva sección sobre la creciente prác-
tica de elaborar reglas de predicción clínica.
• En el capítulo sobre la utilización de bases de datos ya existentes se insiste en opciones atractivas
para que los investigadores noveles publiquen de una manera rápida y económica.
• Se ha actualizado el capítulo sobre la ética de la investigación, para reflejar las políticas actuales
sobre el secuenciado pangenómico y otros temas, con nuevos casos que ilustran la resolución de
los dilemas éticos en la investigación clínica.
• El capítulo sobre gestión de los datos se ha actualizado de manera extensa con los últimos abor-
dajes basados en Internet.
• En el capítulo sobre financiación hay estrategias para enfrentarse a los nuevos requisitos para la
solicitud de subvenciones a los NIH, además de actualizaciones sobre la financiación por funda-
ciones y promotores corporativos.
xi
La 4.ª edición está acompañada por una página web en inglés del libro en www.epibiostat.ucsf.
edu/dcr/, que contiene materiales para enseñar el diseño de estudios clínicos, con vínculos a un
programa detallado para los talleres de DEC de 4 y 7 semanas que impartimos a 300 alumnos cada
año en la UCSF. También hay notas de los instructores para los talleres, que serán útiles para los
docentes que impartan este material, y enlaces a nuestro programa de grado de maestría de formación
en investigación clínica (Training In Clinical Research, TICR) en la UCSF, con más de 30 cursos adi-
cionales y sus materiales. Además, hay herramientas útiles para los investigadores, entre ellas una
excelente calculadora interactiva del tamaño de la muestra.
Hay muchas cosas que no han cambiado en la 4.ª edición. Éste sigue siendo un libro sencillo que
omite los aspectos técnicos innecesarios e invita al investigador a que se centre en lo importante:
cómo encontrar una buena pregunta de la investigación y planificar un diseño eficiente, eficaz y
ético. Los capítulos sobre la estimación del tamaño de la muestra siguen desmitificando el proceso
y permiten que lectores con una formación mínima en estadística hagan estos cálculos ellos mismos
de manera meditada y sin necesidad de luchar con fórmulas. El libro sigue funcionando de manera
óptima cuando se combina con el ingrediente esencial de uno o más mentores a largo plazo. Todavía
no aborda las importantes áreas de cómo analizar, presentar y publicar los hallazgos de la investiga-
ción clínica, temas que nuestros lectores pueden buscar en otros libros (por ejemplo, 1-4).
El proceso de transformarse en un científico clínico independiente puede ser difícil, especialmen-
te conseguir una subvención importante por primera vez. Pero es gratificante que muchos de nues-
tros antiguos alumnos que utilizaron este libro han conseguido este objetivo, han descubierto que
les gusta investigar, y se han orientado hacia una gran carrera profesional. Para los que tienen men-
tes inquisitivas, la búsqueda de la verdad puede convertirse en una fascinación que dura toda la vida.
Para los perfeccionistas y los artesanos, hay retos interminables en la creación de estudios elegantes
que respondan de manera concluyente a preguntas, grandes y pequeñas, con un coste asequible en
cuanto a tiempo y dinero. Los investigadores que disfrutan del trabajo en equipo llegarán a tener
relaciones gratificantes con los compañeros, el personal y los estudiantes, además de hacerse amigos
de sus colaboradores que trabajan en el mismo campo en lugares distantes. Y para aquellos cuya
ambición es hacer una contribución duradera a la sociedad, existe la perspectiva de que con habili-
dad y tenacidad puedan participar en los avances incrementales de la práctica clínica y de salud
pública que forman parte del orden natural de nuestra ciencia.
BIBLIOGRAFÍA
1. Vittinghoff E, Glidden DV, Shiboski SC, et al. Regression methods in biostatistics: linear, logistic, survival, and repeated
measures models, 2nd ed. New York: Springer-Verlag, 2011.
2. Katz MH. Multivariable analysis: a practical guide for clinicians and public health researchers, 3rd ed. New York:
Cambridge University Press, 2011.
3. Newman TB, Kohn MA. Evidence-based diagnosis. Cambridge, MA: Cambridge University Press, 2009.
4. Browner WS. Publishing and presenting clinical research, 3rd ed. Philadelphia, PA: Lippincott Williams &
Wilkins, 2012.
N uestro agradecimiento a la Andrew P. Mellon Foundation, por unirse a nosotros hace 30 años
para comenzar el viaje de 5 años para el desarrollo de materiales docentes que se convirtieron en la
1.ª edición; a nuestro editor, por insistir constantemente en una 4.ª edición hasta que la resistencia
se hizo inútil, y por poner a nuestra disposición a unos profesionales con un talento y un apoyo
excepcionales que nos han ayudado a reunir todo el material; a nuestras familias, por su paciente
apoyo cuando trabajábamos en esta obra; a muchos compañeros en la UCSF y otros lugares, cuyas
ideas y facultades nos han influido; a nuestros estudiantes de los últimos años, cuyos logros hemos
disfrutado, al tiempo que han estimulado nuestras ideas, y a nuestros lectores, responsables del
éxito de este libro.
xiii
Ingredientes básicos
E ste capítulo presenta la investigación clínica desde dos puntos de vista, estableciendo temas que
discurren a la par a lo largo del libro. Uno de ellos es la anatomía de la investigación: de qué está
hecha. Incluye los elementos tangibles del plan del estudio: la pregunta tema del estudio, el diseño,
los participantes, las mediciones o determinaciones, el cálculo del tamaño de la muestra, etc. El
objetivo de un investigador es crear estos elementos de tal manera que el proyecto sea viable y efi-
ciente.
El otro tema es la fisiología de la investigación: cómo funciona. Los estudios son útiles en la
medida en que proporcionan inferencias o deducciones válidas, primero sobre lo que ocurrió
en la muestra del estudio, y después sobre cómo se pueden generalizar estos hallazgos del estudio a
las personas que no participan en él. El objetivo es reducir al mínimo los errores, aleatorios y siste-
máticos, que amenazan a las conclusiones basadas en estas inferencias.
La separación de ambos temas es artificial, del mismo modo que la anatomía del cuerpo humano
no tiene mucho sentido sin comprender algo su fisiología. Aunque la separación tiene la misma
ventaja: aclara nuestras ideas sobre un tema complejo.
Pregunta de la investigación
La pregunta de la investigación es el objetivo del estudio, la incertidumbre que el investigador desea
resolver. A menudo estas preguntas se inician con una preocupación general que debe reducirse a
un tema concreto, que se pueda investigar. Considere, por ejemplo, la siguiente pregunta general:
Es un buen punto para empezar, pero la pregunta deberá concretarse antes de poder empezar con
la planificación. Con frecuencia esto supone fragmentar la pregunta en componentes más específicos,
y elegir uno o dos de ellos para elaborar el protocolo a su alrededor:
Una buena pregunta debe superar la prueba «¿Y qué?». Lograr la respuesta debe contribuir de
forma provechosa a nuestros conocimientos. El acrónimo FINER indica cinco características esen-
ciales de una buena pregunta de investigación: debe ser factible, interesante, novedosa, ética y re-
levante (cap. 2).
Antecedentes e importancia
En una breve sección de un protocolo sobre los antecedentes y la importancia se describe el estudio
propuesto dentro de un contexto y se proporciona su fundamento: ¿Qué se conoce del tema que se
aborda? ¿Por qué es importante la pregunta de la investigación? ¿Qué tipo de respuestas proporcio-
nará el estudio? En esta sección se mencionan investigaciones anteriores importantes (incluso el
trabajo de los propios investigadores), y se señalan los problemas que surgieron y qué cuestiones
quedan sin resolver. Se especifica aquí también de qué forma los hallazgos del estudio propuesto
ayudarán a resolver estas cuestiones, conducirán a nuevos conocimientos científicos o influirán en
las directrices sobre la práctica clínica o las políticas de salud pública. Con frecuencia, la revisión de
la literatura y la síntesis que se realice para la sección sobre la importancia del problema llevan al
investigador a modificar la pregunta de la investigación.
Diseño
El diseño de un estudio es un tema complejo. Una decisión fundamental será si se opta por adoptar
una actitud pasiva en la obtención de las mediciones de los participantes en el estudio en un estudio
de observación, o por realizar una intervención y examinar sus efectos en un ensayo clínico (ta-
bla 1-2). Entre los estudios de observación, dos diseños habituales son los estudios de cohortes, en
los que las observaciones se realizan en un grupo de personas a las que se evalúa durante un período
de seguimiento, y los estudios transversales, en los que las observaciones se realizan en una sola
ocasión. Los estudios de cohortes pueden dividirse en estudios prospectivos, que se inician en el
presente y siguen a los participantes en el futuro, y estudios retrospectivos, que examinan la infor-
mación recopilada durante un período de tiempo en el pasado. Una tercera opción habitual es el
diseño de casos y testigos, en el que el investigador compara un grupo de personas con una enfer-
medad u otro criterio de valoración con otro grupo que no lo presenta. Entre las opciones de ensayos
clínicos, el ensayo aleatorizado y con enmascaramiento suele ser el mejor diseño, aunque los dise-
ños no aleatorizados o sin enmascaramiento pueden ser lo único de lo que se disponga para algunas
preguntas de investigación.
No existe un abordaje que sea siempre mejor que los otros, y cada pregunta de investigación
precisa la determinación de cuál de los diseños será el modo más eficaz de lograr una respuesta sa-
tisfactoria. A menudo se sostiene que el estudio aleatorizado y con enmascaramiento es el mejor
diseño para establecer la causalidad y la eficacia de las intervenciones, pero hay muchas situaciones
en las que un estudio de observación es una mejor elección o la única opción viable. El coste relati-
vamente bajo de los estudios de casos y testigos, y su adecuación para resultados poco frecuentes,
hacen que sean atractivos para algunas preguntas. Para elegir diseños para el estudio de pruebas
diagnósticas se aplican consideraciones especiales. Estos temas se comentan en los capítulos 7 a 12,
en cada uno de los cuales se aborda un tipo concreto de diseño.
Una secuencia típica para estudiar un tema se inicia con estudios de observación de un tipo que
con frecuencia se denomina descriptivo. En estos estudios se explora la «configuración del terreno»,
por ejemplo, describiendo distribuciones de características relacionadas con la salud en la población:
A los estudios descriptivos los suelen seguir o acompañar estudios analíticos, que evalúan aso-
ciaciones para poder realizar inferencias sobre relaciones de causa y efecto:
• ¿Las personas con CI que consumen mucho pescado tienen menor riesgo de infarto de miocardio
recurrente que las personas con antecedentes de CI que consumen pescado con poca frecuencia?
El paso final es, con frecuencia, un ensayo clínico para establecer los efectos de una intervención:
• ¿El tratamiento con cápsulas de aceite de pescado reduce la mortalidad total en las personas
con CI?
Los ensayos clínicos suelen realizarse relativamente tarde en una serie de estudios de investigación
sobre una determinada pregunta, porque tienden a ser más difíciles y caros, y responden de manera
más concluyente las preguntas más concretas que surgen de los hallazgos de los estudios de obser-
vación.
Resulta útil caracterizar un estudio en una sola frase que resuma el diseño y la pregunta de la inves-
tigación. Si el estudio tiene dos fases importantes, debe mencionarse el diseño de cada una de ellas:
• Este es un estudio transversal de los hábitos dietéticos de personas de 50 a 69 años de edad con
antecedentes de CI, seguido por un estudio de cohortes prospectivo sobre si el consumo de pes-
cado se asocia a un riesgo menor de sufrir episodios coronarios en el futuro.
Esta frase es el análogo en investigación de la frase que inicia un informe médico de un residente
sobre un nuevo ingreso hospitalario: «Mujer policía caucásica de 62 años de edad que se sintió bien
hasta 2 h antes de su ingreso, momento en el que presentó dolor torácico opresivo que se irradiaba
al hombro izquierdo.»
Algunos diseños no encajan fácilmente en las categorías enumeradas anteriormente, y su clasifi-
cación con una sola frase puede resultar sorprendentemente difícil. Merece la pena el esfuerzo: una
descripción precisa del diseño y de la pregunta de la investigación aclara las ideas del investigador,
y resulta útil para orientar a los colaboradores y asesores.
Variables
Otro grupo importante de decisiones en el diseño de cualquier estudio se refiere a la elección de las
variables que se van a medir (cap. 4). Un estudio sobre el consumo de pescado en la dieta, por ejem-
plo, podría preguntar sobre los diferentes tipos de pescado que contienen diferentes concentraciones
de ácidos grasos omega 3, e incluir preguntas sobre el tamaño de la ración, si el pescado estaba frito
o asado, y sobre el consumo de complementos de aceite de pescado.
En un estudio analítico, el investigador estudia las asociaciones entre variables para predecir
respuestas y extraer inferencias sobre causa y efecto. Al considerar la asociación entre dos variables,
la que se observa primero o es más probable que sea causal partiendo de supuestos biológicos se
denomina variable predictiva; la otra se denomina variable de respuesta1. La mayor parte de los
estudios de observación tienen muchas variables predictivas (edad, raza, sexo, antecedentes de ta-
baquismo, consumo de pescado y complemento de aceite de pescado) y varias variables de respues-
ta (infartos, accidentes cerebrovasculares, calidad de vida, mal olor).
Los ensayos clínicos examinan los efectos de una intervención (un tipo especial de variable pre-
dictiva que el investigador manipula), como el tratamiento con cápsulas de aceite de pescado.
Este diseño permite observar los efectos sobre la variable de respuesta usando la aleatorización para
reducir al mínimo la influencia de las variables de confusión: otros factores que pueden influir en
la respuesta, como el tabaquismo y el nivel de ingresos, que podrían estar asociados con el pescado
de la dieta e introducir confusión en la interpretación de los hallazgos.
1
Las variables predictivas en ocasiones se denominan variables independientes, y las variables de respuesta variables
dependientes, aunque el significado de estos términos es menos evidente y preferimos evitar su uso.
Aspectos estadísticos
Los investigadores deben elaborar planes para calcular el tamaño de la muestra y para gestionar y
analizar los datos del estudio. Esto conlleva, generalmente, la especificación de una hipótesis
(cap. 5):
Hipótesis: las mujeres de 50 a 69 años de edad con CI que tomen complementos de aceite de
pescado presentarán un menor riesgo de sufrir infarto de miocardio recurrente que aquellas que
no lo hacen.
Esta es una versión de la pregunta de la investigación que constituye la base para estudiar la sig-
nificación estadística de los hallazgos. La hipótesis permite también al investigador calcular el ta-
maño de la muestra: cantidad de personas necesarias para observar la diferencia esperada en la
respuesta entre grupos de estudio con una probabilidad razonable (atributo que se conoce como
potencia) (cap. 6). En los estudios puramente descriptivos (¿qué proporción de personas con CI
toma complementos de aceite de pescado?) no se realizan pruebas de significación estadística y, por
tanto, no precisan una hipótesis; en lugar de ello, puede calcularse el número de personas necesario
para obtener intervalos de confianza aceptablemente estrechos para medias, proporciones u otros
estadísticos descriptivos.
9$/,'(= 9$/,'(=
(;7(51$ ,17(51$
■■FIGURA 1-1. El proceso del diseño y la realización de un proyecto de investigación prepara el escenario para extraer
conclusiones basadas en inferencias de los hallazgos.
Esta pregunta no puede contestarse con una exactitud perfecta, porque sería imposible estudiar
a todos los pacientes con CI, y los métodos para descubrir si una persona tiene CI y toma aceite de
pescado son imperfectos. Por lo tanto, el investigador se contenta con una pregunta relacionada que
pueda responderse en el estudio:
En una muestra de pacientes atendidos en la consulta del investigador que presentan un diagnós-
tico anterior de CI y que respondieron a un cuestionario enviado por correo, ¿qué proporción
comentó que tomaba a diario complementos de aceite de pescado?
,QIHUHQFLD
5($/,'$' 5($/,'$'
(1(/81,9(562 (1(/(678',2
(UURUHV
3UHJXQWD 3ODQ
GHODLQYHVWLJDFLyQ GHOHVWXGLR
'LVHxR
0XHVWUD
SUHYLVWD
3REODFLyQ
REMHWLYR 7RGRVORVSDFLHQWHV
FRQDQWHFHGHQWHGH&,
3HUVRQDVFRQ&,
DWHQGLGRVHQFRQVXOWD
HO~OWLPRDxR
)HQyPHQRV
GHLQWHUpV 9DULDEOHV
SUHYLVWDV
3URSRUFLyQTXHWRPD
FRPSOHPHQWRV &RQVXPRDXWRUUHIHULGR
GHDFHLWHGHSHVFDGR GHFRPSOHPHQWRVGH
9$/,'(= DFHLWHGHSHVFDGR
(;7(51$
■■FIGURA 1-2. Errores de diseño y validez externa: si la muestra y las variables previstas no representan lo suficiente la
población objetivo y los fenómenos de interés, estos errores pueden alterar las inferencias sobre lo que realmente ocurre
en la población.
Inferencia causal
Un tipo especial de problema de validez surge en los estudios que examinan la asociación entre una
variable predictiva y una variable de respuesta con el fin de obtener una inferencia causal. Si un estudio
de cohortes halla una asociación entre el consumo de pescado y episodios de CI, ¿representa esto una
relación de causa y efecto, o es el pescado un inocente espectador en una red de causalidad en la que
intervienen otras variables? La reducción de la probabilidad de confusión y de otras explicaciones al-
ternativas es uno de los principales retos que tiene el diseño de un estudio de observación (cap. 9).
Errores de la investigación
Tras reconocer que ningún estudio está libre de errores, el objetivo es aumentar al máximo la validez
de las inferencias extraídas de lo que se observó en la muestra del estudio a la naturaleza de lo que
Inferencia
REALIDAD HALLAZGOS
EN EL ESTUDIO DEL ESTUDIO
Errores
Plan del estudio Estudio real
Variables Mediciones
previstas reales
Respuestas a las
Uso autorreferido de preguntas del
complementos de aceite cuestionario sobre los
de pescado complementos de aceite
de pescado
VALIDEZ
INTERNA
■■FIGURA 1-3. Errores de realización y validez interna: si los participantes y las mediciones reales no representan lo
suficiente la muestra y las variables previstas, estos errores pueden alterar las inferencias sobre lo que ha ocurrido en el
estudio.
ocurre en la población. Las inferencias erróneas pueden abordarse en la fase del análisis de la inves-
tigación, pero una mejor estrategia será centrarse en el diseño y la ejecución (fig. 1-4), evitando,
desde el principio, que se produzcan errores en la medida que esto sea práctico.
Los dos tipos principales de errores que interfieren con las inferencias de la investigación son el
error aleatorio y el error sistemático. La distinción es importante, porque las estrategias para redu-
cirlos al mínimo son bastante diferentes.
El error aleatorio es un resultado erróneo debido al azar: fuentes de variación con la misma pro-
babilidad de alterar las mediciones del estudio en una u otra dirección. Si la frecuencia real de con-
sumo diario de complementos de aceite de pescado en los varios centenares de pacientes de 50 a
69 años de edad con CI en la consulta del investigador es del 20 %, una muestra bien diseñada de
100 pacientes de esa población podría contener exactamente 20 pacientes que consumen esos com-
plementos. Sin embargo, es más probable que la muestra contenga un número próximo, como 18,
19, 21 o 22. En ocasiones, el azar produciría una cifra notablemente diferente, como 12 o 28. Entre
las diversas técnicas para reducir la influencia del error aleatorio (cap. 4), la más sencilla consiste en
aumentar el tamaño de la muestra. El uso de una muestra de mayor tamaño disminuye la probabi-
lidad de que se produzca un resultado muy erróneo al aumentar la precisión del cálculo: el grado en
que la prevalencia observada se aproxima al 20 % cada vez que se obtiene una muestra.
El error sistemático es un resultado erróneo debido al sesgo: fuentes de variación que alteran los
hallazgos del estudio en una dirección. Un ejemplo es la decisión en la figura 1-2 de estudiar pacientes
en la consulta del investigador, donde los patrones de tratamiento locales han respondido a su interés
en el tema y sus compañeros tienen más probabilidad que otros médicos de recomendar el aceite de
pescado. El aumento del tamaño de la muestra carece de efecto sobre el error sistemático. El mejor modo
de aumentar la exactitud del cálculo (grado en que se aproxima al valor verdadero) es diseñar el estudio
de tal modo que reduzca la magnitud de los diversos sesgos. De manera alternativa, el investigador
puede buscar información adicional para evaluar la importancia de los posibles sesgos. Un ejemplo sería
comparar los resultados con los de una segunda muestra de pacientes con CI obtenida de otro entorno,
por ejemplo, examinar si los hallazgos de pacientes de este tipo atendidos en una consulta de cardiolo-
gía son diferentes de los encontrados en pacientes de una consulta de atención primaria.
Los ejemplos de error aleatorio y error sistemático de los dos párrafos anteriores son componen-
tes del error de muestreo, que amenaza las inferencias desde los participantes del estudio a la po-
blación. Ambos tipos de errores (aleatorio y sistemático) pueden contribuir también al error de
medición, que amenaza las inferencias desde las mediciones del estudio a los fenómenos de interés.
Inferencia Inferencia
Diseño Realización
VALIDEZ VALIDEZ
EXTERNA INTERNA
■■FIGURA 1-4. Errores de investigación. Estos detalles, desarrollados de los recuadros de errores de las figuras 1-2 y
1-3, muestran estrategias para controlar el error aleatorio y sistemático en las fases de diseño y realización del estudio.
,QIHUHQFLD ,QIHUHQFLD
5($/,'$' 5($/,'$' +$//$=*26
(1(/81,9(562 (1(/(678',2 '(/(678',2
(UURU (UURU
DOHDWRULR DOHDWRULR
3UHJXQWD \VLVWHPiWLFR 3ODQ \VLVWHPiWLFR (VWXGLR
GHLQYHVWLJDFLyQ GHOHVWXGLR UHDO
'LVHxR 5HDOL]DU
)HQyPHQRVGH 9DULDEOHV 0HGLFLRQHV
LQWHUpV SUHWHQGLGDV UHDOHV
9$/,'(= 9$/,'(=
(;7(51$ ,17(51$
■■FIGURA 1-5. Fisiología de la investigación: cómo funciona.
• Resumen del estudio (v. tabla 1-1 y apéndice 1-1). Este resumen del diseño en una página actúa
como lista de comprobación estandarizada que recuerda al investigador que debe abordar todos
los componentes. También es importante que la secuencia tenga una lógica ordenada que ayude
a aclarar las ideas del investigador sobre el tema.
• Protocolo del estudio. Esta ampliación del resumen del estudio habitualmente varía de 5 a 15 pá-
ginas y se utiliza para planificar el estudio y solicitar la aprobación del CEI y financiación. A lo
largo del libro se exponen las partes del protocolo, y se resumen en el capítulo 19.
• Manual operativo. Esta recopilación de instrucciones específicas sobre el procedimiento, los
cuestionarios y otros materiales está diseñada para asegurar un método uniforme y normalizado
para realizar el estudio con un buen control de calidad (caps. 4 y 17).
La pregunta de la investigación y el resumen del estudio deben redactarse en una fase inicial.
Reflejar las ideas en un papel transforma las ideas vagas en planes específicos, y proporciona una
base concreta para obtener opiniones de compañeros y asesores. Hacerlo constituye un reto (es más
fácil hablar de las ideas que escribirlas), pero las recompensas serán un inicio más rápido y un pro-
yecto mejor.
En el apéndice 1 se presenta un ejemplo de un resumen de un estudio. Este resumen de una pá-
gina se refiere más a la anatomía de la investigación (v. tabla 1-1) que a su fisiología (v. fig. 1-5), por
lo que el investigador debe recordar los errores que pueden producirse en el momento de obtener
inferencias, desde las medidas de la muestra en estudio hasta los fenómenos de interés en la pobla-
ción. Las virtudes y los problemas de un estudio pueden revelarse al considerar explícitamente en
qué difiere la pregunta a la que es probable que responda el estudio de la pregunta de la investigación,
según los planes para obtener participantes y realizar mediciones, y según los posibles problemas de
ejecución.
Con el resumen del estudio en la mano y las inferencias propuestas en la mente, el investigador
puede pasar a los detalles de su protocolo. Aquí se incluye la obtención de opiniones de compañeros,
el bosquejo de métodos de inclusión de pacientes y de medición específicos, la consideración de la
idoneidad científica y ética, la modificación de la pregunta del estudio y de su resumen cuando sea
necesario, las pruebas preliminares para la inclusión de pacientes y los métodos específicos de me-
dición, la realización de más cambios, la obtención de más opiniones, etc. Este proceso iterativo
constituye la naturaleza del diseño de la investigación y será el tema del resto de este libro.
Concesiones
Lamentablemente, los errores son una parte inherente de todos los estudios. El principal tema es si
estos errores serán lo suficientemente grandes como para cambiar las conclusiones de un modo
importante. Cuando diseña un estudio, el investigador se encuentra en una posición muy parecida
a la de un miembro de un sindicato negociando un nuevo contrato. Este empieza con una lista de
deseos: menos horas, más dinero, mejora de la asistencia sanitaria, etc. Luego debe hacer concesio-
nes, conservando las cosas que son más importantes y renunciando a las que no son esenciales o
realistas. Al final de las negociaciones hay un paso fundamental: mira el mejor contrato que puede
negociar y decide si se ha vuelto tan malo que ya no merece la pena.
El mismo tipo de concesiones debe hacer un investigador cuando transforma la pregunta de la
investigación en el plan del estudio y considera los posibles problemas de su ejecución. A un lado
se encuentran los problemas de validez interna y externa; al otro, la viabilidad. A veces, se omite el
último paso esencial del negociador del sindicato. Una vez que se ha formulado el plan del estudio,
el investigador debe decidir si aborda adecuadamente la pregunta de la investigación y si puede
realizarse con unos niveles de error aceptables. A menudo la respuesta es no, y será necesario empe-
zar el proceso de nuevo. Pero ¡anímese! Los buenos científicos se distinguen no tanto por sus ideas
de investigación uniformemente buenas como por su entusiasmo en abandonar las que no funcionan
y pasar a otras mejores.
■■ RESUMEN
1. La anatomía de la investigación es el conjunto de elementos tangibles que conforman el plan
del estudio: la pregunta de la investigación y su importancia, y el diseño, los participantes en
el estudio y los métodos de medición. El reto consiste en diseñar elementos que sean relativa-
mente económicos y fáciles de realizar.
2. La fisiología de la investigación es el modo en que se realiza el estudio. Los hallazgos de este se
usan para obtener inferencias sobre lo que sucedió en la muestra de estudio (validez interna)
y sobre acontecimientos fuera de este (validez externa). El reto aquí consiste en diseñar y eje-
cutar un plan de estudio con un control adecuado sobre dos importantes amenazas a estas infe-
rencias: el error aleatorio (azar) y el error sistemático (sesgo).
3. Al diseñar un estudio el investigador puede encontrar que es útil considerar la figura 1-5, las
relaciones entre la pregunta de la investigación (lo que se quiere responder), el plan del estudio
(lo que el estudio pretende responder) y el estudio real (lo que el estudio realmente responderá,
según los errores de ejecución que pueden preverse).
4. Una buena forma de desarrollar el plan del estudio consiste en empezar con una versión de la
pregunta de la investigación en una frase que especifique las variables principales y la población,
y ampliarla en un resumen de una página que describa los elementos en una secuencia norma-
lizada. Más adelante se ampliará en el protocolo y el manual operativo.
5. Se necesita un buen juicio por parte del investigador y el consejo de los colaboradores para
las numerosas concesiones que se deben hacer, y para determinar la viabilidad general del
proyecto.
APÉNDICE 1
Resumen de un estudio
Este es el plan del estudio en una página de un proyecto realizado por Valerie Flaherman, MD, MPH,
que comenzó cuando era residente de pediatría general en UCSF. Para la mayoría de los investigado-
res principiantes es más fácil iniciar estudios de observación, aunque en este caso era posible un
estudio clínico aleatorizado de un tamaño y un ámbito moderados, el único diseño que permitía
abordar adecuadamente la pregunta de la investigación, y en último término tuvo éxito (v. en la
publicación de Flaherman y cols.1 los hallazgos que, si se confirman, podrían alterar las políticas de
cómo iniciar mejor la lactancia materna).
Importancia
1. El volumen de la leche materna es bajo hasta que comienza la producción de leche madura
2-5 días después del parto.
2. Algunas madres se preocupan si el inicio de la producción de leche madura es tardío y su hijo
pierde mucho peso, y todo ello las lleva a abandonar la lactancia materna en la primera semana.
Una estrategia que aumentará la proporción de madres que tienen éxito en la lactancia materna
produciría muchos beneficios sanitarios y psicosociales para la madre y el niño.
3. En estudios de observación se ha encontrado que la alimentación con fórmula en los prime-
ros días tras el parto se asocia a una disminución de la lactancia materna. Aunque esto se
podría deber a la confusión por la indicación (v. cap. 9), este hallazgo ha llevado a directrices
de la OMS y de los CDC dirigidas a reducir el uso de fórmula durante la hospitalización del
parto.
4. Sin embargo, la combinación de una pequeña cantidad de fórmula con la lactancia materna y el
consejo médico podría hacer que la experiencia de lactancia materna temprana fuera más posi-
tiva y aumentaría la probabilidad de éxito. Hace falta un estudio clínico para evaluar los posibles
beneficios y perjuicios de esta estrategia.
Participantes
• Criterios de inclusión: recién nacidos a término sanos de 24-48 h de edad que hayan perdido
5 % del peso corporal en las primeras 36 h tras el nacimiento.
• Diseño del muestreo: muestra consecutiva de pacientes que dieron su consentimiento en dos
centros médicos académicos del norte de California.
BIBLIOGRAFÍA
1. Flaherman VJ, Aby J, Burgos AE, et al. Effect of early limited formula on duration and exclusivity of breastfeeding
in at-risk infants: an RCT. Pediatrics, en prensa.
,QIHUHQFLD ,QIHUHQFLD
5($/,'$' 5($/,'$' +$//$=*26
(1(/81,9(562 (1(/(678',2 '(/(678',2
(UURU (UURU
3UHJXQWD 3ODQGHOHVWXGLR (VWXGLR
GHODLQYHVWLJDFLyQ UHDO
'LVHxR 5HDOL]DFLyQ
9$/,'(= 9$/,'(=
(;7(51$ ,17(51$
■■FIGURA 2-1. Este capítulo se centra en el área dentro de la línea verde discontinua, el reto de elegir una pregunta de
la investigación que tenga interés y que se pueda abordar con un plan de estudio viable.
14
persona creativa plantee nuevos enfoques a los problemas antiguos, la falta de experiencia es, sobre
todo, un impedimento.
Una buena forma de comenzar es clarificar la diferencia entre una pregunta de la investigación
y un interés de la investigación. Tome en consideración esta pregunta de la investigación:
Esta pregunta la podría plantear alguien cuyo interés de investigación se refiere a la eficacia del
asesoramiento de grupo, o a la prevención de la violencia doméstica, o a la mejora de la salud en
inmigrantes recientes. La distinción entre preguntas de la investigación e intereses de la investigación
es importante, porque puede ocurrir que la pregunta de la investigación específica no se pueda
transformar en un plan de estudio viable, aunque el investigador puede seguir abordando su interés
de la investigación haciendo una pregunta diferente.
Por supuesto, es imposible formular una pregunta de la investigación si no se está seguro siquie-
ra del interés de la investigación (aparte de saber qué se supone que quiere uno). Si usted se encuen-
tra en esta situación, no está solo: muchos nuevos investigadores todavía no han descubierto un tema
que les interese y que sea susceptible de un plan de estudio que puedan diseñar. Puede empezarse
considerando qué tipos de estudios de investigación han estimulado su interés cuando los ve en una
revista médica. O tal vez se haya sentido preocupado por un paciente específico cuyo tratamiento
parecía inadecuado o incorrecto: ¿qué se podría haber realizado de manera diferente para mejorar el
resultado? O tal vez uno de los médicos ayudantes le haya comentado que la hipopotasemia siempre
producía una sed profunda, y otro dijo lo contrario, de una manera igual de dogmática.
tratamiento más doloroso y más prolongado en el servicio de urgencias, aunque la evaluación con
enmascaramiento mostró que los tiempos de curación y los resultados estéticos eran similares. Esto
se ha convertido actualmente en el abordaje estándar que se utiliza en la práctica clínica.
La aplicación de nuevas tecnologías a menudo genera nuevas ideas y preguntas sobre problemas clí-
nicos habituales, que, a su vez, pueden generar nuevos paradigmas (3). Los avances en el diagnóstico por
la imagen y en técnicas de análisis genéticos y moleculares, por ejemplo, han generado estudios de inves-
tigación aplicada que han llevado a nuevos tratamientos y pruebas que han modificado la medicina clí-
nica. Del mismo modo, la obtención de un nuevo concepto, tecnología o hallazgo en un campo y su
aplicación a un problema de un campo diferente pueden conducir a la formulación de buenas preguntas
de investigación. Por ejemplo, una densidad ósea baja es un factor de riesgo de fracturas. Los investiga-
dores aplicaron esta tecnología a otros problemas y observaron que las mujeres con densidad ósea baja
tienen mayor velocidad de deterioro cognitivo (4), lo cual estimuló la investigación de factores, como
concentraciones endógenas bajas de estrógenos, que podrían llevar a la pérdida de hueso y de memoria.
Su mentor le puede ofrecer una base de datos y pedirle que venga con una pregunta de la inves-
tigación. En esa situación es importante identificar: 1) la superposición entre lo que hay en la base
de datos y sus propios intereses de investigación, y 2) la calidad de la base de datos. Si no hay sufi-
ciente superposición o si los datos contienen errores irrevocables, debe encontrarse una forma de
pasar a otro proyecto.
Factible
Es mejor conocer los límites y problemas prácticos del estudio de una pregunta en fases tempranas
de la investigación, antes de invertir mucho tiempo y esfuerzo en líneas impracticables.
• Número de participantes. Muchos estudios no logran los objetivos propuestos por no poder contar
con suficientes participantes. Puede ser muy útil hacer pronto un cálculo preliminar de los requi-
sitos del tamaño de la muestra del estudio (cap. 6), junto con un cálculo del número de partici-
pantes de los que probablemente se dispondrá para el estudio, el número de los que serían exclui-
dos o rechazarían participar, y el número de los que se perderían durante el seguimiento. Incluso
una planificación meticulosa produce muchas veces cálculos que son excesivamente optimistas, y
el investigador debe asegurarse de que haya suficientes participantes idóneos y dispuestos. A veces
es necesario realizar un estudio piloto o una revisión de las historias clínicas para estar seguro. Si
parece que el número de participantes es insuficiente, el investigador puede considerar varias es-
trategias: ampliación de los criterios de inclusión, eliminación de criterios de exclusión innecesa-
rios, alargamiento del plazo de tiempo para incluir participantes, adquisición de otras fuentes de
participantes, desarrollo de métodos de medición más precisos, invitación a compañeros para
que participen en un estudio multicéntrico y utilización de un diseño del estudio diferente.
• Experiencia técnica. Los investigadores deben tener la capacidad, el equipo y la experiencia ne-
cesarios para diseñar el estudio, incluir a los participantes, medir las variables, y gestionar y
analizar los datos. Los consultores pueden ayudar a apuntalar aspectos técnicos con los que no
estén familiarizados los investigadores, pero, para áreas importantes del estudio, es mejor contar
con un compañero con experiencia que participe intensamente como coinvestigador; por ejemplo,
es sensato contar con un estadístico como miembro del equipo de investigación desde el principio
del proceso de planificación. Es mejor utilizar métodos familiares y ya establecidos, porque el
proceso de elaborar nuevos métodos y aptitudes lleva tiempo y no es seguro. Cuando se precisa
un nuevo método, como la medición de un nuevo biomarcador, debe buscarse la experiencia en
la forma de llevar a cabo la innovación.
• Coste de tiempo y económico. Es importante calcular los costes de cada uno de los componentes
del proyecto, teniendo en cuenta que el tiempo y el dinero necesarios superarán generalmente las
cantidades previstas al principio. Si los costes proyectados superan los fondos de los que se dispone,
las únicas opciones serán considerar un estudio más barato o buscar nuevas fuentes de financiación.
Reconocer pronto que un estudio es demasiado caro o que va a requerir demasiado tiempo puede
hacer que se modifique o se abandone el plan antes de que se haya realizado un gran esfuerzo.
• Ámbito. A menudo surgen problemas cuando un investigador intenta conseguir demasiado, rea-
lizando muchas determinaciones en contactos repetidos con un gran grupo de participantes en
un intento de responder a demasiadas preguntas. La solución estará en acortar el campo de estu-
dio y centrarse solo en los objetivos más importantes. Muchos científicos piensan que es difícil
abandonar la oportunidad de responder a preguntas accesorias interesantes, pero la recompensa
puede ser lograr una mejor respuesta a la pregunta principal.
• Posibilidad de financiación. Pocos investigadores disponen de recursos personales o institucio-
nales para financiar sus propios proyectos de investigación, particularmente si se debe incluir y
seguir a pacientes, o si se deben realizar mediciones costosas. La propuesta de investigación con
el diseño más elegante no será viable si no hay quien la pague. En el capítulo 19 se analiza la
búsqueda de fuentes de financiación.
Interesante
Un investigador puede tener muchos motivos para perseguir una pregunta de la investigación concre-
ta: porque le proporcionará dinero, porque es un siguiente paso, lógico o importante, en su carrera
profesional, o porque resulta interesante buscar la verdad del tema. Nos gusta esta última razón; crece
a medida que se ejercita, y proporciona la intensidad de esfuerzo necesaria para superar los numerosos
obstáculos y frustraciones del proceso de investigación. Sin embargo, es prudente confirmar que no es
usted el único que encuentra que una pregunta es interesante. Hable con mentores, expertos externos
y representantes de posibles agencias de financiación, como los encargados de proyectos del NIH,
antes de emplear demasiada energía en desarrollar un plan de investigación o una propuesta de finan-
ciación que los compañeros y entidades financieras pueden considerar carente de interés.
Novedosa
Una buena investigación clínica aportará información novedosa. Un estudio que simplemente reitere
lo que ya está establecido no merece el esfuerzo ni el coste, y es improbable que reciba financiación. La
novedad de un estudio propuesto puede determinarse mediante una revisión exhaustiva de la biblio-
grafía, la consulta con expertos familiarizados en la investigación en curso no publicada y la búsqueda
de resúmenes de proyectos en el campo de interés que han sido financiados consultando la página web
NIH Research Portfolio Online Reporting Tools (RePORT) (http://report.nih.gov/categorical_spending.
aspx.). Las revisiones de estudios enviados al NIH dan un peso considerable a si un estudio propuesto
es innovador (5), de modo que un resultado positivo podría cambiar paradigmas de investigación o la
práctica clínica mediante el uso de nuevos conceptos, métodos o intervenciones (cap. 19). Aunque
la novedad es un criterio importante, no es necesario que una pregunta de investigación sea totalmente
original: puede merecer la pena preguntarse si puede repetirse una observación anterior, si los hallazgos
en una población se aplican también a otras, o si un nuevo método de medición puede aclarar la relación
entre factores de riesgo conocidos y una enfermedad. Un estudio de confirmación será particularmente
útil si evita los puntos débiles de estudios anteriores o si el resultado a confirmar era inesperado.
Ética
Una buena pregunta de investigación debe ser ética. Si el estudio presenta riesgos físicos inaceptables
o invasión de la privacidad (cap. 14), el investigador debe buscar otras vías para responder a la pre-
gunta. Si existen dudas sobre si el estudio es ético, será útil comentarlo al principio con un repre-
sentante del comité de ética de la investigación (CEI).
Relevante
Un buen método para decidir sobre la importancia es imaginar los diversos resultados que pueden
suceder y considerar cómo cada posibilidad podría hacer avanzar el conocimiento científico, influir
en directrices prácticas y políticas sanitarias, u orientar a investigaciones posteriores. Los revisores
del NIH insisten en la relevancia de un estudio propuesto: la importancia del problema, en qué
medida el proyecto mejorará el conocimiento científico, y de qué manera el resultado modificará
conceptos, métodos o servicios clínicos.
Problemas y abordajes
Dos abordajes complementarios a los problemas que supone la formulación de una pregunta de
investigación merecen especial atención.
La primera es la importancia de obtener un buen asesoramiento. Recomendamos un equipo de
investigación que incluya representantes de cada una de las principales disciplinas del estudio, y que
incluya al menos un científico con experiencia. Además, es una buena idea consultar con especialis-
tas que puedan orientar el descubrimiento de investigaciones anteriores sobre el tema, así como la
elección y el diseño de las técnicas de medición. A veces lo hará un experto local, pero a menudo
resulta útil contactar con personas de otros centros que hayan publicado algún trabajo acerca del
tema. Un nuevo investigador puede verse intimidado por la idea de escribir o llamar a alguien a quien
solo conoce como autor en la revista Journal of the American Medical Association, pero la mayoría de
los científicos responden favorablemente a las peticiones de estos consejos.
El segundo abordaje es permitir que el plan de estudio surja gradualmente de un proceso iterati-
vo de realización de cambios incrementales en el diseño del estudio, estimación del tamaño de la
muestra, revisión con los compañeros, estudio previo de las características principales y revisión.
Una vez que se ha especificado el resumen del estudio en una página, la revisión formal por los
compañeros habitualmente llevará a mejoras importantes. A medida que el protocolo va tomando
forma, estudios piloto de la disponibilidad y la voluntad de números suficientes de participantes
pueden llevar a cambios del plan de inclusión. La prueba de imagen preferida puede llegar a ser
prohibitivamente cara, por lo que hay que buscar una alternativa más barata.
■■ INVESTIGACIÓN APLICADA
La investigación aplicada se refiere a los estudios que buscan la manera de llevar los hallazgos des-
de la «torre de marfil» al «mundo real», de garantizar que la creatividad científica tenga consecuen-
cias favorables sobre la salud pública. La investigación aplicada (6) se presenta en dos modalidades
principales (fig. 2-2):
T1 T2
■■FIGURA 2-2. La investigación aplicada es el componente de la investigación clínica que interactúa con la investigación
científica básica (área sombreada T1) o con la investigación en la población (área sombreada T2).
Por ejemplo, suponga que un científico básico ha identificado un gen que afecta al ritmo circadiano
en los ratones. Un investigador clínico con experiencia en el estudio del sueño tiene acceso a un es-
tudio de cohortes con datos sobre los ciclos del sueño y un banco de ADN almacenado, y desea
estudiar si existe una asociación entre las variantes del homólogo humano de ese gen y el sueño. Con
el fin de proponer un estudio T1 que contemple esa asociación, necesita colaboradores que estén fa-
miliarizados con ese gen y con las ventajas y limitaciones de los diversos métodos de genotipificación.
Del mismo modo, imagine que un investigador de laboratorio ha descubierto un patrón de ex-
presión génica característico en muestras de biopsias tisulares de pacientes con cáncer de mama. No
debe proponer un estudio de su uso como prueba para predecir el riesgo de recurrencia del cáncer
de mama sin colaborar con alguien que conozca la importancia de los aspectos de la investigación
clínica, como la fiabilidad de las pruebas, el muestreo y el enmascaramiento, así como los efectos de
la probabilidad previa de enfermedad sobre la posibilidad de aplicación de su descubrimiento. Una
buena investigación aplicada necesita experiencia en más de un campo. Así pues, un equipo de in-
vestigación que esté interesado en estudiar un nuevo fármaco necesita científicos familiarizados con
la biología molecular, la farmacocinética, la farmacodinámica, los ensayos clínicos de fase I y II, y la
práctica actual en el correspondiente campo de la medicina.
■■ RESUMEN
1. Todos los estudios deben empezar con una pregunta de la investigación que aborde lo que el
investigador desearía conocer. El objetivo es encontrar una que pueda desarrollarse en un buen
plan de estudio.
2. La erudición es esencial para formular preguntas de investigación que merezcan la pena estu-
diarse. Una revisión sistemática de la investigación relativa a un campo de investigación de
interés es un buen lugar para comenzar. La asistencia a conferencias, y estar alerta a los nuevos
resultados, amplía la experiencia del investigador más allá de lo que ya se ha publicado.
3. La decisión única más importante que toma un nuevo investigador es la elección de uno o dos
científicos con experiencia para que sean sus mentores: investigadores experimentados que
dedicarán tiempo a reunirse, ofrecerán recursos y contactos, estimularán la creatividad, y fo-
mentarán la independencia y la visibilidad de los científicos jóvenes a su cargo.
4. Las buenas preguntas de investigación surgen de encontrar buenos colaboradores en conferen-
cias, del pensamiento crítico sobre la práctica clínica y sus problemas, de la aplicación de nuevos
métodos a viejos problemas, y de considerar ideas que surgen de la docencia, de las ensoñacio-
nes diurnas y de la búsqueda tenaz de soluciones a problemas graves.
5. Antes de dedicar mucho tiempo y esfuerzo a escribir una propuesta o a llevar a cabo un estudio,
el investigador debe tener en cuenta si la pregunta y el plan del estudio son: factibles, intere-
santes, novedosos, éticos y relevantes. Quienes financian investigaciones dan prioridad a las
propuestas que puedan tener consecuencias innovadoras y significativas en la ciencia y la salud.
6. Al principio, la pregunta de investigación debe desarrollarse en un resumen del estudio escrito
en una página, que describa específicamente cuántos participantes serán necesarios, y cómo se
elegirán estos participantes y se realizarán las mediciones.
7. El desarrollo de la pregunta de la investigación y el plan del estudio es un proceso iterativo que
incluye consultas con asesores y amigos, una creciente familiaridad con la bibliografía, y estu-
dios piloto de los abordajes del reclutamiento y de las mediciones.
8. La mayor parte de los estudios tienen más de una pregunta, aunque es útil centrarse en una
única pregunta principal al diseñar y realizar el estudio.
9. La investigación aplicada es un tipo de investigación clínica que estudia la aplicación de los
hallazgos básicos a los estudios clínicos de pacientes (T1), así como el modo de aplicar estos ha-
llazgos para mejorar las prácticas sanitarias en la comunidad (T2); necesita la colaboración
entre investigadores de laboratorio e investigadores basados en la población, usando los mé-
todos de investigación clínica que se presentan en este libro.
BIBLIOGRAFÍA
1. The ATAC Trialists Group. Anastrazole alone or in combination with tamoxifen versus tamoxifen alone for adju-
vant treatment of postmenopausal women with early breast cancer: first results of the ATAC randomized trials.
Lancet 2002;359:2131–2139.
2. Quinn J, Cummings S, Callaham M, et al. Suturing versus conservative management of lacerations of the hand:
randomized controlled trial. BMJ 2002;325:299–301.
3. Kuhn TS. The structure of scientific revolutions. Chicago, IL: University of Chicago Press, 1962.
4. Yaffe K, Browner W, Cauley J, et al. Association between bone mineral density and cognitive decline in older
women. J Am Geriatr Soc 1999;47:1176–1182.
5. Prentice RL, Caan B, Chlebowski RT, et al. Low-fat dietary pattern and risk of invasive breast cancer. JAMA
2006;295:629–642.
6. Zerhouni EA. US biomedical research: basic, translational and clinical sciences. JAMA 2005;294:1352–1358.
U na buena elección de los participantes del estudio cumple el objetivo esencial de asegurar que
sus hallazgos representen de forma exacta lo que sucede en la población de interés. El protocolo
debe especificar una muestra de participantes que pueda estudiarse con un coste de tiempo y eco-
nómico aceptable (es decir, de tamaño moderado y de acceso sencillo), pero que sea lo suficiente-
mente grande para controlar el error aleatorio y lo suficientemente representativa para permitir la
generalización de los hallazgos del estudio a las poblaciones de interés. Un importante precepto aquí
es que la posibilidad de generalizar rara vez es un sencillo asunto de sí o no; es una opinión cuali-
tativa compleja que depende de la elección de la población y del diseño del muestreo por parte del
investigador.
Regresaremos al tema de la elección del número adecuado de participantes del estudio en el capí-
tulo 6. En este capítulo se orienta el proceso de especificación y muestreo de los tipos de participan-
tes que serán representativos y viables (fig. 3-1). También se comentan las estrategias para la selec-
ción de estas personas que van a participar en el estudio.
,QIHUHQFLD ,QIHUHQFLD
5($/,'$' 5($/,'$' +$//$=*26
(1(/81,9(562 (1(/(678',2 '(/(678',2
(UURU (UURU
3UHJXQWD 3ODQGHOHVWXGLR (VWXGLR
GHODLQYHVWLJDFLyQ UHDO
'LVHxR 5HDOL]DFLyQ
23
• Las características clínicas y demográficas definen la población objetivo, el gran grupo de perso-
nas de todo el mundo a las que se pueden generalizar los resultados: los adolescentes con asma,
por ejemplo.
• La población accesible es un subgrupo de la población objetivo definido geográfica y temporal-
mente, y del que puede disponerse para su estudio: adolescentes con asma que viven este año en
la ciudad del investigador.
• La muestra del estudio prevista es el subgrupo de población accesible que el investigador inten-
ta incluir en el estudio.
• La muestra real del estudio es el grupo real de personas que participan en el estudio.
*(1(5$/,=$&,Ð1
0(1266(*85$
([LVWHODPLVPD
DVRFLDFLyQHQ
D2WURVDGXOWRVGH
(VWDGRV8QLGRV
SHMGHUD]D
QHJUDGHOFHQWUR
GHODFLXGDG
E3HUVRQDVTXH
YLYHQHQRWURV
SDtVHV
F3HUVRQDVTXH
YLYLUiQHQ
G(WF
■■FIGURA 3-2. Las inferencias en la generalización desde los participantes del estudio a las poblaciones objetivo avan-
zan de derecha a izquierda.
5($/,'$' 5($/,'$'
(1(/81,9(562 (1(/(678',2
(VSHFLILFDFLyQ 0XHVWUHR
■■FIGURA 3-3. Pasos del diseño del protocolo para elegir los participantes del estudio.
hasta qué punto se ha producido un daño. Los errores de muestreo del estudio de Framingham no
parecen ser lo suficientemente importantes como para invalidar la conclusión de que sus hallazgos
(p. ej., que la hipertensión es un factor de riesgo de sufrir cardiopatía isquémica [CI]) pueden gene-
ralizarse a todos los residentes de Framingham.
El segundo problema es la validez que tiene la generalización del hallazgo de que la hipertensión
es un factor de riesgo de CI obtenido en la población accesible de los residentes de Framingham a
poblaciones objetivo de cualquier otro lugar. Esta inferencia es más subjetiva. Se escogió la ciudad
de Framingham no con un diseño científico del muestreo, sino porque parecía bastante típica de las
comunidades residenciales de clase media de Estados Unidos y a los investigadores les venía bien.
La validez de la generalización de las relaciones de riesgo de Framingham a poblaciones de otros
puntos del país conlleva la norma de que, en general, los ensayos clínicos y estudios analíticos que
abordan relaciones biológicas producen resultados más ampliamente generalizables en las diversas
poblaciones que los estudios descriptivos que abordan distribuciones de características. Así, la im-
portancia de la hipertensión como factor de riesgo de CI es similar en los residentes caucásicos de
Framingham y en los afroamericanos de ciudades del interior, pero la frecuencia de la hipertensión
es mucho mayor en esta última población.
■■ CRITERIOS DE SELECCIÓN
Un investigador que desea comparar la eficacia de los suplementos de testosterona en dosis baja con
un placebo para aumentar la libido en mujeres posmenopáusicas empieza creando criterios de selec-
ción que definan la población que se va a estudiar.
dades referidas por ellos mismos, aunque probablemente esto excluyera a un gran número de pacientes
que son perfectamente adecuados para la pregunta de la investigación que se quiere abordar.
Sería más razonable que pudiera excluir solo a los que tengan enfermedades que pudieran inter-
ferir con el seguimiento, como cáncer metastásico. Esto sería un ejemplo de «criterios de exclusión»,
que se refieren a las personas que cumplen los criterios de inclusión y que serían adecuadas para el
estudio de no ser por características que podrían interferir con el éxito de los intentos de seguimien-
to, la calidad de los datos o la aceptabilidad del tratamiento aleatorizado (v. tabla 3-1). La dificultad
con el idioma español, los problemas psicológicos, el alcoholismo y las enfermedades graves son
ejemplos de criterios de exclusión. Los ensayos clínicos difieren de los estudios de observación en
que es más probable que haya exclusiones exigidas por la preocupación de la seguridad de una in-
tervención en determinados pacientes; por ejemplo, el uso de fármacos en embarazadas (cap. 10).
Una buena regla general que hace que las cosas sigan siendo sencillas y conserva el número de po-
sibles participantes en el estudio es tener el menor número de criterios de exclusión posible.
■■ MUESTREO
A menudo, el número de personas que cumplen los criterios de selección es demasiado grande, y es
necesario seleccionar una muestra (subgrupo) de la población para su estudio.
Muestras no probabilísticas
En investigación clínica, la muestra del estudio está formada a menudo por personas que cumplen
los criterios de admisión y a las que el investigador tiene fácil acceso. Es lo que se denomina una
muestra de conveniencia, y tiene ventajas evidentes en cuanto a coste y logística, lo que hace que
sea una buena elección para algunas preguntas de investigación.
Una muestra consecutiva puede reducir al mínimo el sesgo de participación voluntaria y otros
sesgos de selección, al elegir de forma consecutiva a los pacientes que cumplan los criterios de admi-
sión. Este abordaje es especialmente deseable, por ejemplo, cuando significa incluir a toda la población
accesible a lo largo de un período lo suficientemente largo como para que puedan producirse variacio-
nes estacionales u otros cambios temporales que son importantes para la pregunta de la investigación.
La validez de extraer inferencias de cualquier muestra es la premisa de que, con el fin de respon-
der la pregunta de la investigación, representa suficientemente la población. Con muestras de con-
veniencia, esto requiere una opinión subjetiva.
Muestras probabilísticas
A veces, particularmente con preguntas de investigación descriptivas, es necesaria una base científica
para generalizar los hallazgos de la muestra en estudio a la población. El muestreo probabilístico, el
método de referencia para asegurar la posibilidad de generalizar los resultados, utiliza un proceso alea-
torio para garantizar que cada unidad de la población tenga una posibilidad específica de verse incluida
en la muestra. Se trata de un método científico que proporciona una base rigurosa para calcular la fide-
lidad con que los fenómenos observados en la muestra representan los de la población, y para calcular
la significación estadística y los intervalos de confianza. Existen varias versiones de este método:
• Una muestra aleatoria simple se extrae enumerando (contando) todas las personas de la población
de la que se extraerá la muestra, y seleccionando aleatoriamente un subgrupo. El uso más frecuente de
este método en investigación clínica es cuando el investigador desea seleccionar un subgrupo repre-
sentativo de una población que es mayor de lo que necesita. Para tomar una muestra aleatoria de los
pacientes operados de cataratas en su hospital, por ejemplo, el investigador podría obtener una lista
de todos estos pacientes de los partes de quirófano durante el período del estudio, y usar después una
tabla de números aleatorios para seleccionar pacientes para su estudio (apéndice 3).
• Una muestra sistemática es similar a una muestra aleatoria simple en el primer paso, la enumera-
ción de la población, pero difiere en que la muestra se elige mediante un proceso periódico prede-
terminado (p. ej., el método Framingham de obtener las primeras dos de cada tres familias de una
lista de familias residentes en la ciudad ordenadas por dirección). El muestreo sistemático puede pre-
sentar errores causados por periodicidades naturales en la población, y permite al investigador
predecir, y quizás manipular, quiénes estarán en la muestra. No ofrece ventajas logísticas sobre el
muestreo aleatorio simple, y rara vez es una opción mejor en la investigación clínica.
• Una muestra aleatoria estratificada comienza dividiendo la población en subgrupos según carac-
terísticas como el sexo o la raza, y se toma una muestra aleatoria de cada uno de esos «estratos».
Pueden asignarse pesos a las submuestras de una muestra estratificada para extraer una propor-
ción anormalmente elevada de subgrupos que son menos frecuentes en la población, pero que
tienen un interés especial para el investigador. Al estudiar la incidencia de la toxemia en el em-
barazo, por ejemplo, el investigador podría estratificar la población según la raza y, a continuación,
obtener muestras de igual tamaño de cada estrato. Entonces, las razas menos frecuentes estarían
sobrerrepresentadas, lo que permitiría obtener estimaciones de la incidencia con una precisión
comparable en todos los grupos raciales.
• Una muestra de conglomerados es una muestra aleatoria de agrupaciones (conglomerados) na-
turales de individuos de la población. Este muestreo es muy útil cuando la población está muy
dispersa y no se puede realizar una lista y hacer un muestreo de todos sus elementos. Considere,
por ejemplo, el problema de entrevistar a pacientes con cáncer de pulmón seleccionados aleato-
riamente de una base de datos de diagnósticos al alta hospitalaria de ámbito estatal; se podría
estudiar a los pacientes con un coste menor escogiendo una muestra aleatoria de los hospitales y
obteniendo los casos de estos. Los estudios en la comunidad a menudo usan una muestra de
conglomerados en dos etapas: una muestra aleatoria de manzanas de la ciudad se obtiene de las
manzanas de la ciudad enumeradas en un mapa, y un equipo de campo visita las manzanas de la
muestra, hace una lista de todas las direcciones de cada una y selecciona una submuestra para su
estudio mediante un segundo proceso aleatorio. Un inconveniente del muestreo de conglomera-
dos es que los grupos que aparecen de forma natural son, a menudo, más homogéneos en relación
con las variables de interés que la población; cada manzana de la ciudad, por ejemplo, tiende a
albergar personas de un nivel socioeconómico similar. Esto significa que el tamaño eficaz de la
muestra (después de ajustar la uniformidad dentro de los conglomerados) será algo menor que el
número de participantes, y que el análisis estadístico debe tener en cuenta el agrupamiento.
preferiblemente con un diseño consecutivo, es un enfoque práctico que a menudo resulta adecuado.
La decisión sobre si el diseño de muestreo propuesto es satisfactorio necesita que el investigador
emita un juicio: para la pregunta de la investigación que se plantea, ¿las conclusiones que se extraigan
de las observaciones del estudio serán similares a las conclusiones que se obtendrían del estudio de
una muestra probabilística verdadera de la población accesible? Y, aparte de eso, ¿las conclusiones
serán adecuadas para la población objetivo?
■■ SELECCIÓN
Objetivos de la selección
Un factor importante que hay que tener en cuenta en el momento de elegir la población accesible y
el método de muestreo es la posibilidad de reunir participantes para el estudio. Dos son los objetivos
principales: 1) reunir una muestra que represente adecuadamente a la población objetivo, minimi-
zando la posibilidad de obtener una respuesta incorrecta a la pregunta de la investigación debido al
error sistemático (sesgo), y 2) reunir un tamaño de la muestra suficiente para minimizar la proba-
bilidad de obtener una respuesta incorrecta debido al error aleatorio (por el azar).
lar la magnitud del problema de selección empíricamente mediante una prueba previa, planificar el
estudio con una población accesible que sea mayor de lo que se cree que será necesario, y elaborar
planes de contingencia por si surge la necesidad de obtener participantes adicionales. Mientras se
realiza la selección, es importante controlar estrechamente el progreso en cuanto al cumplimiento de
los objetivos de la selección y tabular las razones por las que no se llega a los objetivos. Conocer por
qué se pierde a los posibles participantes en el estudio en diferentes fases puede llevar a estrategias
para reducir estas pérdidas. A veces, la inclusión supone seleccionar pacientes que los miembros del
equipo de investigación ya conocen (p. ej., en un estudio de un nuevo tratamiento en pacientes que
acuden a la consulta del investigador). Aquí, el principal problema es presentar de manera justa la
oportunidad de participar en el estudio, dejando claros las ventajas y los inconvenientes. Al comentar
la participación, el investigador debe reconocer los dilemas éticos que surgen cuando su consejo, como
médico del paciente, podría entrar en conflicto con sus intereses como investigador (cap. 14).
A menudo, la selección conlleva entrar en contacto con poblaciones desconocidas para los miem-
bros del equipo investigador. Será útil que al menos un miembro del equipo tenga alguna experien-
cia con los métodos para contactar con los posibles participantes. Entre ellos se encuentran: de
tección selectiva en entornos laborales o lugares públicos, como centros comerciales; envío de gran
cantidad de publicidad por correo a listados de, por ejemplo, personas con carné de conducir; pu-
blicidad en Internet; invitación a remisiones por parte de otros médicos; revisión retrospectiva de
historias clínicas; y examen de listas de pacientes atendidos en consultas y hospitales. Algunos
de estos métodos, en concreto los dos últimos, acarrean temas como la intromisión en la vida privada,
que debe tener en cuenta el comité de ética de la investigación médica.
Puede resultar útil prepararse para la selección obteniendo el apoyo de organizaciones importan-
tes. Por ejemplo, el investigador puede reunirse con administradores del hospital para hablar sobre
una muestra de pacientes de la consulta, y con los dirigentes comunitarios, la sociedad médica y el
departamento de salud de la región para planificar una operación de detección en la comunidad o
el envío de cartas a los médicos. Pueden incluirse apoyos por escrito, como un apéndice en las soli-
citudes de financiación. En estudios de gran tamaño puede ser útil la creación de un clima favorable
en la comunidad mediante conferencias públicas, o con publicidad en la radio, la televisión, la pren-
sa, folletos, páginas web y envíos publicitarios masivos por correo.
■■ RESUMEN
1. La mayor parte de la investigación clínica se basa, desde el punto de vista filosófico y práctico,
en el uso de una muestra que represente a una población.
2. La ventaja del muestreo es la eficiencia; permite al investigador extraer inferencias sobre una
población de gran tamaño examinando un subgrupo con un coste relativamente pequeño en
cuanto a tiempo y esfuerzo. El inconveniente está en las fuentes de error que introduce. Si la
muestra no es suficientemente representativa para la pregunta de la investigación, los hallazgos
pueden no generalizarse bien a la población objetivo, y, si no es suficientemente grande, los
hallazgos pueden no minimizar la importancia del azar.
3. Cuando diseña una muestra, el investigador comienza conceptualizando la población objetivo
con un grupo específico de participantes que se adapten bien a la pregunta de la investigación.
4. Después, selecciona una población accesible y adecuada, que sea asequible desde los puntos de
vista geográfico y temporal, y define un conjunto económico de criterios de exclusión que eli-
minen a las personas cuyo estudio no sería ético o adecuado.
5. El siguiente paso será diseñar un método de muestreo en la población. Puede ser adecuada una
muestra de conveniencia, especialmente para el estudio inicial de algunas preguntas, y muchas
veces es una buena opción una muestra consecutiva. Puede realizarse un muestreo aleatorio sim-
ple para reducir el tamaño de una muestra de conveniencia, si es necesario; en determinadas situa-
ciones son útiles otras estrategias de muestreo probabilístico (estratificado y por conglomerados).
6. Finalmente, el investigador debe diseñar y llevar a cabo estrategias para la selección de una
muestra de participantes que sea suficientemente representativa de la población objetivo para
controlar las fuentes sistemáticas de error, y suficientemente grande para controlar las fuentes
aleatorias de error.
APÉNDICE 3
Esta tabla presenta una sencilla forma en papel para seleccionar una muestra aleatoria del 10 % gra-
cias a una tabla de números aleatorios. Comience enumerando (realizando una lista y asignando un
número) a todas las personas de la población de la que se va a obtener la muestra. Después, decida
una regla para obtener una serie adecuada de números; por ejemplo, si su lista tiene 741 elementos
(a los que se han asignado números del 1 a 741), la regla podría ser recorrer verticalmente hacia
abajo cada una de las columnas de esta tabla, utilizando los primeros tres dígitos de cada número
(comenzando en la esquina superior izquierda, los números son 104, 223, etc.), y seleccionar los
primeros 74 números diferentes que se encuentren en el intervalo de 1 a 741. Finalmente, seleccio-
ne un punto de partida mediante un proceso arbitrario (cerrar los ojos y poner el lápiz en algún
número de la tabla es una forma de hacerlo) y comience a aplicar la regla. El abordaje moderno, con
una serie computarizada de números aleatorios, funciona básicamente de la misma manera.
BIBLIOGRAFÍA
1. www.framinghamheartstudy.org/about/background.html, último acceso, 7/23/12.
■■ ESCALAS DE MEDIDA
En la tabla 4-1, se presenta una clasificación simplificada de escalas de medida y la información que
se obtiene. La clasificación es importante, porque algunos tipos de variables son más informativos
que otros, añadiendo potencia o reduciendo los requisitos de tamaño de la muestra, y revelando
patrones de distribución más detallados.
,QIHUHQFLD ,QIHUHQFLD
5($/,'$' 5($/,'$' +$//$=*26
(1(/81,9(562 (1(/(678',2 '(/(678',2
(UURU (UURU
3UHJXQWD 3ODQ (VWXGLR
GHOHVWXGLR GHOHVWXGLR UHDO
9$/,'(= 9$/,'(=
(;7(51$ ,17(51$
■■FIGURA 4-1. Diseño de mediciones que representen los fenómenos de interés.
32
Categórica
Dicotómica Dos categorías Estado vital Recuentos, Baja
(vivo o muerto) proporciones
Nominal Categorías no ordenadas Raza, tipo Igual que antes Baja
sanguíneo
Ordinal Categorías ordenadas con Grado de dolor, Además de lo anterior: Intermedia
intervalos que no se pueden clase social medianas
cuantificar
Numérica
Continua Espectro ordenado con Peso, número de Además de lo anterior: Elevada
o discreta† intervalos cuantificables cigarrillos/día medias, desviaciones
típicas
†
Las variables continuas tienen un número infinito de valores (p. ej., peso), mientras que las variables numéricas dis-
cretas son más limitadas (p. ej., número de cigarrillos/día). Las variables discretas que tienen un gran número de valo-
res posibles parecen variables continuas con fines prácticos de medida y análisis.
corporal, por ejemplo, está limitado solo por la sensibilidad del aparato que se utilice para medirlo.
Las variables continuas poseen mucha información. Las variables discretas cuantifican cuántos en
una escala con unidades fijas, habitualmente enteros, como el número de veces que ha estado em-
barazada una mujer. Las variables discretas que tienen un elevado número de valores posibles pueden
parecer variables continuas en los análisis estadísticos y ser equivalentes para el objetivo de diseñar
mediciones.
peso real al nacimiento, en lugar de indicar si es mayor o menor que el umbral convencional de
2 500 g; esto deja abiertas las opciones analíticas, como modificar el valor de corte que define el bajo
peso o el desarrollo de una escala ordinal con varias categorías de peso al nacimiento (p. ej., . 2 500 g,
2 000-2 499 g, 1 500-1 999 g y , 1 500 g).
Igualmente, cuando existe la opción de diseñar el número de categorías de respuesta en una esca-
la ordinal (como en una pregunta sobre preferencias alimentarias), a menudo resulta útil proporcionar
media docena de categorías que oscilen desde no gustar nada a gustar enormemente. Los resultados
pueden quedar más adelante colapsados en una dicotomía (no gustar y gustar), pero no lo contrario.
Muchas características, sobre todo síntomas como el dolor o aspectos de los hábitos de vida, son
difíciles de describir con categorías o números. Pero estos fenómenos, con frecuencia, son importantes
en el diagnóstico y las decisiones terapéuticas, y el intento de medirlos es una parte esencial del mé-
todo científico de descripción y análisis. Esto se ilustra mediante el cuestionario Short Form (SF)-36,
un cuestionario normalizado para evaluar la calidad de vida que permite obtener puntuaciones nu-
méricas discretas (2). El proceso de clasificación y medición, si se realiza bien, puede aumentar la
objetividad de nuestro conocimiento, reducir los sesgos y proporcionar un medio de comunicación.
■■ PRECISIÓN
La precisión de una variable es el grado en que es reproducible, con casi el mismo valor cada vez
que se mida. Una balanza puede medir el peso corporal con gran precisión, mientras que es más
probable que una entrevista para medir la calidad de vida produzca valores que varíen de un obser-
vador o una ocasión a otro. La precisión tiene una gran influencia en la potencia de un estudio.
Cuanto más precisa sea la medida, mayor será la potencia estadística con un tamaño de la muestra
concreto para calcular valores medios y comprobar hipótesis (cap. 6).
La precisión (denominada también reproducibilidad, fiabilidad y consistencia) es una función
del error aleatorio (variabilidad por el azar); cuanto mayor sea el error, menos precisa será la medi-
da. Existen tres fuentes principales de error aleatorio al realizar medidas:
• Variabilidad del observador: se debe al observador, e incluye factores como escoger palabras en
una entrevista o tener habilidad para usar un instrumento mecánico.
• Variabilidad del instrumento: se debe al instrumento, e incluye factores ambientales cambiantes
(p. ej., temperatura), el desgaste de los componentes mecánicos, lotes diferentes de reactivos, etc.
• Variabilidad del participante: se debe a la variabilidad biológica intrínseca de los participantes en
el estudio, que no se relaciona con las variables en estudio, como la variabilidad debida a la hora
del día de las mediciones o el tiempo desde la última medicación.
Evaluación de la precisión
La precisión se valora como la reproducibilidad de mediciones repetidas, ya sea comparando medi-
ciones realizadas por la misma persona (reproducibilidad intraobservador) o por personas diferentes
(reproducibilidad entre observadores). Igualmente, puede evaluarse para un instrumento o entre
diversos instrumentos. La reproducibilidad de las variables continuas se expresa, a menudo, como
la desviación típica intraobservador o el coeficiente de variación (desviación típica intraobservador
dividida por la media)1. Para las variables categóricas se utiliza a menudo la concordancia porcentual,
el coeficiente de correlación intraclase y el estadístico kappa (3-5).
1. Normalización de los métodos de medida. Todos los protocolos de estudio deberían incluir ins-
trucciones específicas para hacer las mediciones (definiciones operativas). Entre ellas se encuen-
tran direcciones escritas sobre cómo preparar el entorno y el participante, cómo realizar y registrar
la entrevista, cómo calibrar el instrumento, etc. (apéndice 4). Esta serie de materiales, parte del
manual operativo, es esencial en los estudios grandes y complejos, y recomendable en los más
pequeños. Aun cuando solo exista un único observador, las directrices específicas por escrito para
realizar cada una de las mediciones ayudarán a que su ejecución sea uniforme a lo largo del estu-
dio y servirán de base para describir los métodos cuando se publiquen los resultados.
2. Formación y certificación de los observadores. La formación mejorará la homogeneidad de las
técnicas de medición, especialmente cuando intervienen varios observadores. A menudo es desea-
ble diseñar una prueba formal del dominio de las técnicas especificadas en el manual de instruc-
ciones y certificar que los observadores han logrado el nivel recomendado de rendimiento (cap. 17).
3. Perfeccionamiento de los instrumentos. Los instrumentos mecánicos y electrónicos pueden di-
señarse para reducir la variabilidad. Igualmente, los cuestionarios y las entrevistas pueden escri-
birse para aumentar la claridad y evitar posibles ambigüedades (cap. 15).
4. Automatización de los instrumentos. Pueden eliminarse las variaciones en la forma en que los
observadores humanos realizan las mediciones mediante dispositivos mecánicos automáticos y
cuestionarios de autorrespuesta.
5. Repetición. La influencia del error aleatorio de cualquier tipo se reduce repitiendo la medición, y
usando la media de las dos o de más determinaciones. Con esta estrategia aumentará notablemen-
te la precisión, siendo la principal limitación el coste añadido y las dificultades prácticas para
repetir las determinaciones.
Para cada una de las mediciones del estudio, el investigador debe decidir cuánto hincapié debe
hacer en cada una de estas estrategias. Esta decisión puede basarse en la importancia de la variable,
■■ EXACTITUD
La exactitud de una variable es el grado en que representa el valor verdadero.
La exactitud es diferente de la precisión en los aspectos que se muestran en la tabla 4-3, y las dos
no están necesariamente unidas. Si se midiera repetidamente el colesterol sérico usando patrones
que se han diluido inadvertidamente dos veces, por ejemplo, el resultado sería inexacto, pero podría
seguir siendo preciso (consistentemente por un factor de 2). Este concepto se ilustra también en la
figura 4-2. Sin embargo, exactitud y precisión a menudo van de la mano, en el sentido de que muchas
de las estrategias para aumentar la precisión también mejorarán la exactitud.
La exactitud depende del error sistemático (sesgo); cuanto mayor sea el error, menos exacta será
la variable. Cada una de las tres clases principales de error de medición observadas en la sección
anterior sobre la precisión tiene su equivalente aquí:
• Sesgo del observador. Es una deformación, consciente o inconsciente, de la percepción o la no-
tificación de la medida por el observador. Puede representar errores sistemáticos en el modo en
que se utiliza un instrumento, como la tendencia a redondear a la baja las determinaciones de la
presión arterial, o utilizar preguntas dirigidas en la entrevista a un participante.
• Sesgo del instrumento. Puede deberse al funcionamiento defectuoso de un instrumento mecáni-
co. Una balanza que no ha sido calibrada recientemente puede haberse desviado a la baja, produ-
ciendo continuamente lecturas de pesos corporales bajas.
• Sesgo del participante. Es la deformación de la medición por parte del participante en el estudio,
por ejemplo, al notificar un suceso (sesgo de respuesta o de recuerdo). Las pacientes con cáncer
de mama que creen que el alcohol es una causa de su cáncer, por ejemplo, pueden exagerar el
consumo que refieren.
La exactitud de una medición se evalúa mejor comparándola, cuando es posible, con un «criterio
de referencia»: una medición de referencia realizada por un técnico que se piensa que es la que
mejor representa el verdadero valor de la característica. La decisión sobre qué abordaje de la medición
se debe considerar como criterio de referencia puede ser un juicio difícil que tiene que hacer el in-
vestigador, basándose en el trabajo previo en ese campo.
Para las mediciones en una escala continua, el grado de exactitud se puede expresar como la di-
ferencia media entre la medición en investigación y el criterio de referencia en los distintos partici-
pantes en el estudio. Para las mediciones en una escala dicotómica, la exactitud en comparación con
el criterio de referencia se puede describir con la sensibilidad y la especificidad (cap. 12). Para las
mediciones en escalas categóricas con más de dos opciones de respuesta, se puede calcular el por-
centaje de valores correctos con cada método.
La decisión del interés que se debe poner en aplicar cada una de estas siete estrategias para cada
una de las mediciones se basa, como ya se ha señalado en el caso de la precisión, en el juicio del in-
vestigador. Las consideraciones son las posibles consecuencias que tendrá el grado previsto de
inexactitud sobre las conclusiones del estudio, y la viabilidad y el coste de la estrategia. Las dos
primeras estrategias (normalización y formación) se deben utilizar siempre, la calibración es nece-
saria en cualquier instrumento que pueda cambiar a lo largo del tiempo, y el enmascaramiento es
esencial siempre que sea posible.
■■ VALIDEZ
La validez es similar a la exactitud, aunque nos gusta pensar que añade una dimensión cualitativa
a la consideración del grado en que una medición representa el fenómeno de interés. Por ejemplo,
las mediciones de la creatinina y la cistatina C en la sangre, dos productos químicos excretados por
los riñones, podrían tener la misma exactitud (p. ej., a menos del 1% de la concentración verdadera),
pero la cistatina C puede ser más válida como medición del funcionamiento renal, porque la con-
centración de creatinina también depende de la cantidad de músculo (7). En la figura 4-2 podemos
pensar que la validez describe si el centro de la diana está en la diana correcta.
• Validez del contenido. Examina hasta qué punto la evaluación representa todos los aspectos de
los fenómenos en estudio; por ejemplo, incluyendo preguntas sobre la capacidad funcional social,
física, emocional e intelectual para evaluar la calidad de vida.
• Validez aparente. Parece inherentemente razonable, como la medición del dolor en una escala de
10 puntos o la clase social por los ingresos del hogar.
• Validez de constructo. Es el grado en el que un dispositivo de medición específico concuerda con
un constructo teórico; por ejemplo, una prueba de cociente intelectual debe distinguir entre per-
sonas que, según la teoría u otras medidas, tienen diferentes niveles de inteligencia.
• Validez predictiva. Es la capacidad que tiene la medición de predecir un resultado; por ejemplo,
en qué medida un cuestionario diseñado para evaluar la depresión predice la pérdida de trabajo
o el suicidio.
• Validez relacionada con el criterio. Es el grado en que una nueva medida se relaciona con medidas
existentes y aceptadas.
El método general para medir fenómenos subjetivos y abstractos es comenzar haciendo una bús-
queda en la bibliografía y consultando con expertos en un intento de encontrar un instrumento
adecuado (generalmente un cuestionario) que ya haya sido validado. El uso de un instrumento como
ese tiene la ventaja de hacer los resultados de un nuevo estudio comparables a trabajos anteriores
dentro del mismo campo, y puede simplificar y reforzar el proceso de aplicación para financia-
ción y publicación de los resultados. Sus inconvenientes, no obstante, son que el proceso de validación
puede haber sido subóptimo, y que un instrumento retirado de la estantería puede estar anticuado
y no ser adecuado para la pregunta de la investigación.
Si los instrumentos de que se dispone no son adecuados para las necesidades del estudio, el in-
vestigador puede decidir desarrollar un nuevo método de medición y validarlo por sí mismo. Puede
ser un reto interesante e incluso llevar a una contribución notable a la bibliografía, aunque general-
mente hace falta mucho tiempo y esfuerzo (cap. 15). Es justo decir que el proceso es, a menudo, me-
nos concluyente de lo que la palabra «validación» implica.
por ejemplo, los marcadores inflamatorios ofrecen información útil sobre la fisiopatología de mu-
chas enfermedades. Es importante consultar con expertos sobre los tubos de recogida de muestras
y las condiciones de almacenamiento adecuados, con el fin de mantener la calidad de las mues-
tras y hacer que estén disponibles para una amplia variedad de usos posteriores. También es impor-
tante obtener el consentimiento informado de los participantes, que incluya la extensión de los
posibles usos de las muestras.
■■ RESUMEN
1. Las variables pueden ser numéricas y categóricas. Las variables numéricas pueden ser continuas
(se cuantifican en una escala infinita) o discretas (se cuantifican en una escala finita, como los
números enteros); las variables categóricas pueden ser nominales (desordenadas) u ordinales
(ordenadas), y las que tienen tan solo dos categorías se denominan dicotómicas.
2. Las variables que contienen más información confieren más potencia o permiten menores ta-
maños de la muestra, de acuerdo con la siguiente jerarquía: variables continuas . variables
discretas numéricas . variables ordinales . variables nominales y dicotómicas.
3. La precisión de una determinación (es decir, la reproducibilidad de medidas repetidas) es otro
importante determinante de la potencia y el tamaño de la muestra. Se ve disminuida por el error
aleatorio (azar) debido a tres fuentes de variabilidad: del observador, del participante y del
instrumento.
4. Las estrategias para aumentar la precisión que deben formar parte de cada estudio son definir
de forma operativa y normalizar los métodos en un manual operativo. Otras estrategias que
con frecuencia son útiles son la formación y la certificación de los observadores, el perfeccio-
namiento y la automatización de los instrumentos, y la repetición (utilizar la media de medi-
ciones repetidas).
5. La exactitud de una medición es el grado en el que se aproxima a un patrón de referencia. La
exactitud disminuye por el error sistemático (sesgo) a partir de las tres mismas fuentes: obser-
vador, participante e instrumento.
6. Las estrategias para aumentar la exactitud incluyen todas las enumeradas con respecto a la
precisión, con la excepción de la repetición. Además, la exactitud se fomenta por medidas no
molestas, calibración y (en comparaciones entre grupos) enmascaramiento.
7. La validez es el grado en el que una medida representa los fenómenos de pretende medir; se
utiliza habitualmente para variables más abstractas y subjetivas, y se evalúan mediante la validez
de contenido, la validez aparente, la validez de constructo, la validez predictiva y la validez re-
lacionada con el criterio.
8. Las mediciones individuales deben ser sensibles, específicas, apropiadas y objetivas, y deben
dar lugar a un intervalo de valores. En conjunto, deben ser amplias pero parcas, atendiendo a
la pregunta de la investigación con un coste moderado en cuanto a tiempo y dinero.
9. Los investigadores deben considerar almacenar imágenes y otros materiales para posteriores
determinaciones que puedan aprovecharse de nuevas tecnologías a medida que se desarrollen,
y de la eficacia de diseños de casos y testigos anidados.
APÉNDICE 4
El brazo no debe entrar en contacto con el cuerpo. La acción de prensión debe ser un apretón
lento y sostenido, en lugar de un apretón explosivo.
BIBLIOGRAFÍA
1. Michaelsson K, Baron JA, Snellman G, et al. Plasma vitamin D and mortality in older men: a community-based
prospective cohort study. Am J Clin Nutr 2010;92:841–848.
2. Ware JE, Gandek B Jr. Overview of the SF-36 health survey and the International Quality of Life Assessment Pro
ject. J Clin Epidemiol 1998;51:903–912.
3. Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996;313:41–42; also, Measurement
error proportional to the mean. BMJ 1996;313:106.
4. Newman TB, Kohn M. Evidence-based diagnosis. New York: Cambridge University Press, 2009.
5. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960;20:37– 46.
6. Filion K, Kukanich KS, Chapman B, et al. Observation-based evaluation of hand hygiene practices and the effects
of an intervention at a public hospital cafeteria. Am J Infect Control 2011;39:464–470.
7. Peralta CA, Shlipak MG, Judd S, et al. Detection of chronic kidney disease with creatinine, cystatin C, and urine
albumin-to-creatinine ratio and association with progression to end-stage renal disease and mortality. JAMA
2011;305:1545–1552.
8. Guttmacher AE, Collins FS. Genomic medicine: a primer. NEJM 2002;347:1512–1520.
9. Healy DG. Case–control studies in the genomic era: a clinician’s guide. The Lancet Neurology 2006;5:701–707.
D espués de que el investigador ha decidido a quién y qué va a estudiar, y el diseño que va a usar,
deberá decidir cuántos participantes integrarán la muestra. Incluso el estudio de ejecución más ri-
gurosa puede fracasar en la respuesta a su pregunta de investigación si el tamaño de la muestra es
demasiado pequeño. Por otro lado, un estudio con una muestra demasiado grande resultará más
difícil y costoso de lo necesario. El objetivo de la planificación del tamaño de la muestra consiste en
calcular un número adecuado de participantes para un diseño de estudio concreto.
Aunque constituyen una guía útil, los cálculos del tamaño de la muestra dan una impresión en-
gañosa de objetividad estadística. Son solo igual de exactos que los datos y cálculos en los que se
basan, que, a menudo, son simplemente supuestos informados. Debe considerarse que la planifica-
ción del tamaño de la muestra es una forma matemática de realizar un cálculo aproximado. A me-
nudo demuestra que el diseño de investigación no es posible o que se necesitan diferentes variables
predictivas o de respuesta. Por lo tanto, el tamaño de la muestra debe calcularse al principio de la
fase de diseño de un estudio, cuando todavía es posible realizar cambios importantes.
Antes de establecer los métodos específicos para calcular el tamaño de la muestra para varios di-
seños de investigación habituales, en el capítulo 6, dedicaremos algún tiempo a considerar los prin-
cipios subyacentes. Los lectores que encuentren algunos de estos principios confusos disfrutarán
descubriendo que la planificación del tamaño de la muestra no requiere un dominio total. Sin em-
bargo, igual que una receta tiene más sentido si el cocinero está algo familiarizado con los ingredien-
tes, los cálculos del tamaño de la muestra son más senillos si el investigador conoce los conceptos
básicos. Incluso si tiene previsto pedir a un amigo bioestadístico que calcule el tamaño de la muestra
de su estudio, tener algunos conocimientos de cómo funciona el proceso le permitirá participar más
activamente en la consideración de los supuestos y estimaciones implicados en el cálculo.
■■ HIPÓTESIS
El proceso comienza reformulando la pregunta de la investigación como hipótesis de investigación,
que resume los principales elementos del estudio: la muestra y las variables predictivas y de respues-
ta. Por ejemplo, suponga que su pregunta de la investigación es que las personas que realizan cruci-
gramas tienen menos probabilidad de presentar demencia. Su hipótesis de investigación tendría que
especificar la muestra (p. ej., personas que viven en una comunidad de jubilados que tienen una
función cognitiva normal), la variable predictiva (realizar crucigramas al menos una vez a la semana
en promedio) y la variable de respuesta (una puntuación anómala en una prueba estandarizada de
función cognitiva después de 2 años de seguimiento).
Las hipótesis en sí mismas no son necesarias en los estudios descriptivos, que describen cómo se
distribuyen las características en una población, como la prevalencia de una función cognitiva anó-
mala en la comunidad de jubilados. (Esto no significa, sin embargo, que no vaya a necesitar calcular
el tamaño de una muestra para un estudio descriptivo, sino que los métodos para hacerlo, descritos
en el capítulo 6, son diferentes.) Se necesitan las hipótesis en estudios que usarán pruebas de signi-
ficación estadística para comparar hallazgos entre grupos, como si los ancianos que realizan cruci-
gramas con frecuencia tienen menos probabilidad de llegar a tener demencia. Debido a que la mayor
43
parte de los estudios de observación y todos los estudios experimentales plantean preguntas de in-
vestigación que conllevan la realización de comparaciones, la mayor parte de los estudios necesita
especificar, al menos, una hipótesis. Si alguno de los siguientes términos aparece en la pregunta de
la investigación, el estudio no será simplemente descriptivo, y deberá formularse una hipótesis de la
investigación: mayor que, menor que, más probable que, asociado a, comparado con, relacionado
con, similar, correlacionado con, causa y produce.
En pacientes con diabetes de tipo II, un estilo de vida sedentario se asocia a mayor riesgo de pre-
sentar proteinuria.
En pacientes con diabetes de tipo II, un estilo de vida sedentario y el consumo de alcohol se aso-
cian a mayor riesgo de presentar proteinuria.
En pacientes con diabetes de tipo II, el consumo de alcohol se asocia a mayor riesgo de presentar
proteinuria y neuropatía.
Las hipótesis complejas como estas no se comprueban fácilmente con una sola prueba estadística,
y se abordan más fácilmente como dos o más hipótesis sencillas. A veces, no obstante, puede utili-
zarse una variable predictiva o de respuesta combinada:
En pacientes con diabetes de tipo II, el consumo de alcohol se asocia a mayor riesgo de presentar
una complicación microvascular (como proteinuria, nefropatía o retinopatía).
En este ejemplo, el investigador ha decidido qué ocurre si un participante tiene una complicación,
no qué tipo de complicación se produce.
El uso previo de antidepresivos tricíclicos durante al menos 6 semanas es más frecuente en pa-
cientes ingresados por infarto de miocardio en el hospital Longview que en los testigos ingresados
por neumonía.
La frase es larga, pero comunica la naturaleza del estudio de una forma clara, que reduce al mínimo
cualquier oportunidad de probar algo que sea un poco diferente una vez que se han examinado los
hallazgos del estudio. Sería incorrecto sustituir, durante la fase de análisis del estudio, una medida di-
ferente de la variable predictiva, como la depresión comunicada por el propio paciente, sin considerar
el tema del estudio de múltiples hipótesis (un punto que se comentará al final del capítulo). General-
mente, para mantener concisa la hipótesis de la investigación, algunos de estos detalles se dejan claros
en el plan de estudio, en lugar de establecerse en la hipótesis de investigación. Pero deben estar siempre
claros en la concepción del estudio por parte del investigador, y deben explicarse en el protocolo.
Una vez más, si la hipótesis de investigación llega a ser difícil de manejar, pueden omitirse las
definiciones siempre que se aclaren en algún otro lugar.
Las personas de Phnom Penh que beben agua del grifo tienen el mismo riesgo de presentar enfer-
medad ulcerosa péptica que las que beben agua embotellada.
La proposición de que hay una asociación («Las personas de Phnom Penh que beben agua del
grifo tienen mayor riesgo de presentar enfermedad ulcerosa péptica que las que beben agua embo-
tellada») se denomina hipótesis alternativa. La hipótesis alternativa no se puede estudiar directa-
mente; se acepta por defecto si la prueba de significación estadística rechaza la hipótesis nula (v. más
adelante).
Hacen falta otros términos confusos. La hipótesis alternativa puede ser unilateral o bilateral. Una
hipótesis alternativa unilateral especifica la dirección de la asociación entre las variables predictiva
y de respuesta. La hipótesis de que beber agua del grifo aumenta el riesgo de enfermedad ulcerosa
péptica (en comparación con el agua embotellada) es una hipótesis unilateral. Una hipótesis alter-
nativa bilateral afirma únicamente que hay una asociación; no especifica la dirección. Por ejemplo,
«beber agua del grifo se asocia a un riesgo diferente de enfermedad ulcerosa péptica (mayor o menor)
que beber agua embotellada».
Las hipótesis unilaterales pueden ser apropiadas en determinadas circunstancias, como cuando
solo es clínicamente importante o biológicamente significativa una dirección para una asociación.
Un ejemplo lo constituye la hipótesis unilateral de que un nuevo fármaco para la hipertensión tiene
más probabilidad de causar exantema que un placebo; no suele merecer la pena comprobar la posi-
bilidad de que el fármaco cause menos exantema que el placebo (sin embargo, lo merecería si el
fármaco tuviera propiedades antiinflamatorias). Una hipótesis unilateral también puede ser apropia-
da cuando existen pruebas importantes, a partir de estudios previos, de que es improbable que se
produzca una asociación en una de las dos direcciones, como en un estudio en el que se comprobó
si fumar cigarrillos afecta al riesgo de cáncer cerebral. Debido a que el tabaquismo se ha asociado a
mayor riesgo de muchos tipos diferentes de cáncer, podría bastar una hipótesis alternativa unilateral
(p. ej., que fumar aumenta el riesgo de cáncer cerebral). Sin embargo, los investigadores deben co-
nocer que muchas hipótesis bien fundamentadas (p. ej., que el tratamiento con b caroteno disminui-
rá el riesgo de cáncer de pulmón, o que el tratamiento con fármacos que reducen el número de ex-
trasístoles ventriculares disminuirá la muerte súbita entre los pacientes con arritmias ventriculares)
se tornarán erróneas cuando se estudien en ensayos aleatorizados. Efectivamente, en estos dos ejem-
plos, los resultados de ensayos bien realizados revelaron un efecto estadísticamente significativo de
dirección opuesta a la que los investigadores esperaban encontrar (1-3). En general, creemos que la
mayoría de las hipótesis alternativas deben ser bilaterales.
Es importante tener en cuenta la diferencia entre la hipótesis de investigación, que habitualmente
es unilateral, y la hipótesis alternativa, que se usa cuando se planifica el tamaño de la muestra y que
casi siempre es bilateral. Por ejemplo, suponga que la hipótesis de investigación es que el uso recurren-
te de antibióticos durante la infancia se asocia a mayor riesgo de enfermedad inflamatoria intestinal.
Esa hipótesis especifica la dirección del efecto anticipado, por lo que es unilateral. ¿Por qué usar una
hipótesis alternativa bilateral al planificar el tamaño de la muestra? La respuesta está en que la mayor
parte de las veces ambos lados de la hipótesis alternativa (es decir, mayor riesgo o menor riesgo) son
interesantes, y los investigadores podrían desear publicar los resultados independientemente de cuál
fuera la dirección observada. El rigor estadístico precisa que el investigador escoja entre hipótesis uni-
laterales y bilaterales antes de analizar los datos; el cambio de una hipótesis bilateral a otra unilateral
para reducir el valor de p (v. más adelante) no es correcto. Además (y esta es probablemente la razón
por la que las hipótesis alternativas bilaterales son mucho más frecuentes), la mayor parte de los revi-
sores de financiaciones y manuscritos esperan hipótesis bilaterales y critican los enfoques unilaterales.
realmente es falsa en la población. Aunque estos errores nunca pueden evitarse totalmente, el inves-
tigador puede reducir su probabilidad aumentando el tamaño de la muestra (cuanto mayor sea la
muestra, menos probable será que difiera notablemente de la población), o manipulando el diseño
o las determinaciones de otros modos que se comentarán.
En este capítulo y en el siguiente solo se abordarán modos de reducir los errores de tipo I y de
tipo II debidos a la variación por el azar, también conocidos como error aleatorio. También pueden
producirse resultados positivos falsos y negativos falsos debido a sesgo, pero estos errores por sesgo
no suelen denominarse errores de tipo I y de tipo II. Son errores molestos porque pueden ser difíci-
les de detectar, y generalmente no pueden cuantificarse usando métodos estadísticos ni evitarse
aumentando el tamaño de la muestra. (En los caps. 1, 3, 4 y 7-12, se exponen modos de reducir los
errores debidos al sesgo.)
Muchos estudios tienen varias magnitudes del efecto, porque miden varias variables predictivas
y de respuesta diferentes. Cuando se diseña un estudio, se debe determinar el tamaño de la muestra
utilizando la magnitud del efecto deseada para la hipótesis más importante; podrán calcularse en-
tonces las magnitudes del efecto detectables para otras hipótesis. Si existen varias hipótesis de
importancia similar, el tamaño de la muestra para el estudio deberá basarse en cualquiera de las hi-
pótesis que necesite la muestra mayor.
a, b y potencia
Tras completar un estudio, el investigador usa pruebas estadísticas para intentar rechazar la hipóte-
sis nula en favor de su alternativa, casi del mismo modo que un fiscal intenta convencer al jurado
para que rechace la inocencia a favor de la culpabilidad. Dependiendo de si la hipótesis nula es
verdadera o falsa en la población en estudio, y suponiendo que el estudio carezca de sesgo, se pueden
producir cuatro situaciones (tabla 5-2). En dos de ellas, los hallazgos en la muestra y en la realidad
en la población coinciden, y la inferencia del investigador será correcta. En las otras dos situaciones,
se ha producido un error de tipo I o de tipo II, y la inferencia será incorrecta.
El investigador establece, antes de hacer el estudio, la máxima probabilidad que tolerará de rea-
lizar errores de tipo I y II. La máxima probabilidad de cometer un error de tipo I (rechazar la hipó-
tesis nula cuando en realidad es cierta) se denomina a (alfa). Otro nombre para a es nivel de signi-
ficación estadística.
Si, por ejemplo, a un estudio de los efectos del ejercicio sobre la glucemia en ayunas se le asigna
un valor a de 0,05, el investigador ha establecido el 5% como la probabilidad máxima de rechazo
incorrecto de la hipótesis nula si esta es cierta (con lo que se infiere que el ejercicio y la glucemia en
ayunas están asociados en la población cuando, de hecho, no lo están). Este es el nivel de duda ra-
zonable que el investigador estará dispuesto a aceptar cuando use pruebas estadísticas para analizar
los datos una vez completado el estudio.
La probabilidad de cometer un error de tipo II (no rechazar la hipótesis nula cuando en realidad
es falsa) se denomina b (beta). La cantidad (1 – b) se denomina potencia, y es la probabilidad de re-
chazar correctamente la hipótesis nula en la muestra si el efecto real en la población es igual (o mayor)
que la magnitud del efecto.
Si se establece el valor de b en 0,10, el investigador ha decidido que está dispuesto a aceptar un
riesgo del 1 % de perder una asociación de una magnitud del efecto concreta si existe. Esto represen-
ta una potencia de 0,90, es decir, una posibilidad del 9 % de encontrar una asociación de ese tamaño
o mayor. Por ejemplo, suponga que el ejercicio realmente conduce a una reducción promedio de
20 mg/dl de la glucemia en ayunas en mujeres diabéticas de la población. Si el investigador repitiera
el estudio con la misma potencia del 9 % en numerosas ocasiones, esperaríamos que en 9 de cada
10 estudios rechazara correctamente la hipótesis nula con el nivel de alfa especificado (0,05), y
concluiría que el ejercicio se asocia a la glucemia basal. Esto no significa que el investigador no
pudiera detectar una magnitud del efecto menor en la población, por ejemplo, una reducción de
15 mg/dl; sencillamente significa que tendrá una probabilidad menor del 9 % de hacerlo.
De forma ideal, a y b deberían ser próximos a 0, lo que minimizaría la posibilidad de obtener
resultados positivos falsos y negativos falsos. Sin embargo, reducirlos requiere que se aumente el
tamaño de la muestra, o una de las otras estrategias que se discuten en el capítulo 6. La planificación
del tamaño de la muestra pretende escoger una cantidad suficiente de participantes para mantener
a y b en un nivel aceptablemente bajo sin que el estudio sea innecesariamente caro y difícil.
Muchos estudios establecen a en 0,05 y b en 0,20 (una potencia de 0,80). Son valores arbitrarios,
y a veces se utilizan otros: los límites convencionales para a están entre 0,01 y 0,10, y los de b entre
0,05 y 0,20. En general, el investigador debe usar un valor de a bajo cuando la pregunta de la inves-
tigación hace que sea particularmente importante evitar un error de tipo I (positivo falso): por
ejemplo, al probar la eficacia de un fármaco que puede ser peligroso. Debe usar un valor de b bajo
(y una magnitud del efecto pequeña) cuando es especialmente importante evitar un error de tipo II
(negativo falso): por ejemplo, al tranquilizar a las personas de que vivir cerca de un vertedero de
residuos tóxicos no es peligroso.
1
En ocasiones se denominan pruebas de una y de dos colas, por las colas (áreas de los extremos) de las distribuciones
estadísticas.
■■ OTROS PUNTOS
Variabilidad
No es simplemente la magnitud de un efecto lo que es importante; su variabilidad también lo es. Las
pruebas estadísticas dependen de si son capaces de mostrar una diferencia entre los grupos que se
comparan. Cuanto mayor es la variabilidad (o dispersión) de la variable de respuesta entre los par-
ticipantes, más probable será que se superpongan los valores de los grupos, y más difícil será demos-
trar una diferencia general entre ellos. Debido a que el error de medida contribuye a la variabilidad
general, las medidas menos precisas requieren tamaños de muestra mayores (5).
Considere un estudio sobre los efectos de dos dietas (pocas grasas y pocos hidratos de carbono)
en la consecución de una pérdida de peso en 20 pacientes obesos. Si todos los que siguen la dieta
baja en grasas pierden unos 3 kg y todos los que siguen la dieta con pocos hidratos de carbono pier-
den poco peso o no pierden peso (una magnitud del efecto de 3 kg), es probable que la primera
dieta sea realmente mejor (fig. 5-1A). Por otro lado, si la pérdida promedio de peso es de 3 kg en el
grupo con la dieta baja en grasas y de 0 kg en el grupo de la dieta con hidratos de carbono, pero hay
mucha superposición entre los dos grupos (la situación de la figura 5-1B), la mayor variabilidad
haría que fuera más difícil detectar una diferencia entre las dietas, y haría falta un mayor tamaño de
la muestra.
Cuando una de las variables usadas en el cálculo del tamaño de la muestra es continua (p. ej.,
peso corporal en la fig. 5-1), el investigador deberá calcular su variabilidad. (Para más detalles, v. la
sección sobre la prueba de la t de Student en el cap. 6.) En la demás situaciones, la variabilidad ya
está incluida en los otros parámetros introducidos en las fórmulas y tablas del tamaño de la muestra,
y no es necesario que se especifique.
0HGLDGHODGLHWD 0HGLDGHODGLHWD
FRQSRFDV FRQSRFRV 'LHWDFRQSRFDV
JUDVDV NJ &+2 NJ JUDVDV
'LHWDFRQSRFRV
&+2
1
− − − − − − − − −
9DULDFLyQGHSHVRNJ
$
'LHWDFRQSRFDV
JUDVDV
0HGLDGHODGLHWD 0HGLDGHODGLHWD 'LHWDFRQSRFRV
FRQSRFDV FRQSRFRV
&+2
1 JUDVDV NJ &+2 NJ
− − − − − − − − −
9DULDFLyQGHSHVRNJ
%
■■FIGURA 5-1. A: Pérdida de peso lograda con dos dietas. Todos los que siguieron la dieta con pocas grasas perdieron de
2 a 4 kg, mientras que la variación de peso en los que siguieron la dieta baja en hidratos de carbono (CHO) variaba desde –1
a +1 kg. Como no hay superposición entre los dos grupos, es razonable inferir que la dieta baja en grasas es mejor para
perder peso que la que contiene pocos hidratos de carbono (como se confirmaría mediante una prueba de la t, que per-
mitió obtener un valor de p , 0,0 001). B: Pérdida de peso lograda con dos dietas. Existe una notable superposición en
variación de peso en los dos grupos. Aunque la magnitud del efecto es la misma (3 kg) que en A, hay pocas pruebas de
que una dieta sea mejor que la otra (como se confirmaría mediante una prueba de la t, que se asocia a un valor de p
de 0,19).
se pierde la significación estadística después del ajuste de Bonferroni, lo que podría representar
la imposibilidad de respaldar una asociación que estaba realmente presente en la población (error
de tipo II).
Especialmente en estos casos, decidir qué nivel de significación se va a usar depende más de la
probabilidad previa de cada hipótesis que del número de hipótesis probadas, y por este motivo
nuestro punto de vista general es que el uso sistemático del abordaje de Bonferroni para el estudio
de múltiples hipótesis muchas veces es demasiado estricto. Existe una analogía con el uso de pruebas
diagnósticas que puede ser útil (6,7). Cuando interpreta los resultados de una prueba diagnóstica,
un médico considera la probabilidad de que el paciente que está estudiando tenga la enfermedad en
cuestión. Por ejemplo, el resultado ligeramente anómalo de una prueba en una persona sana (una
concentración sérica de fosfatasa alcalina que es un 15 % mayor del límite superior de la normalidad)
es probablemente una prueba falsamente positiva, que no es probable que tenga mucha importancia
clínica. Igualmente, un valor de p de 0,05 para una hipótesis improbable es también, posiblemente,
un resultado falso positivo.
Sin embargo, no es probable que una concentración de fosfatasa alcalina que sea 10 a 20 veces
mayor que el límite superior normal se haya producido por casualidad (si bien pudiera ser un error
de laboratorio). Así, también, no es probable que un valor de p muy pequeño (es decir, , 0,001) haya
sucedido por casualidad (aunque pudiera deberse al sesgo). Es difícil desechar resultados de pruebas
muy anómalos como positivos falsos o desechar valores de p muy pequeños como debidos al azar,
incluso si la probabilidad previa de la enfermedad o la hipótesis era baja2.
Además, el número de pruebas que se habían pedido, o de hipótesis que se estudiaron, no siempre
es relevante. La interpretación de una concentración de ácido úrico sérico elevada en un paciente
con una articulación inflamada y dolorosa no debe depender de si el médico solicitó una sola prue-
ba (la concentración de ácido úrico) o de si obtuvo el resultado como parte de un panel de 20 pruebas.
Igualmente, cuando se interpreta el valor de p para verificar una hipótesis de investigación que
tenga sentido, no debe importar que el investigador verifique también varias hipótesis improbables.
Lo que más importa es la racionalidad de la hipótesis de investigación que se está estudiando: que
tiene una probabilidad previa elevada de ser correcta. (La probabilidad previa, en este método «ba-
yesiano», suele ser una opinión subjetiva basada en datos de otras fuentes.) Las hipótesis que se
formulan durante el diseño de un estudio suelen cumplir este requisito; después de todo, ¿por qué
otro motivo emplearía el investigador tiempo y esfuerzo en planificar y realizar el estudio?
¿Qué ocurre con asociaciones no previstas que aparecen durante la recogida y el análisis de los
resultados de un estudio? Este proceso se denomina, a veces, generación de hipótesis o, con un
enunciado menos favorable, «prospección de datos» o «expedición de pesca». Las numerosas com-
paraciones informales que se realizan durante el análisis de datos son una forma de estudiar múltiples
hipótesis. Surge un problema similar cuando se vuelven a definir variables durante el análisis de los
datos, o cuando se presentan los resultados para subgrupos de la muestra. Valores de p significativos
para hipótesis generadas por datos que no se llegaron a plantear durante el diseño del estudio se
deben, a menudo, al azar. Deben contemplarse con interés, pero con escepticismo, y debe conside-
rarse que son una fuente de posibles preguntas de investigación para estudios futuros.
A veces, no obstante, un investigador no puede especificar una hipótesis concreta por adelantado,
aunque esa hipótesis parece razonable cuando llega la hora de analizar los datos. Esto podría suceder,
por ejemplo, si otros autores descubren un nuevo factor de riesgo mientras se está realizando el estu-
dio, o si el investigador no pensó en una hipótesis concreta cuando se estaba diseñando el estudio. El
punto importante no es tanto si se formuló la hipótesis antes de iniciar el estudio, como si existe una
probabilidad previa razonable, basada en datos de otras fuentes, de que la hipótesis sea cierta (6, 7).
Hay algunas ventajas específicas para definir más de una hipótesis al planificar un estudio. El uso
de múltiples hipótesis no relacionadas aumenta la eficacia del estudio, haciendo que sea posible
responder a más preguntas con un solo esfuerzo de investigación y descubrir más de las verdaderas
asociaciones que existen en la población. También puede ser una buena idea formular varias hipó-
tesis relacionadas; si los hallazgos son congruentes, las conclusiones del estudio se refuerzan. En
estudios realizados en pacientes con insuficiencia cardíaca, se ha observado que el uso de inhibido-
res de la enzima convertidora de la angiotensina es beneficioso para reducir los ingresos de causa
cardíaca, la mortalidad cardiovascular y la mortalidad total. Si se hubiera estudiado solo una de estas
hipótesis, las inferencias de estos estudios habrían sido menos definitivas. Suponga que cuando se
analizan estas hipótesis relacionadas y preestablecidas, solo una resulta estadísticamente significati-
va. Entonces, el investigador debe decidir (e intentar convencer a editores y lectores) si los resultados
significativos, los no significativos o ambos grupos de resultados son correctos.
2
Una vez más, la excepción son algunos estudios genéticos en los que se pueden explorar millones o incluso miles de
millones de asociaciones.
Una buena norma, particularmente para ensayos clínicos, es establecer por adelantado tantas
hipótesis como tengan sentido, pero especificar solo una como la hipótesis principal, que puede
verificarse estadísticamente sin necesidad de plantear si se debe hacer un ajuste para estudiar múl-
tiples hipótesis. Más importante aún, tener una hipótesis principal ayuda a centrar el estudio en su
objetivo principal y proporciona una base clara para el cálculo del tamaño de la muestra principal.
Muchos estadísticos y epidemiólogos están pasando del estudio de hipótesis, con su énfasis en los
valores de p, a utilizar intervalos de confianza para describir la precisión de los resultados del estudio
(8-10). De hecho, algunos autores piensan que todo el proceso de basar la planificación del tamaño
de la muestra en las hipótesis es erróneo, en parte porque depende de cantidades que son descono-
cidas (magnitud del efecto) o arbitrarias (a y b) (11). Sin embargo, el abordaje que hemos asumido
es práctico y sigue siendo la norma en la planificación de la investigación clínica.
■■ RESUMEN
1. La planificación del tamaño de la muestra es una parte importante del diseño de los estudios
analíticos y descriptivos. El tamaño de la muestra debe calcularse en fases tempranas del proce-
so de desarrollar el diseño de la investigación, de modo que puedan hacerse modificaciones
adecuadas.
2. Los estudios analíticos y experimentales necesitan una hipótesis que especifique, para las pos-
teriores pruebas estadísticas, la asociación prevista entre las principales variables predictivas y
de respuesta. Los estudios puramente descriptivos, que carecen de estrategia comparativa, no
necesitan una hipótesis.
3. Las buenas hipótesis son específicas sobre el modo en que se muestreará a la población y se
medirán las variables, sencillas (solo existe una variable predictiva y una variable de respuesta)
y formuladas por adelantado.
4. La hipótesis nula, que propone que la variable predictiva no está asociada con las variables de
respuesta, constituye la base de las pruebas de significación estadística. La hipótesis alternativa
propone que sí están asociadas. Las pruebas estadísticas intentan rechazar la hipótesis nula de
ausencia de asociación a favor de la hipótesis alternativa de que sí existe una asociación.
5. Una hipótesis alternativa es unilateral (solo se estudiará una dirección de asociación) o bilateral (se
analizarán ambas direcciones). Las hipótesis unilaterales solo deben usarse en circunstancias no
habituales, cuando solo una dirección de la asociación es clínicamente o biológicamente significativa.
6. En experimentos y estudios analíticos, el tamaño de la muestra es un cálculo del número de
participantes necesarios para detectar una asociación de una magnitud del efecto y variabilidad
determinadas con una probabilidad especificada de cometer errores de tipo I (positivos falsos)
y de tipo II (negativos falsos). La probabilidad máxima de cometer un error de tipo I se deno-
mina a la de cometer un error de tipo II se denomina b. La cantidad (1 – b) es la potencia, la
posibilidad de observar una asociación con una magnitud del efecto determinada o mayor en
una muestra si está realmente presente en la población.
7. A menudo es deseable establecer más de una hipótesis por adelantado, aunque el investigador
debe especificar una sola hipótesis principal como objetivo y para el cálculo del tamaño de la
muestra. La interpretación de los hallazgos tras estudiar múltiples hipótesis en la muestra, in-
cluyendo hallazgos no previstos que surgen a partir de los datos, se basa en una opinión sobre
la probabilidad previa que representan fenómenos reales en la población.
BIBLIOGRAFÍA
1. The Alpha-Tocopherol, Beta Carotene Cancer Prevention Study Group. The effect of vitamin E and beta carotene
on the incidence of lung cancer and other cancers in male smokers. N Engl J Med 1994;330:1 029–1 035.
2. Echt DS, Liebson PR, Mitchell LB, et al. Mortality and morbidity in patients receiving encainide, flecainide, or
placebo. The Cardiac Arrhythmia Suppression Trial. N Engl J Med 1991;324:781–788.
3. The Cardiac Arrhythmia Suppression Trial II Investigators. Effect of the antiarrhythmic agent moricizine on sur-
vival after myocardial infarction. N Engl J Med 1992;327:227–233.
4. Van Walraven C, Mahon JL, Moher D, et al. Surveying physicians to determine the minimal important difference:
implications for sample-size calculation. J Clin Epidemiol 1999;52:717–723.
5. McKeown-Eyssen GE, Tibshirani R. Implications of measurement error in exposure for the sample sizes of case-
control studies. Am J Epidemiol 1994;139:415–421.
6. Browner WS, Newman TB. Are all significant P values created equal? The analogy between diagnostic tests and
clinical research. JAMA 1987;257:2 459–2 463.
7. Newman TB, Kohn, MA. Evidence-based diagnosis. New York: Cambridge University Press, 2009. Chapter 11.
8. Daly LE. Confidence limits made easy: interval estimation using a substitution method. Am J Epidemiol 1998;
147:783–790.
9. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med 1999;130:995–1 004.
10. Goodman SN. Toward evidence-based medical statistics. 2: The Bayes factor. Ann Intern Med 1999;130:1 005–1 013.
11. Bacchetti P. Current sample size conventions: flaws, harms, and alternatives. BMC Med. 2010;8:17.
E n el capítulo 5 se presentaron los principios básicos para los cálculos del tamaño de la muestra.
Este capítulo presenta varias técnicas «de manual» para usar esos principios en el cálculo del tama-
ño de la muestra necesario para un proyecto de investigación. La primera sección aborda los cálcu
los del tamaño de la muestra para un estudio experimental o analítico, incluyendo algunos puntos
especiales que se aplican a estos estudios, como el análisis multivariado. La segunda sección consi-
dera estudios que son fundamentalmente descriptivos. Las siguientes secciones abordan estudios
que tienen un tamaño de la muestra fijo, estrategias para aumentar al máximo la potencia de un
estudio y el modo de calcular el tamaño de la muestra cuando parece existir información insuficien-
te con la que trabajar. El capítulo finaliza con los errores habituales que hay que evitar.
Al final del capítulo se ofrecen tablas y fórmulas, en los apéndices, para varios métodos bá-
sicos de calcular el tamaño de la muestra. Además, existe una calculadora en nuestra página web
(www.epibiostat.ucsf.edu/dcr/), y hay muchas páginas en Internet que pueden realizar cálculos
interactivos e instantáneos del tamaño de la muestra; intente buscar por «calculadora de tama-
ño muestral» (sample size calculator, en inglés). La mayor parte de los programas estadísticos
también pueden calcular el tamaño de la muestra a partir de diseños de estudios habituales.
Incluso si hay dudas sobre el valor exacto de uno o más de los ingredientes, es importante calcu-
lar el tamaño de la muestra al principio de la fase de diseño. Esperar hasta el último minuto para
prepararlo puede llevar a un brusco despertar: puede que sea necesario empezar de nuevo con nue-
vos ingredientes, lo que puede significar volver a diseñar el estudio completo. Esta es la razón por
la que este tema se aborda al principio de este libro.
No todos los estudios analíticos se encuadran claramente en una de las tres categorías principales
de cálculo del tamaño de la muestra descritos en las secciones siguientes: utilización de la prueba de
la 2 si las variables predictiva y de respuesta son dicotómicas, utilización de la prueba de la t si una
es dicotómica y la otra continua, y utilización del coeficiente de correlación si las dos son continuas.
55
Algunas de las excepciones más habituales se analizan en la sección denominada «Otras considera-
ciones y problemas especiales» (pág. 60).
Prueba de la t
La prueba de la t (a veces, denominada «prueba de la t de Student», por el seudónimo de su creador)
suele utilizarse para determinar si el valor medio de una variable continua en un grupo difiere significati-
vamente del valor en el otro grupo. Por ejemplo, sería adecuado usar la prueba de la t al comparar las
puntuaciones medias de depresión en pacientes tratados con dos antidepresivos diferentes, o el índice de
masa corporal medio en personas que tienen y no tienen diabetes. La prueba de la t supone que la distri-
bución de la variable en cada uno de los dos grupos se aproxima a una curva normal (con forma de cam-
pana). Sin embargo, la prueba de la t es notablemente sólida, por lo que puede usarse en casi cualquier
distribución, salvo que el número de participantes sea pequeño (menor de 30 a 40) o haya valores extremos.
Aunque la prueba de la t habitualmente se utiliza para comparar resultados continuos, también
se puede utilizar para estimar el tamaño de la muestra para un resultado dicotómico (como en los
estudios de casos y testigos) si el estudio tiene una variable predictiva continua. En esta situación,
la prueba de la t compara el valor medio de la variable predictiva en los casos con el de los testigos.
Para calcular el tamaño de la muestra para un estudio en el que los valores medios de una variable
de respuesta continua se compararán mediante una prueba de la t (v. ejemplo 6-1), el investigador debe:
La magnitud del efecto y la variabilidad pueden calcularse, a menudo, a partir de estudios previos
de la bibliografía y de la consulta con expertos. En ocasiones, será necesario un pequeño estudio pi-
loto para calcular la desviación típica de la variable (v. también la sección «Cómo calcular el tamaño
de la muestra cuando no existe información suficiente» en la pág. 70). Cuando la variable de respues-
ta es el cambio de una medición continua (p. ej., cambio de peso durante un estudio), el investigador
debe usar la desviación típica del cambio de esa variable (no la desviación típica de la propia variable)
en los cálculos del tamaño de la muestra. La desviación típica del cambio de una variable suele ser
menor que la desviación típica de la variable; por tanto, el tamaño de la muestra también será menor.
En ocasiones, un investigador no puede obtener ninguna información significativa sobre la des-
viación típica de una variable. En esta situación, merece la pena utilizar una cantidad denominada
magnitud del efecto normalizada, que es una cantidad adimensional que posibilita la estimación del
tamaño de la muestra; también simplifica las comparaciones entre las magnitudes del efecto de di-
ferentes variables. Por ejemplo, una diferencia de 10 mg/dl de la concentración sérica de colesterol,
que tiene una desviación típica poblacional de aproximadamente 40 mg/dl, sería igual a una magni-
tud del efecto normalizada de 0,25. Cuanto mayor sea la magnitud del efecto normalizada, menor
será el tamaño de muestra necesario. En la mayor parte de los estudios, la magnitud del efecto nor-
malizada será . 0,1. Magnitudes más pequeñas son difíciles de detectar (se necesitan tamaños de
muestra muy grandes) y no suelen ser muy importantes clínicamente.
En el apéndice 6A se muestran los requisitos de tamaño de la muestra para diversas combinacio-
nes de a y b para varias magnitudes normalizadas. Para usar la tabla 6A, busque en la columna si-
tuada más a la izquierda la magnitud del efecto normalizada. A continuación, recorra la tabla hasta
los valores de a y b elegidos para encontrar el tamaño de la muestra necesario por grupo. (Los nú-
meros de la tabla 6A suponen que los dos grupos que se comparan tienen el mismo tamaño de
muestra; use la fórmula que está bajo la tabla, un paquete estadístico o un programa interactivo en
la Web si esa suposición no es cierta.)
Existe un atajo cómodo para obtener una aproximación del tamaño de la muestra usando la
prueba de la t cuando se van a estudiar más de unos 30 participantes y se establece la potencia en
0,80 (b = 0,2) y a (bilateral) en 0,05 (1). La fórmula es:
Tamaño de la muestra (por grupo de igual tamaño) = 16/(magnitud del efecto normalizada)2
En el ejemplo 6-1, el cálculo del tamaño de la muestra por el atajo sería 16/0,22 = 400 por grupo.
Prueba de la 2
La prueba de la ji al cuadrado (2) puede usarse para comparar la proporción de participantes de cada
uno de los dos grupos que tienen una variable de respuesta dicotómica. Por ejemplo, la proporción de
varones que presentan cardiopatía isquémica mientras son tratados con folato puede compararse con
la proporción de los que presentan cardiopatía isquémica mientras toman un placebo. Esta prueba es
siempre bilateral; una prueba equivalente para hipótesis unilaterales es la prueba de la Z unilateral.
1. Establecer la hipótesis nula y decidir si la hipótesis alternativa debe ser unilateral o bilateral.
2. Calcular la magnitud del efecto y la variabilidad desde el punto de vista de P1, la proporción con la
variable de respuesta en un grupo, y de P2, la proporción con la variable de respuesta en el otro grupo.
3. Establecer a y b.
un investigador podría estudiar si las mujeres que toman anticonceptivos orales tienen al menos el
doble de probabilidad de sufrir un infarto de miocardio que las que no los usan. En un estudio de
cohortes (o experimental) es directo transformar el riesgo relativo en las dos proporciones (P1 y P2)
y viceversa, ya que el riesgo relativo es P1 dividido por P2 (o viceversa).
Sin embargo, en un estudio de casos y testigos, la situación es algo más compleja, porque el ries-
go relativo debe aproximarse mediante la razón de posibilidades (RP):
(P1 [1 − P2])
RP =
(P2 [1 − P1])
El investigador debe especificar la razón de posibilidades (RP) y P2 (la proporción de testigos expues-
tos a la variable predictiva). Por lo tanto, P1 (la proporción de casos expuestos a la variable predictiva) es:
RP P2
P1 =
(1 − P2) + (RP P2)
Por ejemplo, si el investigador espera que el 10 % de las testigos estarán expuestas a los anticoncep-
tivos orales (P2 = 0,1) y desea detectar una razón de posibilidades de 3 asociada a la exposición, entonces:
3 0,1 0,3
P1 = = = 0,25
(1 – 0,1) + (3 0,1) 1,2
Coeficiente de correlación
Aunque el coeficiente de correlación (r) no se usa habitualmente en el cálculo del tamaño de la
muestra, puede ser útil cuando tanto la variable predictiva como la de respuesta son continuas. Este
coeficiente es una medida de la solidez de la asociación lineal entre las dos variables. Varía entre –1 y
+1. Los valores negativos indican que, a medida que una variable aumenta, la otra disminuye (como
la concentración de plomo en sangre y el CI en los niños). Cuanto más próximo está el valor de r a
1, más fuerte es la asociación; cuanto más próximo está a cero, más débil es la asociación. La altura
y el peso en los adultos, por ejemplo, están muy relacionadas en algunas poblaciones, con r ≈ 0,9.
Estos valores altos, sin embargo, no son frecuentes; muchas asociaciones biológicas tienen coeficien-
tes de correlación mucho más pequeños.
Los coeficientes de correlación son frecuentes en algunos campos de la investigación clínica, como
la medicina conductista, pero su utilización para calcular el tamaño de la muestra presenta un in-
conveniente: los coeficientes de correlación tienen poco significado intuitivo. Cuando se eleva al
cuadrado (r2), un coeficiente de correlación representa la proporción de la dispersión (varianza) de
una variable de respuesta que se debe a su asociación lineal con una variable predictiva, y viceversa.
Este es el motivo por el que valores pequeños de r, como los que son # 0,3, pueden ser estadística-
mente significativos si la muestra es lo suficientemente grande sin ser muy significativa clínicamen-
te o científicamente, ya que «explican» a lo sumo el 9 % de la varianza.
Una forma alternativa (a menudo, preferida) de calcular el tamaño de una muestra para un estu-
dio en el que las variables predictiva y de respuesta son ambas continuas es dicotomizar una de las
dos variables (p. ej., utilizando como referencia la mediana) y usar, en su lugar, los cálculos de la
prueba de la t. Esto tiene la ventaja de expresar la magnitud del efecto como una diferencia entre dos
grupos (la interpretación de coeficientes de correlación, que no comunica la magnitud del efecto, es
más indefinida). Para calcular el tamaño de la muestra para un estudio que se analizará con un
coeficiente de correlación (ejemplo 6.3), el investigador debe:
Variables categóricas
Aunque hay motivos matemáticos por los que puede no ser adecuado estimar el tamaño de una
muestra para variables ordinales utilizando una prueba, en la práctica, las variables ordinales mu-
chas veces se pueden tratar como variables continuas, especialmente si el número de categorías es
relativamente grande (seis o más) y el promedio de los valores de la variable tiene sentido.
En otras situaciones, la mejor estrategia es cambiar ligeramente la hipótesis de la investigación, di-
cotomizando la variable categórica. A modo de ejemplo, suponga que un investigador está estu
diando si hablar inglés como segundo idioma se asocia al número de veces que los pacientes diabé-
ticos consultan con el podólogo en 1 año. El número de visitas está distribuido irregularmente:
muchas personas no acudirán nunca, algunas acudirán una vez y solo unas pocas acudirán dos o
más veces. En esta situación, el investigador podría calcular el tamaño de la muestra como si la va-
riable fuera dicotómica (ninguna visita frente a una o más visitas).
Análisis de supervivencia
Cuando un investigador desea comparar la supervivencia o cualquier otro dato de tiempo hasta un
episodio, como cuál de los tratamientos es más eficaz en la prolongación de la vida en mujeres con
cáncer de mama avanzado, el análisis de supervivencia será una técnica adecuada para analizar los
datos (2,3). Aunque la variable de respuesta, como los meses de supervivencia, parece ser continua,
la prueba de la t no es adecuada, porque lo que se está evaluando en realidad no es el tiempo (una
variable continua), sino la proporción de pacientes (una variable dicotómica) que sigue con vida en
cada momento a lo largo del tiempo. De manera similar, un investigador podría estar comparando
la incidencia de aparición del resultado (por cada 100 personas/año de seguimiento) en dos grupos.
Se puede realizar una aproximación razonable simplemente estimando la proporción de pacientes
que se espera que lleguen a tener ese resultado en los dos grupos y calculando el tamaño de la mues-
tra con la prueba de la 2. Sin embargo, si se espera que el resultado se produzca en la mayoría de
los pacientes, como la muerte en un estudio de cáncer de mama avanzado, una estrategia mejor
(porque minimiza el tamaño de la muestra total) es estimar el tamaño de la muestra basado en las
proporciones de pacientes de cada grupo que se espera que tengan el resultado en un momento del
seguimiento en el que se haya producido aproximadamente la mitad de los resultados totales. Por
ejemplo, en un estudio en el que se compara la supervivencia sin enfermedad recurrente en pacien-
tes con cáncer de mama tratadas con un tratamiento estándar o con otro experimental, en el que se
espera que hayan muerto aproximadamente el 60 % de las pacientes del grupo de tratamiento están-
dar a los 2 años, en comparación con el 40 % de las que reciban el tratamiento experimental, el
tamaño de la muestra se puede estimar utilizando la «supervivencia a los 2 años» como resultado
dicotómico.
Muestras de conglomerados
Algunos diseños de investigación conllevan el uso de muestras de conglomerados, en las que los
participantes se muestrean por grupos (cap. 11). Considere, por ejemplo, un estudio de si una in-
tervención educativa continua para médicos mejora la tasa de abandono del tabaquismo entre sus
pacientes. Suponga que se asignan aleatoriamente 20 consultas de médicos al grupo que recibe la
intervención, y 20 consultas se asignan a un grupo de control. Un año después, los investigadores
planean revisar las historias de una muestra aleatoria de 50 pacientes de cada consulta que eran
fumadores al principio para determinar cuántos han dejado de fumar. ¿Equivale el tamaño de la
muestra a 40 (el número de médicos) o a 2 000 (el número de pacientes)? La respuesta, que se en-
cuentra en algún punto entre esos dos extremos, depende de lo similares que sean los pacientes de
la consulta de un médico (en cuanto a su probabilidad de dejar de fumar) en comparación con la
similitud entre todos los pacientes. Para calcular esta cantidad, a menudo se necesita conseguir datos
piloto, salvo que otro investigador haya realizado anteriormente un estudio similar. Existen varias
técnicas para calcular el tamaño de la muestra requerido para un estudio que utiliza muestras de
conglomerados (4-7), pero suelen precisar la ayuda de un estadístico.
Emparejamiento
Por diversas razones, un investigador puede escoger usar un diseño emparejado (cap. 9). Sin embar-
go, las técnicas de este capítulo, que ignoran cualquier emparejamiento, ofrecen estimaciones razo-
nables del tamaño de la muestra necesario, salvo que la exposición (en estudios de casos y testigos
emparejados) o el resultado (en estudios de cohortes emparejados) tenga una correlación elevada
con la correspondiente variable. Pueden realizarse cálculos más precisos, lo que precisa que el in-
vestigador especifique la correlación entre las exposiciones o los resultados en pares emparejados,
usando abordajes normalizados (8), programas estadísticos o programas interactivos de la red.
y la solidez de la asociación entre la variable de confusión y la de respuesta. Estos efectos son com-
plejos, y no existen reglas generales que abarquen todas las situaciones.
Los estadísticos han desarrollados métodos multivariados, como la regresión lineal y la regresión
logística, que permiten al investigador corregir las variables de confusión. Una técnica estadística
muy utilizada, el análisis de riesgos proporcionales de Cox, puede corregir tanto variables de con-
fusión como diferencias en la duración del seguimiento. Si va a utilizarse una de estas técnicas para
analizar los datos, existen métodos correspondientes para calcular el tamaño de muestra necesario
(3,11-14). También se dispone de técnicas para calcular el tamaño de la muestra para otros diseños,
como estudios de posibles factores de riesgo genético o de genes candidatos (15-17), estudios eco-
nómicos (18-20), estudios de dosis y respuesta (21) o estudios en los que intervienen más de dos
grupos (22). De nuevo, Internet es un recurso útil para estos métodos más sofisticados (p. ej., buscar
sample size y logistic regression, tamaño de la muestra y regresión logística).
Suele ser más fácil, al menos para investigadores principiantes, calcular el tamaño de la muestra
suponiendo un método de análisis más sencillo, como la prueba de la 2 o la prueba de la t. Supon-
ga, por ejemplo, que un investigador está pensando en un estudio de casos y testigos sobre si la
concentración de colesterol sérica (una variable continua) está asociada con la aparición de tumores
cerebrales (una variable dicotómica). Incluso si el plan final es analizar los datos con la técnica de
regresión logística, puede calcularse un tamaño de muestra aproximado con la prueba de la t. El re-
sultado es que los métodos simplificados suelen producir cálculos de tamaño de muestra que son si-
milares a los generados por técnicas más sofisticadas. Sin embargo, puede que sea necesario consul-
tar con un bioestadístico experto si se ha enviado una propuesta económica que conlleva costes
importantes para lograr financiación: los revisores de la propuesta económica esperarán que se uti-
lice un método sofisticado, aunque reconozcan que los cálculos del tamaño de la muestra se basan
en supuestos sobre el riesgo de los resultados, la magnitud del efecto, etc. Conseguir que un estadís-
tico sea quien estime el tamaño de la muestra también transmite el mensaje de que usted tiene ac-
ceso a los colaboradores que serán necesarios para manejar y analizar los datos del estudio. De hecho,
un bioestadístico contribuirá de otras muchas maneras al diseño y la ejecución del estudio, aunque
seguramente agradecerá trabajar con un investigador clínico que haya pensado en los problemas y
haya realizado, al menos, un intento inicial de estimación del tamaño de la muestra.
la hipótesis nula. Los investigadores de un estudio convencional, que están intentando rechazar una
hipótesis nula, tienen un importante incentivo para realizar el mejor estudio posible. Sin embargo,
estas salvaguardas no se aplican a los estudios de ausencia de inferioridad, en los que el objetivo es
no encontrar ninguna diferencia.
Variables continuas
Cuando la variable de interés es continua, con frecuencia se comunica un intervalo de confianza
alrededor del valor medio de esa variable. Para calcular el tamaño de la muestra para ese intervalo
de confianza (ejemplo 6.4), el investigador debe:
Para usar el apéndice 6D, normalice la amplitud total del intervalo (divídala por la desviación
típica de la variable) y busque en la columna situada más a la izquierda de la tabla 6D la amplitud
normalizada esperada. A continuación, recorra la tabla hasta el nivel de confianza escogido para el
tamaño de muestra requerido.
Variables dicotómicas
En un estudio descriptivo de una variable dicotómica, los resultados pueden expresarse como un
intervalo de confianza alrededor de la proporción calculada de participantes con uno de los valores.
Esto incluye estudios de la sensibilidad y la especificidad de una prueba diagnóstica, que parecen
ser, a primera vista, variables continuas, pero que en realidad son dicotómicas: proporciones expre-
sadas como porcentajes (cap. 12). Para calcular el tamaño de la muestra para ese intervalo de con-
fianza, el investigador debe:
1. Calcular la proporción esperada de la variable de interés en la población. (Si se espera que más
de la mitad de la población tenga la característica, planifique el tamaño de la muestra según la
proporción que se espera que no tenga la característica.)
2. Especificar la precisión deseada (amplitud total) del intervalo de confianza.
3. Seleccionar el nivel de confianza para el intervalo (p. ej., 95 %).
Solución: los ingredientes para el cálculo del tamaño de la muestra usando una variable de
respuesta dicotómica (muy débil frente a no muy débil) son los siguientes:
1. Hipótesis nula: la proporción de ancianos en residencias que están muy débiles (máximo
momento de torsión del cuádriceps , 20 N·m) tras recibir complementos nutricionales du-
rante 6 meses es la misma que la proporción de los que están muy débiles con una dieta
normal.
Hipótesis alternativa: la proporción de ancianos de residencias que están muy débiles (máxi-
mo momento de torsión del cuádriceps , 20 N·m) tras recibir complementos nutricionales
durante 6 meses difiere de la proporción de los que siguen una dieta habitual.
2. P1 (proporción de personas muy débiles con una dieta habitual) = 0,10; P2 (en el grupo con
complementos) = 0,05. El menor de estos valores es 0,05, y la diferencia entre ellos (P1 – P2)
es 0,05.
3. a (bilateral) = 0,05; b = 0,20.
Usando la tabla 6B-1, recorriendo transversalmente desde 0,05 en la columna situada más a
la izquierda y descendiendo desde una diferencia esperada de 0,05, para encontrar el número
central (para a [bilateral] = 0,05 y b = 0,20), este diseño necesitaría 473 participantes por grupo.
Los ingredientes para el cálculo del tamaño de la muestra usando una variable de respuesta
continua (fuerza del cuádriceps como máximo momento de torsión) son los siguientes:
1. Hipótesis nula: la fuerza media del cuádriceps (como máximo momento de torsión en N·m)
en ancianos de residencias tras recibir complementos nutricionales durante 6 meses es la
misma que la fuerza media del cuádriceps en los que siguen una dieta habitual.
Hipótesis alternativa: la fuerza media del cuádriceps (como máximo momento de torsión en
N·m) en ancianos de residencias tras recibir complementos nutricionales durante 6 meses
difiere de la fuerza media del cuádriceps en los que siguen una dieta habitual.
2. Magnitud del efecto = 5 N·m.
3. Desviación estándar de la fuerza del cuádriceps = 10 N·m.
4. Magnitud del efecto normalizada = magnitud del efecto/desviación típica = 5 N·m/10 N·m = 0,5.
5. a (bilateral) = 0,05; b = 0,20.
Usando la tabla 6A, recorriendo transversalmente desde una magnitud del efecto normaliza-
da de 0,50, siendo a (bilateral) = 0,05 y b = 0,20, este diseño necesitaría unos 64 participantes
en cada grupo. (En este ejemplo, el atajo para el cálculo del tamaño de la muestra de la página
57 de 16/[magnitud del efecto normalizada]2, o 16/[0,5]2 da el mismo cálculo de 64 participan-
tes por grupo.) La consecuencia es que el uso de una variable de respuesta continua lleva a un
tamaño del efecto mucho menor.
primer caso permite un tamaño de muestra menor para una potencia concreta, o una potencia mayor
para un tamaño de muestra determinado.
En el ejemplo 6-7, la variable de respuesta continua permite analizar el efecto de los complemen-
tos nutritivos sobre la fuerza muscular en los ancianos. La variable de respuesta dicotómica permite
analizar sus efectos sobre la proporción de participantes que tienen al menos una mínima cantidad
de fuerza, lo que puede ser una medida indirecta más válida de la posible morbilidad relacionada
con las caídas.
una dieta tiene menos variabilidad que el peso final, porque este último está muy relacionado con
el peso inicial. El tamaño de la muestra para este tipo de prueba de la t se calcula del modo ha-
bitual (ejemplo 6-8), con la excepción de que la magnitud del efecto normalizada (E/D en la ta-
bla 6A) es la diferencia prevista del cambio de la variable dividido por la desviación típica de ese
cambio.
n’ = ([c + 1]/2c) n
Por ejemplo, con c = 2 testigos por caso, entonces ([2 + 1]/[2 2]) n = ¾ n, y solo se nece-
sita el 75 % más de casos. Cuando c se hace mayor, n’ se acerca al 50 % de n (cuando c = 10, por
ejemplo, n’ = 11/20 n).
de mama en mujeres sanas, precisan tamaños de muestra muy grandes para contar con una poten-
cia adecuada.
Una de las mejores formas para que un resultado se produzca con más frecuencia es incluir par-
ticipantes con mayor riesgo de presentar esa variable (como mujeres con antecedentes familiares de
cáncer de mama).
Otras serán ampliar el período de seguimiento, de modo que exista más tiempo para acumular
resultados, o ampliar la definición de lo que constituye una respuesta (p. ej., incluyendo el carcino-
ma in situ ductal). Todas estas técnicas (ejemplo 6.10), no obstante, pueden modificar la pregunta
del estudio, por lo que deben usarse con precaución.
habitualmente, ignorando los valores extremos. Por ejemplo, si es probable que la mayoría de los
participantes tengan una concentración de sodio sérico entre 135 y 143 mEq/l, la desviación típica
del sodio sérico es de unos 2mEq/l (1/4 8 mEq/l).
Otra estrategia cuando hay dudas sobre la media y la desviación típica de una variable continua
o categórica es dicotomizar la variable. Las categorías se pueden agregar en dos grupos, y las va-
riables continuas se pueden separar en la media o la mediana. Por ejemplo, dividir la calidad de
vida en «mejor que la mediana» y «la mediana o menos» evita tener que estimar la desviación
típica de la muestra, aunque todavía se tiene que estimar la proporción de pacientes que estarían
por encima de la media general en cada uno de los dos grupos en estudio. Después, se puede uti-
lizar la prueba de la 2 para hacer una estimación razonable, aunque algo elevada, del tamaño de
la muestra.
Sin embargo, muchas veces el investigador debe elegir la magnitud del efecto detectable de acuer-
do con un valor que considera que tiene significado clínico. En esa situación, el investigador debe
comentar su elección con compañeros que conozcan el tema. Por ejemplo, suponga que un investi-
gador está estudiando un nuevo tratamiento invasivo para la gastroparesia refractaria grave, enfer-
medad de la que, como mucho, el 5 % de los pacientes mejoran espontáneamente. Si se demuestra
que el tratamiento es eficaz, sus colegas digestólogos indicarían que estarían deseosos de tratar has-
ta a cinco pacientes para obtener una mejoría mantenida en tan solo uno de ellos (como el trata-
miento tiene efectos adversos graves y es costoso, no piensan que el número sea mayor de cinco).
Un número que es necesario tratar (NNT) de 5 corresponde a una diferencia de riesgos del 20 %
(NNT = 1/diferencia de riesgos), por lo que el investigador debe estimar el tamaño de la muestra
basado en una comparación de P1 = 5 % con P2 = 25 % (es decir, 59 pacientes por grupo con una
potencia de 0,8 y un valor de a bilateral de 0,05).
Si todo esto falla, el investigador deberá hacer un supuesto mejorado sobre los valores probables
de los ingredientes perdidos. El proceso de pensar sobre el problema e imaginar los hallazgos dará
lugar, a menudo, a un cálculo razonable, y de eso se trata en la planificación del tamaño de la mues-
tra. Esta suele ser una mejor opción que solo decidir, en ausencia de cualquier justificación, diseñar
el estudio para tener una potencia del 80 % con un valor a bilateral de 0,05 a fin de detectar una
magnitud del efecto normalizada de, por ejemplo, 0,5 entre los dos grupos (n = 64, por grupo). Muy
pocos revisores de subvenciones aceptarán ese tipo de decisión arbitraria.
1. Un error frecuente es calcular tarde el tamaño de la muestra durante el diseño del estudio. Há-
galo al principio del proceso, cuando todavía pueden hacerse cambios fundamentales.
2. Las variables dicotómicas pueden parecer continuas cuando se expresan como un porcentaje o
una tasa. Por ejemplo, la situación vital (vivo o muerto) podría interpretarse erróneamente como
continua cuando se expresa como porcentaje de vivos. Igualmente, en el análisis de superviven-
cia, en el que no todos los participantes mueren, un resultado dicotómico puede parecer conti-
nuo (p. ej., mediana de supervivencia en meses). Por todo esto, la propia variable de respuesta
es realmente dicotómica (una proporción), y el método sencillo adecuado al planificar el tama-
ño de la muestra sería la prueba de la 2.
3. El tamaño de la muestra calcula el número de participantes con datos de respuesta, y no el nú-
mero que se necesita que participe. El investigador debe planificar siempre pensando en los
abandonos y en los participantes con datos ausentes.
4. Las tablas que se ofrecen al final del capítulo suponen que los dos grupos que se están estudian-
do tienen tamaños de muestra iguales. A menudo, esto no es así; por ejemplo, un estudio de
cohortes sobre si el uso de complementos vitamínicos reduce el riesgo de sufrir quemaduras
solares no incluiría, probablemente, el mismo número de personas que toman o no toman vita-
minas. Si los tamaños de las muestras no son iguales, deben usarse las fórmulas que siguen a las
tablas o calculadoras de Internet, o programas estadísticos.
■■ RESUMEN
1. Al calcular el tamaño de la muestra para un estudio analítico, deben darse los siguientes pasos:
a) establecer las hipótesis nula y alternativa, especificando el número de lados;
b) seleccionar una prueba estadística que pueda usarse para analizar los datos, según los tipos
de variables predictivas y de respuesta (prueba de la 2 si las dos son dicotómicas, prueba
de la t si una es dicotómica y la otra continua, y coeficiente de correlación si las dos son
continuas);
c) calcular la magnitud del efecto (y su variabilidad, si es necesario); y
d) especificar valores adecuados de a y b según la importancia de evitar los errores de tipo I y
de tipo II.
2. Otras consideraciones al calcular el tamaño de la muestra para estudios analíticos son el ajuste
para tener en cuenta los posibles abandonos, y estrategias para abordar variables categóricas,
análisis de supervivencia, muestras de conglomerados, ajuste multivariado y abordajes esta-
dísticos especiales para los estudios de equivalencia y ausencia de inferioridad.
3. Los pasos para calcular el tamaño de la muestra para estudios descriptivos, que carecen de
hipótesis, son: a) calcular la proporción de participantes con una respuesta dicotómica o la
desviación típica de una respuesta continua; b) especificar la precisión deseada (amplitud del
intervalo de confianza), y c) especificar el nivel de confianza (p. ej., 95 %).
4. Cuando el tamaño de la muestra está predeterminado, el investigador puede trabajar retrospec-
tivamente para calcular la magnitud del efecto detectable o, con menos frecuencia, la potencia
del estudio.
5. Las estrategias para reducir al mínimo el tamaño de muestra comprenden: usar variables conti
nuas, determinaciones más precisas, determinaciones emparejadas y más respuestas frecuentes,
además de aumentar el número de testigos por caso en los estudios de casos y testigos.
6. Cuando no parece haber suficiente información para calcular el tamaño de la muestra, el inves-
tigador debe revisar la bibliografía en áreas relacionadas y consultar con compañeros para poder
elegir un tamaño de la muestra que sea clínicamente significativo.
7. Los errores que se deben evitar incluyen estimación del tamaño de la muestra demasiado tarde,
interpretación errónea de las proporciones expresadas como porcentajes, no tener en conside-
ración los sujetos y los datos ausentes, y no abordar adecuadamente los datos agrupados y pa-
reados.
0,15 1.586 1.325 1.040 1.157 935 699 963 762 551
0,20 893 746 586 651 527 394 542 429 310
0,25 572 478 376 417 338 253 347 275 199
0,30 398 333 262 290 235 176 242 191 139
0,60 101 85 67 74 60 45 61 49 36
0,70 75 63 50 55 44 34 45 36 26
0,80 58 49 39 42 34 26 35 28 21
0,90 46 39 32 34 27 21 28 22 16
1,00 38 32 26 27 23 17 23 18 14
1
E/D es la magnitud del efecto normalizada, calculada como E (magnitud del efecto esperada) dividida por D (desviación
típica de la variable de respuesta). Para calcular el tamaño de la muestra, recorra transversalmente desde la magnitud del
efecto normalizada y descienda desde los valores especificados de a y b para el tamaño de la muestra necesario en cada
grupo. Para una prueba de la t de una muestra, el tamaño de la muestra total es la mitad del número señalado en la lista.
■■ CÁLCULO DE LA VARIABILIDAD
La variabilidad suele comunicarse como la desviación típica o el error típico de la media (ETM). Para
calcular el tamaño de la muestra es más útil la desviación típica de la variable. Afortunadamente, es
fácil pasar de una medida a otra: la desviación típica es, sencillamente, el error típico multiplicado
por la raíz cuadrada de N, siendo N el número de participantes que componen la media. Suponga un
estudio que comunicó que la pérdida de peso de 25 personas que siguieron una dieta con poca fibra
fue de 10 2 kg (media ETM). La desviación típica sería: 2 √25 = 10 kg.
Za = desviación normal típica de a (si la hipótesis alternativa es bilateral, Za = 2,58 cuando a = 0,01,
Za = 1,96 cuando a = 0,05, y Za = 1,645 cuando a = 0,10. Si la hipótesis alterna tiva es unilate-
ral, Za = 1,645 cuando a = 0,05).
73
Zb = desviación normal típica de b (Zb = 0,84 cuando b = 0,20, y Zb = 1,282 cuando b = 0,10).
q1 = proporción de participantes en el grupo 1
q2 = proporción de participantes en el grupo 2
N = número total de participantes necesarios
Entonces:
Los lectores que deseen evitar el trabajo que supone calcular a mano esta fórmula pueden lograr una
respuesta instantánea con una calculadora o con nuestra página web (www.epibiostat.ucsf.edu/dcr/).
(Como esta fórmula se basa en una aproximación del estadístico t con el estadístico Z, infravalorará
ligeramente el tamaño de la muestra cuando N sea menor de 30, aproximadamente. La tabla 6A usa
el estadístico t para calcular el tamaño de la muestra.)
75
Los lectores que deseen evitar el trabajo que supone calcular a mano con esta fórmula pueden
obtener una respuesta instantánea con una calculadora o en nuestra página web (www.epibiostat.
ucsf.edu/dcr/). (Esta fórmula no incluye la corrección de continuidad de Fleiss-Tytun-Ury y, por
tanto, infravalora el tamaño de muestra necesario hasta en un 10 %. En las tablas 6B-1 y 6B-2 se
incluye esta corrección de continuidad.)
79
N = 4Za2D2/A2
80
Za = la desviación típica normalizada para una a bilateral, donde (1 – a) es el nivel de confianza
(p. ej., ya que a = 0,05 para un nivel de confianza del 95 %, Za = 1,96; para un nivel de confian-
za del 90 %, Za = 1,65, y para un nivel de confianza del 99 %, Za = 2,58).
82
BIBLIOGRAFÍA
1. Lehr R. Sixteen S-squared over D-squared: a relation for crude sample size estimates. Stat Med 1992;11:1099–1102.
2. Barthel FM, Babiker A, Royston P, Parmar MK. Evaluation of sample size and power for multi-arm survival
trials allowing for non-uniform accrual, non-proportional hazards, loss to follow-up and cross-over. Stat Med
2006;25(15):2521–2542.
3. Ahnn S, Anderson SJ. Sample size determination in complex clinical trials comparing more than two groups for
survival endpoints. Stat Med 1998;17(21):2525–2534.
4. Donner A. Sample size requirements for stratified cluster randomization designs [published erratum appears in
Stat Med 1997;30(16):2927]. Stat Med 1992;11:743–750.
5. Kerry SM, Bland JM. Trials which randomize practices II: sample size. Fam Pract 1998;15:84–87.
6. Hemming K, Girling AJ, Sitch AJ, et al. Sample size calculations for cluster randomised controlled trials with a
fixed number of clusters. BMC Med Res Methodol 2011;11:102.
7. Jahn-Eimermacher A, Ingel K, Schneider A. Sample size in cluster-randomized trials with time to event as the
primary endpoint. Stat Med 2013;32(5):739–751.
8. Edwardes MD. Sample size requirements for case–control study designs. BMC Med Res Methodol 2001;1:11.
9. Drescher K, Timm J, Jöckel KH. The design of case–control studies: the effect of confounding on sample size
requirements. Stat Med 1990;9:765–776.
10. Lui KJ. Sample size determination for case–control studies: the influence of the joint distribution of exposure and
confounder. Stat Med 1990;9:1485–1493.
11. Latouche A, Porcher R, Chevret S. Sample size formula for proportional hazards modelling of competing risks. Stat
Med 2004;23(21):3263–3274.
12. Novikov I, Fund N, Freedman LS. A modified approach to estimating sample size for simple logistic regression
with one continuous covariate. Stat Med 2010;29(1):97–107.
13. Vaeth M, Skovlund E. A simple approach to power and sample size calculations in logistic regression and Cox
regression models. Stat Med 2004;23(11):1781–1792.
14. Dupont WD, Plummer WD Jr. Power and sample size calculations for studies involving linear regression. Control
Clin Trials 1998;19:589–601.
15. Murcray CE, Lewinger JP, Conti DV, et al. Sample size requirements to detect gene-environment interactions in
genome-wide association studies. Genet Epidemiol 2011;35(3):201–210.
16. Wang S, Zhao H. Sample size needed to detect gene-gene interactions using linkage analysis. Ann Hum Genet
2007;71(Pt 6):828–842.
17. Witte JS. Rare genetic variants and treatment response: sample size and analysis issues. Stat Med 2012;31(25):
3041–3050.
18. Willan AR. Sample size determination for cost-effectiveness trials. Pharmacoeconomics 2011;29(11):933–949.
19. Glick HA. Sample size and power for cost-effectiveness analysis (Part 2): the effect of maximum willingness to pay.
Pharmacoeconomics 2011;29(4):287–296.
20. Glick HA. Sample size and power for cost-effectiveness analysis (Part 1). Pharmacoeconomics 2011;29(3):189–198.
21. Patel HI. Sample size for a dose-response study [published erratum appears in J Biopharm Stat 1994;4:127]. J Biopharm
Stat 1992;2:l–8.
22. Day SJ, Graham DF. Sample size estimation for comparing two or more treatment groups in clinical trials. Stat Med
1991;10:33–43.
23. Guo JH, Chen HJ, Luh WM. Sample size planning with the cost constraint for testing superiority and equivalence
of two independent groups. Br J Math Stat Psychol 2011;64(3):439–461.
24. Zhang P. A simple formula for sample size calculation in equivalence studies. J Biopharm Stat 2003;13(3):529–538.
25. Stucke K, Kieser M. A general approach for sample size calculation for the three-arm ‘gold standard’ non-inferiority
design. Stat Med 2012;31(28):3579–3596.
26. Julious SA, Owen RJ. A comparison of methods for sample size estimation for non-inferiority studies with binary
outcomes. Stat Methods Med Res 2011;20(6):595–612.
27. Obuchowski NA. Sample size tables for receiver operating characteristic studies. AJR Am J Roentgenol 2000;175(3):
603–608.
28. Simel DL, Samsa GP, Matchar DB. Likelihood ratios with confidence: sample size estimation for diagnostic test
studies. J Clin Epidemiol 1991;44:763–770.
29. Sim J, Wright CC. The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Phys Ther
2005;85(3):257–268.
30. Jewell NP. Statistics for epidemiology. Boca Raton: Chapman and Hall, 2004, p. 68.
84
L os estudios observacionales tienen dos finalidades principales: descriptiva, analizar las distribucio-
nes de las variables predictivas y las variables de respuesta en una población, y analítica, caracterizar las
asociaciones entre estas variables predictivas y de respuesta. En este capítulo se presentan dos diseños
observacionales básicos, que se clasifican por el marco temporal en el que se realizan las mediciones.
En un estudio transversal, el investigador realiza todas las mediciones en una única ocasión o en
un período de tiempo corto. Extrae una muestra de la población y estudia las distribuciones de las
variables en esa muestra, en ocasiones denominándolas variables predictivas y variables de resulta-
dos, de acuerdo con la credibilidad biológica y la información histórica. Por ejemplo, si está intere-
sado en estudiar la relación entre el peso corporal y la presión arterial, podría medir estas variables
en una única visita en la consulta en todos los pacientes del estudio, y explorar si las personas con
mayor peso corporal tienen más probabilidad de tener hipertensión.
En un estudio de cohortes, las mediciones se realizan en un período de tiempo en un grupo de
participantes a los que se ha identificado al comienzo del estudio («la cohorte»). Por lo tanto, la
característica que define los estudios de cohortes es que se sigue longitudinalmente a un grupo
reunido al comienzo. Por ejemplo, el investigador podría medir el peso corporal y la presión arterial
en una cohorte de personas en estudio en una visita inicial en la consulta y después seguirlas duran-
te 5 años para determinar la relación entre el peso inicial y la incidencia de hipertensión. En este
capítulo se analizan los diseños de cohortes prospectivos y retrospectivos, y los diseños de cohortes
múltiples. También se abordan los abordajes del análisis estadístico y la importancia de optimizar
la retención de la cohorte durante el seguimiento.
■■ ESTUDIOS TRANSVERSALES
En un estudio transversal, todas las mediciones se realizan aproximadamente al mismo tiempo, sin
período de seguimiento (fig. 7-1). Los diseños transversales son adecuados para el objetivo de des-
cribir variables y sus patrones de distribución. Por ejemplo, en el National Health and Nutrition
Examination Survey (NHANES), a principios de la década de 1970, se entrevistó y exploró a una
muestra diseñada para representar a toda la población estadounidense de 1-74 años. Este estudio
transversal fue una importante fuente de información sobre la salud y los hábitos de la población
estadounidense el año en que se realizó, y ofreció estimaciones de aspectos como la prevalencia del
tabaquismo en diversos grupos demográficos. Posteriormente se han realizado de manera periódica
otros estudios NHANES transversales, y todos los conjuntos de datos de los estudios NHANES están
disponibles para su uso por el público (www.cdc.gov/nchs/nhanes.htm).
Los estudios transversales se pueden utilizar para explorar asociaciones, aunque la elección de
qué variables se van a considerar predictivas y cuáles de respuesta depende de las hipótesis de causa
y efecto del investigador, más que del diseño del estudio. Esta elección es fácil para factores consti-
tucionales, como edad, raza y sexo; estos factores no se pueden alterar por otras variables, por lo que
siempre son factores predictivos. Sin embargo, para otras variables, la elección puede ir en ambos
sentidos. Por ejemplo, en el estudio NHANES III hubo una asociación transversal entre la obesidad
infantil y las horas que se pasaba viendo la televisión (1). El que se considere que la obesidad o el
tiempo viendo la televisión sea la variable predictiva y la otra la variable de respuesta depende de la
hipótesis causal del investigador.
85
35(6(17(
3REODFLyQ
0XHVWUD
0HGLUODVYDULDEOHV
DFWXDOHV
2EWHQHULQIRUPDFLyQ
KLVWyULFDFXDQGR
SURFHGD
■■FIGURA 7.1. En un estudio transversal, los pasos
son:
• Definir los criterios de selección e incluir una
muestra de la población.
• Medir los valores actuales de las variables pre-
dictivas y de respuesta, muchas veces comple-
mentados con información histórica.
Al contrario de los estudios de cohortes, que tienen una dimensión temporal longitudinal que se
puede utilizar para estimar la incidencia (la proporción que llega a presentar una enfermedad a lo largo
del tiempo), los estudios transversales ofrecen información sobre la prevalencia, la proporción que
tiene una enfermedad o trastorno en un momento determinado. La prevalencia le importa al médico,
que debe estimar la probabilidad de que el paciente que está en su consulta tenga una enfermedad
concreta; cuanto mayor sea la prevalencia, mayor será la «probabilidad previa» de la enfermedad (la
probabilidad antes de que se disponga de los resultados de las diversas pruebas diagnósticas; cap. 12).
Es este el motivo por el que más pacientes con dolor de rodilla tienen artrosis que reumatismo palin-
drómico. La prevalencia también es útil para los planificadores sanitarios, que quieren saber cuántas
personas tienen determinadas enfermedades para poder asignar suficientes recursos para atenderlas.
Cuando se analizan estudios transversales, se puede comparar la prevalencia del resultado en los que
tienen y no tienen una exposición, lo que permite obtener la prevalencia relativa del resultado, el
equivalente transversal del riesgo relativo (pueden verse ejemplos en el apéndice 8A).
En ocasiones, los estudios transversales describen la prevalencia de haber realizado algo o de
haber tenido alguna vez una enfermedad o trastorno. En este caso, es importante asegurarse de que
el tiempo de seguimiento sea igual en las personas expuestas y no expuestas. Esto se ilustra en el
ejemplo 7-1, en el que se analizó la prevalencia de haber probado alguna vez el tabaco en un estudio
transversal de niños con diferentes niveles de exposición a películas en las que los actores fuman.
Por supuesto, los niños que habían visto más películas también eran mayores, por lo que habían
tenido más tiempo para probar el tabaco, por lo que era importante ajustar la edad en los análisis
multivariados (cap. 9).
enfermedades poco frecuentes, salvo que la muestra se extraiga de una población de pacientes en-
fermos y no de la población general. Una serie de casos de este tipo es más adecuada para describir
las características de la enfermedad que para analizar diferencias entre estos pacientes y las personas
sanas, aunque las comparaciones informales con la experiencia previa en ocasiones permiten iden-
tificar factores de riesgo muy potentes. Por ejemplo, en una serie de casos de los 1 000 primeros
pacientes con sida, 727 eran hombres homosexuales o bisexuales y 236 consumían drogas por vía
intravenosa (3). No hizo falta un grupo testigo formal para concluir que estos grupos tenían aumen-
to del riesgo. Además, en una muestra de personas con una enfermedad puede haber asociaciones
de interés, como el mayor riesgo de sarcoma de Kaposi en pacientes con sida que eran homosexuales
que en los que consumían drogas inyectables.
Como los estudios transversales miden únicamente la prevalencia y no la incidencia, es impor-
tante tener precaución cuando se extraigan inferencias sobre las causas, el pronóstico o la evolución
natural de una enfermedad. Un factor que se asocia a la prevalencia de una enfermedad puede ser
una causa de la enfermedad, aunque también se podría asociar simplemente a la duración de la en-
fermedad. Por ejemplo, la prevalencia de la insuficiencia renal crónica depende no solo de su inci-
dencia, sino también de su supervivencia una vez que se ha producido. A la vista de la observación
de que la obesidad se asocia a mayor supervivencia de pacientes en diálisis (4), en un estudio trans-
versal de los factores predictivos de la insuficiencia renal crónica se podría sobrestimar la asociación
entre obesidad e insuficiencia renal.
Estudios en serie
En ocasiones, los investigadores realizan una serie de estudios transversales en la misma población,
por ejemplo, cada 5 años. Se puede utilizar este diseño para extraer inferencias sobre los patrones
cambiantes a lo largo del tiempo. Por ejemplo, Zito y cols. (5), utilizando estudios transversales
anuales, describieron que la prevalencia del consumo de fármacos psicótropos de venta con receta
en jóvenes (, 20 años de edad) había aumentado más de tres veces entre 1987 y 1996 en una pobla-
ción de la región del Atlántico medio atendida por Medicaid. Los estudios transversales en serie
tienen un marco temporal longitudinal, pero no son lo mismo que un estudio de cohortes, porque
cada vez se extrae una nueva muestra. En consecuencia, no se pueden evaluar los cambios que se
producen en las personas, y los hallazgos se pueden ver modificados por las personas que entran o
salen de la población (y, por lo tanto, de las muestras) por nacimientos, muertes y movimientos
migratorios.
■■ ESTUDIOS DE COHORTES
Estudios de cohortes prospectivos
Cohorte era el término romano que designaba a un grupo de soldados que avanzaban juntos, y en
las investigaciones clínicas una cohorte es un grupo de personas, especificado al comienzo del estu-
dio y al que se sigue a lo largo del tiempo. En un estudio de cohortes prospectivo, el investigador
empieza reuniendo una muestra de participantes (fig. 7-2). Mide en cada participante características
que podrían predecir los resultados subsiguientes, y sigue a estas personas, realizando determina-
ciones periódicas de las variables de respuesta de interés (ejemplo 7-2).
35(6(17( )87852
3REODFLyQ
0XHVWUD
0HGLUYDULDEOHV 6HJXLUDODFRKRUWH
0HGLUORV
SUHGLFWLYDV DORODUJRGHOWLHPSR
UHVXOWDGRV
$OPDFHQDUPXHVWUDV FXDQGRVH
RSFLRQDO SURGX]FDQ
3pUGLGDGXUDQWH
HOVHJXLPLHQWR
cáncer de mama, aparecen con una incidencia tan baja en cualquier año determinado que debe se-
guirse a una gran cantidad de personas durante largos períodos de tiempo para observar suficientes
respuestas a fin de obtener resultados significativos. Los diseños de cohortes son más eficaces para
variables de respuesta dicotómicas, que son más frecuentes e inmediatas, y para variables de respues-
ta continuas.
predictivas en una cohorte de personas a las que se ha reunido por otros motivos, como una base de
datos clínica o administrativa electrónica (ejemplo 7-3).
3$6$'2 35(6(17(
3REODFLyQ
0XHVWUD
&RKRUWHH[LVWHQWHFRQ 0HGLUORV
YDULDEOHVSUHGLFWLYDV UHVXOWDGRVTXH
TXHVHKDQPHGLGR VHKDQSURGXFLGR
3pUGLGDGXUDQWH
HOVHJXLPLHQWR
■■FIGURA 7-3. En un estudio de cohortes retrospectivo, la selección de la cohorte y el seguimiento se han realizado en
el pasado, por lo que los pasos son:
• Identificar una cohorte existente que tenga alguna información predictiva que ya se haya registrado.
• Evaluar las pérdidas durante el seguimiento que se han producido.
• Medir las variables de respuesta que ya se han producido.
mayor incidencia de cáncer de pulmón, Wagoner y cols. (10) compararon la incidencia de cánceres
respiratorios en 3 415 mineros del uranio con la de personas blancas que vivían en los mismos esta-
dos. La mayor incidencia de cáncer de pulmón que se observó en los mineros ayudó a establecer que
la exposición laboral a las radiaciones ionizantes es una importante causa de cáncer de pulmón.
3REODFLyQFRQ
XQYDORUGH
H[SRVLFLyQ
0XHVWUD
0HGLUODVYDULDEOHV
0HGLUORV
SUHGLFWLYDV
UHVXOWDGRV
FXDQGRVH
$OPDFHQDUPXHVWUDV
SURGX]FDQ
RSFLRQDO
,QYHVWLJDUODV
SpUGLGDVGXUDQWH
HOVHJXLPLHQWR
3REODFLyQFRQ
RWURYDORUGH
H[SRVLFLyQ
0XHVWUD
0HGLUODVYDULDEOHV
0HGLUORV
SUHGLFWLYDV
UHVXOWDGRV
FXDQGRVH
$OPDFHQDUPXHVWUDV
SURGX]FDQ
RSFLRQDO
,QYHVWLJDUODV
SpUGLGDVGXUDQWH
HOVHJXLPLHQWR
■■FIGURA 7-4. En un estudio de cohortes dobles (que se puede realizar prospectiva o retrospectivamente), los pasos
son:
• Seleccionar dos o más cohortes de poblaciones con diferentes niveles de la exposición (variable predictiva principal).
• Medir otras variables predictivas.
• Medir las variables de respuesta durante el seguimiento.
como grupo testigo externo tiene la ventaja adicional de basarse en la población y ser económico.
Por lo demás, los puntos fuertes de este diseño son similares a los de otros estudios de cohortes.
El problema de la confusión se acentúa en los estudios de cohortes múltiples, porque las cohortes
se reúnen a partir de poblaciones distintas que pueden diferir en aspectos importantes (aparte de la
exposición a la variable predictiva) que pueden influir en los resultados. Aunque algunas de estas
diferencias, como la edad y la raza, se pueden emparejar o utilizar para ajustar estadísticamente
los hallazgos, otras características pueden no ser medibles y crean problemas en la interpretación
de las asociaciones observadas.
todo para el análisis multivariado de los datos de este tipo (en ocasiones denominados datos de
«tiempo hasta un acontecimiento»); permite la estimación de cocientes de riesgos instantáneos,
que son similares a los cocientes de incidencia y han llegado a utilizarse de manera generalizada
como medida de la asociación en los análisis de regresión de Cox.
■■ RESUMEN
1. En un estudio transversal, todas las variables se miden en un único punto temporal, sin distin-
ción estructural entre variables predictivas y variables de respuesta. Los estudios transversales
ofrecen datos de causalidad más débiles que los estudios de cohortes, porque no se puede de-
mostrar que la variable predictiva preceda a la variable de respuesta.
2. Los estudios transversales son útiles para obtener información descriptiva sobre la prevalencia,
y tienen la ventaja de evitar el tiempo, el gasto y los problemas de abandono de un diseño de
seguimiento; muchas veces son útiles como primer paso de un estudio de cohortes o un estudio
experimental, y se los puede vincular a estudios en serie con muestras independientes para
mostrar cambios poblacionales a lo largo del tiempo.
3. Los estudios transversales precisan un gran tamaño de la muestra cuando se estudian enferme-
dades y variables poco frecuentes en la población general, aunque pueden ser útiles en una serie
de casos de una enfermedad poco frecuente.
4. En los estudios de cohortes se sigue a lo largo del tiempo a un grupo de participantes identifi-
cados al comienzo para describir la incidencia o la evolución natural de una enfermedad y
descubrir los factores predictivos (factores de riesgo) de diversos resultados. La posibilidad de
medir la variable predictiva antes de que se produzca la variable de respuesta establece la se-
cuencia de los acontecimientos y controla el sesgo en esa medición.
5. Los estudios de cohortes prospectivos comienzan al principio del seguimiento y pueden preci-
sar grandes números de participantes a los que se seguirá durante períodos de tiempo prolon-
gados. Esta última desventaja, en ocasiones, se puede superar identificando una cohorte retros-
pectiva en la que ya se hayan realizado las mediciones de las variables predictivas.
6. El diseño de cohortes múltiples, que compara la incidencia de las variables de respuesta en
cohortes que difieren en una variable predictiva («la exposición»), es útil para estudiar los
efectos de exposiciones infrecuentes y de exposiciones laborales.
7. Los riesgos, las oportunidades y las tasas de incidencia son tres formas de estimar la frecuencia
de una variable de respuesta dicotómica durante el seguimiento; de ellas, las tasas de incidencia,
que tienen en consideración las personas-tiempo de los participantes que siguen vivos y sin
episodios en el estudio, forman la base de los abordajes modernos del cálculo de los cocientes
de riesgo multivariados utilizando el modelo de riesgos proporcionales de Cox.
8. Las inferencias sobre causa y efecto se refuerzan midiendo y ajustando todas las posibles varia-
bles de confusión que se puedan concebir. Se evitará el sesgo en la evaluación de las respuestas
mediante la normalización de las determinaciones y el enmascaramiento de las personas que
relacionan la variable de respuesta con los valores de la variable predictiva.
9. Los puntos fuertes de un diseño de cohortes pueden debilitarse por un seguimiento incompleto
de los participantes. Las pérdidas pueden reducirse al mínimo, excluyendo al comienzo a los
participantes que puedan no estar disponibles para el seguimiento, recopilando información
inicial que facilite su localización y permaneciendo en contacto periódicamente con todos los
participantes.
BIBLIOGRAFÍA
1. Andersen RE, Crespo CJ, Bartlett SJ, et al. Relationship of physical activity and television watching with body
weight and level of fatness among children: results from the Third National Health and Nutrition Examination
Survey. JAMA 1998;279(12):938–942.
2. Sargent JD, Beach ML, Adachi-Mejia AM, et al. Exposure to movie smoking: its relation to smoking initiation
among US adolescents. Pediatrics 2005;116(5):1183–1191.
3. Jaffe HW, Bregman DJ, Selik RM. Acquired immune deficiency syndrome in the United States: the first 1,000 cases.
J Infect Dis 1983;148(2):339–345.
4. Kalantar-Zadeh K, Abbott KC, Salahudeen AK, et al. Survival advantages of obesity in dialysis patients. Am J Clin
Nutr 2005; 81: 543–554.
5. Zito JM, Safer DJ, DosReis S, et al. Psychotropic practice patterns for youth: a 10-year perspective. Arch Pediatr
Adolesc Med 2003;157(1):17–25.
6. Huang Z, Hankinson SE, Colditz GA, et al. Dual effect of weight and weight gain on breast cancer risk. JAMA
1997;278:1407–1411.
7. Pearce MS, Salotti JA, Little MP, et al. Radiation exposure from CT scans in childhood and subsequent risk of
leukemia and brain tumors: a retrospective cohort study. Lancet 2012;380:499–505.
8. Newman TB, Liljestrand P, Jeremy RJ, et al. Outcomes of newborns with total serum bilirubin levels of 25 mg/dL
or more. N Engl J Med 2006;354:1889–1900.
9. Escobar GJ, Liljestrand P, Hudes ES, et al. Five-year neurodevelopmental outcome of neonatal dehydration.
J Pediatr 2007;151(2):127–133, 133 e1.
10. Wagoner JK, Archer VE, Lundin FE, et al. Radiation as the cause of lung cancer among uranium miners. N Engl
J Med 1965;273:181–187.
E n el capítulo 7 se han presentado los estudios de cohortes, en los que la secuencia de las deter-
minaciones es la misma que la cronología de causa y efecto: se miden primero las variables predic-
tivas y después se observan las variables de respuesta durante el seguimiento. Por el contrario, en
un estudio de casos y testigos, el investigador trabaja hacia atrás. Comienza eligiendo una muestra
de personas con la respuesta (los casos) y otra muestra de personas sin esa respuesta (los testigos);
posteriormente se comparan los niveles de las variables predictivas en las dos muestras para ver
cuáles de ellas se asocian a la respuesta. Por ejemplo, en un estudio de casos y testigos se podría
recoger un grupo de casos de melanoma ocular y una muestra de testigos sanos, a lo que seguiría la
obtención de datos de ambos grupos sobre la exposición previa a la soldadura con arco para estimar
en qué medida esta exposición afecta al riesgo de melanoma ocular. El diseño de casos y testigos es
relativamente económico y tiene una eficiencia elevada para estudiar enfermedades infrecuentes.
En este capítulo también se presentan diversas variaciones del diseño de casos y testigos sencillo
que se ha señalado más arriba. En un diseño de casos y testigos anidado se comparan los casos in-
cidentes anidados en un estudio de cohortes con testigos extraídos aleatoriamente del resto de la
cohorte; este diseño controla el sesgo de muestreo y de medida, y ahorra dinero si las variables
predictivas son mediciones costosas que se pueden realizar en muestras almacenadas o imágenes
recogidas al comienzo del estudio de cohortes. Un diseño de casos y testigos de densidad de inci-
dencia permite que los investigadores analicen las relaciones de riesgo, teniendo en consideración
los cambios a lo largo del tiempo de los niveles de los factores de riesgo y las pérdidas durante el
seguimiento. Y un diseño de casos y cohortes anidado permite que una muestra aleatoria de toda la
cohorte actúe como testigo para diferentes conjuntos de casos. El capítulo finaliza con consejos
sobre la elección de los diseños de estudios de observación que se analizan en los capítulos 7 y 8.
35(6(17(
3REODFLyQ
GHFDVRV
0XHVWUD
&RQILUPDUODUHVSXHVWD
FRPRXQFDVR
0HGLFLyQDFWXDO\
YDORUHVKLVWyULFRVGHODV
YDULDEOHVSUHGLFWLYDV
3REODFLyQ
GHWHVWLJRV
0XHVWUD
&RQILUPDUODUHVSXHVWD
FRPRWHVWLJR
0HGLFLyQDFWXDO\
YDORUHVKLVWyULFRVGHODV
YDULDEOHVSUHGLFWLYDV ■■FIGURA 8-1. En un estudio de casos y testigos,
los pasos son:
• Definir los criterios de selección e incluir una
muestra de una población de casos y una se-
gunda muestra de una población de testigos.
• Medir los valores actuales de las correspondien-
tes variables, complementado con frecuencia
con información histórica.
entre los que ya tienen una enfermedad. Además, cuando las respuestas no deseadas son la norma en
lugar de la excepción, los casos de un estudio de casos y testigos pueden ser los pacientes, poco fre-
cuentes, con una buena respuesta, como la recuperación de una enfermedad habitualmente mortal.
Los estudios de casos y testigos son el «tinto de la casa» en la lista de vinos del diseño de inves-
tigación: más modestos y con algo más de riesgo que las otras selecciones, pero mucho más baratos
y, a veces, sorprendentemente buenos. El diseño de un estudio de casos y testigos es difícil debido a
la mayor oportunidad para que se produzca sesgo, pero hay muchos ejemplos de estudios de este
tipo bien diseñados que han proporcionado resultados importantes. Entre ellos se encuentran los
que establecieron los vínculos entre el consumo materno de dietilestilbestrol y el cáncer vaginal en
las hijas (¡un estudio clásico que proporcionó una conclusión definitiva basándose solo en siete
casos!) (1), y entre la posición de decúbito prono al dormir y el síndrome de la muerte súbita del
lactante (2), un sencillo resultado que ha salvado miles de vidas (3).
1XHYRVFDVRVGHODVHQIHUPHGDGHV
1RVROLFLWDQDVLVWHQFLDPpGLFD
$WHQGLGRVHQRWUROXJDU
$WHQGLGRVSHURPDOGLDJQRVWLFDGRV
)DOOHFLPLHQWRRUHPLVLyQDQWHVGHOGLDJQyVWLFR
&DVRVGLVSRQLEOHVSDUDHOHVWXGLRGHFDVRV\WHVWLJRV
■■FIGURA 8-2. Algunos motivos por los que los casos de un estudio de casos y testigos pueden no ser representativos
de todos los casos de la enfermedad.
hospitalización y que son sencillas de diagnosticar, como la fractura de cadera y las amputaciones trau-
máticas, pueden muestrearse con seguridad a partir de casos diagnosticados y accesibles, al menos en los
países desarrollados. Por otro lado, las afecciones que pueden no llegar a ser atendidas por médicos son
más difíciles de analizar en estudios de casos y testigos, debido a la selección que precede al diagnóstico.
Por ejemplo, las mujeres atendidas en una consulta ginecológica con abortos espontáneos en el primer
trimestre probablemente difieran de toda la población de mujeres que sufren abortos espontáneos, mu-
chas de las cuales no solicitan asistencia médica. Por lo tanto, las mujeres con antecedentes de esterilidad
estarían sobrerrepresentadas en una muestra clínica, mientras que las que tuvieran un acceso escaso a
los cuidados prenatales estarían infrarrepresentadas. Si una variable predictiva de interés se asocia a la
asistencia ginecológica en la población (como el uso anterior de un dispositivo intrauterino [DIU]), el
muestreo de casos de la consulta podría ser una importante fuente de sesgo. Si, por otro lado, una varia-
ble predictiva no está relacionada con la asistencia ginecológica (como el grupo sanguíneo), existiría
menos probabilidad de que una muestra procedente de la consulta no fuera representativa.
Aunque es importante pensar en estos aspectos, la selección de los casos a menudo está limitada
a las fuentes accesibles de pacientes. La muestra de casos puede no ser totalmente representativa,
pero ser lo único con lo que el investigador puede trabajar. Las decisiones difíciles a las que se en-
frenta un investigador al diseñar un estudio de casos y testigos se relacionan con la tarea más abier-
ta de seleccionar los testigos adecuados. El objetivo general es muestrear testigos de una población
que habrían llegado a convertirse en casos del estudio si hubieran presentado la enfermedad. A con-
tinuación se presentan cuatro estrategias para el muestreo de los testigos:
• Testigos a partir de hospitales o consultas. Una estrategia para compensar el posible sesgo de
selección, causado por obtener casos de una consulta o un hospital, es elegir testigos de los mis-
mos centros. Por ejemplo, en un estudio del uso anterior de un DIU como factor de riesgo de
aborto espontáneo, la muestra de testigos puede seleccionarse a partir de una población de mu-
jeres que acuden por otros problemas (p. ej., vaginitis) a la misma consulta ginecológica. En
comparación con una muestra aleatoria de mujeres de la misma zona, estas testigos representarían,
presumiblemente, mejor a la población de mujeres que, de haber tenido un aborto espontáneo,
habrían acudido a la consulta y constituirían un caso.
Sin embargo, la selección de una muestra no representativa de testigos para compensar una mues-
tra no representativa de casos puede ser algo problemático. Si el factor de riesgo de interés causa un
problema médico para el que los testigos solicitan asistencia, la prevalencia del factor de riesgo en el
grupo testigo estará falsamente elevada, lo que reduciría o invertiría la asociación entre el factor de
riesgo y la respuesta. Si, por ejemplo, muchas mujeres del grupo testigo solicitaran asistencia en la
consulta por una enfermedad médica asociada al uso previo de un DIU (p. ej., esterilidad por los mo-
delos antiguos de DIU), habría un exceso de usuarias previas de DIU entre las testigos, lo que reduci-
ría la magnitud de la asociación entre el uso previo de DIU y el aborto espontáneo en el estudio.
Como los testigos seleccionados del hospital o la consulta muchas veces tienen enfermedades
asociadas a los factores de riesgo que se estudian, los hallazgos que ofrecen estos tipos de testigos
pueden llevar a error. Por lo tanto, es esencial tener en consideración si la comodidad de utilizar
testigos procedentes del hospital o la consulta justifica la posible amenaza a la validez del estudio.
• Uso de una muestra de casos basada en la población. Debido a un rápido aumento del uso de los
registros de enfermedades en poblaciones geográficas y en planes sanitarios, actualmente se pue-
den realizar estudios de casos y testigos de base poblacional para muchas enfermedades. Los casos
obtenidos de estos registros suelen ser representativos de la población general de pacientes con
la enfermedad en el área de origen, lo que simplifica la elección de un grupo testigo: debe ser una
muestra representativa de «no casos» procedentes de la población que abarca el registro. En el
ejemplo 8-1, el gobierno local incluyó en un registro a todos los residentes de la ciudad, lo que
hizo que la selección de una muestra fuera sencilla.
Cuando se dispone de registros, los estudios de casos y testigos basados en la población son
claramente los diseños más deseables. Cuando el registro de la enfermedad se acerca a la totalidad
y la población que abarca se acerca a la estabilidad (no hay inmigración ni emigración), un estu-
dio de casos y testigos basado en la población se aproxima a un estudio de casos y testigos que
está anidado en un estudio de cohortes o un ensayo clínico (pág. 104), asumiendo que se puede
identificar e incluir a los testigos. Estas últimas tareas son relativamente sencillas cuando la po-
blación se ha enumerado y sus historias están disponibles para los investigadores, como en el
estudio de vitamina K y leucemia que se describe en el ejemplo 8-1. Cuando no se dispone de
dichas historias de registro, un abordaje que se utiliza con frecuencia es la marcación aleatoria
de números de teléfono (fijos) con prefijos de la región que abarca el registro. (Cuando se selec-
cionan los testigos de esta forma, se deben excluir los casos que no tengan teléfono fijo.) Debido
al aumento del número de hogares que solo tienen teléfono móvil, este abordaje ha llegado a ser
problemático (12). Se puede realizar la marcación aleatoria, incluyendo los números de teléfono
móvil, aunque se debe realizar cuidadosamente, finalizando inmediatamente si el receptor está
conduciendo y evitando llamadas que pudieran suponer un coste para el receptor (13).
Sin embargo, debe reconocerse que se puede introducir sesgo siempre que se deba establecer con-
tacto con los participantes para obtener información, porque algunos participantes (p. ej., los que no
hablen inglés o los que tengan problemas de audición) pueden tener menos probabilidad de ser in-
cluidos. Puede producirse un problema similar siempre que haga falta un consentimiento informado.
• Usar dos o más grupos testigos. Debido a que la selección de un grupo testigo puede ser dema-
siado difícil, particularmente cuando los casos puedan no constituir una muestra representativa de
los que tienen la enfermedad, a veces es aconsejable usar dos o más grupos testigos elegidos
de modos diferentes. En el estudio del Public Health Service sobre el síndrome de Reye y los fár-
macos (14), por ejemplo, se usaron cuatro tipos de testigos: testigos del servicio de urgencias
(atendidos en el mismo servicio de urgencias que los casos), testigos ingresados (ingresados en
el mismo hospital que los casos), testigos escolares (que acudían a la misma escuela o centro de
día que los casos) y testigos de la comunidad (identificados por llamadas de teléfono al azar). La
razón de posibilidades del uso de salicilatos en los casos en comparación con cada uno de estos
grupos testigos fue, en todos los casos, de al menos 30, y fue estadísticamente muy significativa.
El hallazgo constante de una intensa asociación usando grupos testigos que tendrían diferentes
sesgos de muestreo refuerza la inferencia de que hay una asociación real en la población.
Lamentablemente, pocas asociaciones tienen valores de la razón de posibilidades en modo
alguno tan elevados, y los sesgos asociados a diferentes estrategias para seleccionar los testigos
pueden hacer que los resultados utilizando diferentes grupos de testigos entren en conflicto mu-
tuamente, lo que revelaría la inherente fragilidad del diseño de casos y testigos para la pregunta
de la investigación que se maneja. Cuando esto sucede, el investigador debe buscar información
adicional (p. ej., el motivo de consulta de los testigos procedentes de la consulta) para intentar
determinar la magnitud de los posibles sesgos de cada uno de los grupos testigos (cap. 9). En
cualquier caso, es mejor tener resultados incongruentes y concluir que se desconoce la respuesta,
a tener tan solo un grupo testigo y extraer la conclusión errónea.
• Emparejamiento. Es un método sencillo para asegurar que los casos y los testigos sean comparables
con respecto a factores importantes que están relacionados con la enfermedad, pero carecen de inte-
rés para el investigador. Hay tantos factores de riesgo y enfermedades relacionadas con la edad y el
sexo, por ejemplo, que los resultados del estudio pueden no ser convincentes, salvo que los casos y
los testigos sean comparables respecto a esas dos variables. Un método para evitar este problema es
elegir testigos que se emparejen con los casos en estas variables predictivas constitucionales. Sin
embargo, el emparejamiento tiene desventajas importantes, en concreto cuando se emparejan varia-
bles predictivas modificables, como los ingresos o la concentración de colesterol sérico. Los motivos
de esto y las alternativas que generalmente se prefieren al emparejamiento se analizan en el capítulo 9.
o referir sus exposiciones de una manera diferente a los testigos; este error de clasificación diferen-
cial de la exposición, denominado sesgo de recuerdo, tiene efectos impredecibles sobre las asocia-
ciones medidas en un estudio.
Por ejemplo, la publicidad generalizada sobre la relación entre la exposición al sol y el melanoma
maligno podría llevar a los casos diagnosticados de ese cáncer a recordar su antecedente de exposi-
ción al sol de una manera diferente a los testigos. Cockburn y cols. (15) encontraron datos de este
fenómeno en un inteligente estudio de gemelos discordantes en relación con el melanoma: la razón
de posibilidades emparejada para tomar baños de sol en la infancia era de 2,2 (IC del 95 %: 1,0 a 4,7)
cuando se preguntaba al gemelo con melanoma qué gemelo había tomado más baños de sol en la
infancia, aunque era de tan solo 0,8 (0,4 a 1,8) cuando se hacía la misma pregunta al gemelo que no
tenía melanoma. Sin embargo, para otras preguntas, como qué gemelo se bronceaba o se quemaba
con más facilidad, no hubo datos de sesgo de recuerdo.
No puede producirse sesgo de recuerdo en un estudio de cohortes, porque se pregunta a los pa-
cientes por las exposiciones antes del diagnóstico de la enfermedad. En un estudio de casos y testi-
gos de melanoma maligno anidado dentro de una cohorte en la que se habían recogido varios años
antes los datos de exposición al sol, se realizó un estudio directo del sesgo de recuerdo: los investi-
gadores compararon la exposición al sol referida por los propios participantes en los casos y en los
testigos tanto antes como después de que el caso fuera diagnosticado de melanoma (16). Los inves-
tigadores encontraron ciertas inexactitudes en los recuerdos de la exposición tanto en los casos como
en los testigos, aunque con pocos datos de sesgo de recuerdo (16). Por lo tanto, aunque es impor-
tante tener en consideración la posibilidad de sesgo de recuerdo, no es inevitable (17).
Además de las estrategias establecidas en el capítulo 4 para controlar el sesgo en las mediciones
(normalizar las definiciones operativas de las variables, escoger métodos objetivos, complementar
variables clave con datos de varias fuentes, etc.), hay dos estrategias específicas para evitar el sesgo
en la medición de las exposiciones en los estudios de casos y testigos:
• Usar datos registrados antes de que se produzca la respuesta. Puede que sea posible, por ejem-
plo, examinar las historias clínicas perinatales en un estudio de casos y testigos de uso de vitami-
na K intramuscular como factor de riesgo de cáncer. Esta excelente estrategia está limitada en la
medida en que la información registrada sobre el factor de riesgo de interés esté disponible y sea
fiable. Por ejemplo, la información sobre la administración de vitamina K no estaba a menudo en
las historias clínicas, y el modo en que se trató esa información perdida afectaba a los resultados
de algunos estudios de vitamina K y posterior riesgo de cáncer (8).
• Usar enmascaramiento. El método general de enmascaramiento se comentó en el capítulo 4, pero
hay algunos puntos que son específicos del diseño de entrevistas en los estudios de casos y testi-
gos. En teoría, tanto los observadores como los participantes en el estudio podrían desconocer el
estado de casos y testigos de cada uno de los pacientes y el factor de riesgo que se estudia; por lo
tanto, son posibles cuatro tipos de enmascaramiento (tabla 8-1).
Idealmente, ni los participantes ni los observadores deben saber qué participantes son casos y qué par-
ticipantes son testigos. En la práctica, esto muchas veces es difícil. Los participantes saben si están enfermos
o no, por lo que solo se les puede ocultar su estado de caso o testigo si los testigos también presentan en-
fermedades que creen que podrían estar relacionadas con los factores de riesgo que se están estudiando.
Los esfuerzos para que los entrevistadores desconozcan la información se ven dificultados por la naturale-
za obvia de algunas enfermedades (un entrevistador puede fácilmente notar si el participante tiene ictericia
o ha sufrido una laringectomía) y por los indicios que pueden obtener de las respuestas de los participantes.
El enmascaramiento de los factores de riesgo específicos que se están estudiando suele ser más fácil
que el enmascaramiento del estado de casos o testigos. Un estudio de casos y testigos es, con frecuen-
cia, el primer paso en la investigación de una enfermedad, por lo que puede que no haya tan solo un
factor de riesgo de particular interés. Por ello, se pueden ocultar a los participantes del estudio y los
entrevistadores las hipótesis del estudio, incluyendo preguntas «simuladas» sobre posibles factores de
riesgo no asociados a la enfermedad. Por ejemplo, en un estudio de consumo de miel como factor
de riesgo de botulismo del lactante se pueden incluir en la entrevista preguntas con el mismo nivel de
detalle sobre el yogur y los plátanos. Este tipo de enmascaramiento no evita el sesgo diferencial, pero
permite calcular si constituye un problema: si los casos comunican más exposición a la miel, pero nin-
gún aumento de los demás alimentos, el sesgo diferencial en la medición será menos probable. Esta
estrategia no funcionaría si la asociación entre tomar miel y el botulismo del lactante hubiera sido
ampliamente divulgada anteriormente, o si alguno de los factores de riesgo simulados llegara a ser real.
El hecho de que el observador desconozca el estado de los participantes del estudio como casos o
testigos es una estrategia particularmente buena para determinaciones de laboratorio, como los análisis
de sangre y las radiografías. Es fácil el enmascaramiento en estas circunstancias, y debe realizarse siem-
pre, simplemente pidiendo que una persona distinta a aquella que va a realizar la medición aplique una
etiqueta con una identificación codificada a cada una de las muestras (o pacientes). La importancia del
enmascaramiento se ilustró en 15 estudios de casos y testigos en los que se compararon determinaciones
de la masa ósea de pacientes con fractura de cadera y testigos; se observaron diferencias mayores en los
estudios que usaban determinaciones sin enmascaramiento que en los estudios con él (18).
3$6$'2 35(6(17(
3REODFLyQ
0HGLFLyQ 7RGRV
GHODUHVSXHVWD
0HGLFLyQGHODUHVSXHVWD
0XHVWUD ORVFDVRV
■■FIGURA 8-3. Un estudio de casos y testigos anidado puede ser prospectivo o retrospectivo. Para la versión retrospec-
tiva, los pasos son:
• Identificar una cohorte de la población con muestras, imágenes y otros datos almacenados previamente.
• Medir la variable de respuesta que distingue los casos de los testigos.
• Medir las variables predictivas en muestras, imágenes y otros datos almacenados desde que se formó la cohorte,
además de otras variables, en todos los casos y en una muestra de los no casos (testigos).
respuesta al final del seguimiento (los casos), y después selecciona una muestra aleatoria de partici-
pantes que también formaban parte de la cohorte pero que no hayan presentado la respuesta (los
testigos). Después, el investigador mide las variables predictivas en los casos y en los testigos, y
compara los niveles del factor de riesgo en los casos con los niveles en la muestra de testigos. Esto
es un estudio de casos y testigos anidado simple (ejemplo 8-2).
3REODFLyQ
3HUVRQDWLHPSR
&RKRUWH VLQH[SRVLFLyQ
3HUVRQDWLHPSR
FRQH[SRVLFLyQ
&DVRLQFLGHQWH
3DUWLFLSDQWHV 3HUGLGRGXUDQWH
HOHJLEOHVFRQULHVJR HOVHJXLPLHQWR
GHODUHVSXHVWD
1RHVFDVRDOILQDO
GHOVHJXLPLHQWR
gador selecciona una muestra aleatoria de todos los miembros de la cohorte, independientemente de
la respuesta. Algunos participantes que formen parte de la muestra aleatoria pueden haber presen-
tado la respuesta (el número es muy bajo cuando la respuesta es infrecuente). Una ventaja del dise-
ño de casos y cohortes es que una única muestra aleatoria de la cohorte puede aportar los testigos
1
En el capítulo 9 se señalará que el aumento de la potencia por el muestreo de más de cuatro testigos por caso es peque-
ño, aunque, en este caso, el coste adicional fue bajo, porque ya se disponía de los datos electrónicos. Incluso con 20 tes-
tigos por caso el abordaje de casos y testigos anidado tiene una eficiencia computacional mucho mayor que un estudio
de cohortes retrospectivo.
para varios estudios de casos y testigos de diferentes respuestas. Además, la muestra aleatoria de la
cohorte ofrece información sobre la prevalencia general de los factores de riesgo en la cohorte.
Puntos fuertes
Los estudios de casos y testigos anidados y de casos y cohortes son especialmente útiles para mediciones
costosas en el suero y otras muestras, o para imágenes que se han archivado al comienzo del estudio y se
han conservado para su análisis posterior. La realización de mediciones costosas en todos los casos y en
una muestra de los testigos es mucho menos costosa que hacer las mediciones en toda la cohorte.
Este diseño conserva todas las ventajas de los estudios de cohortes, que se deben a la recogida de
las variables predictivas antes de que se hayan producido las respuestas. Además, evita los posibles
sesgos de los estudios de casos y testigos convencionales de que no se pueden realizar mediciones en
los casos que fallecen y no se pueden extraer los casos y los testigos de poblaciones diferentes.
Puntos débiles
Estos diseños comparten ciertas desventajas con otros diseños de observación: las posibilidades de que las
asociaciones observadas se deban al efecto de variables de confusión no medidas o medidas de manera
imprecisa, y de que las mediciones iniciales se puedan ver afectadas por la enfermedad preclínica silente.
Otras consideraciones
Los diseños de casos y testigos anidados y de casos y cohortes se han utilizado con menos frecuencia
de lo que deberían. Un investigador que planifique estudios prospectivos extensos debe plantearse
conservar muestras biológicas (p. ej., bancos de suero congelado) o almacenar imágenes o historias
que sean costosas de analizar para análisis de casos y testigos anidados posteriores. Debe asegurarse
de que las condiciones de almacenamiento permitan conservar durante muchos años las sustan-
cias de interés. También puede ser útil obtener nuevas muestras o información durante el período de
seguimiento, que también se podrán utilizar en las comparaciones entre casos y testigos.
■■ ESTUDIOS CRUZADOS
El diseño de cruzamiento de casos es una variante del diseño de casos y testigos que es útil para
estudiar los efectos a corto plazo de exposiciones intermitentes. Como los estudios de casos y testi-
gos habituales, estos estudios retrospectivos se inician con un grupo de casos: las personas que han
presentado la respuesta de interés. Sin embargo, a diferencia de los estudios de casos y testigos tra-
dicionales, en los que se comparan las exposiciones de los casos con las exposiciones de un grupo de
testigos, en los estudios cruzados cada caso actúa como su propio testigo. Las exposiciones de los
casos en el momento (o justo antes) de producirse la respuesta se comparan con las exposiciones de
esos mismos casos en uno o más momentos en el tiempo.
Por ejemplo, McEvoy y cols. (23) estudiaron casos que resultaron heridos en accidentes de tráfico y
comunicaron tener o usar un teléfono móvil. Con los registros de la compañía telefónica, compararon el
uso del móvil en los 10 min anteriores al accidente con el uso cuando los participantes iban conduciendo
en el mismo momento del día anterior, 72 h antes y 7 días antes del accidente. Observaron que el uso del
móvil era más probable en los 10 min previos a un accidente que en los períodos de tiempo de comparación,
con una razón de posibilidades de alrededor de 4. El análisis de un estudio cruzado es como el de un es-
tudio de casos y testigos emparejado, excepto que las exposiciones de los testigos son exposiciones del caso
en diferentes períodos de tiempo en lugar de exposiciones del testigo emparejado. Esto se ilustra en el
apéndice 8A, situación número 4. Los diseños de cruzamiento de casos se han utilizado en poblaciones
extensas para estudiar exposiciones que varían a lo largo del tiempo, como los niveles de contaminación
ambiental; se han encontrado asociaciones con el infarto de miocardio (24, 25), las visitas al servicio de
urgencias por enfermedades respiratorias (26) e incluso la mortalidad en menores de 1 año (27).
una puntualización final. Entre todos estos diseños, ninguno es el mejor y ninguno es el peor;
cada uno ocupa su lugar y tiene su finalidad, dependiendo de la pregunta de investigación y de las
circunstancias.
■■ RESUMEN
1. En un estudio de casos y testigos se compara la prevalencia de un factor de riesgo en una mues-
tra de participantes que tiene una variable de respuesta de interés (los casos) con la prevalencia
en una muestra que no tiene dicha variable de respuesta (los testigos). Este diseño, en el que se
realiza un muestreo por separado de personas con y sin la enfermedad, es relativamente barato
y tiene una eficiencia elevada para estudiar enfermedades poco frecuentes.
2. Un problema que surge con los estudios de casos y testigos es su susceptibilidad al sesgo de
muestreo. Hay cuatro métodos para reducir este sesgo: a) muestrear testigos y casos del mismo
(ciertamente no representativo) modo; b) realizar un estudio basado en la población; c) usar
varios grupos de testigos muestreados de diferentes modos, y d) emparejar los casos y los
testigos.
3. El otro problema importante con los estudios de casos y testigos es su diseño retrospectivo, que
los hace susceptibles al sesgo de medición, que afecta a casos y testigos de modo diferencial.
Este sesgo puede disminuirse utilizando mediciones de la variable predictiva realizadas antes
de que se produzca la variable de respuesta, y mediante el enmascaramiento de participantes
y observadores.
4. La mejor forma de evitar el sesgo de muestreo y de medición es diseñar un estudio de casos y
testigos anidado en el que se extraen muestras aleatorias de casos y testigos de un estudio de
cohortes de mayor tamaño tras su finalización. Además de controlar estos dos sesgos, las medi-
ciones iniciales costosas en suero, imágenes, etc., se pueden realizar al final del estudio en un
número relativamente pequeño de participantes en el estudio.
5. El diseño de casos y testigos con densidad de incidencia permite que los investigadores anali-
cen las relaciones de riesgo teniendo en consideración los cambios a lo largo del tiempo de los
niveles de los factores de riesgo y de la disponibilidad del seguimiento.
6. En el diseño de casos y cohortes anidado se utiliza una muestra aleatoria de toda la cohorte en
lugar de los «no casos»; esto puede servir como grupo testigo para estudiar más de una variable
de respuesta, y ofrece información directa sobre la prevalencia general de los factores de riesgo
en la cohorte.
7. Los estudios cruzados son una variación en el diseño de casos y testigos emparejados en el que
las observaciones en dos momentos del tiempo permiten que cada caso sea su propio testigo.
TABLA 8A-1
VARIABLE DE RESPUESTA
1
8,2 %
Prevalencia relativa2 = = 1,9
4,3 %
2. Estudio de casos y testigos. La pegunta de investigación del ejemplo 8-1 era si existe una aso-
ciación entre la vitamina K intramuscular y el riesgo de leucemia en la infancia. Los hallazgos
fueron que 69/107 casos de leucemia y 63/107 testigos habían recibido vitamina K. Una tabla de
2 2 con estos hallazgos sería:
TABLA 8A-2
VARIABLE DE RESPUESTA: DIAGNÓSTICO
ad 69 44
Riesgo relativo ≈ razón de posibilidades = = = 1,27
bc 63 38
Como la enfermedad (leucemia en este caso) es poco frecuente, la razón de posibilidades proporcio-
na una buena estimación del riesgo relativo. Por lo tanto, la leucemia era aproximadamente 1,3 veces
más probable después de recibir vitamina K, aunque este dato no fue estadísticamente significativo3.
2
La prevalencia relativa y el exceso de prevalencia son los análogos transversales del riesgo relativo y el exceso de riesgo.
3
Los autores realmente realizaron un análisis emparejado multivariado porque era adecuado para el diseño emparejado,
pero, en este caso, la razón de posibilidades simple sin emparejamiento era casi la misma que la que se describió en el
estudio.
111
TABLA 8A-3
CASOS (CON LESIONES POR COLISIÓN)
La tabla 8A-3 muestra que había 90 parejas en las que el caso usaba alguna vez el teléfono móvil
mientras conducía, pero no el testigo emparejado, y 40 pares en los que el testigo emparejado era
«usuario», pero el caso no lo era. Observe que esta tabla de 2 2 es diferente de la tabla de 2 2
del estudio en la pregunta 2 de la vitamina K sin emparejamiento, en el que cada celda de la tabla es
el número de personas en esa celda. En la tabla de 2 2 para un estudio de casos y testigos empare-
jado, el número de cada celda es el número de pares de participantes en esa celda; el N total en
la tabla 8A-3 es, por tanto, de 600 (300 casos y 300 testigos). La razón de posibilidades (RP) para
una tabla como esta es, sencillamente, la proporción de los dos tipos de pares discordantes; en la ta-
bla 8A-3, la RP = 90/40 = 2,25. Esto implica que los usuarios de teléfonos móviles tenían una posi-
bilidad mayor del doble de estar implicados en un accidente.
4. Estudio cruzado. Considere ahora el estudio cruzado de la misma pregunta. Se muestran a con-
tinuación los datos del estudio de McEvoy y cols.
TABLA 8A-4
PERÍODO DE TIEMPO DE LA COLISIÓN
comparación 7 días antes, mientras que el 27 situado justo debajo del 5 indica que había 27 conduc-
tores implicados en colisiones que estaban usando el móvil justo antes de la colisión, pero no usaban
el teléfono durante el período de comparación 7 días antes. La razón de posibilidades es la proporción
de los números de períodos de tiempo discordantes; en este ejemplo es de 27/6 = 4,5, lo que signifi-
ca que conducir durante los períodos de uso del teléfono móvil se asocia a una posibilidad 4,5 veces
mayor de accidente que conducir durante períodos en los que no se utiliza un teléfono móvil.
Casos Testigos
Presencia de factor de riesgo a b
Ausencia de factor de riesgo c d
Aquí es adecuado calcular el riesgo de la enfermedad en personas con el factor de riesgo como
a’/(a’ + b’), el riesgo en los que no tienen el factor de riesgo como c’/(c’ + d’), y el riesgo relativo
como [a’/(a’ + b’)]/[c’/(c’ + d’)]. Ya se ha comentado el hecho de que a’/(a’ + b’) no es igual a a/(a + b).
Sin embargo, si la enfermedad es relativamente poco frecuente tanto en los que tienen el factor de
riesgo como en los que no lo tienen (que son la mayoría), entonces a’ es mucho menor que b’, y c’
es mucho menor que d’. Esto significa que a’/b’ es una buena aproximación de a’/(a’ + b’), y que c’/d’
es una buena aproximación de c’/(c’ + d’). Por lo tanto, se puede estimar una aproximación del ries-
go relativo en la población como sigue:
a’ / (a’ + b’) a’ / b’
≈
c’ / (c’ + d’) c’ / d’
a’ d’ a’ d’
c’ c’ = c’ b’
Sin embargo, a’/c’ en la población es igual a a/c en la muestra si los casos son representativos de
todos los casos de la población (es decir, tienen la misma prevalencia del factor de riesgo). Del mis-
mo modo, b’/d’ es igual a b/d si los testigos son representativos.
Por lo tanto, los parámetros de la población en este último término pueden sustituirse por los pa-
rámetros de la muestra, y nos quedamos con el hecho de que la razón de posibilidades observada en
la muestra, ad/bc, es una buena aproximación del riesgo relativo en la población, [a’/(a’ + b’)]/[c’/(c’ + d’)],
siempre que la enfermedad sea poco frecuente.
BIBLIOGRAFÍA
1. Herbst AL, Ulfelder H, Poskanzer DC. Adenocarcinoma of the vagina. Association of maternal stilbestrol therapy
with tumor appearance in young women. N Engl J Med 1971;284(15):878–881.
2. Beal SM, Finch CF. An overview of retrospective case–control studies investigating the relationship between prone
sleeping position and SIDS. J Paediatr Child Health 1991;27(6):334–339.
3. Mitchell EA, Hutchison L, Stewart AW. The continuing decline in SIDS mortality. Arch Dis Child 2007;92(7):625–626.
4. Golding J, Greenwood R, Birmingham K, Mott M. Childhood cancer, intramuscular vitamin K, and pethidine given
during labour. BMJ 1992;305(6849):341–346.
5. Golding J, Paterson M, Kinlen LJ. Factors associated with childhood cancer in a national cohort study. Br J Cancer
1990;62(2):304–308.
6. von Kries R, Gobel U, Hachmeister A, et al. Vitamin K and childhood cancer: a population based case–control
study in Lower Saxony, Germany. BMJ 1996;313(7051):199–203.
7. Fear NT, Roman E, Ansell P, et al. Vitamin K and childhood cancer: a report from the United Kingdom Childhood
Cancer Study. Br J Cancer 2003;89(7):1228–1231.
8. Roman E, Fear NT, Ansell P, et al. Vitamin K and childhood cancer: analysis of individual patient data from six
case-control studies. Br J Cancer 2002;86(1):63–69.
9. Kochen M, McCurdy S. Circumcision and the risk of cancer of the penis. A life-table analysis. Am J Dis Child
1980;134(5):484–486.
10. O’Brien KL, Selanikio JD, Hecdivert C, et al. Epidemic of pediatric deaths from acute renal failure caused by
diethylene glycol poisoning. Acute Renal Failure Investigation Team. JAMA 1998;279(15):1175–1180.
11. Fatal poisoning among young children from diethylene glycol-contaminated acetaminophen - Nigeria, 2008–2009.
MMWR Morb Mortal Wkly Rep 2009;58(48):1345–1347.
12. Puumala SE, Spector LG, Robison LL, et al. Comparability and representativeness of control groups in a case–control
study of infant leukemia: a report from the Children’s Oncology Group. Am J Epidemiol 2009;170(3):379–387.
13. Voigt LF, Schwartz SM, Doody DR, et al. Feasibility of including cellular telephone numbers in random digit dialing
for epidemiologic case–control studies. Am J Epidemiol 2011;173(1):118–126.
14. Hurwitz ES, Barrett MJ, Bregman D, et al. Public Health Service study of Reye’s syndrome and medications. Report
of the main study. JAMA 1987;257(14):1905–1911.
15. Cockburn M, Hamilton A, Mack T. Recall bias in self-reported melanoma risk factors. Am J Epidemiol 2001;
153(10):1021–1026.
16. Parr CL, Hjartaker A, Laake P, et al. Recall bias in melanoma risk factors and measurement error effects: a nested
case-control study within the Norwegian Women and Cancer Study. Am J Epidemiol 2009;169(3):257–266.
17. Gefeller O. Invited commentary: Recall bias in melanoma—much ado about almost nothing? Am J Epidemiol
2009;169(3):267–270; discussion 71–72.
18. Cummings SR. Are patients with hip fractures more osteoporotic? Review of the evidence. Am J Med 1985;78(3):
487–494.
19. Cauley JA, Lucas FL, Kuller LH, et al. Elevated serum estradiol and testosterone concentrations are associa-
ted with a high risk for breast cancer. Study of Osteoporotic Fractures Research Group. Ann Intern Med 1999;
130(4 Pt 1):270–277.
20. Azoulay L, Yin H, Filion KB, et al. The use of pioglitazone and the risk of bladder cancer in people with type 2
diabetes: nested case–control study. BMJ 2012;344:e3645.
21. Hassey A, Gerrett D, Wilson A. A survey of validity and utility of electronic patient records in a general practice.
BMJ 2001;322(7299):1401–1405.
22. Essebag V, Platt RW, Abrahamowicz M, et al. Comparison of nested case-control and survival analysis methodolo-
gies for analysis of time-dependent exposure. BMC Med Res Methodol 2005;5(1):5.
23. McEvoy SP, Stevenson MR, McCartt AT, et al. Role of mobile phones in motor vehicle crashes resulting in hospital
attendance: a case-crossover study. BMJ 2005;331(7514):428.
24. Bhaskaran K, Hajat S, Armstrong B, et al. The effects of hourly differences in air pollution on the risk of myocardial
infarction: case crossover analysis of the MINAP database. BMJ 2011;343:d5531.
25. Nuvolone D, Balzi D, Chini M, et al. Short-term association between ambient air pollution and risk of hospitaliza-
tion for acute myocardial infarction: results of the cardiovascular risk and air pollution in Tuscany (RISCAT) study.
Am J Epidemiol 2011;174(1):63–71.
26. Tramuto F, Cusimano R, Cerame G, et al. Urban air pollution and emergency room admissions for respiratory
symptoms: a case-crossover study in Palermo, Italy. Environ Health 2011;10:31.
27. Scheers H, Mwalili SM, Faes C, et al. Does air pollution trigger infant mortality in Western Europe? A case-cross
over study. Environ Health Perspect 2011;119(7):1017–1022.
28. Reijneveld SA, Brugman E, Hirasing RA. Infantile colic: maternal smoking as potential risk factor. Arch Dis Child
2000;83(4):302–303.
L a mayoría de los estudios de observación están diseñados para indicar que una variable predic-
tiva puede ser una causa de una variable de respuesta, por ejemplo, que comer brócoli puede reducir
el riesgo de cáncer de colon. (Son excepciones los estudios de pruebas diagnósticas y pronósticas,
que se exponen en el cap. 12.) Las asociaciones causales entre una variable predictiva y una variable
de respuesta son importantes, porque pueden ofrecer conocimientos sobre la biología subyacente de
una enfermedad, identificar formas de reducir o prevenir su aparición, e incluso sugerir posibles
tratamientos.
Sin embargo, no todas las asociaciones que se encuentran en un estudio de observación represen-
tan relaciones de causa y efecto. De hecho, hay otras cuatro explicaciones generales para una asocia-
ción entre una variable predictiva y una variable de respuesta en un estudio observacional (tabla 9-1).
Dos de ellas, el azar y el sesgo, crean asociaciones falsas entre la variable predictiva y la variable de
respuesta en la muestra en estudio que no existen en la población. Otras dos, relación efecto y cau-
sa y factores de confusión, crean asociaciones reales en la población, aunque estas asociaciones no
son causales en la dirección de interés. El establecimiento de que la relación de causa y efecto es la
explicación más probable de una asociación exige que se demuestre que son improbables esas
otras explicaciones.
Habitualmente se cuantifica el efecto causal de una variable predictiva sobre una variable de res-
puesta utilizando una medida de la asociación, como el cociente de riesgo o la razón de posibilidades.
Por ejemplo, supóngase que en un estudio se observa que beber café se asocia a un cociente de riesgo
de infarto de miocardio (IM) de 2,0. Una posibilidad (probablemente la que sería más interesante a
juicio del investigador) es que beber café aumenta al doble el riesgo de IM. Sin embargo, antes de llegar
a esta conclusión se deben tener en consideración y rechazar las cuatro explicaciones alternativas.
Con el azar y el sesgo, el consumo de café se asoció a un aumento al doble del riesgo de IM en el
estudio, pero esa asociación realmente no está presente en la población. Por lo tanto, el azar y el ses-
go son explicaciones de las asociaciones falsas (es decir, no reales) en un estudio.
Las otras dos alternativas (efecto y causa, y confusión) son fenómenos biológicos verdaderos, lo que
significa que las personas que beben café en la población realmente tienen el doble de riesgo de IM. Sin
embargo, este aumento del riesgo no se debe a una relación de causa y efecto. En una situación, la
asociación se debe a efecto y causa: tener un IM hace que las personas beban más café. (Esto es sim-
plemente la relación de causa y efecto a la inversa.) Se produce la última posibilidad, la confusión,
cuando un tercer factor, como el tipo de personalidad, lleva tanto al consumo de café como al IM.
En el resto de este capítulo se analizarán estrategias para estimar y minimizar la probabilidad de
estas cuatro explicaciones alternativas para encontrar una asociación en un estudio de observación.
Estas estrategias se pueden utilizar cuando se diseña un estudio o cuando se analizan sus resultados.
Aunque este libro insiste en el diseño de la investigación, el conocimiento de las opciones analíticas
puede influir en la elección del diseño, por lo que en este capítulo se abordarán los dos temas.
Sin embargo, solo por azar, podríamos incluir a 12 bebedores de café entre los 20 casos de IM, y
solo 6 en los 20 testigos. Si esto ocurriera, en nuestro estudio observaríamos una asociación falsa
entre el consumo de café y el IM.
El azar se denomina en ocasiones error aleatorio, porque no tiene ninguna explicación subyacen-
te. Cuando una asociación debida a un error aleatorio es estadísticamente significativa, se conoce
como error de tipo I (cap. 5).
Existen estrategias para reducir el error aleatorio tanto en la fase de diseño de la investigación
como en la fase de análisis (tabla 9-2). Las estrategias de diseño, como aumentar la precisión de las
medidas e incrementar el tamaño de la muestra, se analizan en los capítulos 4 y 6, respectivamente.
La estrategia de análisis de calcular valores de p e intervalos de confianza ayuda al investigador a
cuantificar la magnitud de la asociación observada en comparación con lo que podría haber sucedi-
do solo por azar. Por ejemplo, un valor de p de 0,10 indica que el azar por sí solo podría causar una
diferencia al menos tan grande como la que observaron los investigadores en aproximadamente el
10 % de las ocasiones. Los intervalos de confianza, que son incluso más útiles que los valores de p,
muestran los posibles valores de los estadísticos que describen una asociación que caen dentro del
intervalo del error aleatorio estimado en el estudio.
• Fase de diseño. Comience escribiendo la pregunta de la investigación al lado del plan del estudio,
como en la figura 9-1. Después medite sobre los tres problemas siguientes en relación con la
pregunta de la investigación:
1. ¿Las muestras de los participantes del estudio (p. ej., casos y testigos, o participantes expues-
tos y no expuestos) representan a la(s) población(es) de interés?
2. ¿Representan las mediciones de las variables predictivas los factores predictivos de interés?
3. ¿Representan las mediciones de las variables de respuesta las respuestas de interés?
Para cada pregunta respondida «No» o «Puede que no», considere si el sesgo se aplica de modo
similar a uno o a los dos grupos estudiados (p. ej., casos y testigos, o expuestos y no expuestos),
,QIHUHQFLD
5($/,'$' 5($/,'$'
(1(/81,9(562 (1(/(678',2
(UURUHV
3UHJXQWD 3ODQGHOHVWXGLR
GHLQYHVWLJDFLyQ
'LVHxR 0XHVWUD
3REODFLyQ
SUHYLVWD
REMHWLYR
7RGRVORVDGXOWRV 3DFLHQWHVGHODFRQVXOWD
GHOLQYHVWLJDGRU
TXHDFHSWDQHOHVWXGLR
)HQyPHQRV 9DULDEOHV
GHLQWHUpV SUHYLVWDV
&DXVD 3UHGLFWLYD
+iELWRVUHDOHV +iELWRV
GHFRQVXPR FRPXQLFDGRVGH
GHFDIp FRQVXPRGHFDIp
&DXVD $VRFLDFLyQ
HIHFWR
(IHFWR 'HUHVSXHVWD
,0UHDO 'LDJQyVWLFR
GH,0HQKLVWRULDV
FOtQLFDV
■■FIGURA 9-1. Reducción al mínimo del sesgo por la consideración cuidadosa de las diferencias entre la pregunta de
la investigación y el plan del estudio.
y si es probable que el sesgo sea suficientemente grande como para afectar a la respuesta a la
pregunta de la investigación.
Para ilustrar esto con nuestro ejemplo del café y el IM, considérese un estudio de casos y tes-
tigos en el que la muestra de los testigos se obtenga de pacientes hospitalizados por enfermedades
distintas al IM. Si muchos de estos pacientes tienen enfermedades crónicas que hicieron que re-
dujeran su consumo de café, la muestra de los testigos no representará a la población objetivo de
la que surgen los casos con IM: habrá una escasez de bebedores de café. Y si el espasmo esofágico,
que puede empeorar por el café, se diagnostica erróneamente como IM, podría encontrarse una
falsa asociación entre el café y el IM, porque la respuesta medida (diagnóstico de IM) no repre-
sentaba exactamente la variable de respuesta de interés (IM real).
El siguiente paso será pensar en posibles estrategias para evitar cada uno de los posibles tipos
de sesgo, como seleccionar más de un grupo testigo en un estudio de casos y testigos (cap. 8) o
las estrategias para reducir el sesgo de medición descritas en el capítulo 4. En cualquier caso,
hacen falta juicios sobre la probabilidad de los sesgos y la facilidad con la que se podrían evitar
con cambios en el plan del estudio. Si el sesgo se puede evitar fácilmente, revise el plan del estu-
dio y plantéese las tres preguntas de nuevo. Si el sesgo no se puede evitar fácilmente, decida si
sigue mereciendo la pena realizar el estudio, determinando la probabilidad del posible sesgo y el
grado en que distorsionará la asociación que está intentando estimar.
Los posibles sesgos pueden ser inevitables, o puede ser costoso evitarlos, o puede haber incer-
tidumbre en la medida en la que serán problemáticos. En cualquier caso, el investigador debe
plantearse diseñar el estudio para obtener datos adicionales que permitan evaluar la gravedad de
los sesgos. Por ejemplo, si el investigador tiene la preocupación de que los casos de un estudio
de cáncer pancreático pueden notificar en exceso exposiciones recientes a productos químicos (tal
vez porque estos pacientes están buscando desesperadamente una explicación de por qué tienen
cáncer pancreático), también se les podría preguntar por exposiciones (¡como el consumo de café!)
que en estudios previos no se ha demostrado que tengan efecto sobre el riesgo de cáncer pancreá-
tico. Si el investigador está preocupado de que un cuestionario no detecte con exactitud el consu-
mo de café (tal vez debido al mal planteamiento de las preguntas), podría asignar un entrevistador
con enmascaramiento para que preguntara a un grupo de casos y testigos a fin de determinar
la concordancia con las respuestas que han dado al cuestionario. De manera similar, si se plantea la
preocupación de que, en lugar de producir IM, el café aumenta la supervivencia en pacientes con
IM (lo que llevaría a que los bebedores de café estuvieran sobrerrepresentados en una muestra de
supervivientes a un IM), el investigador podría identificar a los pacientes con IM que han muerto
y entrevistar a sus cónyuges supervivientes sobre sus hábitos previos de consumo de café.
• Fase de análisis. Una vez que se han recogido los datos, el objetivo pasa de minimizar el sesgo a
evaluar su probable gravedad. El primer paso es analizar datos que se han recogido para esa fina-
lidad. Por ejemplo, el investigador que prevé un recuerdo imperfecto de los hábitos de consumo
de café puede haber incluido preguntas sobre la seguridad que tienen los casos y los testigos en
sus respuestas. Se podría examinar la asociación entre el consumo de café y el IM después de
estratificar la certidumbre sobre el consumo de café, para ver si la asociación es más fuerte en los
que están más seguros de su antecedente de exposición.
El investigador también puede contemplar los resultados de otros estudios. Si las conclusiones
son compatibles, es menos probable que la asociación se deba al sesgo. Esto es especialmente cierto
si en los demás estudios se han usado diferentes diseños y, por tanto, no es probable que compartan
los mismos sesgos. En muchas situaciones, los posibles sesgos no llegan a ser un problema impor-
tante. La decisión sobre el interés con que se debe buscar información adicional y sobre cuál es la
mejor forma de comentar estos aspectos cuando se elabore el informe del estudio son temas de
opinión para los que resulta útil pedir consejos a compañeros.
Efecto y causa
Una posibilidad es que se invierta la secuencia: la variable de respuesta ha causado la variable pre-
dictiva. Esta posibilidad a menudo es un problema en los estudios transversales y de casos y testigos:
¿un estilo de vida sedentario produce obesidad, o es al revés? La relación de efecto y causa también
puede ser un problema en estudios cruzados. Por ejemplo, en el estudio de uso de teléfonos móviles
y accidentes de tráfico descrito en el capítulo 8 (1), un accidente de tráfico podría llevar al conduc-
tor a que hiciera una llamada de teléfono en la que comunicara el accidente, en lugar de que el ac-
cidente hubiera estado producido porque el conductor no prestaba atención. Para orientar esta po-
sibilidad, los investigadores preguntaron a los conductores sobre el uso del móvil antes y después de
la colisión, y comprobaron las respuestas mediante registros de llamadas telefónicas.
La relación de efecto y causa es, con menos frecuencia, un problema en los estudios de cohortes
para determinar la causa de las enfermedades, porque las determinaciones de los factores de riesgo
pueden realizarse en los participantes que todavía no tienen la enfermedad. Sin embargo, incluso en
estos estudios puede haber relación de efecto y causa si la enfermedad tiene un largo período de
latencia y no pueden identificarse al principio los pacientes que sufren la enfermedad subclínica. Por
ejemplo, la diabetes de tipo II se asocia a un riesgo posterior de sufrir cáncer de páncreas. Alguna de
estas asociaciones podría muy bien ser del tipo de efecto y causa, porque el cáncer de páncreas podría
afectar a las células insulares pancreáticas que segregan insulina, lo que produciría diabetes. En
consonancia con la relación de efecto y causa, el riesgo de cáncer pancreático es máximo inmedia-
tamente después del diagnóstico de diabetes (2). La asociación disminuye con la duración de la
diabetes, aunque persiste cierto grado de asociación incluso 4 años o más después del inicio de
la diabetes (2-4), lo que indica que al menos parte de la relación puede ser de causa y efecto.
Este ejemplo ilustra un método general para descartar la relación de efecto y causa: buscar una
disminución de la asociación al aumentar el tiempo transcurrido entre la supuesta causa y su efecto.
Un segundo abordaje es evaluar la verosimilitud biológica de la relación de efecto y causa en com-
paración con la relación de causa y efecto. En este ejemplo, la relación de efecto y causa era creíble
porque el cáncer pancreático podría dañar el páncreas, aunque la observación de que haber tenido
diabetes durante más de 10 años se asocia a aumento del riesgo de otros diversos cánceres además
del cáncer pancreático (4), incrementa la verosimilitud biológica de que la diabetes produce cán-
cer de páncreas, en lugar de ser tan solo uno de sus efectos.
Confusión
La otra explicación de la tabla 9-3 es la confusión, algo que sucede cuando un tercer factor es una
causa real de la variable de respuesta, y la variable predictiva de interés se asocia a ese tercer factor,
aunque no es una causa de él. Por ejemplo, si determinados rasgos de la personalidad hacen que las
personas consuman más café y también que tengan mayor riesgo de IM, estos rasgos de la persona-
lidad introducirán confusión en la asociación entre el café y el IM. Si esta es la explicación real,
entonces la asociación entre el café y el IM no representa una relación de causa y efecto, aunque es
perfectamente real: el consumo de café es un «espectador inocente» en relación con la causalidad.
Para que sea una variable de confusión, una variable se debe asociar con la variable predictiva de in-
terés, y también debe ser una causa de la variable de respuesta. La confusión puede ser aún más com-
plicada, y en ocasiones está implicado otro factor adicional. Por ejemplo, el entorno laboral podría
hacer que las personas consumieran café y fumaran cigarrillos, lo cual es un factor de riesgo de IM.
En el apéndice 9A se presenta un ejemplo numérico de cómo diferencias en el consumo de cigarrillos
podrían llevar a una asociación aparente entre el consumo de café y el IM.
¿Qué ocurriría si el consumo de café llevara al tabaquismo y el tabaquismo produjera IM? En ese
caso se consideraría que el tabaquismo es un mediador de la asociación (causal) entre el consumo
de café y el IM, no un factor de confusión. En general, es mejor no controlar los factores que están
a lo largo de la vía causal entre una variable predictiva y una variable de respuesta.
Aparte del sesgo, la confusión es, a menudo, la única explicación alternativa posible a la relación
de causa y efecto, y la más importante que hay que intentar descartar. También es el mayor reto; gran
parte del resto del capítulo se destina a las estrategias para abordar las variables de confusión. Sin
embargo, se debe señalar que todas estas estrategias suponen la realización de juicios, y que no hay
ninguna cantidad de sofisticación epidemiológica o estadística que pueda sustituir al conocimiento
de la biología subyacente.
Especificación
La estrategia más sencilla consiste en diseñar criterios de inclusión que especifiquen un valor de la
posible variable de confusión y excluyan a cualquiera que tenga un valor diferente. Por ejemplo, el
investigador que estudia el café y el IM podría especificar que solo se incluyan en el estudio los no
fumadores. Si se observara entonces una asociación entre el café y el IM, evidentemente no podría
deberse al tabaquismo.
La especificación es una estrategia eficaz, pero, como todas las restricciones en el esquema de
muestreo, también presenta inconvenientes. En primer lugar, incluso si el café no es una causa de IM
en los no fumadores, sí puede causarlo en los que fuman. Este fenómeno, un efecto del café sobre el
IM que es diferente en los fumadores y en los no fumadores, se denomina modificación del efecto
(también conocido como interacción); véase el apéndice 9A. Por ello, la especificación limita la
posibilidad de generalizar la información disponible de un estudio, en este caso, comprometiendo
nuestra capacidad de generalizar a los fumadores. Una segunda desventaja es que, si el tabaquismo
es muy frecuente en los pacientes disponibles para el estudio, puede que el investigador no sea capaz
de conseguir una muestra suficientemente grande de no fumadores. Estos problemas pueden llegar
a ser importantes si la especificación se utiliza para controlar demasiadas variables de confusión o
Emparejamiento
En un estudio de casos y testigos, el emparejamiento se puede utilizar para evitar la confusión, se-
leccionando los mismos valores (emparejados) de las variables de confusión. El emparejamiento y
la especificación evitan la confusión al permitir la comparación solo de casos y testigos que compar-
ten niveles comparables de la variable de confusión. Sin embargo, el emparejamiento difiere de la
especificación en que se mantiene la posibilidad de generalizar, porque pueden estudiarse partici-
pantes de todos los niveles de la variable de confusión.
El emparejamiento suele realizarse individualmente (emparejamiento por parejas). Para contro-
lar el tabaquismo en un estudio en el que beber café era una variable predictiva del IM, por ejemplo,
se podría emparejar cada caso (un paciente con un IM) individualmente con uno o más testigos que
fumaran aproximadamente lo mismo que el caso (p. ej., 10 a 20 cigarrillos/día). El consumo de café
de cada caso podría compararse con el consumo de café del(los) control(es) emparejado(s).
Un enfoque alternativo es emparejar por grupos (emparejamiento por frecuencias). Para cada
grado de tabaquismo podría contarse el número de casos con ese consumo, y se selecciona un nú-
mero adecuado de testigos con el mismo nivel de tabaquismo. Si el estudio requería dos testigos por
caso y había 20 casos que fumaban 10 a 20 cigarrillos/día, el investigador seleccionaría 40 testigos
que fumaran esa cantidad, emparejándolos como grupo con los 20 casos.
testigo (6). Los autores tuvieron que excluir de los análisis emparejados a estos 39 casos. El uso
de técnicas analíticas sin emparejamiento con datos emparejados puede llevar a resultados
incorrectos (en general, sesgados hacia la ausencia de efectos), porque se viola la suposición de
que los grupos se muestrean de manera independiente.
• Un último inconveniente del emparejamiento es la posibilidad de emparejamiento excesivo, que
sucede cuando la variable de emparejamiento está asociada con la variable predictiva, pero no es
una variable de confusión, porque no está asociada a la de respuesta. El emparejamiento excesivo
puede disminuir la potencia de un estudio de casos y testigos, porque el análisis emparejado
desecha los conjuntos de caso y testigo con el mismo nivel de exposición (apéndice 8A-3). Por
ejemplo, en el estudio de marihuana y tumores de células germinales, el uso de amigos como
testigos puede haber reducido la potencia, al aumentar la concordancia de la exposición entre los
casos y sus testigos emparejados: los amigos podrían tender a tener patrones similares de consu-
mo de marihuana.
Estudios oportunistas
En ocasiones, hay oportunidades de controlar las variables de confusión en la fase de diseño, inclu-
so sin medirlas; los denominamos diseños «oportunistas», porque utilizan oportunidades poco
habituales para controlar las variables de confusión. Un ejemplo, útil cuando se estudian los efectos
inmediatos de exposiciones a corto plazo, son los estudios cruzados (cap. 8): todas las posibles va-
riables de confusión que son constantes a lo largo del tiempo (p. ej., edad, raza, sexo, clase social,
factores genéticos) se controlan porque cada participante solo se compara consigo mismo en un
período de tiempo diferente.
Otro diseño oportunista supone un experimento natural, en el que los participantes están ex-
puestos o no están expuestos a un factor de riesgo particular durante un proceso que, en la práctica,
actúa de manera aleatoria (7). Por ejemplo, Lofgren y cols. (8) estudiaron los efectos de la disconti-
nuidad de la asistencia hospitalaria aprovechando el hecho de que los pacientes ingresados después
de las cinco de la tarde en su centro se asignaban alternativamente a residentes más antiguos que, o
seguían atendiendo a los pacientes, o los transferían a otro equipo a la mañana siguiente. Observaron
que, en los pacientes que eran transferidos, se solicitaba un 38 % más de pruebas (p = 0,01) y tenían
una estancia media 2 días mayor (p = 0,06) que los que permanecían con el mismo equipo. Igual-
mente, Bell y Redelmeier (9) estudiaron los efectos de la dotación de personal de enfermería, com-
parando las respuestas de pacientes con determinados diagnósticos que fueron ingresados en fin de
semana con los que fueron ingresados a diario. Observaron una mayor mortalidad por tres afecciones
que habían previsto que se vieran afectadas por una disminución de la dotación de personal los fines
de semana, aunque sin ningún aumento de la mortalidad en los pacientes hospitalizados por otras en-
fermedades.
A medida que se han ido aclarando las diferencias genéticas en cuanto a la susceptibilidad a una
exposición, ha surgido como opción una estrategia denominada aleatorización mendeliana (10).
Esta estrategia funciona porque, en polimorfismos genéticos habituales, el alelo que una persona
recibe está determinado al azar en las familias, y no está relacionado con la mayoría de las variables
de confusión. Por ejemplo, algunos granjeros que rocían a las ovejas con insecticida (para matar
garrapatas, piojos, etc.) tienen problemas de salud, como cefalea y astenia, que podrían deberse o no
a su exposición laboral a los insecticidas. Los investigadores (11) aprovecharon un polimorfismo del
gen de la paraoxonasa 1 que produce enzimas con diferente capacidad para hidrolizar el insecticida
organofosforado (diazinón-oxón) que se utiliza en los desinfectantes para ovejas. Encontraron que
los granjeros expuestos con problemas de salud tenían más probabilidad de tener alelos asociados a
una reducción de la actividad de la paraoxonasa 1 que granjeros con una exposición similar, pero
asintomáticos. Este hallazgo ofreció un dato sólido de una relación causal entre la exposición al
desinfectante para ovejas y los problemas de salud.
Los experimentos naturales y la aleatorización mendeliana son ejemplos de un método más ge-
neral para mejorar la inferencia causal en los estudios de observación: el uso de variables instru-
mentales. Se trata de variables asociadas a la variable predictiva de interés, pero no asociadas inde-
pendientemente a la variable de respuesta. Que alguien ingrese en fin de semana, por ejemplo, se
asocia a los niveles de personal, pero se pensó que, por lo demás, no se asociaba al riesgo de morta-
lidad (para los diagnósticos estudiados), por lo que puede considerarse que el ingreso en fin de se-
mana es una variable instrumental. Del mismo modo, la actividad de la enzima paraoxonasa 1 se
asocia a una posible toxicidad por el desinfectante para las ovejas, pero no se asocia, por lo demás,
al mal estado de salud. Otros ejemplos de variables instrumentales son la extracción de números de
lotería para investigar efectos retardados sobre la mortalidad del servicio militar durante la época de
la Guerra de Vietnam (12), y si la supervivencia prolongada tras un cáncer de riñón en estadio tem-
prano depende de la distancia entre el domicilio del paciente y la consulta de un urólogo que realiza
nefrectomías parciales o de otro que solamente realiza nefrectomías radicales (13).
Estratificación
Al igual que la especificación y el emparejamiento, la estratificación asegura que solo se comparen
casos y testigos (o los participantes expuestos y no expuestos) con niveles similares de una posible
variable de confusión. Conlleva la separación de los participantes en estratos (subgrupos) según el
nivel de una posible variable de confusión, y el examen posterior de la relación entre la variable
predictiva y la de respuesta por separado en cada grupo. En el apéndice 9A se ilustra la estratificación.
Considerando a los fumadores y los no fumadores por separado («estratificando por el tabaquismo»),
pueden eliminarse los efectos de confusión de esta variable.
El apéndice 9A también ilustra la modificación del efecto, en la que la estratificación muestra que
la asociación entre variable predictiva y de respuesta varía con (es modificada por) el nivel de un
tercer factor. La modificación del efecto introduce una complejidad adicional, porque la relación
entre la variable predictiva y la variable de respuesta ya no se puede resumir con una única medida
de asociación. Por casualidad solo, los cálculos de la asociación en diferentes estratos rara vez serán
exactamente iguales, y los hallazgos únicamente indican modificación del efecto cuando las variables
varían mucho. Una modificación del efecto clínicamente significativa es infrecuente, y antes de
concluir que está presente, se debe evaluar su significación estadística y, especialmente si se han
estudiado muchos subgrupos (lo que aumenta la probabilidad de que al menos uno sea estadística-
mente significativo debido al azar), ver si se puede replicar en otra población. La verosimilitud
biológica, o su ausencia, también puede contribuir a la interpretación. El tema de la modificación
del efecto también surge en los análisis de subgrupos en ensayos clínicos (cap. 11), y en los metaaná-
lisis cuando se está considerando la homogeneidad (similitud) de los estudios (cap. 13).
La estratificación tiene la ventaja de la flexibilidad: al realizar varios análisis estratificados, los
investigadores pueden decidir qué variables parecen ser variables de confusión e ignorar el resto.
Esto se puede realizar combinando el conocimiento sobre las probables direcciones de las relaciones
causales con análisis para determinar si los resultados de los análisis estratificados difieren notable-
mente de los de análisis no estratificados (v. apéndice 9A). La estratificación también tiene la venta-
1
Surgen preguntas similares en estudios de pruebas diagnósticas (cap. 12), aunque, en esta situación, el objetivo no es
determinar un efecto causal, sino determinar si la prueba en estudio aporta una capacidad predictiva importante a la
información de que ya se disponía en el momento en que se realizó.
ja de que es reversible: no hay que hacer elecciones al principio del estudio que podrían lamentarse
más tarde.
El principal inconveniente del análisis estratificado es el limitado número de variables que pueden
controlarse al mismo tiempo. Por ejemplo, en el estudio del café y el IM, la edad, el tipo de perso-
nalidad, la presión arterial sistólica, el colesterol sérico y el consumo de cigarrillos podrían ser va-
riables de confusión. Para estratificar estas cinco variables, con solo tres estratos para cada una, ¡se
necesitarían 35 (= 243) estratos! Con tantos estratos, habrá algunos sin casos ni testigos, y serán
estratos que no podrán usarse.
Para mantener un número suficiente de participantes en cada estrato, a menudo se divide una
variable en dos estratos. Cuando los estratos son demasiado amplios, sin embargo, puede que la va-
riable de confusión no se controle de forma adecuada. Por ejemplo, si en el estudio anterior se es-
tratificó la edad usando solo dos estratos (p. ej., edad , 50 años y edad $ 50 años), sería posible que
quedara alguna confusión residual si en cada uno de los estratos de edad los participantes que beben
más café son mayores y, por tanto, tienen mayor riesgo de sufrir un IM.
Ajuste
Se dispone de varias técnicas estadísticas para ajustar las variables de confusión. Estas técnicas mo-
delan la naturaleza de la asociación entre las variables para aislar los efectos de las variables predic-
tivas y las de confusión. Por ejemplo, en un estudio de los efectos de la plumbemia sobre el CI de
niños, se podría examinar la formación de los padres como una posible variable de confusión. El
ajuste estadístico podría modelar la relación entre los años de estudios de los padres y el CI del niño
como una línea recta, en la que cada año de formación de los padres se asocia a un aumento fijo del
CI del niño. Los CI de niños con diferentes valores de plumbemia podrían ajustarse para eliminar el
efecto de la formación de los padres usando el método descrito en el apéndice 9B.
Muchas veces un investigador quiere ajustar simultáneamente varios posibles factores de confu-
sión, como edad, sexo, raza y nivel educativo. Esto precisa la utilización de técnicas de ajuste mul-
tivariadas, como regresión lineal multivariada y regresión logística, o el análisis de los riesgos pro-
porcionales de Cox. Estas técnicas tienen otra ventaja: permiten el uso de toda la información en
variables continuas. Por ejemplo, es fácil ajustar el nivel educativo de los padres en intervalos de
1 año, en lugar de estratificarlo en tan solo algunas categorías. Además, se pueden utilizar términos
de interacción para modelar la modificación del efecto entre las variables.
Sin embargo, el ajuste multivariado tiene diversos inconvenientes. El más importante es que el
modelo puede encajar. Los paquetes estadísticos informáticos han hecho que estos modelos sean tan
accesibles que el investigador puede no pararse a considerar si su uso es adecuado para las variables
predictiva y de respuesta del estudio2. Tomando el ejemplo del apéndice 9B, el investigador debe
examinar si la relación entre los años de formación de los padres y el CI del niño es realmente lineal.
Si el patrón es muy diferente (p. ej., la inclinación de la línea se vuelve más pendiente al aumentar
la formación), los intentos de ajustar el CI a la formación de los padres usando un modelo lineal
serán imperfectos, y el cálculo del efecto independiente de la plumbemia será incorrecto.
En segundo lugar, los estadísticos resultantes muchas veces son difíciles de comprender. Esto constitui-
rá un problema si se utilizan transformaciones de las variables (p. ej., elevar al cuadrado la formación de
los padres) o si se incluyen términos de interacción. Los investigadores deben pasar todo el tiempo que sea
necesario con un estadístico (o hacer los cursos necesarios) para asegurarse de que puedan explicar el
significado de los coeficientes y de otros estadísticos muy derivados que tengan previsto describir. Como
precaución de seguridad, es una buena idea comenzar siempre con análisis estratificados sencillos e inten-
tar comprender lo que está ocurriendo si otros análisis más complicados ofrecen resultados muy diferentes.
Puntuaciones de predisposición
Las puntuaciones de predisposición pueden ser particularmente útiles para los estudios de obser-
vación de la eficacia del tratamiento para controlar la confusión por indicación: el problema de que
los pacientes para los que está indicado un tratamiento (y, por lo tanto, prescrito) tienen a menudo
mayor riesgo o son diferentes en otros aspectos de los que no reciben el tratamiento. Recuerde que
para ser una variable de confusión, una variable debe asociarse tanto con la variable predictiva como
con la variable de respuesta. En lugar de ajustar todos los demás factores que predicen una respues-
ta, el uso de las puntuaciones de predisposición conlleva la creación de un modelo multivariado para
predecir la recepción del tratamiento. A cada participante puede asignársele entonces una probabili-
dad prevista de tratamiento: una «puntuación de predisposición». Esta puntuación puede usarse
como única variable de confusión en el análisis estratificado o multivariado.
Por otro lado, pueden emparejarse los participantes que han recibido el tratamiento con los que
no lo han recibido por sus puntuaciones de predisposición, y compararse las respuestas entre parejas
emparejadas. Al contrario del uso del emparejamiento como estrategia en la fase de diseño (mues-
treo), el emparejamiento por predisposición es similar a otras estrategias de la fase de análisis, porque
es reversible. Sin embargo, los análisis de predisposición emparejados fracasan en pacientes a los
que no se puede emparejar porque sus puntuaciones de predisposición son próximas a 0 o a 1. Aunque
esto reduce el tamaño de la muestra, puede tener una ventaja, porque, en estos participantes a los
que no se puede emparejar, el análisis de la puntuación de predisposición ha identificado la ausencia
de comparabilidad entre grupos y la imposibilidad de controlar los factores de confusión, lo que
podría no haber sido evidente con otros métodos de análisis multivariado.
2
Uno de nuestros compañeros bioestadísticos ha afirmado, en tono de broma, que intentar diseñar un paquete de pro-
gramas estadísticos amigable e intuitivo es como intentar diseñar un coche de manera que un niño pueda llegar a los
pedales.
Los análisis que usan estas puntuaciones de predisposición tienen varias ventajas. El número de
posibles variables de confusión que pueden modelarse como predictivas de una intervención habi-
tualmente es mayor que el número de variables que se pueden introducir en el modelo como facto-
res predictivos de una respuesta, porque el número de personas tratadas es generalmente mucho
mayor que el número de los que presentan la respuesta (2 310 en comparación con 276 en el ejem-
plo 9-1). Otro motivo de que se puedan incluir más factores de confusión es que no hay riesgo de
«ajustar en exceso» el modelo de predisposición: se pueden incluir términos de interacción, términos
cuadráticos y variables indicadoras múltiples (15). Finalmente, los investigadores habitualmente
tienen más confianza en identificar los determinantes del tratamiento que los determinantes de la
respuesta, porque las decisiones terapéuticas las han tomado los médicos basándose en un número
escaso de características del paciente.
Al igual que otras técnicas multivariadas, el uso de puntuaciones de predisposición sigue necesi-
tando que se identifiquen y se midan las posibles variables de confusión. Una limitación de esta
técnica es que no proporciona información sobre la relación entre cualquiera de las variables de
confusión y la respuesta: el único resultado corresponde a la variable predictiva (habitualmente un
tratamiento) que se introdujo en el modelo. Sin embargo, como es una estrategia de la fase de aná-
lisis, no evita la realización también de análisis multivariados más tradicionales, y suelen realizarse
ambos tipos.
quismo, es más probable que haya estado producido por la prematuridad. Los investigadores crearon
una asociación inversa entre el tabaquismo y la prematuridad (y su riesgo de mortalidad asociado),
condicionando (restringiendo la atención) a un afecto compartido (bajo peso al nacimiento, que está
producido tanto por el tabaquismo como por la prematuridad).
Ahora tiene sentido la frase «condicionamiento a un efecto compartido». Condicionamiento es
un término epidemiológico que se refiere a la búsqueda de asociaciones entre las variables predicti-
vas y las variables de respuesta «condicionada» (es decir, a niveles especificados) a algún atributo.
Un efecto compartido se refiere a un atributo (como perder peso o ser un recién nacido con bajo
peso al nacimiento) que tiene varias causas. Puede producirse sesgo por condicionamiento a un
efecto compartido si el investigador trata algo producido por el factor de riesgo que se estudia como
criterio de inclusión, variable de emparejamiento o posible variable de confusión.
por las variables predictivas que se quieren estudiar (es decir, condicionamiento a un efecto
compartido).
Una importante decisión que hay que tomar en la fase de diseño del estudio es si se debe realizar
o no emparejamiento. Tiene su máxima utilidad en los estudios de casos y testigos y con factores
constitucionales fijos, como la edad, la raza y el sexo. El emparejamiento también puede ser útil
cuando el tamaño de la muestra es pequeño en comparación con el número de estratos necesarios
para controlar variables de confusión conocidas, y cuando es más fácil emparejar las variables de
confusión que medirlas. Sin embargo, como el emparejamiento puede comprometer permanente-
mente la capacidad del investigador de observar asociaciones reales, debe usarse poco, especialmen-
te con variables que puedan estar en la cadena causal. En muchas situaciones, las estrategias de la
fase de análisis (estratificación, ajuste y puntuaciones de predisposición) son igual de válidas para
controlar la confusión, y tienen la mayor ventaja de ser reversibles: permiten que el investigador
añada o quite covariables al modelo estadístico para explorar diferentes modelos causales.
Aunque no está disponible para todas las preguntas de la investigación, siempre merece la pena
considerar la posibilidad de un diseño de estudio oportunista. Si no se para a considerar estos estu-
dios (y a preguntar a sus compañeros), podría pasar por alto una gran oportunidad de hacer uno.
La decisión final para estratificar, ajustar o usar puntuaciones de predisposición se debe tomar
cuando se hayan reunido los datos; en muchos casos, el investigador puede desear realizar todo lo
anterior. Sin embargo, es importante, durante el diseño del estudio, que se considere qué factores pue-
den usarse más adelante para el ajuste, con el fin de saber qué variables medir. Además, como diferen-
tes estrategias para controlar la confusión en la fase de análisis no siempre ofrecen los mismos resultados,
es mejor especificar por adelantado un plan de análisis principal. Esto podría ayudar a los investigadores
a resistir la tentación de seleccionar la estrategia que ofrezca los resultados más deseados.
ejemplo, en el estudio del consumo de marihuana como factor de riesgo de tumores de células ger-
minales, el consumo de marihuana menos de una vez al día se asoció a menor riesgo que la ausencia
de consumo (6). Es difícil explicar este resultado desde la perspectiva biológica.
Es importante, sin embargo, no exagerar la verosimilitud biológica. Los investigadores parecen
ser capaces de encontrar un mecanismo verosímil para prácticamente todas las asociaciones, y algu-
nas asociaciones que originalmente se descartaron como no creíbles desde la perspectiva biológica,
como la causa bacteriana de la enfermedad ulcerosa péptica, han resultado ser reales.
■■ RESUMEN
1. En el diseño de los estudios de observación se debe prever la necesidad de interpretar asocia-
ciones. La inferencia de que la asociación representa una relación de causa y efecto (a menudo
el objetivo del estudio) se refuerza mediante estrategias para reducir la probabilidad de las cua-
tro explicaciones alternativas: azar, sesgo, efecto y causa, y confusión.
2. El papel del azar (error aleatorio) puede reducirse al mínimo diseñando un estudio con un ta-
maño de la muestra y una precisión adecuados para asegurar unas tasas bajas de errores de
tipo I y II. Una vez completado el estudio, se puede juzgar el efecto del error aleatorio por la
amplitud del intervalo de confianza del 95 % y la congruencia de los resultados con los datos
previos.
3. El sesgo (error sistemático) surge de las diferencias entre la población y los fenómenos que
aborda la pregunta de la investigación, por un lado, y los participantes y medidas reales del es-
tudio, por otro. Puede minimizarse basando las decisiones del diseño en el juicio de si estas
diferencias llevarán a una respuesta equivocada a la pregunta de investigación.
4. La relación de efecto y causa es menos probable si se diseña un estudio que permita la valoración
de la secuencia temporal, y considerando la verosimilitud biológica.
5. La confusión, que puede estar presente cuando una tercera variable está asociada con la variable
predictiva de interés y es una causa de la variable de respuesta, es menos probable cuando se
utilizan las siguientes estrategias, la mayoría de las cuales necesitan que se prevean y midan las
posibles variables de confusión:
a. Especificación o emparejamiento en la fase de diseño, que alteran la estrategia de muestreo
para asegurar que solo se comparan grupos con niveles similares de la variable de confusión.
Estas estrategias deben usarse con prudencia porque pueden limitar irreversiblemente la
información disponible del estudio.
b. Estrategias en la fase de análisis que consiguen el mismo objetivo y mantienen las opciones
para investigar las vías causales:
• Estratificación, que además de controlar el factor de confusión puede mostrar modifica-
ción del efecto («interacción»), una magnitud diferente de la asociación entre la variable
predictiva y la variable de respuesta a diferentes niveles de una tercera variable.
• Ajuste, que puede permitir controlar simultáneamente el efecto de muchas variables pre-
dictivas.
• Puntuaciones de predisposición, que incrementan la potencia para abordar la confusión
por indicación en estudios de observación de la eficacia del tratamiento.
6. Los investigadores deben estar a la expectativa de diseños de observación oportunistas, como
experimentos naturales, aleatorización mendeliana y otros diseños con variables instrumen-
tales, que ofrecen una solidez de las inferencias causales que puede acercarse a la de un ensayo
clínico aleatorizado.
7. Los investigadores deben evitar el condicionamiento a efectos compartidos en la fase de diseño,
no seleccionando a los participantes de acuerdo con covariables que podrían estar producidas
por la variable predictiva, y en la fase de análisis no controlando esas covariables.
8. Puede mejorarse la inferencia causal mediante pruebas positivas, sobre todo la congruencia y la
solidez de la asociación, la presencia de una relación de dosis-respuesta y la verosimilitud
biológica.
Panel 1. Si se analiza el grupo completo de participantes en el estudio, parece haber una asociación
entre el consumo de café y el IM:
Panel 2. Sin embargo, esto podría deberse a confusión, como se muestra en las tablas estratificadas
por tabaquismo, en las que se ve que beber café no se asocia a IM ni en fumadores ni en
no fumadores:
Fumadores No fumadores
IM SIN IM IM SIN IM
Café 80 40 Café 10 20
Sin café 20 10 Sin café 40 80
80 10 10 80
RP en fumadores = =1 RP en no fumadores = =1
20 40 40 20
Fumar es una variable de confusión, porque está intensamente asociada a beber café
(abajo, panel izquierdo) y al IM (abajo, panel derecho): estas tablas se obtuvieron reorga-
nizando los números del panel 2.
133
Panel 3. La asociación entre el consumo de café y el IM del panel 1 también podría representar una
modificación del efecto, si la estratificación por el tabaquismo revelara que la asociación
entre el consumo de café y el IM difiere en fumadores y no fumadores. En la tabla siguien-
te, la RP de 2,25 para la asociación entre el consumo de café y el IM en fumadores y no
fumadores combinados se debe por completo a una intensa asociación en fumadores.
Cuando hay modificación del efecto, las razones de posibilidades en diferentes estratos son
diferentes, y se deben describir por separado:
Fumadores No fumadores
IM SIN IM IM SIN IM
Café 50 15 Café 40 45
Sin café 10 33 Sin café 50 57
50 33 40 57
RP en fumadores = = 11 RP en no fumadores = =4
15 10 45 50
Comentario final: la asociación general entre el consumo de café y el IM del panel 1 podría estar
ocultando la presencia de confusión por el tabaquismo, que se revelaría estratificando por el taba-
quismo (panel 2). También podría estar ocultando la presencia de modificación del efecto por el
tabaquismo, lo que también se observaría por la estratificación por el tabaquismo (panel 3). Asimis-
mo, podría representar una relación de causa y efecto, que estaría respaldada (aunque no demostra-
da) si la estratificación por el tabaquismo no alterara la asociación entre el consumo de café y el IM.
Finalmente (y con mayores visos de realismo), podría ser la consecuencia de alguna mezcla de todo
lo anterior.
Observe que el nivel de formación de los padres también se asocia con la plumbemia del niño. La
pregunta es: «¿Es la diferencia de CI entre niños con plumbemia normal y elevada mayor de la que po-
dría explicarse basándose en la diferencia de formación de los padres?» Para responder a esta pre-
gunta, miramos qué diferencia de CI podría esperarse que se produjera por la diferencia de niveles
de formación de los padres. Podemos hacerlo representando el nivel de formación de los padres
frente al CI en niños con plumbemia normal (fig. 9-2)3.
La línea de puntos diagonal de la figura 9-2 muestra la relación entre el CI del niño y la formación
de los padres en niños con plumbemia normal; existe un aumento del CI de 5 puntos por cada 2 años de
formación de los padres. Por lo tanto, podemos ajustar el CI del grupo con plumbemia normal para
explicar la diferencia en la formación media de los padres deslizando hacia abajo la línea desde el
punto A hasta el punto A’. (Debido a que el grupo con plumbemia normal tiene 2 años más de for-
mación de los padres en promedio, ajustamos sus CI hacia abajo en 5 puntos para que sean compa-
rables con el grupo con plumbemia elevada en cuanto a la duración media de la formación de los
&,PHGLR
SOXPEHPLDQRUPDO
&,PHGLRSOXPEHPLDQRUPDO
FRUUHJLGRSRUODIRUPDFLyQ $ 'LIHUHQFLDGH&,GHELGD
GHORVSDGUHV
&,GHOQLxR
DODIRUPDFLyQGHORVSDGUHV
$′
'LIHUHQFLDGH&,
GHELGD
DODSOXPEHPLD
&,PHGLR %
SOXPEHPLD
HOHYDGD
$xRVGHIRUPDFLyQGHORVSDGUHV
■■FIGURA 9-2. Gráfica hipotética del CI del niño como una función lineal (línea discontinua) de los años de formación
de los padres.
3
Esta descripción del análisis de la covarianza (ANCOVA) está simplificada. En realidad, los años de formación de los
padres se representan en relación con el CI del niño en los grupos de plumbemia normal y elevada, y se utiliza la pen-
diente única que mejor ajusta los dos gráficos. Por lo tanto, el modelo para esta forma de ajuste asume que hay relacio-
nes lineales entre la formación y el CI en ambos grupos, y que las pendientes de las líneas en los dos grupos son las
mismas.
135
padres.) Esto deja todavía una diferencia de 10 puntos en el CI entre los puntos A y B, lo que sugie-
re que el plomo tiene un efecto independiente de esta magnitud sobre el CI. Por lo tanto, de la dife-
rencia de 15 puntos en el CI de niños con plumbemia baja y elevada, 5 pueden explicarse por los
diferentes niveles de formación de sus padres, y los 10 restantes son atribuibles a la exposición al
plomo.
BIBLIOGRAFÍA
1. McEvoy SP, Stevenson MR, McCartt AT, et al. Role of mobile phones in motor vehicle crashes resulting in hospital
attendance: a case-crossover study. BMJ 2005;331(7514):428.
2. Magruder JT, Elahi D, Andersen DK. Diabetes and pancreatic cancer: chicken or egg? Pancreas 2011;40(3):339–351.
3. Huxley R, Ansary-Moghaddam A, Berrington de Gonzalez A, et al. Type-II diabetes and pancreatic cancer: a meta-
analysis of 36 studies. Br J Cancer 2005;92(11):2076–2083.
4. Bosetti C, Rosato V, Polesel J, et al. Diabetes mellitus and cancer risk in a network of case-control studies. Nutr
Cancer 2012;64(5):643–651.
5. Maconochie N, Doyle P, Carson C. Infertility among male UK veterans of the 1990-1 Gulf war: reproductive cohort
study. BMJ 2004;329(7459):196–201.
6. Trabert B, Sigurdson AJ, Sweeney AM, et al. Marijuana use and testicular germ cell tumors. Cancer 2011;117(4):
848–853.
7. Newman TB, Kohn M. Evidence-based diagnosis. New York: Cambridge University Press, 2009. Chapter 10.
8. Lofgren RP, Gottlieb D, Williams RA, et al. Post-call transfer of resident responsibility: its effect on patient care [see
comments]. J Gen Intern Med 1990;5(6):501–505.
9. Bell CM, Redelmeier DA. Mortality among patients admitted to hospitals on weekends as compared with week-
days. N Engl J Med 2001;345(9):663–668.
10. Davey Smith G, Ebrahim S. ‘Mendelian randomization’: can genetic epidemiology contribute to understanding
environmental determinants of disease? Int J Epidemiol 2003;32(1):1–22.
11. Cherry N, Mackness M, Durrington P, et al. Paraoxonase (PON1) polymorphisms in farmers attributing ill health
to sheep dip. Lancet 2002;359(9308):763–764.
12. Hearst N, Newman TB, Hulley SB. Delayed effects of the military draft on mortality. A randomized natural experi-
ment. N Engl J Med 1986;314(10):620–624.
13. Tan HJ, Norton EC, Ye Z, et al. Long-term survival following partial vs radical nephrectomy among older patients
with early-stage kidney cancer. JAMA 2012;307(15):1629–1635.
14. Gum PA, Thamilarasan M, Watanabe J, et al. Aspirin use and all-cause mortality among patients being evaluated
for known or suspected coronary artery disease: A propensity analysis. JAMA 2001;286(10):1187–1194.
15. Klungel OH, Martens EP, Psaty BM, et al. Methods to assess intended effects of drug treatment in observational
studies are reviewed. J Clin Epidemiol 2004;57(12):1223–1231.
16. Hernandez-Diaz S, Schisterman EF, Hernan MA. The birth weight “paradox” uncovered? Am J Epidemiol 2006;
164(11):1115–1120.
17. Bacchetti P. Current sample size conventions: flaws, harms, and alternatives. BMC Med 2010;8:17.
18. Katz MH. Multivariable analysis: a practical guide for clinicians, 2nd ed. Cambridge, UK; New York: C ambridge
University Press, 2006.
E n los ensayos clínicos, el investigador aplica una intervención y observa el efecto sobre una o más
variables de respuesta. La principal ventaja de un ensayo sobre un estudio de observación es la capa-
cidad de demostrar la causalidad. La asignación aleatoria de la intervención minimiza la influencia
de las variables de confusión, y el enmascaramiento de su administración minimiza la posibilidad de
que los efectos aparentes de la intervención se deban al uso diferencial de otros tratamientos en los
grupos de intervención y testigo, o a la determinación y la adjudicación sesgadas del resultado.
Sin embargo, los ensayos clínicos suelen ser caros y prolongados, abordan preguntas limitadas
y a veces exponen a los participantes a posibles peligros. Por estos motivos se reservan para pregun-
tas de investigación relativamente maduras, en las que los estudios de observación y otros tipos de
datos sugieren que una intervención podría ser eficaz y segura, pero se precisan pruebas más claras
antes de que se pueda aprobar o recomendar. No todas las preguntas de investigación pueden tratar-
se mediante un diseño de ensayo clínico: no puede estudiarse si el tratamiento farmacológico del
aumento del colesterol-LDL en niños evitará los infartos de miocardio muchas décadas después, y
no es ético aleatorizar a las personas a fumar cigarrillos reales o simulados para determinar el efecto
sobre el cáncer de pulmón. Sin embargo, siempre que sea posible, se deben obtener datos de estudios
clínicos sobre la eficacia y la seguridad de las intervenciones clínicas.
Este capítulo se centra en el diseño del clásico ensayo aleatorizado con enmascaramiento: seleccio-
nando las condiciones de los grupos de intervención y testigo, definiendo las variables de respuesta y los
efectos adversos, seleccionando los participantes, determinando las variables predictivas y las variables
de respuesta, y evaluando los abordajes de la aleatorización y el enmascaramiento. En el capítulo siguien-
te se expondrán otros diseños de ensayos clínicos y problemas relacionados con su ejecución y análisis.
Elección de la intervención
La elección de la intervención es el primer paso esencial en el diseño de un ensayo clínico. Los in-
vestigadores deben considerar varios puntos a la hora de diseñar las intervenciones, como la dosis,
la duración y la frecuencia de la intervención que mejor equilibre eficacia y seguridad. También es
importante tener en cuenta la viabilidad del enmascaramiento, si se va a tratar con una intervención
o con una combinación de intervenciones, la aceptabilidad para los participantes y la posibilidad de
generalizar la forma en la que el tratamiento se usará en la práctica. Si hay incertidumbre sobre de-
cisiones importantes, como cuál es la dosis que equilibra mejor eficacia y seguridad, es mejor, gene-
ralmente, posponer los ensayos importantes o costosos hasta que se hayan realizado estudios preli-
minares que ayuden a resolver el tema.
El mejor equilibrio entre eficacia y seguridad depende de la intervención y la afección que se esté
estudiando. Por un lado, la eficacia suele ser la consideración principal en el diseño de intervencio-
137
3REODFLyQ
$SOLFDUODLQWHUYHQFLyQFRQHQPDVFDUDPLHQWR
0HGLUHOFXPSOLPLHQWR
0HGLUODVYDULDEOHV
GHUHVSXHVWD
0XHVWUD
3pUGLGDGXUDQWH
HOVHJXLPLHQWR
0HGLUODVYDULDEOHV
SUHGLFWLYDV
$OPDFHQDUPXHVWUDV
RSFLRQDO
$SOLFDUHOWHVWLJRFRQHQPDVFDUDPLHQWR
0HGLUHOFXPSOLPLHQWR
0HGLUODVYDULDEOHV
GHUHVSXHVWD
3pUGLGDGXUDQWH
HOVHJXLPLHQWR
■■FIGURA 10-1. En un estudio aleatorizado con enmascaramiento, los pasos son:
• Seleccionar una muestra de pacientes de una población adecuada para recibir la intervención.
• Medir las variables predictivas y, cuando proceda, los niveles iniciales de la variable de respuesta.
• Considerar la opción de almacenar suero, imágenes y otro tipo de datos para su análisis posterior.
• Asignar aleatoriamente y con enmascaramiento la intervención y la situación de testigo (p. ej., placebo).
• Seguir a la cohorte a lo largo del tiempo, minimizando las pérdidas durante el seguimiento y evaluando el cumpli-
miento de la intervención y del seguimiento.
• Medir las variables de respuesta.
nes para tratar enfermedades que causan síntomas graves o el fallecimiento. Por lo tanto, puede que
sea mejor escoger la mayor dosis tolerable para el tratamiento del cáncer metastásico. Por otro lado,
la seguridad debe ser el principal criterio para diseñar intervenciones para tratar enfermedades sin-
tomáticas que raras veces llevan a la progresión de la enfermedad o la muerte. El tratamiento pre-
ventivo en personas sanas debe cumplir estrictas pruebas de seguridad: si es eficaz, el tratamiento
evitará la afección en algunas personas, pero todo aquel al que se haya tratado correrá el riesgo de
sufrir los efectos secundarios del tratamiento. En este caso, suele ser mejor elegir la dosis que au-
mente al máximo la eficacia con un riesgo muy bajo de efectos adversos. Si la mejor dosis no es se-
gura según los hallazgos previos de investigación en animales y en seres humanos, puede que sea
preciso realizar ensayos adicionales que comparen los efectos de múltiples dosis sobre marcadores
intermedios o variables de respuesta clínicas (v. ensayos de fase III, cap. 11).
A veces, un investigador puede decidir comparar varias dosis o niveles de intensidad con un solo
grupo testigo. Por ejemplo, cuando se diseñó el Multiple Outcomes of Raloxifene Evaluation Trial
(estudio de evaluación de múltiples respuestas del raloxifeno), no estaba claro cuál era la mejor
dosis de raloxifeno (60 o 120 mg), de modo que se probaron dos dosis para evitar las fracturas ver-
tebrales (1). Esta es, a veces, una estrategia razonable, pero tiene su coste: un ensayo mayor y más
caro, y la complejidad de tratar con múltiples hipótesis (cap. 5).
Con algunos tratamientos se ajusta la dosis para optimizar el efecto en cada paciente individual.
En estos casos puede ser mejor diseñar una intervención, de forma que la dosis del fármaco activo
se ajuste para lograr una respuesta clínica, como la reducción de la viremia en la hepatitis C. Para
conservar el enmascaramiento deben realizarse los cambios correspondientes (por alguien que no
intervenga en el ensayo) en la «dosis» del placebo para un participante seleccionado al azar o
emparejado en el grupo tratado con placebo.
Los ensayos para estudiar intervenciones únicas suelen ser mucho más fáciles de planificar y
realizar que los que estudian combinaciones de tratamientos. Sin embargo, muchas afecciones mé-
dicas, como la infección por el VIH y la insuficiencia cardíaca congestiva, se tratan con combinacio-
nes de fármacos o tratamientos. El principal inconveniente del estudio de combinaciones de trata-
mientos es que el resultado no puede proporcionar conclusiones claras sobre cada uno de los
elementos de las intervenciones. En el primer ensayo Women’s Health Initiative, por ejemplo, se trató
a mujeres posmenopáusicas con estrógenos y progestágenos o con placebo. La intervención aumen-
taba el riesgo de sufrir varias afecciones, como cáncer de mama; sin embargo, no estaba claro si el
efecto se debía al estrógeno o al progestágeno (2). En general, es preferible diseñar ensayos clínicos
que solo tengan una diferencia importante entre los dos grupos de estudio.
El investigador debe tener en cuenta en qué medida los participantes serán receptivos a la inter-
vención propuesta y si se puede realizar con enmascaramiento. Otra consideración es la facilidad
con la que se puede incorporar la intervención a la práctica habitual. Las intervenciones sencillas
suelen ser generalmente mejores que las complicadas (es más probable que los pacientes se tomen
una pastilla una vez al día que se administren inyecciones subcutáneas dos o tres veces al día). Pue-
de no ser posible aplicar intervenciones complicadas con aspectos cualitativos, como el asesoramien-
to múltiple acerca del cambio de conducta, a la práctica general, porque son difíciles de replicar,
laboriosas y costosas. Estas intervenciones tienen menos probabilidades de tener consecuencias
sobre la salud pública, incluso aunque un ensayo demuestre que son eficaces.
habitualmente, diversas variables de respuesta para aumentar la riqueza de los resultados y la posi-
bilidad de realizar análisis secundarios. Sin embargo, se debe designar una de ellas que sea la varia-
ble de respuesta principal, que refleje la pregunta principal, permita el cálculo del tamaño de la
muestra y establezca la prioridad de los esfuerzos para realizar el estudio.
Las variables de respuesta clínicas constituyen la mejor prueba sobre si se deben utilizar o no
los tratamientos y las intervenciones preventivas, y cómo hacerlo. Para las respuestas que no son
habituales, como la aparición de cáncer, los ensayos deben ser generalmente extensos, prolongados
y caros. Como se indicó en el capítulo 6, las variables de respuesta medidas como variables continuas,
como la calidad de vida, suelen poder estudiarse con menos participantes que las variables de res-
puesta dicotómicas. Sin embargo, en ocasiones, la variable de respuesta clínica más importante es,
inevitablemente, dicotómica, como la recurrencia del cáncer.
Los marcadores intermedios, como la densidad ósea, son determinaciones que están relacionadas
con la variable de respuesta clínica. Los ensayos que utilizan variables de respuesta intermedias
pueden mejorar el conocimiento de la fisiopatología y proporcionar información para elegir la mejor
dosis o frecuencia de tratamiento en los estudios con variables de respuesta clínicas. La importancia
clínica de los ensayos con variables de respuesta intermedias depende de la exactitud con que los
cambios de estos marcadores, en especial los cambios que se producen debido al tratamiento, repre-
sentan cambios del riesgo de la variable de respuesta clínica. Puede considerarse que los marcadores
intermedios son marcadores indirectos de la respuesta clínica en la medida en que los cambios in-
ducidos por el tratamiento sobre el marcador permiten predecir de forma constante el modo en que
el tratamiento cambia la variable de respuesta clínica (3). En general, un buen marcador indirecto
mide los cambios en un factor intermedio de la vía principal que determina la respuesta clínica.
La viremia del VIH es un buen marcador indirecto, porque los tratamientos que reducen la viremia
reducen también la morbilidad y la mortalidad de los pacientes con infección por el VIH. Por el contra-
rio, se considera que la densidad mineral ósea (DMO) es mal marcador indirecto (3). Refleja la cantidad
de mineral en una sección de un hueso, pero los tratamientos que mejoran la DMO a veces tienen un
efecto escaso o nulo sobre el riesgo de fracturas, y la magnitud del cambio de la DMO no se relaciona
de manera constante con la magnitud en que el tratamiento reduce el riesgo de sufrir fracturas (4). La
mejor prueba de que un marcador biológico es un buen marcador indirecto procede de ensayos clínicos
aleatorizados de la respuesta clínica (fracturas), que también miden el cambio del marcador (DMO) en
todos los participantes. Si el marcador es un buen marcador indirecto, el ajuste estadístico de los cambios
del marcador explicará gran parte del efecto del tratamiento sobre la variable de respuesta (3).
de valoración compuestos que incluyen episodios que no tienen tanto significado clínico o que se
producen con mucha más frecuencia que los otros del criterio de valoración compuesto pueden
llevar a hallazgos erróneos. Por ejemplo, si se añade el ingreso hospitalario para evaluación de dolor
torácico al criterio de valoración coronario compuesto, este episodio dominará el criterio de valora-
ción compuesto si estos ingresos hospitalarios se producen con mucha más frecuencia que el infarto
de miocardio, la muerte coronaria y la revascularización. En este caso, se puede describir que una
intervención que altera el criterio de valoración compuesto reduce el riesgo de «episodios corona-
rios», cuando en realidad solo reduce el riesgo de ingreso hospitalario por dolor torácico.
Los criterios de valoración compuestos se deben diseñar con cuidado. Si el tratamiento produce
tan solo un efecto pequeño sobre un criterio de valoración, especialmente si ese criterio de valoración
es relativamente frecuente, puede añadir poca potencia estadística o incluso puede aumentar el ta-
maño de la muestra necesario para detectar un efecto. Por ejemplo, si se añade el accidente cerebro-
vascular a un «criterio de valoración cardiovascular» compuesto, la intervención podría reducir el
riesgo de episodios coronarios, pero podría no tener ninguna influencia o incluso podría aumentar
el riesgo de accidente cerebrovascular, por lo que se encontraría que no tiene ningún efecto sobre el
criterio de valoración cardiovascular compuesto.
Efectos adversos
El investigador debe incluir medidas de respuesta que detecten la aparición de efectos adversos que
pueden deberse a la intervención. Dar a conocer si los efectos beneficiosos de una intervención valen
más que los adversos es un objetivo principal de la mayor parte de los ensayos clínicos, incluso los
que prueban tratamientos aparentemente inocuos, como un programa de educación sanitaria. Los
efectos adversos pueden oscilar desde síntomas relativamente leves, como un exantema transitorio
o leve, hasta complicaciones graves y mortales. La incidencia de aparición, el efecto del tratamiento
y los requisitos de tamaño de la muestra para detectar efectos adversos generalmente son diferentes
de los necesarios para detectar efectos beneficiosos. Desgraciadamente, los efectos secundarios no
habituales serán, generalmente, imposibles de detectar incluso en estudios extensos, y solo se des-
cubren (si lo hacen) con estudios de observación extensos o con series de casos después de que una
intervención tenga un amplio uso clínico.
En las primeras etapas del estudio de un nuevo tratamiento, cuando los posibles efectos adversos
no están claros, los investigadores deben realizar preguntas amplias, abiertas, sobre todos los tipos
de posibles efectos adversos. En ensayos de gran tamaño, la evaluación y la codificación de todos los
posibles efectos adversos pueden resultar muy caras y laboriosas, y a menudo producen pocos resul-
tados importantes. Los investigadores deben considerar estrategias para reducir al mínimo esta car-
ga mientras conservan una evaluación adecuada de los posibles daños debidos a la intervención. Por
ejemplo, en ensayos de gran tamaño, los acontecimientos leves y habituales, como infecciones de las
vías respiratorias superiores y molestias gastrointestinales, podrían registrarse en un subgrupo de los
participantes. Puede no ser necesario registrar los efectos adversos que no sean graves si en estudios
previos no se han encontrado diferencias en la incidencia de síntomas leves. Además de estas pre-
guntas abiertas, se deben diseñar cuestionarios específicos para descubrir acontecimientos adversos
importantes que se esperan por la investigación o la experiencia clínica previa. Por ejemplo, debido
a que la miositis es un efecto secundario comunicado del tratamiento con estatinas, deben investi-
garse los síntomas y signos de miositis en cualquier ensayo de una nueva estatina.
Los efectos adversos que se describen como síntomas o términos clínicos se deben codificar y ca-
tegorizar para su análisis. Los diccionarios MedDRA (www.ich.org/products/meddra.html) y SNOMED
(https:// www.nlm.nih.gov/research/umls/) son diccionarios de términos utilizados habitualmente que
están agrupados de diferentes maneras, como síntomas, diagnósticos específicos y sistema orgánico
al que afectan. Por ejemplo, un acontecimiento adverso registrado como «fiebre y tos» y un aconte-
cimiento adverso registrado como «bronquitis» se agruparán con otras enfermedades, como la neu-
monía, como una «infección respiratoria» y, en un nivel superior, como efectos adversos en el aparato
respiratorio. Estos esquemas de clasificación ofrecen un buen resumen general de los acontecimientos
adversos y tienen una exactitud razonable para enfermedades que se diagnostican específicamente,
como las fracturas. Sin embargo, pueden pasar por alto acontecimientos adversos importantes que se
describen con varios términos si dichos términos no se agrupan en conjunto. Por ejemplo, en un es-
tudio de denosumab para la prevención de las fracturas osteoporóticas, con el diccionario MedDRA
se codificaron los casos de celulitis por separado de los casos de erisipela (dos nombres para el mismo
tipo de infección). Cuando se combinaron, se habían producido 12 casos graves de celulitis con de-
nosumab, en comparación con 1 con el placebo (p , 0,001) (6).
Los acontecimientos adversos también se clasifican generalmente por su gravedad. Se definen los
acontecimientos adversos graves (AAG) como los episodios que producen la muerte o son poten-
cialmente mortales, o los episodios que precisan o prolongan un ingreso hospitalario, o que produ-
cen discapacidad o daños permanentes, malformaciones congénitas u otros episodios médicos im-
portantes que pueden precisar una intervención médica o quirúrgica para prevenir una de las demás
consecuencias (www.fda.gov/Safety/MedWatch/HowToReport/ucm053 087.htm). Los acontecimien-
tos adversos graves generalmente se deben notificar rápidamente a los comités de revisión institu-
cionales y al promotor del estudio.
Cuando los datos de un ensayo se usan para solicitar la autorización de un nuevo fármaco por las
autoridades de registro sanitario, el diseño del ensayo debe satisfacer las normas de las agencias de
registro sanitario para la notificación de acontecimientos adversos (http://www.fda.gov/Drugs/Infor-
mationOnDrugs/ucm135 151.htm). Determinadas áreas de enfermedades, como el cáncer, han esta-
blecido métodos para clasificar los acontecimientos adversos (http://ctep.cancer.gov/protocolDeve-
lopment/electronic_applications/ctc.htm).
de factores de riesgo (7). Otro modo de aumentar la incidencia de los acontecimientos es limitar la
inclusión a personas que ya sufren la enfermedad. En el estudio The Heart and Estrogen/Progestin
Replacement Study se incluyó a 2 763 mujeres que ya sufrían enfermedad coronaria para comprobar si
la combinación de estrógenos y progestágenos reducía el riesgo de sufrir nuevos episodios de CI (5).
Este método era mucho más barato que el del estudio Women’s Health Initiative, con la misma pregun-
ta de investigación en mujeres sin CI, en el que se precisaron unas 17 000 participantes (8).
Aunque las muestras probabilísticas de la población general tienen ventajas en los estudios de
observación, este tipo de muestreo no suele ser posible ni necesario en los ensayos aleatorizados. La
inclusión de participantes con diversas características aumentará la confianza de que los resultados de
un ensayo se podrán aplicar ampliamente. Sin embargo, salvo que haya entre las poblaciones diferencias
biológicas y genéticas que influyan en el efecto de un tratamiento, suele ser cierto que los resultados
de un ensayo clínico realizado en una muestra de conveniencia (p. ej., mujeres con CI que responden
a un anuncio) serán similares a los resultados obtenidos en muestras de probabilidad de personas
elegibles (todas las mujeres con coronariopatía). En ocasiones, la eficacia de un tratamiento depende
de las características de los pacientes. Esto se denomina modificación del efecto o interacción (cap. 11).
Por ejemplo, algunos tratamientos de la osteoporosis reducen significativamente el riesgo de fractura
en mujeres con una densidad ósea muy baja (puntuaciones T menores de –2,5), con un efecto escaso
o nulo en mujeres con mayor densidad ósea (p = 0,02 para la interacción) (9, 10). En este caso, la in-
clusión únicamente de mujeres con una densidad ósea muy baja en un estudio puede aumentar la
magnitud del efecto y reducir el tamaño de la muestra para un ensayo de tratamientos similares.
La estratificación de los participantes por una característica, como un grupo racial, permite a los
investigadores incluir un número deseado de participantes con una característica que puede influir
en el efecto del tratamiento o en su posibilidad de generalización. La reunión en un estrato se puede
cerrar cuando se ha alcanzado el objetivo de participantes con esta característica. Sin embargo, como
la mayoría de los estudios no están diseñados con un tamaño de la muestra suficiente para estudiar la
heterogeneidad de los efectos de la intervención en dichos subgrupos, esta estrategia puede tener
poca utilidad práctica.
Los criterios de exclusión deben ser parcos, porque las exclusiones innecesarias pueden dificultar
la reunión del número necesario de participantes, reducen la posibilidad de generalizar los resultados,
y aumentan la complejidad y el coste de esa reunión. Hay cinco razones principales para excluir
personas de un ensayo clínico (tabla 10-1).
Se debe excluir a los posibles participantes si el tratamiento o la intervención del grupo testigo
no son seguros. El tratamiento activo puede no ser seguro en personas que son susceptibles a los
efectos adversos conocidos del tratamiento activo. Por ejemplo, el infarto de miocardio es un infre-
cuente efecto adverso del tratamiento con sildenafilo, por lo que los ensayos de este fármaco para
tratar el vasoespasmo doloroso en pacientes con enfermedad de Raynaud deberán excluir a los pa-
cientes con CI (11). Por el contrario, ser asignado al grupo de tratamiento inactivo o al grupo del
placebo puede ser inseguro para algunos participantes. Por ejemplo, en mujeres con fracturas verte-
brales, se sabe que los bisfosfonatos reducen el riesgo de fracturas posteriores, lo que hace que sea
inaceptable que participen en un ensayo controlado con placebo de un nuevo tratamiento para la
osteoporosis, salvo que también se administren bisfosfonatos a todas las participantes del ensayo.
Debe excluirse a las personas en las que no es probable que el tratamiento activo sea eficaz, así como
a aquellas que no es probable que acepten la intervención o realicen un seguimiento completo. En
ocasiones, problemas prácticos, como una alteración del estado mental que dificulta el seguimiento
de las instrucciones, justifican la exclusión. Los investigadores deben sopesar cuidadosamente los
posibles criterios de exclusión que se aplican a muchas personas (p. ej., diabetes o límites superiores
de edad), ya que pueden tener un gran efecto sobre la viabilidad y los costes de la reunión de parti-
cipantes, y la posibilidad de generalizar los resultados.
ficación de un ensayo (cap. 6), y se debe tener en consideración el hecho de que las tasas de respues-
ta en los ensayos clínicos suelen ser inferiores a las estimadas debido al sesgo del voluntario sano.
Además, reunir participantes para un ensayo muchas veces es más difícil que hacerlo para un estudio
de observación, porque los pacientes tienen que estar dispuestos a ser asignados aleatoriamente,
muchas veces a un placebo o un fármaco «experimental». Por estos motivos, el investigador debe
planificar una muestra abundante a partir de una gran población accesible, y el tiempo y el dinero
suficientes para reunir el tamaño de la muestra deseado cuando (como suele ocurrir) los obstáculos
para hacerlo se vuelven mayores de lo esperado.
evaluar la posibilidad de generalizar los resultados. El objetivo será asegurarse de que las diferencias
de estas características iniciales no superan lo que podría esperarse por la acción del azar, lo que in-
dicaría un error técnico o sesgo en la realización de la aleatorización. En estudios pequeños que son
propensos a una llamativa desigualdad de la distribución de las características iniciales en los grupos
aleatorizados únicamente por efecto del azar, la medición de factores predictivos importantes de la
variable de respuesta permite el ajuste estadístico de la comparación aleatorizada para reducir la in-
fluencia de estas distribuciones desiguales, pero aleatorias. La medición de las variables predictivas
de la variable de respuesta también permite que el investigador analice si la intervención tiene dife-
rentes efectos en subgrupos clasificados por las variables iniciales (modificación del efecto; cap. 11).
Moderación
Tras haber señalado los múltiples usos de las determinaciones basales, debemos subrayar que el diseño
de un ensayo clínico no necesita que se mida todo, porque la aleatorización minimiza el problema de
la confusión por factores que ya existen al principio. Hacer muchas mediciones añade gastos y com-
plejidad. En un estudio aleatorizado que tiene un presupuesto limitado, suele ser mejor gastar el tiem-
po y el dinero en cosas esenciales para la integridad del estudio, como la idoneidad del tamaño de la
muestra, el éxito de la aleatorización y el enmascaramiento, la completitud del cumplimiento y el se-
guimiento. Yusuf y cols. han propuesto el uso de grandes ensayos con muy pocas mediciones (13).
Bancos de muestras
Guardar imágenes, suero, ADN, etc., al principio permitirá realizar mediciones posteriores de los
cambios producidos por el tratamiento, marcadores biológicos que predicen la respuesta y factores
como el genotipo que podrían identificar a personas que responden bien o mal al tratamiento. Las
muestras almacenadas pueden ser también una importante fuente para estudiar otras preguntas de
investigación no relacionadas directamente con la respuesta principal.
■■ ALEATORIZACIÓN Y ENMASCARAMIENTO
El cuarto paso de la figura 10-1 es asignar de forma aleatoria los participantes a dos grupos. En el
diseño más sencillo, un grupo recibe una intervención con un tratamiento activo y el otro recibe un
placebo. La asignación aleatoria dispone que la edad, el sexo y otras características pronósticas del
principio que podrían confundir una asociación observada (incluso las que se desconocen o no se
han medido) se distribuirán homogéneamente, salvo por la variación aleatoria, entre los grupos
aleatorizados en situación inicial. El enmascaramiento es importante para mantener la posibilidad
de comparar los grupos del estudio durante el ensayo y para garantizar una evaluación no sesgada de
los resultados.
Aleatorización
Debido a que la aleatorización es la pieza clave de un ensayo clínico, es importante que se realice
correctamente. Las dos características más importantes son: que el procedimiento realmente distri-
buya los tratamientos al azar y que las asignaciones sean resistentes a la manipulación, de modo
que ni factores intencionados ni factores no intencionados puedan influir en la aleatorización.
Es importante que al participante se le realicen las exploraciones iniciales, que se encuentre que
es elegible para su inclusión y que consienta en participar en el estudio antes de que se realice la
aleatorización. A continuación se le distribuye de forma aleatoria, mediante un algoritmo informá-
tico o mediante la aplicación de una serie de números aleatorios. Una vez que se genera una lista del
orden aleatorio de asignación a los grupos del estudio, debe aplicarse a los participantes según una
estricta secuencia de entrada en el ensayo.
Es esencial diseñar el procedimiento de asignación aleatoria de modo que los miembros del equi-
po de investigación no puedan influir en la distribución. Por ejemplo, en los estudios realizados en
un centro, las asignaciones aleatorias del tratamiento pueden colocarse por adelantado en una serie
de sobres sellados por alguien que no vaya a intervenir en su apertura. Todos los sobres deben tener
un número (de modo que todos puedan contarse al final del estudio), ser opacos (para evitar que se
transparenten) y ser resistentes a la manipulación. Cuando se distribuye al azar un participante, su
nombre y el número del siguiente sobre sin abrir se registran primero en presencia de un segundo
miembro del equipo, y ambas personas del equipo firman el sobre; a continuación, se abre el sobre y
se apunta en un registro el grupo de tratamiento contenido en él y asignado al participante.
Los ensayos multicéntricos usan habitualmente un servicio de aleatorización aparte, a prueba de
manipulación, con el que el personal del ensayo contacta cuando un participante elegible está lis-
to para ser aleatorizado. El miembro del equipo proporciona el nombre y la ID del estudio al nuevo
participante. Se registra esta información, y entonces se asigna de forma aleatoria el grupo de trata-
miento utilizando un programa informático que proporciona un número de asignación al tratamien-
to ligado a las intervenciones. El tratamiento también puede asignarse aleatoriamente mediante
programas informáticos en un solo centro de investigación, siempre y cuando estos programas sean
resistentes a la manipulación. Se necesitan estrictas precauciones para impedir la manipulación de
la aleatorización, porque los investigadores a veces se encuentran bajo presión para influir en ese
proceso (p. ej., por una persona que parece particularmente adecuada para un grupo de tratamiento
activo en un ensayo clínico controlado con placebo).
1 000 participantes), porque la asignación aleatoria asegura la distribución casi uniforme de las va-
riables basales.
Una limitación importante de la aleatorización estratificada por bloques es el pequeño número de
variables basales, no más de dos o tres, que pueden equilibrarse mediante esta técnica. Una técnica
para abordar esta limitación es la aleatorización adaptativa, que utiliza una «moneda sesgada» para
alterar la probabilidad de asignar a cada nuevo participante, de manera que, por ejemplo, una per-
sona con una puntuación de riesgo elevado en cualquier número de variables pronósticas iniciales
tendría una probabilidad ligeramente mayor de ser incluida en el grupo del estudio que tiene menor
riesgo general basado en todos los participantes asignados aleatoriamente a ese punto. Entre las
desventajas de esta técnica están la dificultad de explicar la probabilidad de asignación a los grupos
del estudio a los posibles participantes durante el consentimiento informado y la complejidad de su
aplicación, con un sistema computarizado interactivo que recalcula las probabilidades de la moneda
sesgada con cada aleatorización.
Habitualmente, la mejor decisión es asignar números iguales a cada uno de los grupos en estudio,
porque esto maximiza la potencia para cualquier tamaño de la muestra total dado. Sin embargo, la ate-
nuación de la potencia con una proporción de incluso 2:1 es bastante pequeña (14), y en ocasiones
puede ser adecuada la asignación desigual de los participantes a los grupos de tratamiento y testigo (15):
• El aumento del cociente de participantes asignados al tratamiento activo respecto a los testigos
puede hacer que el estudio sea más atractivo para los posibles participantes, como los que tienen
infección por el VIH, que quisieran tener la mayor probabilidad de recibir un tratamiento activo
si participan.
• La reducción del cociente de participantes que reciben el tratamiento activo respecto a los testigos
puede hacer que el estudio sea asequible cuando la intervención es muy costosa (como en el es-
tudio de dieta pobre en grasa Women’s Health Initiative [16]).
• El aumento de la proporción asignada al grupo que actúa como testigo de varios grupos de trata-
miento activo aumenta la potencia de cada una de las comparaciones, al aumentar la precisión
de la estimación en el grupo testigo (como en el estudio Coronary Drug Project [17]).
La aleatorización por parejas emparejadas es una estrategia para equilibrar variables de confusión
basales que precisa la selección de parejas de participantes que coinciden en características impor-
tantes, como la edad y el sexo, y la asignación aleatoria posterior de un miembro de cada pareja a
cada uno de los grupos del estudio. Un inconveniente de la aleatorización por parejas es que com-
plica la reunión y la aleatorización de participantes, pues precisa que se demore la aleatorización de
un participante elegible hasta que se identifique una pareja adecuada. Además, el emparejamiento
no suele ser necesario en ensayos grandes en los que la asignación aleatoria equilibra los grupos
según las variables iniciales. No obstante, puede usarse una versión atractiva de este diseño cuando
las circunstancias permiten un contraste de los efectos de tratamiento y control en dos partes del
mismo participante. En el Diabetic Retinopathy Study, por ejemplo, cada participante tenía un ojo
asignado aleatoriamente a tratamiento de fotocoagulación, y el otro ojo actuaba como testigo (18).
Enmascaramiento
Siempre que sea posible, el investigador debe diseñar la intervención de tal forma que los participantes
en el estudio, el personal que está en contacto con ellos, las personas que realizan las determinaciones
y las que evalúan y adjudican las respuestas desconozcan la asignación del grupo del estudio. Cuando
no es posible ocultar la asignación a todas estas personas, es muy deseable hacerlo con el mayor núme-
ro posible (p. ej., ocultar siempre la asignación al personal que realice las mediciones de la variable de
respuesta). En un ensayo aleatorizado, el enmascaramiento es tan importante como la aleatorización. La
aleatorización minimiza la influencia de variables de confusión en el momento de la aleatorización, pero
no influye sobre las diferencias que surgen entre los grupos durante el período de seguimiento (ta-
bla 10-2). El enmascaramiento minimiza las fuentes de sesgo posteriores a la aleatorización, como las
cointervenciones y el sesgo en la evaluación y la adjudicación de las variables de respuesta.
Ya se ha discutido el uso del enmascaramiento para evitar el sesgo producido por las cointerven-
ciones (fármacos, otros tratamientos o conductas distintos a la intervención del estudio que modi-
fican el riesgo de presentar la respuesta de interés) (pág. 139). El segundo objetivo importante del
enmascaramiento es minimizar el sesgo en la evaluación y la adjudicación de la respuesta. En un
estudio sin enmascaramiento, el investigador puede estar tentado de buscar con mayor cuidado las
respuestas en el grupo no tratado o en diagnosticar la respuesta con mayor frecuencia. Por ejemplo,
en un ensayo sin enmascaramiento del tratamiento con estatinas, puede ser más probable que los
investigadores pregunten a los participantes del grupo de tratamiento activo sobre el dolor muscular
espontáneo o a la presión, y que soliciten pruebas para hacer el diagnóstico de miositis. El enmas-
caramiento de los pacientes es particularmente importante cuando las variables de respuesta se basan
en síntomas referidos por el propio participante.
Una vez que se ha comprobado un posible episodio de respuesta, puede hacer falta su adjudica-
ción. Por ejemplo, si la variable de respuesta del estudio es el infarto de miocardio, los investigado-
res habitualmente recogen datos sobre los síntomas, los hallazgos del ECG y las enzimas cardíacas.
Posteriormente, expertos que desconocen el grupo de tratamiento utilizan estos datos y definiciones
específicas para adjudicar si se ha producido o no un infarto de miocardio. Los resultados del ensa-
yo Canadian Cooperative Multiple Sclerosis ilustran la importancia del enmascaramiento en la adju-
dicación no sesgada de respuesta (19). Se asignó aleatoriamente a pacientes con esclerosis múltiple
a recibir: plasmaféresis combinada, ciclofosfamida y prednisona, o plasmaféresis simulada y placebos
de los medicamentos. Al final del ensayo se evaluó la gravedad de la esclerosis múltiple mediante
una exploración estructurada realizada por neurólogos que desconocían la asignación del tratamien-
to, y de nuevo por neurólogos que sí conocían dicha asignación. El tratamiento no fue eficaz según
la evaluación de los neurólogos que desconocían la asignación, pero tuvo una eficacia estadística-
mente significativa de acuerdo con la evaluación de los neurólogos que sí conocían la asignación.
Los neurólogos que conocían la asignación no estaban intentando sesgar a propósito el resultado del
estudio, sino que hay un intenso deseo humano de ver cómo mejoran los pacientes después del tra-
tamiento, especialmente si el tratamiento es doloroso o potencialmente perjudicial. El enmascara-
miento minimiza esta adjudicación sesgada de las variables de respuesta.
La evaluación con enmascaramiento de la respuesta puede ser menos importante si la respuesta
del ensayo es una respuesta objetiva sólida, como la muerte o una medición automática sobre la que
hay pocas o ninguna duda ni oportunidad de una evaluación sesgada. La mayor parte de las demás
respuestas, como muerte por una causa específica, diagnóstico de una enfermedad, determinaciones
físicas, escalas de cuestionarios y afecciones informadas por uno mismo, pueden verse afectadas por
una comprobación y una adjudicación sesgadas.
Una vez que el ensayo ha finalizado, puede ser una buena idea evaluar si los participantes y los
investigadores realmente desconocían la asignación, pidiéndoles que adivinaran a qué tratamiento
■■ RESUMEN
1. Un estudio aleatorizado con enmascaramiento, diseñado y realizado adecuadamente, puede
ofrecer la inferencia causal más definitiva como base para las directrices de práctica clínica
sustentadas por la medicina basada en las pruebas.
2. La elección y la dosis de la intervención es una decisión difícil que equilibra juicios sobre la
eficacia y la seguridad; otras consideraciones son la relevancia para la práctica clínica, la ido-
neidad para el enmascaramiento y si se debe usar una combinación de fármacos.
3. Cuando sea posible, el grupo de comparación debe ser un grupo testigo tratado con placebo
que permita el enmascaramiento de los participantes, los investigadores y el personal del estu-
dio.
4. Las respuestas clínicamente importantes, como el dolor, la calidad de vida, la incidencia de
cáncer y la muerte, son las respuestas más significativas de los ensayos. Las variables de res-
puesta intermedias, como la viremia del VIH, son marcadores indirectos válidos para respues-
tas clínicas en la medida en que los cambios del marcador inducidos por el tratamiento predicen
los cambios de la respuesta clínica.
5. La medición de más de una variable de respuesta habitualmente es útil, aunque su combinación
en variables de respuesta compuestas precisa una consideración cuidadosa; se debe especificar
una variable de respuesta principal única para estudiar la hipótesis principal.
6. Todos los ensayos clínicos contienen medidas de posibles efectos adversos de la intervención,
tanto dirigidas como (con moderación) abiertas, con procedimientos para garantizar que se
notifiquen rápidamente los acontecimientos adversos graves (AAG) a los CRI y a los promo
tores.
7. Los criterios para seleccionar a los participantes en el estudio deben identificar a los que tienen
probabilidad de experimentar el máximo efecto beneficioso y el mínimo efecto perjudicial por
el tratamiento, y de cumplir los protocolos de tratamiento y seguimiento. La elección de par-
ticipantes con riesgo elevado de la variable de respuesta puede reducir el tamaño de la muestra,
aunque puede dificultar la inclusión de pacientes y reducir la posibilidad de generalizar los
hallazgos.
8. Las variables basales deben medirse de forma parca para describir las características de los
participantes, medir factores de riesgo y valores basales de la variable de respuesta, y facilitar
el examen posterior de los diferentes efectos de la intervención en varios subgrupos (modifica-
ción del efecto). Se debe plantear el almacenamiento de suero, material genético, imágenes, etc.,
en situación inicial, para su análisis posterior.
9. La aleatorización, que minimiza la influencia de las variables de confusión en situación inicial,
debe protegerse de la alteración; la aleatorización por parejas es un diseño excelente cuando es
posible, y en los estudios pequeños la aleatorización por bloques estratificada puede disminuir
la posibilidad de distribuciones desiguales de variables predictivas fundamentales.
10. El enmascaramiento de la intervención es tan importante como la aleatorización, y sirve para
controlar las cointervenciones y los sesgos en la evaluación, y la adjudicación de las variables
de respuesta.
BIBLIOGRAFÍA
1. Ettinger B, Black DM, Mitlak BH, et al. Reduction of vertebral fracture risk in postmenopausal women with osteo-
porosis treated with raloxifene: results from a 3-year randomized clinical trial. Multiple Outcomes of Raloxifene
Evaluation (MORE) investigators. JAMA 1999;282:637–645.
2. The Women’s Health Initiative Study Group. Design of the women’s health initiative clinical trial and observational
study. Control Clin Trials 1998;19:61–109.
3. Prentice RL. Surrogate endpoints in clinical trials: definition and operational criteria. Stat Med 1989;8:431–440.
4. Cummings SR, Karpf DB, Harris F, et al. Improvement in spine bone density and reduction in risk of vertebral
fractures during treatment with antiresorptive drugs. Am J Med 2002;112:281–289.
5. Hulley S, Grady D, Bush T, et al. Randomized trial of estrogen plus progestin for secondary prevention of coronary
heart disease in postmenopausal women. JAMA 1998;280:605–613.
6. Cummings SR, San Martin J, McClung MR, et al. Denosumab for prevention of fractures in postmenopausal
women with osteoporosis. N Engl J Med 2009;361(8):756–765.
7. Mosca L, Barrett-Connor E, Wenger NK, et al. Design and methods of the Raloxifene Use for The Heart (RUTH)
Study. Am J Cardiol 2001;88:392–395.
8. Rossouw JE, Anderson GL, Prentice RL, et al. Risks and benefits of estrogen plus progestin in healthy postme-
nopausal women: principal results from the women’s health initiative randomized controlled trial. JAMA 2002;
288:321–333.
9. McClung M, Boonen S, Torring O, et al. Effect of denosumab treatment on the risk of fractures in subgroups of
women with postmenopausal osteoporosis. J Bone Miner Res 2011;27:211–218.
10. Cummings SR, Black DM, Thompson DE, et al. Effect of alendronate on risk of fracture in women with low bone
density but without vertebral fractures: results from the fracture intervention trial. JAMA 1998;280:2077–2082.
11. Fries R, Shariat K, von Wilmowsky H, et al. Sildenafil in the treatment of Raynaud’s phenomenon resistant to
vasodilatory therapy. Circulation 2005;112:2980–2985.
12. Freiman JA, Chalmers TC, Smith H Jr, et al. The importance of beta, the type II error and sample size in the design
and interpretation of the randomized control trial. Survey of 71 “negative” trials. N Engl J Med 1978;299:690–694.
13. Yusuf S, Collins R, Peto R. Why do we need some large, simple randomized trials? Stat Med 1984;3:409–420.
14. Friedman LM, Furberg C, DeMets DL. Fundamentals of clinical trials, 4th ed. New York: Springer, 2010.
15. Avins AL. Can unequal be more fair? Ethics, subject allocation, and randomised clinical trials. J Med Ethics
1998;24:401–408.
16. Prentice RL, Caan B, Chlebowski RT, et al. Low-fat dietary pattern and risk of invasive breast cancer: the women’s
health initiative randomized controlled dietary modification trial. JAMA 2006;295:629–642.
17. CDP Research Group. The coronary drug project. Initial findings leading to modifications of its research protocol.
JAMA 1970;214:1303–1313.
18. Diabetic Retinopathy Study Research Group. Preliminary report on effects of photocoagulation therapy. Am J
Ophthalmol 1976;81:383–396.
19. Noseworthy JH, O’Brien P, Erickson BJ, et al. The Mayo-Clinic Canadian cooperative trial of sulfasalazine in active
multiple sclerosis. Neurology 1998;51:1342–1352.
20. Moseley JB, O’Malley K, Petersen NJ, et al. A controlled trial of arthroscopic surgery for osteoarthritis of the knee.
N Engl J Med 2002;347:81–88.
Diseño factorial
El diseño factorial pretende responder a dos (o más) preguntas de investigación separadas en un
solo estudio (fig. 11-1). Un buen ejemplo es el Women’s Health Study, que se diseñó para evaluar
el efecto del ácido acetilsalicílico en dosis bajas y la vitamina E sobre el riesgo de sufrir episodios
cardiovasculares en mujeres sanas (1). Se distribuyó aleatoriamente a las participantes en cuatro
grupos, y se analizaron dos hipótesis comparando dos mitades de la cohorte en estudio. En primer
lugar se comparó la incidencia de episodios cardiovasculares en mujeres tratadas con ácido acetil-
salicílico con la de mujeres tratadas con un placebo del ácido acetilsalicílico (sin tener en cuenta
el hecho de que la mitad de cada uno de estos grupos recibió vitamina E); a continuación se com-
paró la incidencia de episodios cardiovasculares en las mujeres tratadas con vitamina E con la de
las que recibieron un placebo de vitamina E (sin tener en cuenta ahora que la mitad de cada uno
de estos grupos recibió ácido acetilsalicílico). Los investigadores tienen dos estudios completos
por el precio de uno.
Una limitación es la posibilidad de modificación del efecto (interacción): si el efecto del ácido
acetilsalicílico sobre el riesgo de enfermedad cardiovascular es diferente en las mujeres tratadas con
vitamina E y en las mujeres no tratadas con vitamina E, entonces hay modificación del efecto, y se
debería calcular por separado el efecto del ácido acetilsalicílico en estos dos grupos. Esto reduciría
la potencia de estas comparaciones, porque solo se incluiría en cada análisis a la mitad de las parti-
cipantes. Los diseños factoriales pueden usarse, realmente, para estudiar la modificación del efecto,
pero los estudios diseñados para ello son más complicados y difíciles de realizar, se precisan tamaños
de la muestra mayores y los resultados pueden ser difíciles de interpretar. Otras limitaciones del
diseño factorial son que la misma población de estudio debe ser adecuada para cada una de las in-
tervenciones, y que múltiples tratamientos pueden interferir con la inclusión de los participantes y
su cumplimiento, y los análisis son más complejos. Una vez dicho esto, el diseño factorial puede ser
muy eficiente. Por ejemplo, en el ensayo aleatorizado Women’s Health Initiative se pudo comprobar
151
$SOLFDUHOIiUPDFR$\HOIiUPDFR%
FRQHQPDVFDUDPLHQWR 0HGLUODVYDULDEOHV
3REODFLyQ GHUHVSXHVWD
3pUGLGDGXUDQWHHOVHJXLPLHQWR
$SOLFDUHOIiUPDFR$\HOSODFHER%
FRQHQPDVFDUDPLHQWR 0HGLUODVYDULDEOHV
0XHVWUD
GHUHVSXHVWD
3pUGLGDGXUDQWHHOVHJXLPLHQWR
0HGLUYDULDEOHV
SUHGLFWLYDV
$OPDFHQDU
PXHVWUDVRSFLRQDO $SOLFDUHOSODFHER$\HOIiUPDFR%
FRQHQPDVFDUDPLHQWR 0HGLUODVYDULDEOHV
GHUHVSXHVWD
3pUGLGDGXUDQWHHOVHJXLPLHQWR
$SOLFDUHOSODFHER$\HOSODFHER%
FRQHQPDVFDUDPLHQWR 0HGLUODVYDULDEOHV
GHUHVSXHVWD
3pUGLGDGXUDQWHHOVHJXLPLHQWR
el efecto de tres intervenciones (hormonoterapia posmenopáusica, dieta baja en grasas y calcio más
vitamina D) sobre varias respuestas (2).
complicados en los diseños aleatorizados por conglomerados que en los de aleatorización indi-
vidual (4).
/tPLWHGHDXVHQFLD
GHLQIHULRULGDG∆
6XSHULRU
1RLQIHULRU
1XHYRIiUPDFRPHMRU 1XHYRIiUPDFRSHRU
1RLQIHULRU
,QIHULRU
,QIHULRU
(es decir, el nuevo tratamiento no es peor ni mejor que el tratamiento estándar). Sin embargo, es infre-
cuente que los investigadores estén interesados en si un nuevo tratamiento es a la vez no mejor y no
peor que un tratamiento ya establecido. La mayoría de los veces los investigadores están especialmen-
te interesados en mostrar que un nuevo tratamiento con otras ventajas no es inferior al tratamiento
estándar. La naturaleza unilateral del diseño del estudio de ausencia de inferioridad también tiene la
ventaja de permitir un tamaño de la muestra más pequeño o un menor valor de a habitualmente se
prefiere este último (p. ej., 0,025 en lugar de 0,05), es decir, un valor más conservador.
Uno de los problemas más exigibles en el diseño de un estudio de ausencia de inferioridad es
establecer el límite de ausencia de inferioridad (), la pérdida de eficacia del nuevo tratamiento que
sería inaceptable (7). Esa decisión se basa en consideraciones estadísticas y clínicas de la posible
eficacia y las ventajas del nuevo tratamiento, y es necesario un juicio experto (8) (en el apéndice 11A
se puede ver un ejemplo de cómo se realiza esto). En general, los estudios de ausencia de inferioridad
deben ser más extensos que los estudios controlados con placebo, porque la diferencia aceptable
entre el tratamiento nuevo y el tratamiento establecido habitualmente es menor que la diferencia
esperada entre un nuevo tratamiento y el placebo.
Debe señalarse que la ausencia de inferioridad puede no significar que el tratamiento establecido y
el tratamiento nuevo sean eficaces: podrían ser equivalentes en cuanto a la ineficacia o el carácter lesi-
vo. Para asegurarse de que un nuevo tratamiento evaluado en un estudio de ausencia de inferioridad
es más eficaz que el placebo, debe haber datos sólidos previos que respalden la eficacia del tratamiento
establecido. Esto también significa que el diseño del estudio de ausencia de inferioridad debe ser lo
más similar posible a los estudios que han determinado la eficacia del tratamiento estándar, con simi-
litud de aspectos como criterios de selección, dosis del tratamiento establecido, cumplimiento del ré-
gimen estándar, duración del seguimiento, pérdidas durante el seguimiento, etc. (6, 7). Cualquier
problema que reduzca la eficacia del tratamiento estándar (inclusión de participantes que tengan poca
probabilidad de beneficiarse, incumplimiento del tratamiento, pérdida durante el seguimiento) aumen-
tará la probabilidad de que se encuentre que el nuevo tratamiento no es inferior, simplemente porque
la eficacia del tratamiento estándar se ha reducido. Puede parecer que un tratamiento nuevo y menos
eficaz no es inferior cuando, en realidad, los hallazgos representan un estudio mal realizado.
En resumen, los estudios de ausencia de inferioridad y de equivalencia son particularmente útiles
si un nuevo tratamiento tiene ventajas importantes, como menor coste, facilidad de uso o mayor
seguridad. Es difícil justificar estudios extensos para evaluar un nuevo fármaco de «yo también» sin
ninguna de estas ventajas. Debe insistirse en que los estudios de ausencia de inferioridad y de equi-
valencia pueden llevar a la conclusión errónea de que los tratamientos son equivalentes si el estudio
está mal realizado.
Diseños adaptativos
Los estudios clínicos generalmente se realizan cumpliendo un protocolo que no se modifica durante
la realización del estudio. Sin embargo, para algunos tipos de tratamientos de enfermedades es posible
hacer un seguimiento de los resultados del estudio a medida que avanza y modificar el diseño del
estudio de acuerdo con el análisis provisional de los resultados (9). Por ejemplo, considere un estudio
de varias dosis de un nuevo tratamiento para la dispepsia no ulcerosa. Según el diseño inicial, se puede
planificar la inclusión de 50 participantes en un grupo del placebo y 50 en cada uno de tres grupos
de dosis durante 12 semanas de tratamiento, con un período de inclusión de 1 año de duración. La revi-
sión de los resultados después de que los primeros 10 participantes de cada grupo hayan finalizado
4 semanas de tratamiento podría mostrar que hay una tendencia hacia el alivio de la dispepsia solo en
el grupo de mayor dosis. Puede ser más eficiente finalizar la asignación de participantes a las dos dosis
menores, y continuar la aleatorización solo a los grupos de mayor dosis y del placebo. Otros aspectos
de un estudio que se podrían modificar basándose en los resultados provisionales son el aumento o la
disminución del tamaño de la muestra o de la duración del estudio si los resultados provisionales
indican que la magnitud del efecto o la incidencia de las respuestas difieren de los supuestos originales.
Los diseños adaptativos son posibles únicamente con tratamientos que producen respuestas que
se miden y analizan en fases suficientemente tempranas del transcurso del estudio para hacer
que sean posibles los cambios de diseño en fases posteriores del estudio. Para evitar el sesgo, se
deben establecer, antes del comienzo del estudio, reglas sobre cómo se puede modificar el diseño, y
los análisis provisionales y el planteamiento del cambio del diseño los debe realizar un comité de
supervisión de los datos y de la seguridad independiente que revise los datos sin enmascaramiento.
Los análisis provisionales múltiples aumentarán la probabilidad de encontrar un resultado favorable
que se deba a variación aleatoria y, cuando se analicen los resultados, se debe tener en consideración
la mayor probabilidad de error de tipo I.
Además de ser más complejos de realizar y de analizar, los diseños adaptativos precisan que el
consentimiento informado incluya todos los posibles cambios del diseño del estudio, y es difícil
estimar el coste de un estudio adaptativo y de los recursos específicos necesarios para realizarlo.
A pesar de esas precauciones y limitaciones, los diseños adaptativos son eficientes y pueden ser
útiles, especialmente durante el desarrollo de un nuevo tratamiento; pueden permitir la identifica-
ción más temprana de las mejores dosis y duración del tratamiento, y garantizan que una proporción
elevada de los participantes reciban el tratamiento óptimo.
■■ DISEÑOS NO ALEATORIZADOS
Diseños no aleatorizados entre grupos
Los ensayos clínicos que comparan grupos que no han sido aleatorizados son mucho menos eficaces
que los aleatorizados para controlar las variables de confusión. Por ejemplo, en un estudio en el que
se comparan los efectos de la cirugía de derivación arterial coronaria con los de la angioplastia per-
cutánea, si se permite que los médicos decidan a qué pacientes van a realizar los procedimientos, en
lugar de utilizar asignación aleatoria, es probable que los pacientes asignados a cirugía sean distintos
de los pacientes asignados a angioplastia. Los métodos analíticos pueden ajustarse para factores
basales que son desiguales en los dos grupos del estudio, pero esta estrategia no aborda el problema
de las variables de confusión no medidas. Cuando se comparan los hallazgos de estudios aleatoriza-
dos y no aleatorizados para responder a una misma pregunta de la investigación, los beneficios
aparentes de la intervención son a menudo mayores en los estudios no aleatorizados, incluso después
de ajustar estadísticamente las diferencias en las variables basales (10). El problema de la confusión
en los estudios clínicos no aleatorizados puede ser grave, y puede que no se elimine completamente
mediante el ajuste estadístico (11).
A veces se distribuyen los participantes a los grupos de estudio mediante un mecanismo seudoa
leatorio. Por ejemplo, se puede asignar a los participantes con un número de historia al grupo de
tratamiento. Estos diseños pueden ofrecer ventajas logísticas, pero la posibilidad de predecir la
asignación al grupo de estudio permite al investigador o al personal del estudio alterarlo, manipu-
lando la secuencia o la idoneidad de nuevos participantes.
A veces, el investigador asigna los participantes a los grupos de estudio según determinados cri-
terios específicos. Por ejemplo, puede asignarse a los pacientes con diabetes a recibir insulina cuatro
veces al día o a recibir insulina de acción prolongada una vez al día, según su disposición a aceptar
cuatro inyecciones diarias. El problema de este diseño es que los que aceptan cuatro inyecciones al
día podrían ser diferentes de aquellos que no quieren (p. ej., cumplir mejor los demás consejos sa-
nitarios), y esta podría ser la causa de cualquier diferencia observada en las respuestas de los dos
programas de tratamiento.
Los diseños no aleatorizados se escogen a veces con la creencia errónea de que son más éticos
que la aleatorización, porque permiten que el participante o el médico elijan la intervención. De
hecho, los estudios solo son éticos si tienen una probabilidad razonable de generar la respuesta
correcta a la pregunta de investigación, y los estudios aleatorizados tienen más posibilidad de llevar
a un resultado correcto y concluyente que los diseños no aleatorizados. Además, la base ética de
cualquier ensayo es la incertidumbre de si la intervención será beneficiosa o nociva. Esta incertidum-
bre, denominada equilibrio, significa que la elección de intervenciones basada en pruebas no es
posible y justifica la asignación aleatoria.
Diseños intragrupo
Los diseños que no incluyen un grupo testigo separado pueden ser opciones útiles para algunos tipos
de preguntas. En un diseño de series cronológicas se realizan medidas antes y después de que cada
participante reciba la intervención (fig. 11-3). Por tanto, cada participante actúa como su propio
3REODFLyQ
0XHVWUD
testigo para evaluar el efecto del tratamiento. Esto significa que características individuales como la
edad, el sexo y factores genéticos no solo se equilibran (como en los estudios entre grupos), sino que
realmente se eliminan como variables de confusión.
El principal inconveniente de los diseños intragrupo es la falta de un grupo testigo concurrente.
La aparente eficacia de la intervención podría deberse a efectos de aprendizaje (los participantes
tienen mejores resultados en las pruebas cognitivas de seguimiento porque aprendieron de la prueba
inicial), regresión a la media (se observó que los participantes que fueron seleccionados para el
ensayo por tener hipertensión arterial en situación basal tenían una presión arterial inferior durante
el seguimiento, sencillamente por una variación aleatoria de la presión arterial) o tendencias a largo
plazo (las infecciones respiratorias superiores fueron menos frecuentes durante el seguimiento,
porque la temporada de gripe finalizó antes de que hubiera terminado el seguimiento). En los dise-
ños intragrupos a veces se usa una estrategia de iniciar e interrumpir repetidamente el tratamiento.
Si el inicio y la interrupción repetidos de la intervención producen patrones similares, es un dato
importante que confirma que estos cambios se deban al tratamiento. Este método solo es útil cuan-
do la variable de respuesta responde rápidamente y de modo reversible a la intervención. El diseño
tiene una aplicación clínica en los estudios «N de uno», en los que un paciente concreto puede al-
ternar entre las versiones activa e inactiva de un fármaco (usando un placebo de aspecto idéntico
preparado por la farmacia local) para detectar su respuesta particular al tratamiento (12).
Diseño cruzado
El diseño cruzado tiene características de los diseños intragrupo y entre grupos (fig. 11-4). Se asig-
na aleatoriamente a la mitad de los participantes a empezar con el período testigo y luego se los
cambia al tratamiento activo; la otra mitad empieza con el tratamiento activo y cambia luego al
testigo. Este método permite realizar análisis entre los grupos, así como dentro de ellos. Las ventajas
de este diseño son importantes: reduce al mínimo la posibilidad de confusión, porque cada partici-
pante actúa como su propio testigo y el análisis emparejado aumenta la potencia estadística del es-
tudio, de modo que se necesitan menos participantes. No obstante, los inconvenientes también son
importantes: duración doble del estudio, gastos añadidos necesarios para medir la variable de res-
puesta al comienzo y al final de cada período de cruzamiento, y complejidad añadida del análisis y
la interpretación creados por el problema de posibles efectos residuales. Un efecto de este tipo es la
influencia residual de la intervención sobre la respuesta durante el período posterior a la interrup-
ción: por ejemplo, la presión arterial no regresa a los niveles basales en los meses siguientes a un
ciclo de tratamiento diurético. Para reducir este efecto, el investigador puede introducir un período
sin tratamiento de reposo farmacológico entre tratamientos, con la esperanza de que la variable de
respuesta regrese al valor inicial antes de iniciar la siguiente intervención, pero es difícil saber si
todos los efectos residuales se han eliminado. En general, los estudios cruzados son una buena elec-
ción cuando el número de participantes del estudio es bajo y la respuesta se produce rápidamente y
de forma reversible tras la aplicación de la intervención.
Puede ser adecuada una variación del diseño cruzado cuando no se puede ocultar la asignación
de la intervención en estudio y los participantes piensan que la intervención es mucho más deseable
que la situación testigo (como una nueva técnica no invasiva). En esta situación, en la que puede ser
muy difícil encontrar participantes idóneos que estén dispuestos a ser aleatorizados, un abordaje
excelente puede ser la aleatorización a intervención inmediata o a una situación testigo de lista de
espera (diferida). Otra situación en la que un testigo de lista de espera puede ser adecuado es cuan-
do una comunidad, un colegio, un gobierno o una entidad similar han decidido que todos los miem-
bros de un grupo deben recibir una intervención a pesar de que hay pocos datos sobre su eficacia.
En esa situación, se puede considerar que la aleatorización a no recibir la intervención no es ética,
mientras que puede ser aceptable la aleatorización a una intervención diferida.
El diseño de lista de espera da la oportunidad de realizar una comparación aleatorizada entre los
grupos de intervención inmediata y testigo de lista de espera. Además, se pueden combinar los dos pe-
ríodos de intervención (intervención inmediata en un grupo e intervención diferida en el otro) para
aumentar la potencia para una comparación intragrupo antes y después de la intervención. Por ejemplo,
en un estudio en el que se aleatorizara a mujeres con fibroides sintomáticos a un nuevo tratamiento
que es menos invasivo que la histerectomía (embolización de la arteria uterina) en comparación con
la lista de espera, las testigos de la lista de espera no recibirían ningún tratamiento durante el período
inicial, y posteriormente se les ofrecería embolización de la arteria uterina al comienzo del siguiente
período. Posteriormente se pueden combinar las mediciones de los cambios de la puntuación intragru-
po de síntomas del fibroide en todas las participantes a las que se aplicó la intervención.
Este diseño tiene la ventaja de hacer que la inclusión de pacientes sea mucho más viable en un
estudio en el que la intervención es muy deseable, y de permitir una comparación aleatorizada en
situaciones en las que todos los pacientes idóneos finalmente recibirán una intervención. Sin embar-
go, la respuesta se debe producir en un período de tiempo corto (o el período de espera llegará a ser
prohibitivamente largo). Además, aplicar la intervención al grupo testigo al final del estudio prolon-
ga la duración del seguimiento y puede ser costoso.
maco se usa en poblaciones de gran tamaño, o para estudiar otros usos del fármaco que pudieran ser
aprobados por la FDA. En ocasiones, los estudios de fase IV no tienen un objetivo científico claro,
aunque se realizan para presentar los nuevos fármacos a los médicos y los pacientes.
Estudios piloto
El éxito en el diseño y la realización de un ensayo clínico exige una amplia información sobre el tipo,
la dosis y la duración de las intervenciones, el efecto probable de la intervención sobre la respuesta,
los posibles efectos adversos, la viabilidad de reunir, aleatorizar y mantener a los participantes en el
ensayo, y probablemente los costes. A menudo, el único modo de obtener parte de esta información
es realizar un buen estudio piloto.
Los estudios piloto varían desde una breve prueba de la viabilidad en un pequeño número de
participantes hasta un extenso estudio en cientos de participantes (como preparación para una im-
portante inversión en un estudio multicéntrico de varios años de duración). Deben planificarse tan
cuidadosamente como el ensayo principal, con objetivos y métodos claros. Muchos estudios piloto
se centran fundamentalmente en determinar la viabilidad, el tiempo y el coste necesarios para
reunir cantidades adecuadas de participantes elegibles, y descubrir si están dispuestos a aceptar la
aleatorización y cumplir con la intervención. Los estudios piloto también pueden diseñarse para
demostrar que las mediciones previstas, los instrumentos de recopilación de datos y los sistemas
de gestión de los datos son viables y eficaces. En los estudios piloto que se realizan principalmente
para estudiar la viabilidad no suele incluirse un grupo testigo.
Un objetivo importante de muchos estudios piloto es definir la intervención óptima: la frecuencia,
la intensidad y la duración de la intervención que producirán la mínima toxicidad y la máxima eficacia.
Los estudios piloto se usan, en ocasiones, para obtener estimaciones de los parámetros necesarios
para estimar el tamaño de la muestra. Las estimaciones sólidas de la incidencia de la variable de
respuesta o de la medida de respuesta principal en el grupo del placebo, el efecto de la intervención
sobre la variable de respuesta principal (magnitud del efecto) y la variabilidad estadística de esta
respuesta son fundamentales para la planificación del tamaño de la muestra. En la mayoría de los
casos, es mejor obtener estas estimaciones de estudios a escala completa publicados de intervencio-
nes similares en participantes similares. Cuando no se disponga de esos datos, puede ser útil obtener
estimaciones en un estudio piloto, aunque el tamaño de la muestra de los estudios piloto habitual-
mente es tan pequeño que la magnitud del efecto y la varianza calculadas son inestables, con inter-
valos de confianza muy amplios.
Muchos ensayos no alcanzan la potencia estimada no porque el efecto de la intervención sea
menor que el previsto, sino porque la incidencia de episodios de respuesta dicotómica en el grupo
del placebo es mucho menor de lo esperado. Esto probablemente se produce porque las personas
que cumplen los criterios de inclusión para un ensayo clínico y que aceptan la aleatorización están
más sanas que la población general con la afección de interés. Por lo tanto, es esencial determinar la
incidencia de la respuesta en el grupo del placebo, lo que se puede realizar evaluando el grupo del
placebo de estudios previos con participantes similares, o asignando aleatoriamente a los pacientes
al placebo en un estudio piloto.
Un estudio piloto debe tener un protocolo corto pero completo (aprobado por el comité de revi-
sión institucional), formularios para la recopilación de datos y planes de análisis. Las variables deben
incluir las típicas determinaciones basales y las variables predictivas y de respuesta incluidas en un
estudio competo, y también cálculos del número de personas disponibles o accesibles para su inclu-
sión, el número de las personas con las que se ha establecido contacto o que responden usando di-
ferentes técnicas de inclusión, el número y la proporción idóneos para el ensayo, las personas que
son idóneas pero rechazan (o dicen que rechazarían) la aleatorización, el tiempo y el coste de la
reunión y la aleatorización, y estimaciones del cumplimiento de la intervención y otros aspectos del
protocolo, como las consultas del estudio. Habitualmente es útil pedir tanto a los participantes como
al personal que hagan comentarios después del estudio piloto, para que den sus opiniones sobre
cómo mejorar los métodos del estudio.
Un buen estudio piloto necesita tiempo suficiente y puede ser costoso, pero mejora notablemen-
te la posibilidad de financiación de importantes ensayos clínicos y la probabilidad de que el ensayo
se realice con éxito.
La imposibilidad de seguir a los participantes del ensayo y de medir la respuesta de interés puede
producir resultados sesgados, disminución de la credibilidad de los hallazgos y reducción de la poten-
cia estadística. Por ejemplo, en un ensayo de un aerosol nasal de calcitonina para reducir el riesgo de
fracturas osteoporóticas se comunicó que el tratamiento redujo el riesgo de fractura en un 36 % (13).
Sin embargo, se perdió durante el seguimiento a alrededor del 60 % de los participantes aleatorizados,
y no se supo si se habían producido fracturas en ellos. Como el número total de fracturas era pequeño,
incluso algunas fracturas en los participantes a los que se perdió durante el seguimiento podrían haber
alterado los hallazgos del ensayo, cuya credibilidad disminuyó a causa de esta incertidumbre (14).
Incluso si los participantes generan una violación del protocolo o interrumpen la intervención del
ensayo, debe realizarse el seguimiento de modo que sus respuestas puedan usarse en el análisis de inten
ción de tratar (véase «Análisis de los resultados», en este capítulo). En muchos ensayos se suspende el
seguimiento de los participantes que violan el protocolo participando en otro ensayo, no acudiendo a las
consultas del estudio o interrumpiendo su intervención; esto puede producir resultados sesgados o im-
posibles de interpretar. Considere, por ejemplo, un fármaco que causa un efecto secundario sintomático
que lleva a una interrupción más frecuente de la medicación del estudio en los que reciben el tratamien-
to activo que en los que toman el placebo. Si no se mantiene el seguimiento de los participantes que in-
terrumpen la medicación del estudio, se puede introducir un sesgo en los hallazgos en caso de que el
efecto secundario se asocie a la respuesta principal o a un acontecimiento adverso grave (AAG).
Algunas de las estrategias para lograr un seguimiento completo son similares a las comentadas
en los estudios de cohortes (cap. 7). Al principio del estudio debe informarse a los pacientes de la
importancia del seguimiento, y los investigadores deberán registrar el nombre, la dirección, la direc-
ción de correo electrónico y el número de teléfono de uno o dos familiares o conocidos que siempre
sepan dónde está el participante. Además de aumentar la capacidad del investigador para evaluar el
estado vital, la posibilidad de contactar con los participantes por teléfono o correo electrónico pue-
de permitir el acceso a medidas de respuestas indirectas de los que rechazan acudir a una consulta
al final. En el ensayo clínico The Heart and Estrogen/Progestin Replacement Study se usaron todas
estas estrategias: el 89 % de las mujeres acudió a la última consulta clínica tras un promedio de 4 años
de seguimiento, otro 8 % tuvo un último contacto telefónico para verificar la respuesta, y se deter-
minó la información sobre el estado vital de cada una de las participantes restantes utilizando cartas
certificadas, contactos con familiares próximos y un servicio de rastreo (15).
El diseño del ensayo debe facilitar al máximo posible que los participantes acepten la intervención
y realicen las visitas de seguimiento y las mediciones. Si las consultas son largas y estresantes, es posi-
ble que algunos participantes no acudan. Es más probable que regresen a consultas que conlleven
pruebas no cruentas, como tomografía computarizada, que a las que sí suponen pruebas cruentas, como
angiografía coronaria. Recoger información por teléfono o con medios electrónicos puede mejorar el
cumplimiento de los pacientes para los que las consultas son difíciles. Por otro lado, los participantes
pueden perder el interés en un ensayo si no tienen ninguna recompensa social o interpersonal por su
participación. Pueden cansarse de consultas que se programan mensualmente, y pueden perder el in-
terés si se programan anualmente. El seguimiento mejora haciendo que la experiencia en el ensayo sea
positiva y agradable para los participantes: diseñar medidas y procedimientos indoloros e interesantes;
realizar pruebas de las que de otro modo no dispondrían; proporcionar los resultados de las pruebas a
los participantes (salvo que se trate de pruebas de investigación especializadas que todavía no se utili-
cen en la práctica clínica); enviar boletines, mensajes de texto o notas por correo electrónico; abrir
páginas en redes sociales; enviar tarjetas para felicitar por las vacaciones y el cumpleaños; entregar
regalos baratos; y desarrollar fuertes relaciones interpersonales con un equipo entusiasta y amable.
Dos aspectos del diseño que son específicos de los ensayos clínicos pueden mejorar el cumplimiento y
el seguimiento: las consultas de selección antes de la aleatorización y un período de preinclusión. Pedir a
los participantes que acudan a una o dos consultas de selección antes de la aleatorización puede descartar
ya a los participantes que no pueden acudir a estas consultas. El truco está en poner trabas para entrar en
el ensayo en un nivel lo suficientemente elevado como para excluir a los que no cumplirán después, pero
no tan elevado como para excluir a participantes que tendrán un cumplimiento satisfactorio.
Puede que sea útil contar con un período de preinclusión para aumentar la proporción de partici-
pantes del estudio que cumplen la intervención y los procedimientos de seguimiento. Durante el perío-
do inicial, todos los participantes reciben un placebo. Un determinado tiempo después (generalmente
unas semanas) solo se aleatorizará a los que hayan cumplido con la intervención (p. ej., tomar al menos
el 80 % del placebo asignado). Excluir así a los participantes no cumplidores antes de realizar la aleato-
rización puede aumentar la potencia del estudio y permitir un cálculo mejor de los efectos completos
de la intervención. Sin embargo, un período de preinclusión retrasa la inclusión en el estudio, la pro-
porción de participantes excluidos es generalmente pequeña y los participantes aleatorizados a recibir
el fármaco activo pueden apreciar un cambio en su medicación tras la aleatorización, lo que contribuye
al desenmascaramiento. Tampoco está claro que una preinclusión con placebo sea más eficaz para au-
mentar el cumplimiento que el requisito de que los participantes acudan a una o más consultas antes
de la aleatorización. Si no hay una razón específica para sospechar que el cumplimiento del estudio va
a ser malo, probablemente no sea necesario incluir un período de preinclusión en su diseño.
Una variante del diseño con preinclusión con placebo es el uso del fármaco activo en lugar del
placebo en ese período. Además de aumentar el cumplimiento de los participantes, un período de
preinclusión con el fármaco activo puede seleccionar a los participantes que toleran la intervención y
responden a ella; se puede utilizar como criterio de aleatorización la ausencia de efectos adversos o la
presencia de un efecto deseado del tratamiento sobre un biomarcador asociado a la variable de respues-
ta. Por ejemplo, en un estudio controlado con placebo en el que se evaluó el efecto de la nitroglicerina
sobre la masa ósea, los investigadores utilizaron un período de preinclusión con el fármaco activo de
1 semana y excluyeron a las mujeres que interrumpieron la nitroglicerina por cefalea (16). Este diseño
incrementó al máximo la potencia, porque aumentó la proporción del grupo asignado a la intervención
que toleró el fármaco y tenía probabilidad de cumplir el tratamiento. Sin embargo, los hallazgos de los
ensayos que usan estas estrategias no pueden generalizarse a los pacientes excluidos.
El uso de una preinclusión con el fármaco activo también puede causar una infravaloración de la
incidencia de efectos adversos. En un ensayo del efecto del carvedilol sobre la mortalidad en 1904
pacientes con insuficiencia cardíaca congestiva, se usó un período de preinclusión con el fármaco
activo de 2 semanas. Durante la preinclusión, 17 personas empeoraron de su afección y 7 fallecie-
ron (17). No se aleatorizó a estas personas en el ensayo, y estos efectos adversos del tratamiento
farmacológico no se incluyeron como resultados.
1. La creación de criterios claros para la respuesta (p. ej., un nuevo déficit neurológico persistente
con lesión correspondiente en la tomografía computarizada o la resonancia magnética).
2. Recopilando los documentos médicos necesarios para realizar la evaluación (p. ej., resúmenes
del alta e informes radiológicos).
3. Con expertos que desconozcan la asignación y que revisen cada posible caso y opinen si se han
cumplido los criterios para el diagnóstico.
La adjudicación la realizan a menudo dos expertos que trabajan por separado, y luego resuelven
los casos discordantes comentándolos entre ellos o con un tercer experto. Sin embargo, la implica-
ción de múltiples expertos para la adjudicación puede ser costosa, y para respuestas sencillas en
estudios de pequeño tamaño puede ser suficientemente exacto que haya un único investigador que
realice la adjudicación. Lo importante es que cualquier persona que participe en la recogida de la
información y la adjudicación debe desconocer la asignación del tratamiento.
• Finalización por perjuicios. La razón de más peso para hacer un seguimiento de los ensayos clínicos
es asegurarse de que la intervención no se volverá perjudicial inesperadamente. Si se piensa que va
a existir claramente un perjuicio y que va a superar a los beneficios, deberá interrumpirse el ensayo.
• Finalización por efecto beneficioso. Si una intervención es más eficaz de lo que se calculó cuan-
do se diseñó el ensayo, puede observarse la mejoría estadísticamente significativa al principio del
mismo. Cuando se ha demostrado un claro efecto beneficioso, puede que no sea ético seguir el
ensayo y retrasar el ofrecimiento de la intervención a los participantes con placebo y a otros pa-
cientes que pudieran beneficiarse.
• Finalización por futilidad. Si hay muy pocas probabilidades de responder a la pregunta de la investiga-
ción, puede no ser ético seguir con un ensayo que requiere tiempo y esfuerzo, y que puede causar
molestias y riesgo a los participantes. Si un ensayo clínico está programado para continuar durante
5 años, por ejemplo, pero a los 4 hay pocas diferencias en la incidencia de respuestas en los grupos de
intervención y testigo, la «potencia condicional» (la probabilidad de rechazar la hipótesis nula en el
tiempo restante, a la vista de los resultados obtenidos hasta ese momento) se vuelve muy pequeña, y
hay que pensar en interrumpir el ensayo. A veces, los ensayos se interrumpen pronto, si los investiga-
dores no son capaces de reunir o conservar suficientes participantes para tener una potencia adecuada
para responder a la pregunta de la investigación, o si el cumplimiento de la intervención es muy escaso.
Podría ocurrir que la pregunta de la investigación se respondiera en otros ensayos antes de que
acabase uno determinado. Es deseable contar con más de un ensayo que proporcione datos sobre
una determinada pregunta, pero, si se dispone de pruebas definitivas de un efecto beneficioso o de un
efecto perjudicial en uno, puede no ser ético continuar el estudio.
La mayor parte de los ensayos clínicos incluyen un plan de seguimiento intermedio. Los ensayos
financiados por los National Institutes of Health (NIH) precisan, generalmente, un seguimiento in-
termedio, incluso si se considera que la intervención es segura (como una intervención conductista
para reducir peso). En la planificación de cada ensayo clínico deberá considerarse el modo en que
deberá realizarse el seguimiento. En ensayos pequeños con intervenciones probablemente inocuas,
los investigadores podrían controlar la seguridad o citar un solo control de seguridad y datos inde-
pendiente. En los grandes ensayos, y en los ensayos en los que los efectos adversos de la intervención
se desconocen o pueden ser peligrosos, el seguimiento intermedio suele realizarlo un comité, gene-
ralmente conocido como comité de supervisión de los datos y la seguridad (CSDS), que está forma-
do por especialistas en la enfermedad o afección que se estudia, bioestadísticos, expertos en ensayos
clínicos, expertos en ética y, a veces, un representante del grupo de pacientes que se está estudiando.
Estos expertos no intervienen en el ensayo y no deben tener ningún interés personal ni económico
en su continuación. Las directrices y procedimientos del CSDS deben detallarse por escrito antes de
empezar el estudio. La guía para desarrollar los procedimientos de los CSDS la proporcionan la FDA
y los NIH. En la tabla 11-3 se muestran los temas que hay que incluir en esas directrices.
La interrupción de un ensayo clínico debe ser siempre una decisión cuidadosa que equilibre la
responsabilidad ética frente a los participantes y el progreso del conocimiento científico. Siempre
que se interrumpa pronto un ensayo clínico se perderá la posibilidad de obtener resultados más
concluyentes. A menudo, la decisión es compleja, y deben sopesarse los posibles riesgos para los
participantes frente a los posibles beneficios. Las pruebas estadísticas de significación utilizando uno
de los métodos que compensan los múltiples análisis de los hallazgos (apéndice 11B) proporcionan
información importante, aunque no concluyente, para la interrupción de un estudio. Debe evaluar-
se la constancia de las tendencias a lo largo del tiempo y los efectos sobre las respuestas relacionadas,
y deberán considerarse cuidadosamente las consecuencias que tendrá la interrupción temprana del
estudio sobre la credibilidad de los hallazgos (ejemplo 11-2).
Hay muchos métodos estadísticos para supervisar los resultados provisionales de un ensayo. El
análisis repetido de los resultados de un estudio («múltiples vistazos») es una forma de comprobar
hipótesis múltiples y aumenta la probabilidad de que se produzca un error de tipo I. Por ejemplo, si
se usa a = 0,05 para cada prueba provisional, y se analizan los resultados de un ensayo cuatro veces
durante su realización y de nuevo al final, la probabilidad de cometer un error de tipo I aumenta
desde el 5 % a alrededor del 14 % (18). Para abordar este problema, los métodos estadísticos para la
supervisión provisional suelen disminuir el valor a de cada prueba, de modo que el valor de a total
sea próximo a 0,05. Hay múltiples métodos para decidir cómo «gastar a» (v. apéndice 11B).
Análisis de subgrupos
Los análisis de subgrupos se definen como comparaciones entre grupos aleatorizados en un subgrupo
de la cohorte del ensayo. El principal motivo de realizar estos análisis es descubrir la modificación del
efecto («interacción») en distintos subgrupos, por ejemplo, si el efecto de un tratamiento es diferente en
hombres y mujeres. Estos análisis tienen una reputación mixta, porque es fácil que se utilicen mal y
pueden llevar a conclusiones erróneas. Con cuidado, sin embargo, pueden proporcionar información
auxiliar útil y ampliar las inferencias que se pueden extraer de un ensayo clínico. Para conservar el valor
de la aleatorización deben definirse los subgrupos mediante determinaciones realizadas antes de ella. Por
ejemplo, en un estudio de denosumab para la prevención de las fracturas se encontró que el fármaco
reducía el riesgo de fracturas no vertebrales en un 20 % en mujeres con densidad ósea baja. En los análi-
sis de subgrupos planificados previamente se vio que el tratamiento era eficaz (reducción del riesgo de
fractura del 35 %; p , ,01) en mujeres con densidad ósea baja en situación inicial, y que el tratamiento no
era eficaz en mujeres con mayor densidad ósea en situación inicial (p = 0,02 para la modificación del
efecto) (22). Es importante señalar que se conserva el valor de la aleatorización: la incidencia de fracturas
entre las mujeres aleatorizadas a recibir denosumab se comparó con la incidencia en las mujeres aleato-
rizadas a recibir el placebo en cada uno de los subgrupos. Los análisis de subgrupos basados en factores
posteriores a la aleatorización, como el cumplimiento del tratamiento asignado aleatoriamente, no con-
servan la utilidad de la aleatorización y muchas veces producen resultados engañosos.
Los análisis de subgrupos pueden producir resultados engañosos por varios motivos. Como son
más pequeños que toda la población del ensayo, pueden no tener la suficiente potencia para encon-
trar diferencias importantes; los investigadores deben evitar afirmar que un fármaco «no fue eficaz»
en un subgrupo cuando el hallazgo podría reflejar una potencia insuficiente para encontrar un
efecto. A menudo, los investigadores examinan resultados en gran cantidad de subgrupos, lo que
■■ RESUMEN
1. Hay algunas variaciones en el diseño de ensayos aleatorizados que pueden aumentar notable-
mente la eficacia en las circunstancias adecuadas:
a. El diseño factorial permite realizar dos ensayos independientes por el precio de uno.
b. La aleatorización por conglomerados permite realizar estudios eficaces de grupos que se
producen de forma natural.
c. Los ensayos de ausencia de inferioridad o de equivalencia comparan una nueva interven-
ción con un «tratamiento estándar» ya existente.
d. Los diseños adaptativos incrementan la eficiencia, al permitir que se realicen cambios del
diseño basados en análisis provisionales, por ejemplo, alterando la dosis del fármaco en es-
tudio, el número de participantes o la duración del seguimiento.
2. También hay otros diseños de estudios clínicos útiles:
a. En los diseños de series cronológicas hay un único grupo en el que se comparan los resultados
para cada participante durante los períodos en los que recibe y no recibe la intervención.
b. Los diseños cruzados combinan diseños entre grupos e intragrupo para mejorar el control
de la confusión (si los efectos residuales no son problemáticos) y para minimizar el tamaño
de la muestra.
3. Los estudios para la autorización de nuevos fármacos por las autoridades de registro sanitario
se clasifican como:
a. Fase I: estudios pequeños para explorar la dosis y la seguridad.
b. Fase II: estudios aleatorizados de tamaño medio o series cronológicas para estudiar los efec-
tos del fármaco en diferentes dosis.
c. Fase III: estudios aleatorizados extensos para demostrar que los beneficios superan a los
perjuicios como base para la autorización por la FDA.
d. Fase IV: estudios de observación poscomercialización extensos para confirmar los efectos
beneficiosos y detectar efectos adversos infrecuentes.
4. Los estudios piloto son pasos importantes para determinar la aceptabilidad de las intervencio-
nes y la viabilidad, el tamaño, el coste y la duración de los estudios previstos.
5. Cuando se realiza un estudio, si un número elevado de participantes en el estudio no cumplen
la intervención del estudio o se pierden durante el seguimiento, es probable que los resultados
del estudio tengan poca potencia, tengan sesgo o no se puedan interpretar.
6. Durante un estudio es necesario el seguimiento provisional por un comité de supervisión de
los datos y la seguridad (CSDS) independiente para garantizar la calidad del estudio y para
decidir si el estudio debe finalizar precozmente por datos de perjuicio, beneficio o futilidad.
7. El análisis de intención de tratar se beneficia del control de la confusión que proporciona la
aleatorización, y debe ser el principal método de análisis para evaluar la eficacia. Los análisis
según protocolo, un método secundario que proporciona un cálculo de la magnitud del efecto
en los participantes que cumplen (interpretado con precaución), es el análisis más conservador
de los efectos perjudiciales del tratamiento.
8. Los análisis de subgrupos permiten detectar si el efecto del tratamiento está modificado por
otras variables; para reducir al mínimo las interpretaciones erróneas, el investigador debe espe-
cificar por adelantado los subgrupos, evaluar la significación estadística de las modificaciones
del efecto (interacciones) y comunicar el número de subgrupos examinados.
167
de supuestos es baja, no es probable que se rechace la hipótesis nula, y el ensayo podría inte-
rrumpirse.
En el ejemplo 11-2 se muestran ejemplos de dos estudios a los que se puso fin precozmente.
BIBLIOGRAFÍA
1. Ridker PM, Cook NR, Lee I, et al. A randomized trial of low-dose aspirin in the primary prevention of cardiovas-
cular disease in women. N Engl J Med 2005;352:1293–1304.
2. The Women’s Health Initiative Study Group. Design of the Women’s Health Initiative clinical trial and observa-
tional study. Control Clin Trials 1998;19:61–109.
3. Walsh M, Hilton J, Masouredis C, et al. Smokeless tobacco cessation intervention for college athletes: results after
1 year. Am J Public Health 1999;89:228–234.
4. Donner A, Birkett N, Buck C. Randomization by cluster: sample size requirements and analysis. Am J Epidemiol
1981;114:906–914.
5. Piaggio G, Elbourne DR, Altman DG, et al. Reporting of non-inferiority and equivalence randomized trials. An
extension of the CONSORT Statement. JAMA 2006;295:1152–1160.
6. Piaggio G, Elbourne DR, Pocock SJ, et al. Reporting of non-inferiority and equivalence randomized trials. An
extension of the CONSORT 2010 statement. JAMA 2012;308:2594–2604.
7. Kaul S, Diamond GA. Good enough: a primer on the analysis and interpretation of non-inferiority trials. Ann Intern
Med 2006;145:62–69.
8 D’Agostino RB Sr., Massaro JM, Sullivan LM, et al. Non-inferiority trials: design concepts and issues—the encoun-
ters of academic consultants in statistics. Statist Med 2003;22:169–186.
9. Chang M, Chow S, Pong A. Adaptive design in clinical research: issues, opportunities, and recommendations.
J Biopharm Stat 2006;16:299–309.
10. Chalmers T, Celano P, Sacks H, et al. Bias in treatment assignment in controlled clinical trials. N Engl J Med
1983;309:1358–1361.
11. Pocock S. Current issues in the design and interpretation of clinical trials. Br Med J 1985;296:39–42.
12. Nickles CJ, Mitchall GK, Delmar CB, et al. An n-of-1 trial service in clinical practice: testing the effectiveness of
stimulants for attention-deficit/hyperactivity disorder. Pediatrics 2006;117:2040–2046.
13. Chestnut CH III, Silverman S, Andriano K, et al. A randomized trial of nasal spray salmon calcitonin in postmenopausal
women with established osteoporosis: the prevent recurrence of osteoporotic fractures study. Am J Med 2000;109:267–276.
14. Cummings SR, Chapurlat R. What PROOF proves about calcitonin and clinical trials. Am J Med 2000;109:330–331.
15. Hulley S, Grady D, Bush T, et al. Randomized trial of estrogen plus progestin for secondary prevention of coronary
heart disease in postmenopausal women. JAMA 1998;280:605–613.
16. Jamal SA, Hamilton CJ, Eastell RJ, Cummings SR. Effect of nitroglycerin ointment on bone density and strength
in postmenopausal women. JAMA 2011;305:800–805.
17. Pfeffer M, Stevenson L. Beta-adrenergic blockers and survival in heart failure. N Engl J Med 1996;334:1396–1397.
18. Armitage P, McPherson C, Rowe B. Repeated significance tests on accumulating data. J R Stat Soc 1969;132A:235–244.
19. Friedman LM, Furberg C, DeMets DL. Fundamentals of clinical trials, 3rd ed. St. Louis, MO: Mosby Year Book,
1996.
20. Writing Group for the PEPI Trial. Effects of estrogen or estrogen/progestin regimens on heart disease risk factors
in postmenopausal women. JAMA 1995;273:199–208.
21. Writing group for WHI investigators. Risks and benefits of estrogen plus progestin in healthy postmenopausal
women. JAMA 2001;288:321-333.
22. McClung MR, Boonen S, Torring O, et al. Effect of denosumab treatment on the risk of fractures in subgroup of
women with postmenopausal osteoporosis. J Bone Mineral Res 2012;27:211–218.
23. Wang R, Lagakos SW, Ware JH, et al. Statistics in medicine—Reporting of subgroup analyses in clinical trials. NEJM
2007;357:2189–2194.
24. O’Brien P, Fleming T. A multiple testing procedure for clinical trials. Biometrics 1979;35:549–556.
25. DeMets D, Lan G. The alpha spending function approach to interim data analyses. Cancer Treat Res 1995;75:1–27.
26. Cardiac Arrhythmia Suppression Trial (CAST) Investigators. Preliminary report: effect of encainide and fle-
cainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. N Engl J Med
1989;321:406–412.
27. Physicians’ Health Study Investigations. Findings from the aspirin component of the ongoing Physicians’ Health
Study. N Engl J Med 1988;318:262–264.
L as pruebas médicas, como las que se realizan para detectar un factor de riesgo, diagnosticar una
enfermedad o valorar el pronóstico de un paciente, constituyen un tema importante en la investiga-
ción clínica. Los diseños de estudios que se comentan en este capítulo pueden usarse cuando se
estudia si, y en quién, debe realizarse una prueba concreta.
La mayor parte de los diseños de estudios de pruebas médicas se parecen a los estudios de obser-
vación de los capítulos 7 y 8. Existen, no obstante, algunas diferencias entre la mayoría de los estu-
dios de observación y los que se utilizan para evaluar las pruebas médicas. La más importante es que
el objetivo de la mayoría de los estudios de observación es identificar asociaciones estadísticamente
significativas (cap. 5) que representan relaciones causales (cap. 9). Por el contrario, la demostración
de que el resultado de una prueba tiene una asociación estadísticamente significativa con una enfer-
medad particular no es en modo alguno suficiente para determinar que la prueba tendría utilidad
clínica, y en los estudios de pruebas médicas la causalidad es muchas veces irrelevante. Por lo tanto,
los valores de la razón de posibilidades y de p son consideraciones secundarias en los estudios de
pruebas médicas, que, por el contrario, se centran en parámetros descriptivos como sensibilidad,
especificidad y cocientes de verosimilitudes, con sus correspondientes intervalos de confianza.
(o de ausencia de enfermedad) en la muestra difiere del de los pacientes a los cuales el investiga-
dor desea generalizar los resultados. En las primeras fases del desarrollo de una prueba diagnós-
tica, puede ser razonable investigar si una prueba permite distinguir entre los pacientes con en-
fermedad manifiesta en estadios avanzados y los testigos sanos; si la respuesta es no, el
investigador puede volver al laboratorio para elaborar una modificación o una prueba diferente.
Sin embargo, posteriormente, cuando la pregunta de la investigación aborde la utilidad clínica de
la prueba, el espectro de enfermedad y ausencia de enfermedad debe ser representativo de las
personas en las que se utilizará la prueba. Por ejemplo, una prueba que se haya desarrollado
comparando pacientes con cáncer pancreático sintomáticos con testigos sanos se podría evaluar
posteriormente en una muestra más difícil, pero clínicamente realista, como pacientes consecu-
tivos con dolor abdominal o pérdida de peso de causa no determinada.
Puede producirse sesgo de espectro por un espectro inadecuado de resultados de la prueba, así
como por un espectro inadecuado de la enfermedad. Por ejemplo, considere un estudio de acuer-
do interobservador en radiólogos que interpretan mamografías. Si se les pide que clasifiquen las
imágenes como normales o anormales, su acuerdo será mucho mayor si las imágenes «positivas»
que selecciona el investigador para su estudio se eligieron porque son claramente anormales, y
las imágenes «negativas» se seleccionan porque están libres de cualquier anomalía sospechosa.
• Importancia del enmascaramiento. Muchos estudios de pruebas diagnósticas conllevan juicios,
como considerar que una radiografía está alterada o si un paciente cumple los criterios para diag-
nosticar una enfermedad particular. Siempre que sea posible, los investigadores deben ocultar otra
información sobre el paciente al que se está estudiando a las personas que interpreten los resul-
tados de la prueba. En un estudio de la contribución de la ecografía al diagnóstico de la apendi-
citis, por ejemplo, los profesionales que interpreten las ecografías no deben conocer los resultados
de la historia clínica ni de la exploración física1. Igualmente, el anatomopatólogo que realice la
determinación final de quién tiene apendicitis y quién no (el método de referencia con el que se
compararán los resultados de la ecografía) no debe saber los resultados de la exploración ecográ-
fica. El enmascaramiento evita que el sesgo, las ideas preconcebidas y la información de otras
fuentes distintas a la prueba afecten a estos juicios.
• Fuentes de variación, posibilidad de generalizar y esquema de muestreo. Para algunas preguntas de
la investigación, las diferencias entre los pacientes son la principal fuente de variación en los resulta-
dos de una prueba. Por ejemplo, algunos lactantes con bacteriemia (bacterias en la sangre) tendrán
leucocitosis, mientras que otros no. No se espera que la proporción de lactantes con bacteriemia y
con leucocitosis varíe mucho según el laboratorio que realice el hemograma. Por otro lado, los resul-
tados de muchas pruebas dependen de la persona que realiza las pruebas o del entorno en que se han
realizado. Por ejemplo, la sensibilidad, la especificidad y la fiabilidad interobservador para la inter-
pretación de las mamografías depende de la capacidad y de la experiencia del lector, así como de la
calidad del equipo. Cuando la exactitud puede variar de un lector a otro o de un centro a otro, es útil
estudiar a diferentes lectores e instituciones para poder evaluar la homogeneidad de los resultados.
• Método de referencia para el diagnóstico. Algunas enfermedades tienen un método de referencia
que generalmente se acepta que indica la presencia o ausencia de la enfermedad en estudio, como el
estudio anatomopatológico de una muestra de una biopsia hística para diagnosticar cáncer. En otras
enfermedades, el método de referencia es una definición, como definir la enfermedad coronaria como
una obstrucción del 50 % de al menos una arteria coronaria principal observada mediante angiografía
coronaria. Otras, como las enfermedades reumatológicas, precisan que un paciente tenga un número
mínimo de síntomas, signos o alteraciones analíticas para cumplir los criterios que definen la enfer-
medad. Por supuesto, si cualquier síntoma, signo o prueba de laboratorio utilizados para diagnosticar
una enfermedad se utilizan como parte del método de referencia, un estudio que los compare con ese
método de referencia puede hacer que parezcan falsamente buenos. Esto se denomina sesgo de in
corporación, porque se incorpora la prueba que se está estudiando al método de referencia; evitar este
sesgo es uno de los motivos que se han señalado previamente para el enmascaramiento.
También es importante considerar si el método de referencia es realmente de referencia. Si el
método de referencia es imperfecto, puede hacer que una prueba parezca peor de lo que realmen-
te es (si en realidad la prueba tiene mejor rendimiento que el método de referencia) o mejor de
lo que realmente es (si la prueba índice comete los mismos errores que el método de referencia).
• ¿Qué constituye una prueba positiva? Particularmente, si una prueba tiene resultados continuos
(como la concentración sérica de eritropoyetina), un investigador puede sucumbir a la tentación
de analizar todos los resultados de las personas con la variable respuesta (p. ej., anemia de las
enfermedades crónicas) y de personas que no tienen dicha variable (otros tipos de anemia), y
después seleccionar el mejor valor de corte para definir una prueba positiva. Sin embargo, esto
es un tipo de sobreajuste (es decir, la variación aleatoria de la muestra particular que se estudia
hace que el rendimiento de la prueba parezca mejor de lo que es en la población). Otros aborda-
jes mejores son basar el valor de corte en el conocimiento clínico o biológico de otros estudios, o
dividir las pruebas continuas en intervalos y después calcular el cociente de verosimilitudes de
cada uno de los intervalos (v. el texto siguiente). Para minimizar el sobreajuste, los valores de cor-
te para definir los intervalos se deben especificar por adelantado, o se deben utilizar números
redondos razonables. El sobreajuste es un problema importante a la hora de elaborar reglas de pre-
dicción clínica, que se discuten más adelante en este capítulo.
1
Por otra parte, la exactitud de la anamnesis y la exploración física pueden, por sí solas, compararse con la exactitud de
la anamnesis y la exploración física más la ecografía.
un radiólogo observa la misma radiografía en dos ocasiones, ¿qué porcentaje de veces estará de acuerdo
consigo mismo en la interpretación, asumiendo que no recuerda su interpretación previa? La variabilidad
interobservador describe la falta de reproducibilidad entre dos o más observadores: si otro radiólogo
observa la misma radiografía, ¿qué probabilidad hay de que esté de acuerdo con el primer radiólogo?
Muchas veces, el nivel de reproducibilidad (o su ausencia) es la principal pregunta de la investi-
gación. En otros casos, la reproducibilidad se estudia con el fin de mejorar la calidad, ya sea como
parte de la asistencia clínica o como parte de un estudio de investigación. Cuando la reproducibilidad
es baja (porque la variabilidad intraobservador o interobservador es grande), no es probable que una
determinación sea útil, y puede que necesite mejorarse o abandonarse.
Los estudios de reproducibilidad en sí mismos abordan la precisión, no la exactitud ni la validez
(cap. 4), por lo que todos los observadores pueden estar de acuerdo entre sí y estar equivocados.
Cuando se dispone de un método de referencia, los investigadores de la reproducibilidad intraobser-
vador e interobservador pueden comparar las observaciones realizadas en los sujetos con un método
de referencia para determinar la exactitud. Cuando no se dispone de método de referencia, los in-
vestigadores deben utilizar los otros métodos para evaluar la validez que se describen en el capítulo 4.
Diseños
El diseño básico para evaluar la reproducibilidad de las pruebas supone comparar los resultados de
pruebas de más de un observador o que se han realizado en más de una ocasión. En pruebas que
conllevan varias etapas, y en las que diferencias en cualquiera de esas fases podrían afectar a la re-
producibilidad, el investigador deberá decidir la amplitud del objetivo del estudio. Por ejemplo,
medir el acuerdo interobservador de anatomopatólogos en un conjunto de portaobjetos de frotis de
citologías cervicovaginales en un solo hospital puede sobrestimar la reproducibilidad general de los
frotis de las citologías cervicovaginales, porque no se detectaría la variabilidad en el modo de obten-
ción de la muestra y en la preparación del frotis.
La magnitud en la que un investigador debe aislar los pasos que podrían producir desacuerdos
entre observadores depende, en parte, de los objetivos de su estudio. La mayor parte de los estudios
deben calcular la reproducibilidad de todo el proceso de la prueba, porque es lo que determina si
merece la pena realizarla. Por otro lado, un investigador que esté desarrollando o mejorando una
prueba puede desear centrarse en los pasos específicos que son problemáticos para mejorar el pro-
ceso. En cualquier caso, el investigador debe mencionar el proceso exacto para obtener el resultado
de la prueba en el manual de instrucciones (caps. 4 y 17), y describirlo después en la sección de
metodología cuando comunique los resultados del estudio.
Análisis
• Variables categóricas. La medida más sencilla del acuerdo interobservador es el porcentaje de
observaciones en las que los observadores están exactamente de acuerdo. Sin embargo, cuando
las observaciones no están distribuidas homogéneamente en las distintas categorías (p. ej., cuan-
do la proporción de resultados «anormales» en una prueba dicotómica no es próxima al 50 %),
puede ser difícil interpretar el acuerdo porcentual, porque no tiene en consideración el acuerdo
que podría deberse simplemente a que dos observadores tienen algunos conocimientos sobre la
prevalencia de la alteración. Por ejemplo, si el 95 % de los participantes son normales, dos obser-
vadores que escogen al azar qué 5 % de las pruebas van a considerar «anómalo» estarán de acuer-
do en que los resultados son «normales» alrededor del 90 % de las veces. El acuerdo porcentual
también es una medida subóptima cuando una prueba tiene más de dos resultados posibles que
están ordenados intrínsecamente (p. ej., normal, limítrofe, anormal), porque el desacuerdo parcial
(p. ej., normal/limítrofe) cuenta igual que el desacuerdo completo (normal/anormal).
Una medida mejor del acuerdo interobservador, denominada kappa (k) (apéndice 12A), de-
termina la magnitud del acuerdo más allá del que cabría esperar por el conocimiento por los
observadores de la prevalencia de la alteración2, y puede tener en consideración el acuerdo parcial.
El valor de k oscila entre –1 (desacuerdo perfecto) y 1 (acuerdo perfecto). Un valor de 0 indica
2
A menudo se describe k como la magnitud del acuerdo que rebasa el que cabe esperar por el azar, aunque la estimación
del acuerdo esperado por el azar se basa en la prevalencia de la alteración asignada por cada uno de los observadores.
que no hay más acuerdo de lo que cabría esperar por las estimaciones de los observadores de la
prevalencia de cada nivel de alteración. En general, se considera que valores de k superiores a
0,8 son muy buenos; se considera que los valores entre 0,6 y 0,8 son buenos.
• Variables continuas. Las medidas de la variabilidad interobservador para variables continuas
dependen del diseño del estudio. Algunos estudios miden el acuerdo entre dos máquinas o mé-
todos (p. ej., temperaturas obtenidas con dos termómetros diferentes). La mejor forma de descri-
bir los datos de un estudio de este tipo es obtener los datos de los pares de mediciones (cada par
está formado por dos mediciones realizadas casi al mismo tiempo en el mismo sujeto) y describir
la diferencia media entre sus pares con alguna medida de la dispersión de las variables, como la
desviación típica o con qué frecuencia la diferencia supera un umbral clínicamente importante.
Por ejemplo, si se cree que una diferencia clínicamente importante de la temperatura corporal es
de 0,3 °C, un estudio que compare temperaturas de termómetros timpánicos y rectales podría
calcular la diferencia media (± desviación típica) entre las dos técnicas, y describir con qué fre-
cuencia las dos determinaciones difieren en más de 0,3 °C3.
En otros estudios se examina la variabilidad entre métodos de análisis, observadores o instru-
mentos de estudio en un gran grupo de técnicos, laboratorios o máquinas diferentes. Estos resul-
tados suelen resumirse usando el coeficiente de variación (CV), que es la desviación típica de
todos los resultados obtenidos de una sola muestra dividida por el valor medio. Muchas veces se
comparan los CV de dos o más métodos o instrumentos diferentes; el que tiene el menor CV es
el más preciso (aunque puede no ser el más exacto).
Diseños
• Muestreo. Los estudios de pruebas diagnósticas pueden tener diseños análogos a los estudios de
casos y testigos o los estudios transversales. En el diseño de un estudio diagnóstico de casos y
testigos, se muestrea por separado a los que tienen y los que no tienen la enfermedad, y se com-
paran los resultados de la prueba en los dos grupos.
Los estudios de pruebas en los que se obtienen muestras por separado de los que tienen y los
que no tienen la enfermedad están sujetos a sesgo en la medición o la notificación del resulta-
do de la prueba, porque su medición necesariamente se produce después de la medición del es-
tado de la enfermedad. Además, los estudios con este esquema de muestreo habitualmente no
pueden usarse para calcular los valores predictivos (se comenta en el texto siguiente).
Una muestra consecutiva de pacientes a los que se evalúa para un determinado diagnóstico
proporcionará, generalmente, resultados más válidos e interpretables, incluyendo los valores pre-
dictivos. Por ejemplo, Tokuda y cols. (3) observaron que la intensidad de los escalofríos (como
sentir frío o sacudidas en todo el cuerpo bajo una manta gruesa) era un buen factor predictivo de
bacteriemia en una serie de 526 pacientes adultos y febriles consecutivos en el servicio de urgen-
cias. Como se incluyó a los participantes antes de conocerse si tenían o no bacteriemia, el espec-
tro de pacientes de este estudio debe ser razonablemente representativo de los pacientes que
acuden a los servicios de urgencias con fiebre.
Un método de muestreo que denominamos prueba en tándem se usa a veces para comparar entre
sí dos pruebas (supuestamente imperfectas). Ambas pruebas se realizan en una muestra representa-
3
Aunque se utiliza con frecuencia, es mejor evitar el coeficiente de correlación en estudios de la fiabilidad de las pruebas
de laboratorio, porque depende mucho de los valores extremos y no permite que los lectores determinen la frecuen-
cia con la que tienen importancia clínica las diferencias entre las dos medidas. También se deben evitar los intervalos de
confianza de la diferencia media, porque su dependencia del tamaño de la muestra hace que puedan llevar a error. Un
intervalo de confianza estrecho para la diferencia media entre las dos medidas no implica que, en general, haya un acuer-
do elevado, únicamente que la diferencia media entre ellas se mide de forma precisa. Se puede ver un análisis adicional de
estos aspectos en Bland y Altman (1), y en Newman y Kohn (2).
tiva de pacientes, y el método de referencia se aplica selectivamente a los pacientes con resultados
positivos en una o en ambas pruebas. El método de referencia también debe aplicarse a una muestra
aleatoria de pacientes con resultados negativos concordantes para asegurarse de que realmente no
tienen la enfermedad. Este diseño, que permite al investigador determinar qué prueba es más exacta
sin el gasto de usar el método de referencia en todos los pacientes con resultados negativos en la
prueba, se ha utilizado en estudios que comparan diferentes métodos de citología cervical (4).
Los estudios de pruebas pronósticas necesitan diseños de cohortes. En un diseño prospectivo,
la prueba se realiza al principio y se sigue a los pacientes para observar quién presenta la respues-
ta de interés. Un estudio de cohortes retrospectivo se puede utilizar cuando se dispone de una
nueva prueba, como la viremia en pacientes infectados por el VIH, si se dispone de una cohorte
definida previamente con muestras de sangre almacenadas. La viremia puede determinarse en la
sangre almacenada para observar si predice el pronóstico. El diseño de casos y testigos anidado
(cap. 8) es particularmente atractivo si la respuesta de interés es rara y la prueba es cara.
• Variable predictiva: resultado de la prueba. Aunque es más fácil pensar en los resultados de una
prueba diagnóstica como positivos o negativos, muchas pruebas tienen resultados categóricos,
ordinales o continuos. A fin de aprovechar toda la información disponible en la prueba, los inves-
tigadores generalmente deben describir los resultados de las pruebas ordinales o continuas, en
lugar de dicotomizarlos como «normal o anormal». La mayor parte de las pruebas son más indi-
cativas de enfermedad si son muy anormales que si son levemente anormales, y tienen un inter-
valo limítrofe en los que no proporcionan mucha información.
• Variable de respuesta: enfermedad (o su respuesta). La variable de respuesta en el estudio de
una prueba diagnóstica es la presencia o la ausencia de la enfermedad, que en situación óptima
se determina mediante un método de referencia. Si es posible, la evaluación de la respuesta no
debe verse influida por los resultados de la prueba diagnóstica que se está estudiando. La forma
óptima de realizarlo es ocultando la información a las personas que realizan la prueba de referen-
cia, para que no conozcan los resultados de la prueba índice.
A veces, particularmente en el caso de pruebas de cribado, la aplicación uniforme del méto-
do de referencia no es ética ni viable. Por ejemplo, Smith-Bindman y cols. (5) estudiaron la
exactitud de la mamografía según las características del radiólogo que las interpreta. En las mu-
jeres con mamografías positivas se realizaron pruebas adicionales, finalmente con evaluación
anatomopatológica como método de referencia. Sin embargo, no es razonable realizar biopsias
mamarias a mujeres cuyas mamografías son negativas. Por tanto, para determinar si estas mu-
jeres tienen mamografías falsamente negativas, los autores relacionaron sus resultados de las
mamografías con registros de tumores locales, y consideraron que el método de referencia era el
hecho de si se diagnosticó o no cáncer de mama en el año que siguió a la mamografía. Esta so-
lución supone que todos los cánceres de mama que existen en el momento de realizar la ma-
mografía serán diagnosticados en 1 año, y que todos los cánceres de mama diagnosticados en
1 año ya estaban presentes en el momento de la mamografía. La medición del método de refe-
rencia de forma diferente, dependiendo del resultado de la prueba, genera la posibilidad de
sesgo, que se discute con más detalle al final del capítulo, aunque en ocasiones es la única op-
ción posible.
La variable de respuesta en un estudio de una prueba pronóstica supone lo que les ocurre a
los pacientes con una enfermedad, como el tiempo que viven, qué complicaciones presentan o
qué tratamientos adicionales precisan. De nuevo, es importante el enmascaramiento, especial-
mente si los médicos que atienden a los pacientes pueden tomar decisiones basadas en los facto-
res pronósticos que se están estudiando. Por ejemplo, Rocker y cols. (6) observaron que las esti-
maciones del pronóstico que realizaban los médicos que atendían a los pacientes, pero no las de
las enfermeras clínicas, se asociaban independientemente a la mortalidad en la unidad de cuidados
intensivos. Podría deberse a que los médicos tenían más experiencia en la estimación de la gra-
vedad de la enfermedad, pero también podría deberse a que las estimaciones del pronóstico de los
médicos tenían mayor efecto que las de las enfermeras en las decisiones de retirar las medidas de
apoyo vital. Para distinguir entre estas posibilidades, sería útil obtener estimaciones del pronós-
tico de otros médicos, además de los que intervienen en la toma o la ejecución de las decisiones
sobre la retirada de las medidas de apoyo.
Análisis
• Sensibilidad, especificidad y valores pronóstico positivos y negativos. Cuando se comparan los
resultados de una prueba dicotómica con un método de referencia dicotómico, los resultados
pueden resumirse en una tabla de 2 2 (tabla 12-2). La sensibilidad de una prueba se define
como la proporción de participantes con la enfermedad en los que la prueba da la respuesta co-
rrecta (es decir, es positiva), mientras que la especificidad es la proporción de participantes sin
la enfermedad en los que la prueba da la respuesta correcta (es decir, es negativa). Si la muestra
de pacientes a los que se estudia es representativa del grupo de pacientes en los que se utilizaría
la prueba, se pueden calcular dos parámetros adicionales. El valor predictivo positivo es la pro-
porción de personas con un resultado positivo en la prueba que tienen la enfermedad; el valor
predictivo negativo es la proporción de personas con un resultado negativo en la prueba que no
tienen la enfermedad.
• Curvas de eficacia diagnóstica. Muchas pruebas diagnósticas proporcionan resultados ordinales
o continuos. Con estas pruebas puede haber varios valores de sensibilidad y especificidad, depen-
diendo del valor de corte elegido para definir una prueba positiva. Esta concesión mutua entre
sensibilidad y especificidad puede representarse usando una técnica gráfica desarrollada original-
mente en electrónica: curvas de eficacia diagnóstica o curvas ROC (receiver operating characte-
ristic). El investigador selecciona varios valores de corte y determina la sensibilidad y la especifi-
cidad en cada punto. Representa después la sensibilidad (tasa de positivos verdaderos) en el eje
de ordenadas (Y) en función de 1 – especificidad (tasa de positivos falsos) en el eje de absci-
sas (X). Una prueba ideal es una que alcance la esquina superior izquierda de la gráfica (un 100 %
de positivos verdaderos y ningún positivo falso). Una prueba sin valor sigue la diagonal desde la
esquina inferior izquierda hasta la superior derecha: en cualquier valor de corte, la tasa de posi-
tivos verdaderos es la misma que la de positivos falsos (fig. 12-1). El área bajo la curva ROC, que,
por tanto, oscila desde 0,5 para una prueba fútil hasta 1 para una prueba perfecta, es un resumen
útil de la exactitud general de una prueba, y puede utilizarse para comparar la exactitud de dos o
más pruebas.
• Cocientes de verosimilitudes. Aunque la información en una prueba diagnóstica con resultados
continuos u ordinales puede resumirse usando curvas ROC de sensibilidad y especificidad, exis-
te una forma mejor. Los cocientes de verosimilitudes permiten que el investigador se beneficie de
toda la información de una prueba. Para cada resultado de una prueba, el cociente de verosimili-
tudes es la proporción de la posibilidad de ese resultado en alguien con la enfermedad con res-
pecto a la posibilidad de ese resultado en alguien sin la enfermedad.
P (resultado | enfermedad)
Cociente de verosimilitudes =
P (resultado | ausencia de enfermedad)
3UXHED~WLO
3RVLWLYRVYHUGDGHURVVHQVLELOLGDG
'LIHUHQWHV
YDORUHVGHFRUWH
SDUDFRQVLGHUDU
ODSUXHED
SRVLWLYD
3UXHEDQR~WLO
3RVLWLYRVIDOVRV²HVSHFLILFLGDG
■■FIGURA 12-1. Curvas de eficacia diagnóstica (curvas ROC) para pruebas útiles y no útiles.
4
Para las pruebas dicotómicas, el cociente de verosimilitudes de una prueba positiva es
Sensibilidad
1 – Especificidad
y el cociente de verosimilitudes de una prueba negativa es
1 – Sensibilidad
Especificidad
En Newman y Kohn (2) se presentan comentarios detallados sobre cómo utilizar los cocientes de verosimilitudes y la
información previa (la probabilidad previa de la enfermedad) para estimar la probabilidad de que un paciente tenga
la enfermedad después de conocer el resultado de la prueba (la probabilidad posterior). La fórmula es:
Posibilidad previa cociente de verosimilitudes = posibilidad posterior
donde las posibilidades previa y posterior se relacionan con sus respectivas probabilidades mediante la fórmula
P
Posibilidad =
1–P
donde P (ascenso|caso) es la proporción de casos en los que el modelo con el nuevo marcador lleva-
ría a que el paciente ascendiera a una categoría de riesgo superior, y los otros términos se definen en
consecuencia. Por ejemplo, Shepherd y cols. (12) encontraron que la adición del volumen fibroglan-
dular calculado en la mamografía (es decir, la cantidad estimada de tejido mamario con riesgo de
neoplasia maligna) a un modelo que incluía los factores de riesgo clínicos tradicionales mejoraba la
predicción de la aparición posterior de un carcinoma de mama o un carcinoma ductal in situ con un
MNR del 21 % (p = 0,0 001).
%DFWHULDVHQOD
WLQFLyQGHJUDP
GHO/&5
6t 1R
3RUFHQWDMH
5LHVJRHOHYDGR
GHQHXWUyILORV
HQHO/&5
> ≤
5HFXHQWRGH
5LHVJREDMR
QHXWUyILORVHQHO
/&5FpOXODVO
>/ ≤/
5LHVJRHOHYDGR &DPELRGHOHVWDGR
PHQWDO
6t 1R
5LHVJRHOHYDGR 5LHVJREDMR
■■FIGURA 12-2. Ejemplo de un árbol de clasificación y regresión para distinguir la meningitis bacteriana de la menin-
gitis vírica en adultos (16). Los recuadros blancos sirven para dividir a los pacientes en los que tienen riesgo elevado de
meningitis bacteriana (recuadros rojos) y los que tienen riesgo bajo (recuadros verdes); los números muestran las pro-
porciones con meningitis bacteriana5 en las «ramas terminales» roja y verde del árbol.
los resultados negativos falsos sea mayor que la de los resultados positivos falsos. En la figura 12-2 se
muestra un ejemplo de un árbol de este tipo que se utiliza para predecir la meningitis bacteriana en
adultos con meningitis (16).
Independientemente del método elegido para elaborar la regla, es importante que se valide en un
grupo de pacientes diferente al grupo en el que se obtuvo. Un motivo para esto es evitar el sobreajus
te (es decir, aprovechar la tendencia de una única muestra al error aleatorio para aumentar la fuerza
predictiva de algunos factores). Los sobreajustes se pueden abordar dividiendo la cohorte en los
conjuntos de datos de derivación (habitualmente el 50 %-67 % de la muestra) y de validación, y
estudiando con los datos de la cohorte de validación la regla obtenida en la cohorte de derivación.
Sin embargo, esto valida las reglas únicamente en una población similar a aquella en la que se obtu-
vo (es decir, aborda únicamente la validez interna). Para abordar la validez externa es importante
determinar en qué medida la regla tiene buen rendimiento en diferentes poblaciones («validación
prospectiva») (17).
5
Los números de las figuras incluyen los conjuntos de datos de derivación y validación.
decisiones clínicas, porque no aportan nueva información aparte de la que ya se conocía (p. ej., por
la historia clínica y la exploración física). Los diseños de estudios en esta sección abordan el rendi
miento de las pruebas diagnósticas y sus efectos sobre las decisiones clínicas.
Tipos de estudios
• Estudios de rendimiento diagnóstico. Estos estudios permiten responder preguntas como:
• Cuando se solicita una prueba para una determinada indicación, ¿con qué frecuencia es anormal?
• ¿Puede un resultado anormal de una prueba predecirse a partir de otra información disponible
en el momento de realizar la prueba?
• ¿En qué grupos de pacientes tiene la prueba la máxima y la mínima utilidad?
• ¿Qué ocurre con los pacientes con resultados anormales? ¿Los beneficios superan a los perjuicios?
Los estudios de rendimiento diagnóstico calculan la proporción de pruebas positivas entre
pacientes con una indicación particular para la realización de la prueba. Lamentablemente, mos-
trar que una prueba es positiva a menudo no es suficiente para indicar que la prueba debe reali-
zarse. Sin embargo, un estudio de rendimiento diagnóstico en el que se muestra que una prueba
casi siempre es negativa puede ser suficiente para cuestionar su uso para esa indicación.
Por ejemplo, Siegel y cols. (18) estudiaron el rendimiento de los coprocultivos en pacientes
hospitalizados con diarrea. Aunque no se realizaron coprocultivos a todos los pacientes con dia-
rrea, parece razonable suponer que los que la sufren, si es que hay alguno, tienen más probabilidad
de tener un cultivo positivo que los que no. En total, solo 40 (2 %) de 1 964 coprocultivos fueron
positivos. Además, ninguno de los resultados positivos correspondía a los 997 pacientes que ha-
bían estado en el hospital durante más de 3 días. Como es poco probable que un coprocultivo
negativo afecte al tratamiento en estos pacientes con una probabilidad baja de diarrea bacteriana,
los autores concluyeron que los coprocultivos tienen poca utilidad en pacientes con diarrea que
han estado en el hospital más de 3 días.
• Estudios de toma de decisiones clínicas de antes/después. Estos diseños abordan directamente
el efecto del resultado de una prueba sobre las decisiones clínicas. El diseño suele conllevar una
comparación entre lo que los médicos hacen (o dicen que harían) antes y después de obtener los
resultados de una prueba diagnóstica. Por ejemplo, Carrico y cols. (19) estudiaron prospectiva-
mente la utilidad de la ecografía abdominal en 94 niños con dolor abdominal inferior agudo.
Pidieron a los médicos que habían solicitado las ecografías que registraran su impresión diagnós-
tica y cuál sería su tratamiento si no dispusieran de una ecografía. Tras realizar las ecografías y
proporcionar a los médicos los resultados, les preguntaron de nuevo. Observaron que la informa-
ción ecográfica cambió el plan inicial del tratamiento en el 46 % de los pacientes.
Por supuesto (como se comenta más adelante), la alteración de una decisión clínica no garan-
tiza que un paciente se vaya a beneficiar, y algunas decisiones alteradas realmente podrían ser
perjudiciales. Los estudios en los que se demuestran los efectos sobre las decisiones tienen su
máxima utilidad cuando la evolución natural de la enfermedad y la eficacia del tratamiento están
claras. En el ejemplo anterior, probablemente habría un beneficio al cambiar la decisión de «alta
hospitalaria» a «laparotomía» en niños con apendicitis, o de «laparotomía» a «observación» en
niños con dolor abdominal inespecífico.
Una opción sencilla es estudiar a todo aquel al que se realice la prueba, como en un estudio de la
tasa de devolución de tarjetas postales tras las pruebas cutáneas de la tuberculosis. Por otro lado,
para algunas preguntas, los participantes del estudio solo pueden ser aquellos con resultados posi-
tivos o positivos falsos. Por ejemplo, Bodegard y cols. (20) estudiaron familias de lactantes que ha-
bían obtenido resultados positivos falsos en una prueba de detección de hipotiroidismo en recién
nacidos, y observaron que los temores sobre la salud del niño persistieron al menos 6 meses en el
20 % de las familias.
Pueden producirse efectos adversos no solo por resultados positivos falsos, sino también por la
propia prueba. Por ejemplo, Rutter y cols. (21) utilizaron una historia clínica electrónica para hacer
un estudio de cohortes retrospectivo de acontecimientos adversos graves (perforación, hemorragia
y diverticulitis aguda) en los 30 días siguientes a una colonoscopia en los pacientes de la Group
Health Cooperative de Puget Sound.
Análisis
Los resultados de estos estudios suelen poder resumirse con estadísticos descriptivos simples, como
medias y desviaciones típicas, medianas, recorridos y distribuciones de frecuencia. Las variables
dicotómicas, como la incidencia de efectos adversos, pueden resumirse con proporciones y sus in-
tervalos de confianza (IC) del 95 %. Por ejemplo, en el estudio ya mencionado, Rutter y cols. (21)
encontraron perforaciones en 21/43 456 colonoscopias, lo que corresponde al 0,48 por 1 000, con
un intervalo de confianza del 95 % desde 0,30 hasta 0,74 por 1 000.
Generalmente no hay líneas claras que dividan las pruebas en las que son y no son viables, o en
las que tienen o no un riesgo inaceptable de efectos adversos. Por este motivo es útil, en la etapa de
diseño del estudio, especificar los criterios para decidir que la prueba es aceptable. ¿Qué tasa de se-
guimiento será insuficiente? ¿Qué incidencia de complicaciones será demasiado alta?
Diseños
No es probable que la prueba en sí tenga ningún beneficio directo sobre la salud del paciente. Solo
cuando el resultado de la prueba conduce a intervenciones preventivas o terapéuticas eficaces es cuando
el paciente puede obtener beneficio (22). Por tanto, una advertencia importante sobre los estudios de
resultados de pruebas es que la variable predictiva que se está estudiando no es solo una prueba (p. ej.,
una prueba de sangre oculta en heces), sino también toda la asistencia médica que se realiza posterior-
mente (p. ej., procedimientos para el seguimiento de los resultados anormales, colonoscopia, etc.).
Es mejor si la variable predictiva de estos estudios es una medida de morbilidad o mortalidad, no
simplemente un diagnóstico o la fase de la enfermedad. Por ejemplo, mostrar que los varones en los
que se ha realizado una detección selectiva de cáncer de próstata presentan una mayor proporción de
cánceres diagnosticados en un estadio precoz no establece por sí solo el valor de esa detección (23, 24).
Muchos de esos cánceres no habrían producido ningún problema si no se hubieran detectado.
La respuesta debe ser lo suficientemente amplia para incluir los posibles efectos adversos de la
prueba y el tratamiento, y puede incluir también los efectos psicológicos y médicos de la prueba. Por
lo tanto, en un estudio del valor de la detección del antígeno prostático específico para el cáncer de
próstata, se debería incluir la impotencia y la incontinencia relacionadas con el tratamiento, además
de la morbilidad y la mortalidad relacionadas con el cáncer. Cuando se estudia a muchas personas
que se espera que puedan beneficiarse (como suele ocurrir), pueden ser importantes los efectos
adversos menos graves en los que no sufren la enfermedad, porque se producirán con mucha más
frecuencia. Mientras que los resultados negativos de la prueba pueden aliviar y reconfortar a algunos
pacientes (25), en otros, los efectos psicológicos de los resultados positivos falsos, la pérdida de los
seguros y los efectos secundarios molestos (pero no mortales) de los fármacos preventivos o la ciru-
gía pueden superar a los infrecuentes beneficios (24).
• Estudios de observación. Los estudios de observación suelen ser más rápidos y fáciles, y menos
costosos, que los ensayos clínicos. Sin embargo, tienen importantes inconvenientes, especialmen-
te porque los pacientes a los que se estudia tienden a diferir de los que no son estudiados en as-
pectos importantes que pueden relacionarse con el riesgo de sufrir una enfermedad o con su
pronóstico. Por ejemplo, los que se hacen la prueba podrían tener un riesgo relativamente bajo
de presentar una respuesta sanitaria adversa, porque las personas que se someten voluntariamen-
te a pruebas médicas y tratamientos tienden a estar más sanas que el promedio, un ejemplo del
sesgo del voluntario. Por otro lado, los que se realizan la prueba pueden tener un riesgo relativa-
mente alto, porque es más probable que se hagan pruebas a pacientes cuando hay datos que
pueden llevarlos a ellos o a sus médicos a estar preocupados por una enfermedad, un ejemplo de
confusión por indicación de la prueba (cap. 9).
Otro problema habitual en los estudios de observación de pruebas es la falta de normalización
y documentación de todas las intervenciones o cambios del tratamiento que siguen a los resulta-
dos positivos. Si una prueba no mejora la respuesta en un marco concreto, podría ser porque el
seguimiento de los resultados anormales no fue bueno, porque los pacientes no cumplieron las
intervenciones planificadas o porque la intervención concreta usada en el estudio no era la ideal.
• Ensayos clínicos. El diseño más riguroso para evaluar el beneficio de una prueba diagnóstica es un
ensayo clínico, en el que se asigna aleatoriamente a los participantes a que se les haga o no la prue-
ba. Probablemente, el resultado de la prueba se utilice después para orientar el tratamiento médico.
Pueden medirse y compararse diversas mediciones en los dos grupos. Los ensayos aleatoriza
dos reducen al mínimo o eliminan la confusión y el sesgo de selección, y permiten medir todas las
respuestas relevantes como mortalidad, morbilidad, coste y satisfacción. La normalización de
la prueba y el proceso de intervención permite que otros autores puedan reproducir los resultados.
Análisis
Los análisis de los estudios del efecto de las pruebas sobre la respuesta son los adecuados al diseño
específico utilizado: cocientes de probabilidades para estudios de casos y testigos, y cocientes de
riesgos o cocientes de riesgos instantáneos para estudios de cohortes y ensayos clínicos. Una forma
conveniente para expresar los resultados es proyectar los resultados del procedimiento de estudio a
una cohorte extensa (p. ej., de 100 000), y realizar una lista con el número de pruebas iniciales,
pruebas de seguimiento, pacientes tratados, efectos secundarios del tratamiento, costes y muertes en
los grupos estudiados y no estudiados.
Exclusión incorrecta
Cuando se calculan proporciones, es inadecuado excluir participantes del numerador sin excluir
participantes similares del denominador. Por ejemplo, en un estudio de análisis de laboratorio habi-
tuales en pacientes del servicio de urgencias con convulsiones de nueva aparición (30), 11 de 136 pa-
cientes (8 %) tenían una alteración de laboratorio corregible (p. ej., hipoglucemia) como causa de la
convulsión. En 9 de 11 pacientes, sin embargo, se sospechó la alteración por la historia clínica o
la exploración física. Los autores, por lo tanto, comunicaron que solo 2 de 136 pacientes (1,5 %)
presentaban alteraciones no sospechadas por la historia clínica o la exploración física. Pero, si se
excluye del numerador a todos los pacientes con alteraciones sospechadas, se debería haber exclui-
do a los mismos pacientes también del denominador. El denominador correcto para esta proporción
es, por tanto, no todos los 136 pacientes a los que se estudió, sino solo aquellos en los que no se
sospechó la existencia de alteraciones analíticas por la historia clínica o la exploración física.
Otro ejemplo es un estudio de la ecografía para diagnosticar invaginación en niños pequeños (32).
A todos los niños con una ecografía indicativa de invaginación se les realizó el método de referencia,
un enema opaco. Por el contrario, a la mayoría de los niños con una ecografía negativa se les obser-
vó en el servicio de urgencias y se descartó clínicamente la invaginación. En casos de invaginación
que se resolvieron espontáneamente, los dos métodos de referencia darían resultados diferentes: el
enema opaco sería positivo, mientras que el período de seguimiento sería negativo. En el apéndi-
ce 12C se presenta una ilustración numérica del sesgo de verificación diferencial en este estudio.
El sesgo de verificación diferencial se puede evitar aplicando el mismo método de referencia a
todos los participantes. Cuando esto no es posible (como en el estudio de mamografía), los investi-
gadores deben intentar por todos los medios utilizar otros estudios (p. ej., estudios autópsicos en los
que se examine la prevalencia de cánceres asintomáticos en pacientes que fallecieron por otras cau-
sas en un estudio de pruebas de cribado del cáncer), para evaluar hasta qué punto este sesgo puede
amenazar la validez del estudio.
■■ RESUMEN
1. Puede valorarse la utilidad de las pruebas médicas usando diseños que abordan una serie de
preguntas cada vez más rigurosas (v. tabla 12-1). En la mayor parte, los diseños de observación
habituales proporcionan estadísticos descriptivos de las características de pruebas con sus in-
tervalos de confianza.
2. Se debe elegir a los participantes de un estudio de una prueba diagnóstica de entre los pacientes
que tienen un espectro de enfermedad y ausencia de enfermedad adecuado para la pregunta de
la investigación, y que en la mayoría de los casos reflejen el uso previsto de la prueba en la
práctica clínica.
3. Si es posible, el investigador debe ocultar a las personas que interpretan los resultados de la
prueba y determinan el método de referencia el resto de la información de los pacientes en los
que se realice la prueba.
4. Medir la reproducibilidad de una prueba, incluyendo la variabilidad intraobservador e inter
observador, suele ser un buen primer paso en la evaluación de una prueba.
5. Los estudios de la exactitud de las pruebas precisan un método de referencia para determinar
si un paciente tiene o no tiene la enfermedad o la respuesta que se está estudiando.
6. Los resultados de los estudios de la exactitud de pruebas diagnósticas pueden resumirse usando
la sensibilidad, la especificidad, los valores predictivos, las curvas ROC y los cocientes de
verosimilitudes. Los estudios del valor de pruebas pronósticas pueden resumirse con cocientes
de riesgo, cocientes de riesgos instantáneos o mejoría por la reclasificación.
7. Los estudios para elaborar nuevas reglas de predicción clínica están sometidos a los problemas
de sobreajuste y ausencia de posibilidad de generalización, por lo que hace falta que las nue-
vas reglas se validen en muestras de población adicionales.
8. El diseño más riguroso para estudiar la utilidad de una prueba diagnóstica es el ensayo clínico,
en el que se aleatoriza a los participantes a que se les haga la prueba o no se les haga, y con la
mortalidad, la morbilidad, el coste y la calidad de vida entre los criterios de valoración.
9. Si los ensayos no son éticos o factibles, pueden ser útiles los estudios de observación de los
efectos beneficiosos, los perjuicios y los costes, prestando una atención adecuada a los posibles
sesgos y factores de confusión.
Cuando las observaciones no están distribuidas uniformemente en las distintas categorías (p. ej.,
cuando la proporción de resultados «anormales» en una prueba dicotómica es muy diferente del
50 %), o cuando hay más de dos categorías, a veces se utiliza otra medida del acuerdo entre obser-
vadores, denominada kappa (). mide la magnitud del acuerdo más allá de lo que cabría esperar
solo por el azar, a la vista de los «valores marginales» observados (es decir, los totales de filas y co-
lumnas), y varía desde –1 (desacuerdo perfecto) hasta 1 (acuerdo perfecto). Un valor de k de 0 in-
dica que la magnitud del acuerdo fue exactamente la que cabía esperar por los totales de filas y
columnas. se estima como:
La proporción «esperada» en cada celda es simplemente la proporción de la fila de esa celda (es
decir, el total de la fila dividido por el tamaño de la muestra) por la proporción de la columna de esa
celda (es decir, el total de la columna dividido por el tamaño de la muestra). El acuerdo esperado se
obtiene sumando las proporciones esperadas en las celdas a lo largo de la diagonal de la tabla, en la
que los observadores están de acuerdo.
Por ejemplo, en la tabla 12A-1, los observadores parecen haberlo hecho bastante bien: han estado
de acuerdo en el 85 % de las veces, pero ¿qué tal lo hicieron en comparación con el acuerdo espera-
do por los totales marginales? Por el azar solo (a la vista de los valores marginales observados) esta-
rían de acuerdo alrededor del 71 % de las veces (20 % 15 %) + (80 % 85 %) = 71 %. Como el
acuerdo observado fue del 85 %, k es (85 % – 71 %)/(100 % – 71 %) = 0,48: respetable, aunque algo
menos impresionante que el acuerdo del 85 %.
Cuando hay más de dos categorías de resultados de la prueba, es importante distinguir entre va-
riables ordinales, que están ordenadas intrínsecamente, y variables nominales, que no lo están. Con
las variables ordinales, k tal y como se calculó más arriba no permite capturar toda la información
de los datos, porque no asigna un valor parcial a las aproximaciones. Para tener en consideración el
acuerdo parcial, debe usarse el estadístico k ponderado. (Puede verse una discusión más detallada
en Newman y Kohn [29].)
188
En el segundo estudio se usa una muestra seleccionada, en la que solo se hizo una radiografía a
la mitad de los niños sin tumefacción del tobillo. Por lo tanto, los números de la fila «Sin tumefac-
ción» se reducirán a la mitad. Esto eleva la sensibilidad aparente desde 32/40 (80 %) hasta 32/36
(89 %), y reduce la especificidad aparente desde 120/160 (75 %) hasta 60/100 (60 %), como se mues-
tra en la tabla 12B-2:
189
Los 104 participantes con una ecografía negativa a los que se clasificó como «Sin invaginación»
realmente incluían 86 a los que se hizo un seguimiento clínico y no se les realizó un enema opaco.
Si alrededor del 10 % de estos participantes (nueve niños) hubieran tenido realmente una invagina-
ción que se resolvió espontáneamente, pero que se habría identificado si se hubiera realizado un
enema opaco, y a todos los participantes se les hubiera realizado un enema opaco, esos nueve niños
se habrían cambiado de negativos verdaderos a negativos falsos, como se muestra en la tabla 12C-2:
Se produce un efecto similar, aunque menos pronunciado, si algunos niños con estudios positivos
tuvieran una invaginación que se habría resuelto espontáneamente si se hubiera dado la oportuni-
dad (31).
BIBLIOGRAFÍA
1. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement.
Lancet 1986;1(8476):307–310.
2. Newman TB, Kohn M. Evidence-based diagnosis. New York: Cambridge University Press, 2009:10–38.
3. Tokuda Y, Miyasato H, Stein GH, et al. The degree of chills for risk of bacteremia in acute febrile illness. Am J Med
2005;118(12):1417.
4. Sawaya GF, Washington AE. Cervical cancer screening: which techniques should be used and why? Clin Obstet
Gynecol 1999;42(4):922–938.
5. Smith-Bindman R, Chu P, Miglioretti DL, et al. Physician predictors of m ammographic accuracy. J Natl Cancer Inst
2005;97(5):358–367.
190
6. Rocker G, Cook D, Sjokvist P, et al. Clinician predictions of intensive care unit mortality. Crit Care Med 2004;
32(5):1149–1154.
7. Newman TB, Puopolo KM, Wi S, et al. Interpreting complete blood counts soon after birth in newborns at risk for
sepsis. Pediatrics 2010;126(5):903–909.
8. Vittinghoff E, Glidden D, Shiboski S, et al. Regression methods in biostatistics: linear, logistic, survival, and repeated
measures models, 2nd ed. New York: Springer, 2012.
9. Cook NR, Ridker PM. Advances in measuring the effect of individual predictors of cardiovascular risk: the role of
reclassification measures. Ann Intern Med 2009;150(11):795–802.
10. Cook NR. Assessing the incremental role of novel and emerging risk factors. Curr Cardiovasc Risk Rep 2010;4(2):
112–119.
11. Pencina MJ, D’Agostino RB, Sr., D’Agostino RB, Jr., et al. Evaluating the added predictive ability of a new marker:
from area under the ROC curve to reclassification and beyond. Stat Med 2008;27(2):157–172; discussion 207–212.
12. Shepherd JA, Kerlikowske K, Ma L, et al. Volume of mammographic density and risk of breast cancer. Cancer
Epidemiol Biomarkers Prev 2011;20(7):1473–1482.
13. Grady D, Berkowitz SA. Why is a good clinical prediction rule so hard to find? Arch Intern Med 2011;171(19):
1701–1702.
14. Wells PS, Anderson DR, Rodger M, et al. Derivation of a simple clinical model to categorize patients probabil-
ity of pulmonary embolism: increasing the models utility with the SimpliRED D-dimer.Thromb Haemost 2000;
83(3):416–420.
15. Wells PS, Anderson DR, Rodger M, et al. Excluding pulmonary embolism at the bedside without diagnostic ima
ging: management of patients with suspected pulmonary embolism presenting to the emergency department by
using a simple clinical model and d-dimer. Ann Intern Med 2001;135(2):98–107.
16. Tokuda Y, Koizumi M, Stein GH, et al. Identifying low-risk patients for bacterial meningitis in adult patients with
acute meningitis. Intern Med 2009;48(7):537–543.
17. Laupacis A, Sekar N, Stiell IG. Clinical prediction rules. A review and suggested modifications of methodological
standards. JAMA 1997;277(6):488–494.
18. Siegel DL, Edelstein PH, Nachamkin I. Inappropriate testing for diarrheal diseases in the hospital. JAMA 1990;
263(7):979–982.
19. Carrico CW, Fenton LZ, Taylor GA, et al. Impact of sonography on the diagnosis and treatment of acute lower
abdominal pain in children and young adults. American Journal of Roentgenology 1999;172(2):513–516.
20. Bodegard G, Fyro K, Larsson A. Psychological reactions in 102 families with a newborn who has a falsely positive
screening test for congenital hypothyroidism. Acta Paediatr Scand Suppl 1983;304:1–21.
21. Rutter CM, Johnson E, Miglioretti DL, et al. Adverse events after screening and follow-up colonoscopy. Cancer
Causes Control 2012;23(2):289–296.
22. Etzioni DA, Yano EM, Rubenstein LV, et al. Measuring the quality of colorectal cancer screening: the importance
of follow-up. Dis Colon Rectum 2006;49(7):1002–1010.
23. Welch HG. Should I be tested for cancer? Maybe not, and here’s why. Berkeley, CA: University of California
Press, 2004.
24. Welch HG, Schwartz LM, Woloshin S. Overdiagnosed: making people sick in pursuit of health. Boston, MA: B eacon
Press, 2011.
25. Detsky AS. A piece of my mind. Underestimating the value of reassurance. JAMA 2012;307(10):1035–1036.
26. Selby JV, Friedman GD, Quesenberry CJ, et al. A case-control study of screening sigmoidoscopy and mortality from
colorectal cancer [see comments]. N Engl J Med 1992;326(10):653–657.
27. Prasad V, Jena AB. Prespecified falsification end points: can they validate true observational associations? JAMA
2013;309(3):241–242.
28. Sheiner LB, Rubin DB. Intention-to-treat analysis and the goals of clinical trials. Clin Pharmacol Ther 1995;
57(1):6–15.
29. Sheline Y, Kehr C. Cost and utility of routine admission laboratory testing for psychiatric inpatients. Gen Hosp
Psychiatry 1990;12(5):329–334.
30. Turnbull TL, Vanden Hoek TL, Howes DS, et al. Utility of laboratory studies in the emergency department patient
with a new-onset seizure. Ann Emerg Med 1990;19(4):373–377.
31. Newman TB, Kohn MA. Evidence-based diagnosis. New York: Cambridge University Press, 2009:101–102.
32. Eshed I, Gorenstein A, Serour F, et al. Intussusception in children: can we rely on screening sonography performed
by junior residents? Pediatr Radiol 2004;34(2):134–137.
■■ VENTAJAS E INCONVENIENTES
Las principales ventajas de los estudios en los que se usan datos existentes son la rapidez y la eco-
nomía. Una pregunta de la investigación que de otro modo podría necesitar mucho tiempo y dinero
para investigar puede, a veces, responderse rápidamente y de forma barata. Por ejemplo, en la base
de datos del Study of Osteoporotic Fractures, un estudio de cohortes prospectivo diseñado original-
mente para estudiar los factores de riesgo de fracturas, Yaffe y cols. utilizaron medidas repetidas que
se habían hecho de la actividad física y de la función cognitiva para descubrir que las mujeres que ca-
minaban más tenían un riesgo de deterioro cognitivo un 36 % menor que las mujeres que caminaban
menos (1).
Los estudios en los que se utilizan datos o muestras ya existentes también tienen desventajas. La
selección de la población a estudiar, qué datos se deben recoger, la calidad de los datos obtenidos, y
cómo se registraron y midieron las variables están predeterminados. Los datos existentes pueden
haberse recogido de una población que no era la ideal (p. ej., solo hombres, en lugar de hombres y
mujeres), el método de medición puede no ser el que el investigador hubiera preferido (anteceden-
tes de hipertensión, una variable histórica dicotómica, en lugar de la presión arterial real) y la calidad
de los datos puede ser mala (valores ausentes o incorrectos frecuentes). Pueden no haberse medido
o registrado importantes variables de confusión y de respuesta. Todos estos factores contribuyen al
principal inconveniente de usar datos existentes: el investigador tiene un control escaso o nulo sobre
los datos que se han recopilado y el modo de hacerlo.
principal del estudio o por un comité directivo; el nuevo investigador deberá, por tanto, buscar
información sobre estudios realizados por otros investigadores en los que se puedan haber hecho
mediciones importantes para la pregunta de la investigación. Una de las mejores formas en las que
un buen mentor puede ser útil al nuevo investigador es informándole y facilitándole el acceso a
conjuntos de datos importantes. Actualmente es necesario que la mayor parte de los estudios finan-
ciados por los NIH pongan sus datos a disposición del público.
Otras fuentes fructíferas de datos secundarios son grandes series de datos nacionales y regiona-
les a disposición del público y que no tienen un investigador principal. Las bases de datos informa-
tizadas de este tipo son tan variadas como los motivos que pueda tener la gente para recopilar infor-
mación. Ofreceremos algunos ejemplos que merecen especial mención, y los lectores pueden
localizar otros en sus propias áreas de interés.
• Los registros de tumores son agencias financiadas por el gobierno que recogen estadísticas com-
pletas sobre la incidencia, el tratamiento y la evolución del cáncer en determinadas áreas geográ-
ficas. Estos registros incluyen actualmente a la cuarta parte de la población de Estados Unidos, y
se espera que el área que abarcan aumente en los próximos años. Un objetivo de estos registros
es proporcionar datos a investigadores externos. Se dispone de datos combinados de los regis-
tros en el programa Surveillance, Epidemiology, and End Results (SEER). Por ejemplo, se utilizó el
registro SEER de diagnósticos de cáncer de mama para encontrar que la incidencia anual de
cáncer de mama que expresaba receptores estrogénicos disminuyó un 13 % en mujeres posmeno-
páusicas entre 2001 y 2003; esta tendencia fue paralela a la reducción del uso de terapia hormonal
en mujeres posmenopáusicas, lo que indica que la interrupción del tratamiento hormonal redujo
el riesgo de cáncer de mama (2).
• Los certificados de defunción pueden usarse para seguir la mortalidad de cualquier cohorte. El
National Death Index incluye todos los fallecimientos en Estados Unidos desde 1978. Puede
usarse para averiguar la situación vital de los participantes en un estudio anterior, o de los que
forman parte de otra serie de datos que incluyen importantes variables predictivas. Un ejemplo
clásico es el seguimiento de hombres con cardiopatía isquémica a los que se asignó aleatoriamen-
te a dosis elevadas de ácido nicotínico o un placebo para reducir el colesterol sérico en el estudio
Coronary Drug Project. En ningún estudio se había demostrado nunca el efecto del tratamiento de
los lípidos sobre la mortalidad, y no hubo diferencia en la incidencia de fallecimientos al final
de los 5 años de tratamiento aleatorizado, pero en un seguimiento de la mortalidad 9 años después
usando el National Death Index se mostró una mejoría significativa (3). Si una persona vive o no
es una información pública, por lo que se dispuso del seguimiento incluso de los hombres que
abandonaron el estudio.
El National Death Index puede usarse cuando se conoce el número de la seguridad social o el
nombre y la fecha de nacimiento. La comprobación del fallecimiento es completa en el 99 % con este
sistema, y puede obtenerse información adicional de los certificados de defunción (fundamental-
mente, la causa de la muerte) de los registros estatales. A nivel local y estatal, muchas jurisdicciones
cuentan con sistemas estadísticos informatizados, en los que se introducen datos de las personas
(como información de certificados de nacimiento y fallecimiento) en el momento en que se reciben.
• El estudio NHANES (National Health and Nutrition Examination Survey) es una serie de estudios
en los que se evaluó la salud y el estado nutricional de adultos y niños de Estados Unidos. En
estos estudios se utiliza la selección aleatoria por conglomerados de base poblacional para iden-
tificar una muestra representativa de todo el país, y se incluyen datos autorreferidos por los pa-
cientes (p. ej., datos demográficos, socioeconómicos, dietéticos y conductas relacionadas con la
salud), exploración física, pruebas de laboratorio y otras mediciones. Los datos del estudio NHANES
pueden ofrecer estimaciones poblacionales de la prevalencia de enfermedades, factores de riesgo
y otras variables. Por ejemplo, se midió la densidad mineral ósea (DMO) de la cadera en dos
evaluaciones: 1988-1994 y 2005-2006. Se obtuvieron valores para mujeres y hombres de diferen-
tes razas de Estados Unidos, que se utilizaron para definir la «osteoporosis» como 2,5 desviacio-
nes típicas por debajo del valor medio de la DMO de los adultos jóvenes del estudio NHANES (4).
Los investigadores también utilizaron las mediciones repetidas para descubrir que la DMO ha
mejorado, y que la prevalencia de osteoporosis ha disminuido (5).
Los datos secundarios pueden ser especialmente útiles para estudios de evaluación de patrones de
utilización y respuestas clínicas a los tratamientos médicos. Este método puede complementar la in-
formación disponible de ensayos aleatorizados y examinar preguntas que los ensayos no pueden res-
ponder. Estos tipos de datos existentes incluyen bases de datos administrativas y clínicas electrónicas,
como las desarrolladas por Medicare, el Department of Veterans Affairs, el Kaiser Permanente Medical
Group y el Duke Cardiovascular Disease Databank, y registros, como el San Francisco Mammography
Registry y el National Registry of Myocardial Infarction. La información de estas fuentes (gran parte de
ellas disponible en la Web) puede ser muy útil para estudiar efectos adversos infrecuentes y para
evaluar la utilización y la eficacia en la práctica clínica real de una intervención que se ha demostrado
que funciona en el marco de un ensayo clínico. Por ejemplo, se usó el estudio National Registry of
Myocardial Infarction para examinar los factores de riesgo de hemorragia intracraneal tras el tratamien-
to del infarto agudo de miocardio (IM) con activador del plasminógeno hístico (tPA) recombinante.
En el estudio se incluyó a 71 073 pacientes que recibieron tPA; 673 de ellos presentaron hemorragia
intracraneal confirmada mediante tomografía computarizada o resonancia magnética. Un análisis mul-
tivariado demostró que una dosis de tPA superior a 1,5 mg/kg se asociaba significativamente a la apa-
rición de hemorragia intracraneal en comparación con dosis inferiores (6). Dado que el riesgo total de
presentar una hemorragia intracraneal fue inferior al 1 %, un ensayo clínico en el que se recogieran
datos primarios para examinar esta respuesta habría sido prohibitivamente grande y caro.
Otra contribución valiosa de este tipo de análisis de datos secundarios es una mejor comprensión
de la diferencia entre eficacia y efectividad. El ensayo clínico aleatorizado es el método de referencia
para determinar la eficacia de un tratamiento en una población seleccionada en circunstancias muy
controladas en entornos clínicos limitados. En la práctica clínica real, no obstante, los pacientes a
los que se trata, la elección de los fármacos y la dosis por el médico que trata a los pacientes, y el
cumplimiento con la medicación por parte de los pacientes, son mucho más variables. Estos factores
pueden hacer que la aplicación del tratamiento a la población general sea menos eficaz que lo que
se observa en los ensayos clínicos. La efectividad de los tratamientos en la práctica real puede estu-
diarse con datos secundarios. Por ejemplo, se ha demostrado que la angioplastia primaria es superior
al tratamiento trombolítico en ensayos clínicos de pacientes con IM agudo (7). Pero esto puede ser
cierto solo cuando las tasas de éxito de la angioplastia son tan buenas como las que se alcanzan en
el contexto del ensayo clínico. En los análisis secundarios de series de datos de la comunidad no se
han observado los beneficios de la angioplastia primaria respecto al tratamiento trombolítico (8, 9).
El análisis de datos secundarios es, a menudo, el mejor método para describir cómo se utilizan los
tratamientos en la práctica clínica. Aunque en los ensayos clínicos se puede demostrar la eficacia de
un nuevo tratamiento, este beneficio solo puede producirse si los médicos adoptan el tratamiento.
Conocer las frecuencias de utilización, abordar la variación regional y el uso en poblaciones específi-
cas (como los ancianos, minorías étnicas, personas desfavorecidas económicamente y mujeres) puede
tener importantes implicaciones en salud pública. Por ejemplo, utilizando datos disponibles pública-
mente de una muestra aleatoria del 5 % de los beneficiarios de Medicare, se encontró una importante
variación regional de la prevalencia de glaucoma diagnosticado después de ajustar posibles factores de
confusión, lo que indica un diagnóstico excesivo o insuficiente en algunas regiones del país (10).
Dos o más series de datos existentes pueden también combinarse para responder a una pregunta
de la investigación. Los investigadores que estaban interesados en cómo afecta a la salud el servicio
militar usaron el sorteo de reclutamiento de 1970 a 1972, en el que se incluyó a 5,2 millones de
hombres de 20 años de edad que fueron declarados idóneos para el servicio militar aleatoriamente
por fecha de nacimiento (el primer grupo de datos) y la mortalidad posterior basada en los registros
de certificados de defunción (la segunda fuente de datos). La variable predictiva (fecha de nacimien-
to) era una variable indirecta asignada aleatoriamente para el servicio militar durante la época de la
guerra de Vietnam. Los hombres a los que se asignó aleatoriamente para que fueran aptos para el
reclutamiento presentaron una mortalidad significativamente mayor por suicidio y accidentes de
tráfico en los 10 años siguientes (11). El estudio se realizó con muy poco coste, pese a lo cual fue
un método menos sesgado para examinar el efecto del servicio militar sobre causas específicas de
fallecimiento posterior que otros estudios de este tema con presupuestos mucho mayores.
Cuando no se dispone de datos individuales, pueden ser útiles a veces las series de datos conjuntos.
Los datos conjuntos incluyen información únicamente de grupos de personas (p. ej., tasas de mortalidad
por cáncer cervical en cada uno de los 50 estados), no de individuos. Con estos datos solo pueden me-
dirse asociaciones entre esos grupos comparando la información del grupo sobre un factor de riesgo
(como las ventas de tabaco por región) con la incidencia de una respuesta (cáncer de pulmón por región).
Los estudios para detectar asociaciones basados en datos conjuntos se denominan estudios ecológicos.
La ventaja de los datos conjuntos es su disponibilidad. Su principal inconveniente es que las
asociaciones son especialmente susceptibles a la confusión: los grupos tienden a diferir entre sí de
muchas formas, no solo en relación con la variable predictiva de interés. En consecuencia, las aso-
ciaciones observadas en el conjunto no se mantienen necesariamente para el individuo. Por ejemplo,
las ventas de cigarrillos pueden ser superiores en estados con incidencias de suicidio elevadas, pero
puede que las personas que se suicidan no sean las que más fuman. Esta situación se denomina fa-
lacia ecológica. El uso más adecuado de los datos conjuntos es para comprobar la credibilidad de
una nueva hipótesis o para generar nuevas hipótesis. Los resultados interesantes pueden buscarse
en otro estudio que utilice datos individuales.
Empezar
Tras elegir un tema de investigación y familiarizarse con la bibliografía de ese campo (incluyendo
una exhaustiva búsqueda bibliográfica y el asesoramiento de un mentor experto), el paso siguiente
será investigar si la pregunta del estudio puede abordarse con un conjunto de datos existente. La
ayuda de un compañero experto puede tener enorme valor para buscar una serie de datos apropiada.
Un investigador con experiencia tiene áreas de interés definidas en las que está actualizado, y cono-
ce series de datos importantes y a los investigadores que controlan esos datos, tanto en su propio
centro como en otros. Esta persona puede ayudar a identificar y acceder a datos adecuados. A me-
nudo, la pregunta del estudio necesita algún ligero cambio (p. ej., modificando la definición de las
variables predictiva y de respuesta) para encajar en los datos disponibles.
La mejor solución puede estar muy próxima, una base de datos en el propio centro. Por ejemplo,
un docente de la Universidad de California, San Francisco (UCSF), que estaba interesado en la im-
portancia de las lipoproteínas en la cardiopatía isquémica, comunicó que una de las pocas interven-
ciones conocidas para reducir la concentración de la lipoproteína(a) eran los estrógenos. Sabiendo
que se estaba realizando en la UCSF el Heart and Estrogen/Progestin Replacement Study (HERS), un
importante ensayo clínico de tratamiento hormonal para evitar la enfermedad coronaria, el docente
explicó su interés a los investigadores. Como nadie más había pensado específicamente en estudiar
la relación entre esta lipoproteína, el tratamiento hormonal y los episodios de cardiopatía isquémica,
diseñó un análisis y un plan de publicación. Tras recibir la autorización del director del estudio
HERS, trabajó con estadísticos, epidemiólogos y programadores del centro coordinador para realizar
un análisis que publicó posteriormente en una revista importante (12).
A veces, una pregunta de estudio puede abordarse de un modo que poco tiene que ver con el estu-
dio original. Por ejemplo, otro compañero de la UCSF estaba interesado en la utilidad del estudio re-
petido de la citología cervicovaginal de cribado en mujeres de más de 65 años de edad. Se dio cuenta
de que la media de edad de las participantes en el ensayo HERS era de 67 años, de que se exigió que
las participantes tuvieran una citología cervicovaginal normal para entrar en el estudio, y de que des-
pués se realizaran a las participantes frotis cervicovaginales de cribado anualmente durante el segui-
miento. Realizando el seguimiento de los resultados de los frotis cervicovaginales, pudo documentar
que hubo 110 citologías cervicovaginales anormales de entre las 2 763 mujeres estudiadas durante un
período de 2 años, y solo se observó finalmente una mujer con una histología anormal en el seguimien-
to. Por lo tanto, todos los resultados anormales de la citología cervicovaginal menos uno fueron posi-
tivos falsos (13). Este estudio influyó enormemente en las siguientes recomendaciones del grupo de
trabajo US Preventive Services Task Force de que no deben realizarse citologías cervicovaginales en
mujeres de riesgo escaso de más de 65 años de edad con pruebas anteriores normales.
A veces es necesario aventurarse más lejos. Partiendo de una lista de variables predictivas y de
respuesta cuya relación podría ayudar a responder la pregunta de investigación, un investigador
puede intentar localizar bases de datos que incluyan esas variables. Algunos estudios tienen páginas
web que permiten el acceso gratuito a los datos del estudio sin solicitar permiso. Cuando los datos
no están disponibles en Internet, las llamadas telefónicas o los mensajes de correo electrónico a
los autores de estudios previos o a funcionarios gubernamentales podrían permitir el acceso a archi-
vos que contienen datos útiles. Es esencial superar la ansiedad por contactar con extraños para pedir
ayuda. La mayor parte de las personas son sorprendentemente colaboradoras, ya sea proporcionan-
do datos ellas mismas o indicando otros lugares donde poder intentarlo.
Una vez localizados los datos para responder a la pregunta del estudio, el siguiente reto es lograr la
autorización para usarlos. Es una buena idea usar títulos oficiales y el nombre del dominio institucio-
nal en la correspondencia o los correos electrónicos, y señalar al mentor como alguien a quien se reco-
nocerá como experto en esa área. Los investigadores jóvenes deben determinar si sus mentores conocen
a los investigadores que controlan la base de datos, ya que una presentación puede ser más eficaz que
un contacto frío. Generalmente, es más eficaz trabajar con un investigador o un miembro del personal
del estudio que esté interesado en el tema de la investigación e implicado en el estudio que tenga los
datos de interés. Este investigador puede facilitar el acceso a los datos y garantizar que conoce los mé-
todos de estudio y el modo en que se midieron las variables, y a menudo se convierte en un valioso
compañero y colaborador. Los datos de estudios y ensayos clínicos multicéntricos tienen, generalmen-
te, procedimientos claros para conseguir el acceso a los datos, e incluyen la necesidad de una propues-
ta por escrito, que debe ser autorizada por un comité de análisis o de publicaciones.
El investigador debe especificar claramente la información que busca y confirmar la solicitud por
escrito. Muchos estudios tienen directrices para la solicitud de datos que especifican qué datos se
solicitan, cómo se realizarán los análisis y los marcos temporales para la realización del trabajo. Es
una buena idea que el tamaño de la solicitud sea mínimo, y ofrecerse a pagar el coste de la prepara-
ción de los datos. Si el conjunto de datos está controlado por otro grupo de investigadores, el inves-
tigador puede sugerir una relación de colaboración. Además de proporcionar un incentivo por com-
partir los datos, esto puede hacer participar a un coinvestigador que está familiarizado con la base
de datos. Es prudente definir pronto y claramente esta relación, incluso quién será el primer autor de
las publicaciones planeadas.
■■ ESTUDIOS AUXILIARES
La investigación con datos secundarios se beneficia de que la mayoría de los datos necesarios para
responder a la pregunta del estudio ya están disponibles. En un estudio auxiliar, el investigador
añade una o varias determinaciones a un estudio existente para responder a una pregunta diferente.
Por ejemplo, en el ensayo HERS del efecto de la hormonoterapia sobre el riesgo de sufrir episodios
coronarios en 2 763 ancianas, un investigador añadió la determinación de la frecuencia y la gravedad
de la incontinencia urinaria. La adición de un cuestionario breve en la siguiente exploración plani-
ficada permitió hacer un extenso ensayo del efecto de la hormonoterapia sobre la incontinencia
urinaria, con un tiempo y unos gastos adicionales escasos (14).
Los estudios auxiliares tienen muchas de las ventajas del análisis de datos secundarios con menos li-
mitaciones. Son baratos y eficientes, y el investigador puede diseñar algunas determinaciones auxiliares
clave para responder específicamente a la pregunta del estudio. Los estudios auxiliares pueden añadirse
a cualquier tipo de estudio, entre ellos los estudios de casos y testigos y los estudios transversales, pero
los estudios prospectivos de cohortes extensos y los ensayos clínicos aleatorizados son los más adecuados.
Los estudios auxiliares tienen el problema de que las mediciones pueden aportar más información
cuando se añaden antes de iniciar el estudio, y puede ser más difícil para alguien de fuera identificar
los estudios en la fase de planificación. Incluso aunque no se midiera una variable al principio, no
obstante, una sola determinación durante el estudio o al final de él puede aportar información útil.
Añadiendo medidas de función cognitiva al final del ensayo HERS, los investigadores pudieron
comparar la función cognitiva de las ancianas tratadas con hormonoterapia durante 4 años con la
función cognitiva de las que recibieron el placebo (15).
Una buena oportunidad para los estudios auxiliares la proporcionan los bancos de suero almace-
nado, ADN, imágenes, etc., que se encuentran en la mayor parte de los grandes ensayos clínicos y
estudios de cohortes. La oportunidad de proponer nuevas mediciones usando estas muestras puede
ser un método enormemente rentable para responder a una nueva pregunta de la investigación, es-
pecialmente si es posible realizar estas determinaciones en un subgrupo de muestras usando un
diseño de casos y cohortes o de casos y testigos anidado (cap. 8). En el estudio HERS, por ejemplo,
un estudio de casos y testigos anidado en el que se realizaron análisis genéticos en muestras alma-
cenadas, se demostró que el excesivo número de episodios tromboembólicos en el grupo tratado con
hormonas no se debía a una interacción con el factor V Leiden (16).
Cómo empezar
Deben buscarse activamente las oportunidades para realizar estudios auxiliares, especialmente los
nuevos investigadores que tienen pocos recursos y tiempo. Un buen punto de partida es identificar
estudios con preguntas de la investigación que incluyan la variable predictiva o la variable de res-
puesta de interés. Por ejemplo, un investigador interesado en el efecto de la pérdida de peso sobre
el dolor asociado a la artrosis de rodilla podría empezar por identificar estudios que incluyan una
buena medición de la artrosis dolorosa (con cuestionarios validados) o bases de datos con registros
de sustituciones articulares que también tengan mediciones previas del peso. Además, el investigador
puede buscar estudios de intervenciones (como dieta, ejercicio, cambio de conducta o fármacos)
para perder peso. Estos estudios se pueden identificar buscando listas de estudios financiados por el
gobierno federal (http://clinicaltrials.gov o http://report.nih.gov), contactando con compañías far-
macéuticas que fabrican fármacos para perder peso, y hablando con expertos en la pérdida de peso
que estén familiarizados con los estudios en realización. Para crear un estudio auxiliar, el investiga-
dor debe, sencillamente, añadir una determinación de síntomas de artrosis en una evaluación de
seguimiento de participantes incluidos en estos estudios.
Tras identificar un estudio que proporcione una buena oportunidad para realizar mediciones
auxiliares, el siguiente paso será lograr la colaboración de los investigadores del estudio. La mayoría
de los investigadores considerarán la adición de breves medidas auxiliares a un estudio establecido
si abordan una pregunta importante y no interfieren notablemente con la realización del estudio
principal. Pueden ser reacios a añadir mediciones que precisen mucho tiempo de los participantes
(p. ej., pruebas de función cognitiva) o que sean cruentas y molestas (colonoscopia) o costosas
(tomografía por emisión de positrones).
En general, se necesita la autorización formal del investigador principal o del correspondiente
comité del estudio para poder añadir un estudio auxiliar. La mayor parte de los estudios extensos y
multicéntricos tienen procedimientos establecidos que precisan una solicitud por escrito. General-
mente, el estudio auxiliar propuesto es revisado por un comité, que puede aprobar, rechazar o revi-
sar dicho estudio. Muchas determinaciones auxiliares precisan financiación, y el investigador de este
estudio debe encontrar un modo de pagar el coste. Por supuesto, el coste de un estudio auxiliar es
mucho menor que el coste que supondría realizar el mismo estudio independientemente. Los estu-
dios auxiliares también son muy adecuados para algunos tipos de financiación por los NIH, que
ofrecen una cantidad moderada para las mediciones y los análisis, aunque aportan un apoyo impor-
tante para el desarrollo de la carrera profesional (cap. 19). Algunos grandes estudios pueden tener
sus propios mecanismos para financiar estudios auxiliares, especialmente si la pregunta es impor-
tante y se considera relevante para la agencia que lo financia.
Los inconvenientes de los estudios auxiliares son pocos. Si en el estudio se van a recoger datos
de participantes, se pueden añadir nuevas mediciones, aunque las variables que ya se han medido
generalmente no pueden cambiarse. En algunos casos puede que haya problemas prácticos para la
obtención de la autorización de los investigadores o del patrocinador para realizar el estudio auxiliar,
para formar a quienes realizarán las determinaciones o para obtener un nuevo consentimiento in-
formado de los participantes. Antes del inicio del estudio deben aclararse estos aspectos, además de
una clara definición de la autoría de los artículos científicos que se produzcan a partir del estudio
auxiliar, y de las normas que regulan su preparación y envío.
■■ REVISIONES SISTEMÁTICAS
Las revisiones sistemáticas identifican un conjunto de estudios ya realizados que analizan una pre-
gunta de la investigación concreta, y evalúan los resultados de estos estudios para llegar a conclu-
siones sobre un cuerpo de investigación. A diferencia de otros métodos para revisar bibliografía, en
las revisiones sistemáticas se usa un abordaje bien definido para identificar todos los estudios rele-
vantes, obtener las características y los resultados de estudios elegibles y, cuando proceda, calcular
un estimador resumen de los resultados generales. Los aspectos estadísticos de una revisión siste-
mática (cálculo de estimadores resumen del efecto y de su varianza, pruebas estadísticas de hetero-
geneidad y cálculos estadísticos del sesgo de publicación) se denominan metaanálisis.
Una revisión sistemática puede ser una buena oportunidad para un nuevo investigador. Aunque
requiere una sorprendente cantidad de tiempo y esfuerzo, generalmente no precisa una financiación
importante ni otros recursos. La realización de una buena revisión sistemática precisa que el inves-
tigador se familiarice con la bibliografía sobre la pregunta del estudio. Para los nuevos investigadores,
este conocimiento detallado de los estudios publicados tiene un valor incalculable. La publicación
de una buena revisión sistemática puede convertir también a un nuevo investigador en «experto»
en la pregunta de la investigación. Además, los hallazgos, con mayor potencia por el mayor tamaño
de la muestra disponible por los estudios combinados y las peculiaridades de los hallazgos de estu-
dios concretos revelados por comparación con los otros, a menudo representan una contribución
científica importante. Los hallazgos de la revisión sistemática pueden ser particularmente útiles para
desarrollar directrices prácticas.
En la tabla 13-1 se muestran los elementos de una buena revisión sistemática. Puede encontrarse
una buena fuente de información sobre los métodos para realizar revisiones sistemáticas de alta calidad
en el Manual Cochrane para realizar revisiones sistemáticas (Cochrane Handbook for Systematic Reviews)
(http://handbook.cochrane.org). Igual que para otros estudios, los métodos para llevar a cabo cada uno
de estos pasos deben describirse en un protocolo por escrito antes de iniciar la revisión sistemática.
La pregunta de la investigación
Una buena revisión sistemática tiene una pregunta de investigación clara y bien formulada que
cumple los criterios FINER (cap. 2). La viabilidad depende notablemente de la existencia de un
grupo de estudios sobre esa pregunta. Esta debe describir la enfermedad o afección de interés, la
población y el contexto, la intervención y el tratamiento de comparación (para los ensayos), y las
respuestas de interés. Por ejemplo:
«En pacientes ingresados en una unidad de cuidados intensivos con síndrome coronario agudo,
¿el tratamiento con ácido acetilsalicílico más heparina intravenosa reduce el riesgo de sufrir in-
farto de miocardio y muerte durante la hospitalización más que el tratamiento con ácido acetil-
salicílico solo?»
datos electrónicas, como AIDSLINE, CANCERLIT y EMBASE, así como la revisión manual de la
bibliografía de estudios relevantes publicados, de revisiones anteriores, la evaluación de la base de
datos Cochrane Collaboration y la consulta con expertos. La estrategia de búsqueda debe describir-
se claramente, de modo que otros investigadores puedan reproducirla.
los de riesgo y desviaciones típicas. A menudo resulta difícil decir si algunas características del dise-
ño, como el enmascaramiento, no se realizaron o no estaban descritas en la publicación. El revisor
puede calcular, a veces, riesgos relativos e intervalos de confianza a partir de datos no elaborados
presentados en ensayos aleatorizados, pero no suele aceptarse el cálculo de estimadores del riesgo y
de intervalos de confianza basándose en datos no elaborados de estudios de observación, porque no
hay suficiente información para ajustar las variables de confusión. Debe realizarse un esfuerzo por
contactar con los autores para recuperar información importante que no esté incluida en la descrip-
ción publicada de un estudio. Si esta información necesaria no puede calcularse ni obtenerse, suelen
excluirse los hallazgos del estudio.
una disminución del 80 % al 94 % de la incidencia de transmisión, aunque se basan en los resul-
tados de series de estudios casi idénticas (18, 19).
• Heterogeneidad. No es adecuado combinar los resultados de varios estudios si estos difieren en
aspectos con importancia clínica, como la intervención, la respuesta, la situación testigo, el en-
mascaramiento, etc. Incluso si los métodos usados en los estudios parecen similares, el hecho de
que los resultados varíen mucho sugiere que había diferencias en algún aspecto importante en los
estudios individuales. Esta variabilidad de los hallazgos de los estudios individuales es lo que se
denomina heterogeneidad (y los hallazgos del estudio se denominan heterogéneos); si existe poca
variabilidad, se dice que los resultados del estudio son homogéneos.
¿Cómo puede decidir el investigador si los métodos y los hallazgos son lo suficientemente simi-
lares como para combinarlos en estimadores resumen? En primer lugar, puede revisar los estudios
individuales para determinar si hay diferencias importantes en el diseño del estudio, las poblaciones
del estudio, la intervención o la respuesta. Luego, puede examinar los resultados de los estudios
concretos. Si algunos ensayos comunican un importante efecto beneficioso de una intervención y
otros comunican un considerable perjuicio, existe, claramente, heterogeneidad. A veces, es difícil
decidir si hay heterogeneidad. Por ejemplo, si un ensayo comunica una reducción del 50 % del ries-
go para una intervención específica, pero otro solo comunica una reducción del 30 %, ¿existe hete-
rogeneidad? Se han desarrollado métodos estadísticos (pruebas de homogeneidad) para ayudar a
responder a esta pregunta (v. apéndice 13), pero, finalmente, se debe aplicar el sentido común
cuando se evalúe la heterogeneidad. Todas las revisiones sistemáticas publicadas deben incluir al-
gún comentario sobre heterogeneidad y su efecto sobre los estimadores resumen.
*UiILFRGHHPEXGRVLQVHVJR
*UDQGH
7DPDxRR
SHVRGHOD
PXHVWUD
3HTXHxR
%DMR (OHYDGR
/RJDULWPRGHOULHVJRUHODWLYR
$
*UiILFRGHHPEXGRFRQVHVJR
*UDQGH
7DPDxRR
SHVRGHOD
PXHVWUD
co de la figura 13-1B sugiere que existe sesgo de publicación, porque la distribución aparece trun-
cada en la esquina que debe contener estudios pequeños y con resultados negativos.
Cuando es probable que exista un importante sesgo de publicación, no deben calcularse los esti-
madores resumen, o deben interpretarse con precaución. Todas las revisiones sistemáticas publicadas
deben incluir algún comentario sobre el posible sesgo de publicación y su efecto sobre los estima-
dores resumen.
ajuste de las posibles variables de confusión o para realizar análisis de subgrupos individuales. En
algunos casos puede ser posible obtener los datos de los individuos de los correspondientes estu-
dios individuales y realizar análisis conjuntos. En estos casos se pueden utilizar los datos combi-
nados de los estudios individuales para ajustar los factores de confusión o evaluar los efectos en
diversos subgrupos, igual que se realizaría en un único estudio extenso. Por ejemplo, el Early
Breast Cancer Trialists Collaborative Group combinó datos individuales de 123 estudios aleatori-
zados para evaluar la eficacia de diferentes regímenes quimioterápicos en el cáncer de mama
temprano (21). No obstante, generalmente es difícil obtener datos a nivel individual de los corres-
pondientes estudios, y es infrecuente que en estos estudios se hayan medido las variables de ma-
nera que sean suficientemente similares como para poder combinarlas en un único conjunto de
datos.
■■ RESUMEN
En este capítulo se describen tres abordajes para hacer un uso creativo de los datos y muestras exis-
tentes, una forma eficaz que tienen los nuevos investigadores con pocos recursos de adquirir una
experiencia valiosa y una publicación rápida.
Estudios auxiliares
1. Un estudio auxiliar es un análisis de datos secundarios en el que el investigador realiza una o
más nuevas mediciones para responder a una nueva pregunta de la investigación con un coste
y un esfuerzo relativamente pequeños.
2. Pueden encontrarse buenas oportunidades para hacer estudios auxiliares en estudios de cohor-
tes o ensayos clínicos que incluyen la variable predictiva o la variable de respuesta para la
nueva pregunta de la investigación.
3. Las muestras de suero, ADN, imágenes, etc., almacenadas ofrecen la oportunidad de realizar
diseños de casos y testigos anidados.
4. La mayor parte de los grandes estudios tienen políticas escritas que permiten que los investiga-
dores (incluso científicos externos) propongan y lleven a cabo análisis secundarios de los datos
y estudios auxiliares
Revisiones sistemáticas
1. Una buena revisión sistemática, como cualquier otro estudio, necesita un protocolo por escrito
completo antes de iniciar el estudio; dicho protocolo debe incluir la pregunta del estudio, los
métodos para identificar todos los estudios elegibles, los métodos para extraer datos de los es-
tudios y los métodos estadísticos.
2. Los aspectos estadísticos de la combinación de estudios sobre un tema, denominada metaanáli-
sis, incluyen el estimador resumen del efecto y el intervalo de confianza, pruebas para evaluar
la heterogeneidad y el posible sesgo de publicación, y análisis de subgrupos y de sensibilidad.
3. Las características y los hallazgos de estudios individuales deben mostrarse claramente en tablas
y figuras, de modo que el lector pueda formarse opiniones que no dependan tan solo de los
estimadores resumen estadísticos.
4. Un importante problema es la evaluación de la calidad de los estudios de una revisión sistemá-
tica, que puede influir mucho en los hallazgos de la revisión.
BIBLIOGRAFÍA
1. Yaffe K, Barnes D, Nevitt M, et al. A prospective study of physical activity and cognitive decline in elderly women:
women who walk. Arch Intern Med 2001;161:1703–1708.
2. Kerlikowske K, Miglioretti D, Buist D, et al. Declines in invasive breast cancer and use of postmenopausal hormone
therapy in a screening mammography population. J Natl Cancer Inst. 2007;99:1335–1339.
3. Canner PL. Mortality in CDP patients during a nine-year post-treatment period. J Am Coll Cardiol 1986;8:1243–1255.
4. Looker AC, Johnston CC Jr., Wahner HW, et al. Prevalence of low femoral bone density in older U.S. women from
NHANES III. J Bone Miner Res 1995;10:796–802.
5. Looker AC, Melton LJ, Harris TB, et al. Prevalence and trends in low femur bone density among older US adults:
NHANES 2005–2006 compared with NHANES III. J Bone Miner Res 2010;25:64–71.
6. Gurwitz JH, Gore JM, Goldberg RJ, et al. Risk for intracranial hemorrhage after tissue plasminogen activator treat-
ment for acute myocardial infarction. Participants in the National Registry of Myocardial Infarction 2. Ann Intern
Med 1998;129:597–604.
7. Weaver WD, Simes RJ, Betriu A, et al. Comparison of primary coronary angioplasty and intravenous thrombolytic
therapy for acute myocardial infarction: a quantitative review. JAMA 1997;278:2093–2098; published erratum ap-
pears in JAMA 1998;279:876.
8. Every NR, Parsons LS, Hlatky M, et al. A comparison of thrombolytic therapy with primary coronary angio-
plasty for acute myocardial infarction. Myocardial infarction triage and intervention investigators. N Engl J Med
1996;335:1253–1260.
9. Tiefenbrunn AJ, Chandra NC, French WJ, et al. Clinical experience with primary percutaneous transluminal coro-
nary angioplasty compared with alteplase (recombinant tissue-type plasminogen activator) in patients with acute
myocardial infarction: a report from the Second National Registry of Myocardial Infarction (NRMI–2). J Am Coll
Cardiol 1998;31:1240–1245.
10. Cassard SD, Quigley HA, Gower EW, et al. Regional variations and trends in the prevalence of diagnosed glaucoma
in the Medicare population. Ophthalmology 2012;119:1342–1351.
11. Hearst N, Newman TB, Hulley SB. Delayed effects of the military draft on mortality: a randomized natural experi-
ment. N Engl J Med 1986;314:620–624.
12. Shlipak M, Simon J, Vittinghoff E, et al. Estrogen and progestin, lipoprotein (a), and the risk of recurrent coronary
heart disease events after menopause. JAMA 2000;283:1845–1852.
13. Sawaya GF, Grady D, Kerlikowske K, et al. The positive predictive value of cervical smears in previously
screened postmenopausal women: the Heart and Estrogen/Progestin Replacement Study (HERS). Ann Intern Med
2000;133:942–950.
14. Grady D, Brown J, Vittinghoff E, et al. Postmenopausal hormones and incontinence: the Heart and Estrogen/Pro-
gestin Replacement Study. Obstet Gynecol 2001;97:116–120.
15. Grady D, Yaffe K, Kristof M, et al. Effect of postmenopausal hormone therapy on cognitive function: the Heart and
Estrogen/Progestin Replacement Study. Am J Med 2002;113:543–548.
16. Herrington DM, Vittinghoff E, Howard TD, et al. Factor V Leiden, hormone replacement therapy, and risk of ve-
nous thromboembolic events in women with coronary disease. Arterioscler Thromb Vasc Biol 2002;22:1012–1017.
17. Oler A, Whooley M, Oler J, et al. Heparin plus aspirin reduces the risk of myocardial infarction or death in patients
with unstable angina. JAMA 1996;276:811–815.
18. Pinkerton SD, Abramson PR. Effectiveness of condoms in preventing HIV transmission. Soc Sci Med 1997;44:
1303–1312.
19. Weller S, Davis K. Condom effectiveness in reducing heterosexual HIV transmission. Cochrane Database Syst Rev
2002;(1):CD003255.
20. Grady D, Gebretsadik T, Kerlikowske K, et al. Hormone replacement therapy and endometrial cancer risk: a meta-
analysis. Obstet Gynecol 1995;85:304–313.
21. Peto R, Davies C, Godwin J, et al. Comparisons between different polychemotherapy regimens for early breast
cancer: meta-analyses of long-term outcome among 100,000 women in 123 randomised trials. Early Breast Cancer
Trialists’ Collaborative Group. Lancet 2012;379:432–441.
22. Petitti DB. Meta-analysis, decision analysis and cost effectiveness analysis: methods for quantitative synthesis in medi-
cine, 2nd ed. New York: Oxford University Press, 2000.
23. Cooper H, Hedges LV. The handbook of research synthesis. New York: Russell Sage Foundation, 1994.
24. Rizos EC, Ntzani EE, Bika E, et al. Association between omega-3 fatty acid supplementation and risk of major
cardiovascular disease events. JAMA 2012;308:1024–1033.
Ejecución
208
L a investigación con participantes humanos conlleva problemas éticos, porque las personas acep-
tan molestias y riesgos para el progreso del conocimiento científico y para beneficiar a otros. El
público, que participa en la investigación y la financia, debe poder confiar en que la investigación
sigue criterios éticos elevados.
En este capítulo comenzamos con la historia de la supervisión de la investigación, y después revisamos
los principios éticos y las leyes federales que guían la investigación con participantes humanos, espe-
cialmente los requisitos de autorización por el Comité ético de la investigación clínica (CEIC) y el
consentimiento informado. Finalmente, revisamos aspectos relacionados con la conducta científica
impropia, la autoría, los conflictos de intereses y los aspectos éticos en tipos de investigación específicos.
■■ PRINCIPIOS ÉTICOS
Los fallos éticos del estudio de Tuskegee y de otros diversos estudios inspiraron las regulaciones ac-
tuales para la protección de los participantes en estudios de investigación. Se articularon tres princi-
pios éticos, que habían sido violados en estos estudios, para guiar la investigación con participantes
humanos (2). Primero, el reconocimiento de que todas las personas tienen derecho a tomar sus pro-
pias decisiones sobre su participación en investigaciones; el principio del respeto por las personas
exige que los investigadores obtengan el consentimiento informado y voluntario de los participantes
en la investigación, les permitan suspender su participación en la investigación en cualquier momen-
to y protejan a los participantes que tengan mermada su capacidad de tomar decisiones.
209
Segundo, el principio de beneficencia exige que el consenso científico que se obtenga del estudio deba
superar las molestias y los riesgos que experimenten los participantes en la investigación, y que se man-
tengan al mínimo dichos riesgos. Los riesgos incluyen tantos daños físicos por las intervenciones de la
investigación, como perjuicios psicosociales, vulneraciones de la confidencialidad, estigma y discrimina-
ción. Los riesgos de los participantes en el estudio pueden reducirse, por ejemplo, realizando pruebas de
selección a los posibles participantes para excluir a los que tengan probabilidad de sufrir daños, garanti-
zando la confidencialidad y siguiendo a los pacientes para detectar la aparición de efectos adversos.
Tercero, el principio de justicia precisa que los beneficios y las cargas de la investigación se dis-
tribuyan objetivamente. No se debe incluir selectivamente como participantes a poblaciones desfa-
vorecidas y vulnerables, como personas con rentas bajas, nivel educativo bajo, escaso acceso a la
asistencia sanitaria o alteración de la capacidad de tomar decisiones, si otras poblaciones también
serían adecuadas para abordar las preguntas de la investigación. El estudio de grupos vulnerables,
principalmente debido a la facilidad del acceso, la colaboración y el seguimiento, se aprovecha in-
justamente de ellos.
La justicia también precisa un acceso equitativo a los beneficios de la investigación. Tradicional
mente, se ha contemplado la investigación clínica como algo arriesgado, y se ha pensado en los posibles
participantes como en conejillos de Indias a los que se debía proteger de intervenciones peligrosas que
les proporcionarían pocos o ningún beneficio personal. Sin embargo, cada vez más se contempla la
investigación clínica como un modo de poder acceder a nuevos tratamientos para afecciones, como
la infección por el VIH y el cáncer. Los pacientes que buscan prometedores fármacos nuevos para
afecciones mortales desean tener un mayor acceso a la investigación clínica, no una mayor protección,
y este acceso debe estar disponible independientemente de los ingresos, el seguro o el nivel educativo.
Históricamente, los niños, las mujeres y los miembros de minorías étnicas han estado representados
de manera insuficiente en la investigación clínica, lo que ha llevado a una débil base de datos científi-
cos y a la posibilidad de un tratamiento clínico subóptimo. El principio de justicia precisa que se in-
cluya a estos grupos en los estudios de investigación. En las investigaciones clínicas financiadas por
los NIH debe haber una representación adecuada de niños, mujeres y miembros de minorías étnicas,
o se debe justificar por qué estos grupos podrían estar representados de forma insuficiente.
• La investigación es una «búsqueda sistemática diseñada para desarrollar o contribuir al conoci-
miento generalizable» (3). No se considera que sea investigación la asistencia clínica de eficacia
no demostrada que se dirige a beneficiar al paciente individual y no a la publicación. Se podrían
tratar como investigación algunos proyectos para la mejora de la calidad, aunque la mayoría
cumplen los criterios de exención, que se analizarán después.
• Los participantes humanos son personas vivas de las que un investigador obtiene «datos a través
de una intervención o interacción con la persona» o «información privada identificable».
• La información privada comprende: 1) información que una persona puede esperar razonable-
mente que no se está observando ni registrando, y 2) información que se ha proporcionado con
fines específicos y que «la persona puede esperar razonablemente que no se hará pública (p. ej.,
una historia clínica)». La información es identificable si «la identidad de la persona se verifica o
puede verificarse por parte del investigador».
• Los datos de la investigación codificados no se pueden identificar si la clave que relaciona los
datos con los participantes se destruye antes de que empiece la investigación o si los investigado-
res no tienen acceso a la clave.
Las leyes federales sobre la protección de los sujetos humanos (Federal Regulations on the Protection of
Human Subjects) están disponibles en la página web de la oficina para la protección de la investigación en
seres humanos (Office for Human Research Protections) (3). Los investigadores que tengan dudas sobre
estas leyes federales deben consultar con su CEIC. Estas leyes federales proporcionan dos importantes
protecciones a los participantes humanos: la aprobación por los CEIC y el consentimiento informado.
El sistema de CEIC está descentralizado. Cada CEIC local aplica las leyes federales usando sus
propios formularios, procedimientos y directrices, y no se recurre a un organismo superior. Por ello,
un protocolo de un estudio multicéntrico podría ser autorizado por un CEIC pero no por otro. Gene-
ralmente estas diferencias pueden resolverse mediante conversaciones o modificaciones del protocolo.
Se ha criticado a los CEIC y a las leyes federales por varios motivos (4, 5). Pueden hacer un hincapié
excesivo en los formularios del consentimiento, no examinar el diseño de la investigación y no tener en
consideración adecuadamente el valor científico de la investigación. Aunque los CEIC deben estudiar todas
las revisiones de protocolos y realizar un seguimiento de los acontecimientos adversos, no suelen compro-
bar si la investigación se realizó realmente según los protocolos aprobados. Muchos CEIC carecen de re-
cursos y experiencia para cumplir adecuadamente su misión de proteger a los participantes en las investi-
gaciones. Por estos motivos, debe considerarse que las leyes federales y la aprobación por el CEIC son solo
una norma ética mínima para la investigación. En último término, la sensatez y el carácter del investiga-
dor constituyen el elemento más esencial para asegurar que la investigación sea éticamente aceptable.
gicas habituales». Deben tenerse en cuenta tanto la magnitud como la probabilidad del riesgo. El
CEIC debe juzgar si puede considerarse que un proyecto específico conlleva un mínimo riesgo.
un nuevo fármaco ofrece beneficios a los participantes. Sin embargo, las nuevas intervenciones
más prometedoras, a pesar de unos resultados preliminares alentadores, no tienen ventajas signi-
ficativas sobre el tratamiento habitual. Los participantes habitualmente tienen un «concepto erró-
neo terapéutico» de que la intervención está diseñada para proporcionarles un beneficio perso-
nal (8). Los investigadores deben dejar claro que no se sabe si el fármaco del estudio es más eficaz
que el tratamiento habitual, y que fármacos prometedores pueden causar graves daños.
Formularios de consentimiento
Generalmente hacen falta formularios de consentimiento por escrito para documentar que se ha produci-
do el proceso del consentimiento informado: conversaciones entre el investigador y el participante. Estos
formularios deben contener la información necesaria que se ha señalado en la sección previa. Por otro lado,
puede usarse un formulario abreviado que establece que los elementos necesarios del consentimiento in-
formado se han presentado de forma oral. Si se usa el formulario abreviado, en la presentación oral debe
haber un testigo, que debe firmar el formulario de consentimiento abreviado junto con el participante.
Los CEIC suelen tener modelos de formularios de consentimiento que prefieren que usen los
investigadores. Los CEIC pueden solicitar que se divulgue más información de la que se solicita en
las leyes federales.
De acuerdo con las leyes federales, los CEIC pueden conceder exenciones de consentimiento
informado si se aplican todas las condiciones de la tabla 14-3. La mayoría de los CEIC eximiría del
consentimiento al estudio propuesto de exposiciones ambientales maternas.
Como estas objeciones a la investigación podrían socavar la aceptación clínica del cribado neo-
natal, los estados están ofreciendo cada vez más a los padres la oportunidad de rechazar los usos de
investigación de las muestras neonatales obtenidas en los programas de cribado estatales. Esta aten-
ción a los deseos de los padres puede ir más allá de lo que precisan las leyes federales sobre la inves-
tigación. Así, lo que está permitido legalmente en investigación podría no siempre ser aceptable
desde el punto de vista ético, particularmente en investigaciones sobre temas delicados.
Confidencialidad
La violación de la confidencialidad puede causar estigmas o discriminación, sobre todo si la inves-
tigación aborda asuntos sensibles, como las actitudes y las prácticas sexuales, el consumo de alcohol
o drogas, la conducta ilegal y las enfermedades psiquiátricas. Las estrategias para proteger la confi-
dencialidad comprenden la codificación de los datos de la investigación, la protección o destruc-
ción de la clave que identifica a los participantes, y la limitación del personal que tiene acceso a los
identificadores. Sin embargo, los investigadores no deben realizar promesas ilimitadas de confiden-
cialidad. Esta puede quedar invalidada si se realiza una auditoría de los registros de la investigación,
o si se identifican enfermedades que se deben notificar de acuerdo con la legislación, como maltrato
infantil, determinadas enfermedades infecciosas y amenazas graves de violencia. En los proyectos en
los que se puede prever dicha notificación, el protocolo debe especificar cómo debe responder el
personal que realiza el estudio, y se debe informar a los participantes de estos planes.
Los investigadores pueden evitar citaciones en disputas legales obteniendo certificados de confi-
dencialidad del Servicio de Salud Pública (Public Health Service) (13) que les permitan retener da-
tos de investigación identificables si se enfrentan a una citación o una orden judicial para desvelarlos.
Sin embargo, estos certificados no se han estudiado de manera generalizada en los fallos judiciales,
no se aplican a las auditorías por agencias financiadoras o la FDA, y no impiden que el investiga-
dor notifique voluntariamente información relacionada con maltrato de niños o ancianos, violen-
cia doméstica o enfermedades infecciosas de notificación obligatoria. No es necesario que la investigación
esté financiada por el gobierno federal para que reciba un certificado de confidencialidad.
Tipos de vulnerabilidad
La identificación de los diferentes tipos de vulnerabilidad permite que los investigadores adopten
medidas de seguridad adaptadas al tipo específico de vulnerabilidad.
Diferencias de poder
Las personas ingresadas en centros o instituciones, como los presos y los ancianos que viven en re-
sidencias, podrían sentirse presionados a participar en la investigación y a delegar la autorización en
las personas que controlan su rutina diaria. Estas personas vulnerables podrían no darse cuenta de
que pueden negarse a participar en el estudio sin represalias por la autoridad ni peligro para otros
aspectos de sus vidas cotidianas.
Si el investigador del proyecto de investigación es también un médico que trata a los participantes,
estos podrían encontrar difícil declinar la participación en el estudio por miedo a que el médico estuvie-
ra menos interesado en su asistencia. De manera similar, los estudiantes y los médicos en formación
podrían sentirse presionados a participar en una investigación realizada por sus instructores o superiores.
Investigación en niños
Los investigadores deben obtener la autorización de los padres y la aprobación del niño, si su desa-
rrollo es adecuado. La investigación con niños que conlleve más del mínimo riesgo solo es permisible:
Investigación en presos
Los presos podrían no sentirse con libertad para rechazar su participación en una investigación, y se
podría ejercer sobre ellos una influencia indebida con pagos en efectivo, modificaciones de la rutina de
la prisión o consideraciones de puesta en libertad condicional. Las leyes federales limitan los tipos de
investigación permitidos en prisioneros y precisan una revisión más estricta por el CEIC y la aprobación
por el Department of Health and Human Services (Ministerio de sanidad y servicios humanos).
En esta definición federal, la conducta impropia debe ser intencionada, en el sentido de que los
perpetradores son conscientes de que su conducta no es adecuada. En el caso 14-3 no se pudo de-
mostrar la falsificación intencionada de los hallazgos. La conducta inadecuada excluye el error sin-
cero y las legítimas diferencias de opinión científicas, que forman parte normal del proceso de inves-
tigación. La definición federal no aborda otras acciones incorrectas, como la doble publicación, la
negativa a compartir los materiales de la investigación y el acoso sexual; los centros de investigación
deben afrontarlos aplicando otras políticas.
Cuando se denuncia una conducta impropia en la investigación, tanto el organismo de financia-
ción federal como el centro del investigador tienen la responsabilidad de realizar una investigación
clara y puntual (22). Durante una investigación, tanto los delatores como los científicos acusados
tienen derechos que hay que respetar. Los primeros necesitan protección frente a represalias, y a los se
gundos se les debe informar de los cargos y se les debe dar la oportunidad de responder. El castigo
por una conducta impropia científica probada puede conllevar la suspensión de una subvención, la
exclusión para subvenciones futuras y otras sanciones administrativas, académicas, penales o civiles.
Autoría
Para cumplir los criterios de autoría, los investigadores deben hacer contribuciones importantes a:
La autoría invitada y la autoría «fantasma» no son éticas. Se reconoce como autores a los autores
invitados u honoríficos a pesar de haber hecho contribuciones tan solo triviales al artículo, por ejemplo,
proporcionando el reconocimiento que conlleva su nombre, el acceso a los participantes, los reactivos,
la ayuda de laboratorio o la financiación. En el caso 14-3 no es adecuado que las personas lleguen a ser
autores después de que haya finalizado el estudio, de que se hayan analizado los datos y de que se haya
elaborado el primer borrador. Los autores «fantasma» hacen contribuciones importantes a un artículo,
pero no se los enumera como autores. Generalmente son empleados de las compañías farmacéuticas o
de compañías de elaboración de textos médicos. La omisión de los escritores «fantasma» orienta erró-
neamente a los lectores para que infraestimen la participación de la compañía en el manuscrito. De
acuerdo con un estudio, el 25 % de los artículos de investigación originales en revistas médicas gene-
rales de elevado índice de impacto tienen autores invitados, y el 12 % tienen autores «fantasma» (24).
Frecuentemente surgen desacuerdos sobre quién debe ser el autor o el orden de los autores. Estos
temas se comentan y deciden mejor al principio de un proyecto. Los cambios en cuanto a la autoría
deben negociarse si se ha tomado la decisión de cambiar las responsabilidades del trabajo. Se han
propuesto sugerencias para llevar a cabo esas negociaciones diplomáticamente (25). Como no hay
acuerdo sobre los criterios de la posición de los autores, en algunas revistas se describen en el artícu
lo publicado las contribuciones al proyecto de cada uno de los autores.
Conflictos de intereses
Los intereses principales del investigador deben ser ofrecer respuestas válidas a preguntas científicas
importantes y proteger la seguridad de los participantes. Los investigadores podrían tener otros intereses,
como su reputación o sus ingresos, que entran en contradicción con los objetivos principales de la inves-
tigación y podrían deteriorar su objetividad o socavar la confianza del público en la investigación (26).
• Reducir la probabilidad de sesgo. En ensayos clínicos bien diseñados, varias precauciones habitua-
les ayudan a mantener controlados intereses contradictorios. Se puede ocultar a los investigadores
la intervención que recibe un participante para evitar el sesgo en la valoración de las respuestas. Un
comité de supervisión de los datos y la seguridad (CSDS) independiente (cap. 11), cuyos miem-
bros no tengan conflictos de intereses, puede revisar los datos provisionales y poner fin al estudio
si los datos proporcionan pruebas convincentes de beneficio o perjuicio. El proceso de revisión por
especialistas de subvenciones, resúmenes y manuscritos también contribuye a reducir el sesgo.
• Separar las funciones que entran en conflicto. Los médicos deben separar la función de investigador
en un proyecto de la función de médico que presta la asistencia médica al participante. En general,
los médicos no deben incluir a sus propios pacientes en un estudio de investigación del que son
coinvestigadores. Si se incluye a estos pacientes, un miembro del equipo de investigación que no
sea el médico que trata a los pacientes debe encargarse de las discusiones para el consentimiento.
• Control del análisis y las publicaciones. En investigaciones financiadas por una compañía farma-
céutica, los investigadores deben asegurarse de que el contrato les da control sobre los datos
primarios y el análisis estadístico, así como la libertad para publicar los hallazgos, tanto si el
fármaco en investigación es eficaz como si no lo es (27, 28). El investigador tiene una obligación
ética de responsabilizarse de todos los aspectos de la investigación. El patrocinador puede revisar
los manuscritos, hacer sugerencias y asegurar que las solicitudes de patente se han enviado antes
de que se remita el artículo a una revista. Sin embargo, el patrocinador no debe tener poder de
veto ni censura de la publicación, ni insistir en un enunciado específico en el manuscrito.
• Revelar conflictos de intereses. Los centros de investigación exigen que se comuniquen los con-
flictos de intereses a una oficina encargada de este asunto. Los NIH y otras agencias que financian
estudios, los CEIC locales, las reuniones científicas y las revistas médicas exigen la declaración
de los conflictos de intereses cuando se solicitan subvenciones o se envíen resúmenes y artículos.
Aunque la comunicación por sí sola es, a menudo, una respuesta inadecuada a conflictos de in-
tereses graves, podría desanimar a los investigadores a que realizaran prácticas problemáticas
desde el punto de vista ético, y permite que los revisores y los lectores de los artículos de revis-
tas evalúen la posibilidad de una influencia indebida.
• Manejo del conflicto de intereses. Si un estudio concreto presenta conflictos de intereses signifi-
cativos, el centro de investigación, la agencia financiadora o el CEIC pueden exigir salvaguardas
adicionales, como un seguimiento más estrecho del proceso de consentimiento informado o una
modificación de la función del investigador que ha entrado en conflicto.
• Prohibir determinadas situaciones. Para reducir al mínimo los conflictos de intereses, los financiadores
y los centros académicos podrían prohibir que el titular de la patente de una intervención o un emplea-
do de la compañía que fabrica la intervención actuara como investigador principal en un estudio clínico.
to concreto. Los grandes bancos biológicos de muestras de sangre y de tejidos permiten realizar estudios
futuros sin tener que recopilar más muestras. La investigación con datos y muestras recopiladas ante-
riormente no plantea riesgos físicos a los participantes. Sin embargo, sí existen cuestiones éticas. El
consentimiento para estudios futuros no especificados es problemático, porque nadie puede prever qué
tipo de investigación podría realizarse más adelante. Además, los participantes podrían poner objecio-
nes al uso futuro de los datos y muestras en determinadas formas. Si se producen violaciones de la
confidencialidad, podrían llevar a estigma y discriminación. Los grupos que participen en la investiga-
ción podrían resultar perjudicados incluso si no lo fueran los participantes individuales.
Cuando se recogen muestras biológicas, los formularios de consentimiento deben permitir que
los participantes acepten o rechacen algunos tipos de investigación futura con las muestras. Por
ejemplo, los participantes podrían estar de acuerdo en permitir el uso de sus muestras:
• Para investigaciones futuras que hayan sido autorizadas por un CEIC y un panel de revisión
científica, o
• S olo para una investigación en condiciones específicas, o
• Solo en el estudio de investigación actual, no en estudios futuros.
Los participantes también deben saber si se compartirán con otros investigadores datos y muestras
que se puedan identificar. Además, los participantes deben saber que los descubrimientos de la inves-
tigación obtenidos con sus muestras podrían patentarse y transformarse en productos comerciales.
■■ OTROS ASPECTOS
Pago a los participantes en una investigación
Los participantes en una investigación clínica merecen un pago por su tiempo y su esfuerzo, y el
reembolso de gastos extra como el transporte o el cuidado de los niños. En la práctica también podría
ser necesaria una compensación para reunir y conservar a los participantes. Una práctica habitual es
ofrecer mayor compensación en los estudios que conllevan muchas incomodidades o riesgos. Sin
embargo, los incentivos plantean también cuestiones éticas sobre una posible inducción indebida.
Si se paga más a los participantes por entrar en investigaciones de riesgo, las personas de menor
nivel socioeconómico podrían verse inducidas a despreciar estos riesgos. Para evitar la influencia
indebida, se ha sugerido que solo se compense a los participantes por los gastos y el tiempo reales,
como una tarifa horaria correspondiente a un trabajo no especializado (31).
■■ RESUMEN
1. Los investigadores deben garantizar que sus proyectos cumplan los principios éticos de respe-
to a las personas, beneficencia y justicia.
2. Los investigadores deben asegurarse de que la investigación cumpla con los requisitos de las leyes
federales aplicables, de los cuales las principales características son el consentimiento informado de
los participantes y la revisión por un CEIC. Durante el proceso del consentimiento informado, los
investigadores deben explicar a los posibles participantes la naturaleza del proyecto y los riesgos,
posibles beneficios y alternativas. Los investigadores deben garantizar la confidencialidad de la
información de los pacientes, en cumplimiento de la ley de privacidad de datos sanitarios (HIPAA).
3. Las poblaciones vulnerables, como niños, presos, mujeres embarazadas y personas con defec-
tos cognitivos o problemas sociales, necesitan una protección adicional.
4. Los investigadores deben tener integridad ética. No deben cometer una conducta impropia
científica, que, según las regulaciones, se define como invención, falsificación o plagio. Los
investigadores deben comunicar y manejar adecuadamente los conflictos de intereses y deben
seguir criterios para una autoría correcta, citándose a sí mismos como autores de un manuscri-
to solo si han hecho contribuciones intelectuales importantes, y garantizando que se cite como
autores a todas las personas que hayan hecho contribuciones importantes a un manuscrito.
5. En algunos tipos de investigación deben abordarse otras cuestiones éticas. En los ensayos clíni-
cos aleatorizados, las ramas de la intervención deben estar equilibradas, los grupos testigo deben
recibir intervenciones adecuadas y no debe continuarse el ensayo una vez que se demuestre que
un grupo es más eficaz o perjudicial. Cuando la investigación se realiza con datos o muestras
recopilados anteriormente, se debe prestar una especial atención a la confidencialidad.
BIBLIOGRAFÍA
1. Jones JH. The Tuskegee syphilis experiment. In: Emanuel EJ, Grady C, Crouch RA, et al., editors. Oxford textbook
of research ethics. New York: Oxford University Press, 2008, 86–96.
2. National Commission for the Protection of Human Subjects of Biomedical and Behavioral Research. The Belmont
Report: Ethical principles and guidelines for the protection of human subjects of biomedical and behavioral research.
1979. Available at: www.hhs.gov/ohrp/humansubjects/guidance/belmont.html, accessed 8/27/12.
3. Department of Health and Human Services. Protection of human subjects 45 CFR part 46. 2005. Available at:
www.dhhs.gov/ohrp/humansubjects/guidance/45cfr46.html, accessed 9/27/12.
4. Emanuel EJ, Menikoff J. Reforming the regulations governing research with human subjects. N Engl J Med 2011;
365:1145–50.
5. Lo B, Barnes M. Protecting research participants while reducing regulatory burdens. JAMA 2011;306:2260–2261.
6. Department of Health and Human Services. Protocol review. 2005. Available at: www.dhhs.gov/ohrp/policy/proto-
col/index.html, accessed 9/27/12.
7. King NMP, Churchill LR. Assessing and comparing potential benefits and risks of harm. In: Emanuel EJ, Grady C, Crouch
RA, et al., editors. The Oxford textbook of clinical research ethics. New York: Oxford University Press, 2008, 514–526.
8. Henderson GE, Churchill LR, Davis AM, et al. Clinical trials and medical care: defining the therapeutic misconcep-
tion. PLoS Med 2007;4:e324.
9. Federman DD, Hanna KE, Rodriguez LL. Responsible research: a systems approach to protecting research participants.
2002. Available at: www.nap.edu/catalog.php?record_id=10508, accessed 9/29/12.
10. Flory J, Emanuel E. Interventions to improve research participants’ understanding in informed consent for
research: a systematic review. JAMA 2004;292:1593–1601.
11. Lomax GP, Hall ZW, Lo B. Responsible oversight of human stem cell research: the California Institute for Regenera-
tive Medicine’s medical and ethical standards. PLoS Med 2007;4:e114.
12. Woodsong C, Karim QA. A model designed to enhance informed consent: experiences from the HIV prevention
trials network. Am J Public Health 2005;95:412–419.
13. Wolf LE, Dame LA, Patel MJ, et al. Certificates of confidentiality: legal counsels’ experiences with perspectives on
legal demands for reseasch data. J Empir Res Hum Res Ethics 2012;7:1–9.
14. Nass SJ, Leavitt LA, Gostin LO. Beyond the HIPAA Privacy Rule: enhancing privacy, improving health through research.
2009. Available at: http://iom.edu/Reports/2009/Beyond-the-HIPAA-Privacy-Rule-Enhancing-Privacy-Improving-
Health-Through-Research.aspx, accessed 9/29/12.
15. National Bioethics Advisory Commission. Ethical and policy issues in research involving human participants. Rock-
ville, MD: National Bioethics Advisory Commission, 2001.
16. Bombardier C, Laine L, Reicin A, et al. Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen
in patients with rheumatoid arthritis. VIGOR Study Group. N Engl J Med 2000;343:1520–1528.
17. Curfman GD, Morrissey S, Drazen JM. Expression of concern. N Engl J Med 2005;353:2813–2814.
18. Bresalier RS, Sandler RS, Quan H, et al. Cardiovascular events associated with rofecoxib in a colorectal adenoma
chemoprevention trial. N Engl J Med 2005;352:1092–1102.
19. Godlee F, Smith J, Marcovitch H. Wakefield’s article linking MMR vaccine and autism was fraudulent. BMJ 2011;
342:c7452.
20. Kennedy D. Responding to fraud. Science 2006;314:1353.
21. Office of Research Integrity. Case summaries. Available at: http://ori.hhs.gov/case_summary, accessed 9/29/12.
22. Mello MM, Brennan TA. Due process in investigations of research misconduct. N Engl J Med 2003;349:1280–1286.
23. International Committee of Medical Journal Editors. Uniform requirements for manuscripts submitted to biomedical
journals. Available at: www.icmje.org/faq_urm.html, accessed 9/29/12.
24. Wislar JS, Flanagin A, Fontanarosa PB, Deangelis CD. Honorary and ghost authorship in high impact biomedical
journals: a cross sectional survey. BMJ 2011;343:d6128.
25. Browner WS. Authorship. In: Publishing and presenting clinical research, 2nd ed. Philadelphia: Lippincott Williams
& Willkins, 2006, 137–144.
26. Lo B, Field M. Conflict of interest in medical research, education, and practice. 2009. Available at: www.iom.edu/
Reports/2009/Conflict-of-Interest-in-Medical-Research-Education-and-Practice.aspx, accessed 11/16/11.
27. DeAngelis CD, Fontanarosa PB. Ensuring integrity in industry-sponsored research: primum non nocere, revisited.
JAMA 2010;303:1196–1198.
28. DeAngelis CD, Fontanarosa PB. Impugning the integrity of medical science: the adverse effects of industry influ-
ence. JAMA 2008;299:1833–1835.
29. Joffe S, Miller FG. Equipoise: asking the right questions for clinical trial design. Nat Rev Clin Oncol 2012;9:230–235.
30. Ellenberg SS, Fleming TR, DeMets DL. Data monitoring committees in clinical trials. Chichester, England: Wiley, 2003.
31. Grady C. Payment of clinical research subjects. J Clin Invest 2005;115:1681–1687.
¿Qué hábitos cree usted que aumentan la posibilidad de que una persona sufra una
trombosis cerebral?
Las preguntas abiertas dejan que la persona responda libremente con menos límites impuestos
por el investigador. Permiten que los participantes comuniquen más información de la que es posi
ble con una lista de respuestas, aunque las respuestas puedan ser menos completas. Un importante
inconveniente es que las preguntas abiertas suelen precisar métodos cualitativos o sistemas especia
les (como diccionarios de códigos para síntomas y acontecimientos adversos) para codificar y ana
lizar las respuestas; esto conlleva más tiempo que introducir respuestas a preguntas cerradas, y
puede necesitar juicios subjetivos. Las preguntas abiertas suelen usarse en las fases de exploración
del diseño de las preguntas, porque ayudan al investigador a comprender un concepto tal y como lo
expresan los participantes que responden. Las frases y palabras que usan los participantes pueden
constituir la base para preguntas cerradas que piden a los participantes que elijan entre dos o más
respuestas seleccionadas previamente:
223
¿Cuál de las conductas siguientes cree que aumenta la posibilidad de sufrir una
trombosis cerebral?
(Marque todas las que correspondan.)
Fumar
Tener sobrepeso
Estrés
Beber alcohol
Como las preguntas cerradas proporcionan una lista de alternativas posibles entre las que el par
ticipante puede elegir, son más rápidas y más fáciles de responder, y las respuestas son más fáciles
de tabular y analizar. Además, la lista de posibles respuestas a menudo ayuda a aclarar el signi
ficado de la pregunta, y estas preguntas son adecuadas para su uso en escalas con múltiples pregun
tas para obtener una sola puntuación.
Las preguntas cerradas también tienen varios inconvenientes. Conducen a los participantes en
determinadas direcciones y no les permiten expresar sus propias, y posiblemente más exactas, res
puestas. El grupo de respuestas puede no ser exhaustivo (no incluir todas las opciones posibles,
p. ej., «actividad sexual» o «la sal de la dieta»). Una solución es incluir una opción como «Otros
(por favor, especifíquelo)» o «Ninguna de las anteriores». Cuando se desea una sola respuesta, debe
indicarse así al participante, y el grupo de posibles respuestas debe ser mutuamente excluyente (no
deben superponerse las categorías), para asegurar la claridad y la parquedad1.
Cuando la pregunta permite más de una respuesta, lo mejor no es decir al participante «Todas las que
procedan». Esto no obliga al participante a considerar todas las posibles respuestas, y una pregunta que se
pasa por alto puede representar una respuesta que no corresponde o una pregunta que se ha pasado por
alto. Es mejor pedir que se marque cada posible respuesta con un «sí» o un «no», como en el ejemplo.
¿Cuál de los siguientes cree que aumenta la posibilidad de sufrir una trombosis ce
rebral?
Sí No No sabe
Fumar
Tener sobrepeso
Estrés
Beber alcohol
La escala analógica visual (EAV) es otra opción para registrar respuestas a preguntas cerradas
usando líneas u otros gráficos. Se pide al participante que marque una línea en un punto, a lo largo
del recorrido continuo de un extremo al otro, que represente mejor su respuesta. Es importante que
las palabras de cada extremo describan los valores más extremos para cada tema de interés. He aquí
un ejemplo sobre la intensidad del dolor:
Por favor, marque el punto de esta línea que describa mejor la intensidad de su dolor,
en general, a lo largo de la última semana.
Ninguno Insoportable
Para facilitar la medición, las líneas suelen tener una longitud de 10 cm, y la puntuación es la
distancia, en centímetros, desde el extremo más bajo. Se puede ver un ejemplo de una EAV en Inter
net en la página web: http://www.epibiostat.ucsf.edu/dcr/.
1
Para los formularios en Internet, la convención es presentar las opciones mutuamente excluyentes como botones (círculos),
y utilizar casillas de verificación (cuadrados) para las respuestas a preguntas de tipo de «todos los que procedan».
Las EAV son atractivas porque valoran características en una escala continua; pueden ser más
sensibles a cambios pequeños que las puntuaciones que se basan en listas categóricas de adjetivos.
Muchas de las herramientas para elaborar encuestas en Internet, como REDCap, Qualtrics y Ques
Gen, permiten el uso de EAV.
Formato
En los cuestionarios es habitual describir brevemente al comienzo el objetivo del estudio y el modo
en que se usarán los datos. Una información similar se presenta al principio de una entrevista, como
parte de la obtención del consentimiento. Para asegurar que se obtendrán respuestas exactas y nor
malizadas, todos los instrumentos deben tener instrucciones que especifiquen cómo deben rellenar
se. Esto es así no solo en los cuestionarios autoadministrados, sino también en los formularios que
usan los entrevistadores para apuntar las respuestas.
A veces es útil proporcionar un ejemplo de cómo rellenar una pregunta, utilizando una pregunta
sencilla que se responda fácilmente:
Para mejorar el flujo del instrumento, deben agruparse juntas todas las preguntas referentes a
áreas importantes, y presentarse con encabezamientos con frases descriptivas cortas. Para estimular
al participante a empezar el proceso de responder a las preguntas, es útil empezar con preguntas emo
cionalmente neutras, como el nombre y la información de contacto. Las preguntas muy delicadas
sobre los ingresos económicos o la función sexual generalmente se sitúan al final del instrumento.
Para cada pregunta o grupo de ellas con un formato que difiere del de otras preguntas del instrumen
to, las instrucciones deben indicar claramente cómo responder.
Si las instrucciones incluyen diferentes estructuras cronológicas, a veces resulta útil repetir la
estructura en la parte superior de cada nuevo grupo de preguntas. Por ejemplo, preguntas como:
Para formularios en papel, el diseño visual de los instrumentos debe ser lo más fácil posible para
que quienes los cumplimentan, ya sean participantes en el estudio o el personal de la investigación,
contesten a todas las preguntas en el orden correcto. Si la disposición es demasiado compleja, los
participantes o los entrevistadores pueden saltarse preguntas, dar una información errónea e incluso
negarse a cumplimentarlo. Una disposición clara y con abundante espacio es más atractiva y fácil
de usar que una que esté apiñada. Aunque los investigadores suponen a veces que un cuestionario
parecerá más corto si tiene menos páginas, la tarea puede ser más difícil cuando se incluyen más
preguntas en una página. Las escalas de respuesta deben tener espacios suficientemente amplios para
que sea fácil marcar o encerrar en un círculo el número correcto, sin incluir accidentalmente la
marca en la respuesta «anterior» o «posterior». Cuando se incluye una pregunta abierta, el espacio
para responder debe tener el tamaño suficiente para permitir que los que tienen una escritura gran
de puedan escribir cómodamente en el espacio. Las personas con problemas visuales, entre ellos
muchos ancianos, agradecerán un cuerpo de letra grande y un contraste elevado (negro sobre blan
co).
Las posibles respuestas a las preguntas cerradas deben alinearse verticalmente e ir precedidas por
recuadros o paréntesis para marcar, o por números para encerrar en un círculo, en lugar de por es
pacios en blanco:
Las preguntas ramificadas ahorran tiempo y permiten que los participantes eviten preguntas
irrelevantes o redundantes. Para dirigir al participante hacia la siguiente respuesta adecuada se usan
flechas que señalan la respuesta a las preguntas de seguimiento, y se incluyen instrucciones como
«Vaya a la pregunta 11» (apéndice 15).
Las encuestas en Internet generalmente son más claras y fáciles para los participantes, porque
incorporan lógica de exclusión. Un hombre no verá una pregunta sobre embarazos y solo llegará a
la pregunta sobre el número de cajetillas/año si ha respondido «sí» a la pregunta sobre tabaquismo.
(V. www.epibiostat.ucsf.edu/dcr/.) Sin embargo, la lógica de exclusión se debe validar cuidadosamen
te durante la fase de verificación previa del estudio. Una lógica de exclusión compleja puede llevar
a callejones sin salida y a preguntas «huérfanas» a las que nunca se llega. Un buen diseño, que ten
ga en cuenta también a los participantes con problemas visuales2, tiene la misma importancia para
los formularios en Internet que para los formularios en papel.
2
Los proveedores comerciales de herramientas para elaborar encuestas en Internet prestan mucha atención a los proble
mas de legibilidad, en parte porque la sección 508 de la Ley de Rehabilitación de 1973 exige que las agencias federales
velen por que sus formularios electrónicos sean accesibles para personas con discapacidades. La mayoría de los provee
dores comerciales tienen la certificación de que cumplen la sección 508.
Redacción
Cada palabra de un cuestionario puede influir en la validez y la reproducibilidad de las respuestas.
El objetivo es elaborar preguntas que sean sencillas y no ambiguas, y que permitan obtener respues
tas exactas y sinceras sin que el participante se sienta turbado u ofendido.
• Claridad. Haga preguntas lo más claras y específicas posibles. Se prefieren términos concretos
mejor que abstractos. Por ejemplo, preguntar «¿Cuánto ejercicio suele realizar?» es menos claro
que «Durante una semana típica, ¿cuántas horas pasa andando a buen ritmo?»
• Sencillez. Utilice palabras y una gramática sencillas y de uso habitual, y evite los términos técni
cos y la jerga. Por ejemplo, es más claro preguntar por «medicinas que puede comprar sin una
receta del médico» que hacerlo por «medicamentos de libre dispensación».
• Neutralidad. Hay que evitar términos «cargados» y estereotipos que sugieran una respuesta de
seable. Preguntar «Durante el último mes, ¿con qué frecuencia ha consumido alcohol en exceso?»
puede hacer que los participantes no admitan que consumen alcohol en exceso. «Durante el úl
timo mes, ¿con qué frecuencia ha consumido más de cinco bebidas alcohólicas al día?» es una
pregunta más real, menos subjetiva y menos ambigua.
A veces es útil establecer un tono que permita al participante admitir conductas y actitudes que
puedan considerarse no deseables. Por ejemplo, cuando se pregunta sobre el cumplimiento de los
pacientes con los fármacos recetados, un entrevistador o un cuestionario pueden utilizar una intro
ducción: «A veces las personas olvidan tomar los medicamentos que el médico les ha recetado. ¿Le
ha sucedido alguna vez a usted?» Sin embargo, este enunciado puede plantear dificultades; es im
portante autorizar a los participantes a admitir ciertos comportamientos sin estimularles a que lo
exageren.
Obtener información sobre temas posiblemente delicados, como la conducta sexual o los ingresos
económicos, puede ser especialmente difícil. Algunas personas se sienten más cómodas respondien
do a este tipo de preguntas mediante cuestionarios autoadministrados que en entrevistas, pero un
entrevistador experimentado puede, a veces, lograr respuestas abiertas y sinceras. Puede ser útil
poner las preguntas posiblemente embarazosas en una tarjeta, de modo que solo sea necesario seña
lar una respuesta para responder.
¿Alrededor de cuántas cervezas toma durante 1 semana normal (una cerveza equiva
le a una lata o una botella de 340 ml, o un vaso grande)?
[___] cervezas a la semana
Este formato es sencillo y corto. Supone, sin embargo, que los participantes pueden promediar
con exactitud su conducta mediante un cálculo sencillo. Como los patrones de consumo con fre
cuencia varían notablemente incluso en intervalos cortos, puede que el participante tenga dificultad
en decidir qué es una semana normal. Ante preguntas que interrogan sobre conductas habituales o
típicas, las personas a menudo cuentan las cosas que hacen más habitualmente e ignoran los extre
mos. Si se pregunta sobre el consumo en días típicos, por ejemplo, se infravalorará el consumo de
alcohol si quien responde suele beber grandes cantidades en el fin de semana.
Un método alternativo sería cuantificar la exposición durante un tiempo determinado:
Durante los últimos 7 días, ¿cuántas cervezas se ha tomado (una cerveza equivale a
una lata o una botella de 340 ml, o un vaso grande)?
[___] cervezas en los últimos 7 días
El objetivo es preguntar por el período de tiempo último más corto que represente de modo exac
to las características de todo el período de interés para la pregunta de la investigación. La mejor
duración de ese período depende de la característica. Por ejemplo, los patrones de sueño pueden
variar considerablemente de un día a otro, pero las preguntas sobre hábitos de sueño durante la úl
tima semana pueden representar adecuadamente los patrones de sueño durante el año entero. Por
otro lado, la frecuencia de las relaciones sexuales sin protección puede variar mucho de una semana
a otra, por lo que las preguntas sobre esta cuestión deben abarcar intervalos más prolongados.
El uso de diarios puede ser un método más exacto para seguir la trayectoria de acontecimientos,
conductas o síntomas que suceden de forma episódica (como las caídas) o que varían de un día a
otro (como la hemorragia vaginal). Esto puede ser útil cuando la secuencia cronológica o la duración
de un episodio son importantes, o cuando se olvida fácilmente su aparición. Los participantes pueden
introducir esos datos en aparatos electrónicos, y el método permite que el investigador calcule una
puntuación diaria media del fenómeno o la conducta que se está evaluando. Sin embargo, este mé
todo requiere tiempo de los participantes y puede hacer que se pierdan más datos que con las pre
guntas retrospectivas. El uso de diarios supone que el período evaluado era típico, y que el conoci
miento de uno mismo necesario para usar los diarios no ha alterado la conducta que se registra de
manera importante.
más claro usar una pregunta sencilla sobre la frecuencia con la que la persona se siente deprimida
y relacionarla con opciones sobre frecuencia (nunca, a veces, a menudo).
Muy de De En Muy en
acuerdo acuerdo Neutral desacuerdo desacuerdo
Un investigador puede calcular una puntuación total para las respuestas de una persona simple
mente sumando la puntuación de cada pregunta, o promediando los puntos de todas las preguntas
que se hayan contestado. Por ejemplo, una persona que respondió que consumir más frutas y ver
duras reduce el riesgo de enfermedades del corazón (un punto) y que los vegetarianos están más
sanos que las personas que incluyen carne en la dieta (un punto), pero que estuvo en desacuerdo en
que el aumento de la ingesta de frutas y verduras retrasa el envejecimiento (cuatro puntos), tendría
una puntuación total de seis. Simplemente sumar o promediar las puntuaciones de las preguntas
supone que todas las preguntas tienen el mismo peso y que cada pregunta está midiendo la misma
característica general.
La consistencia interna de una escala puede verificarse estadísticamente usando medidas como
el estadístico a de Cronbach (4), que valora la consistencia global de una escala. El estadístico a de
Cronbach se calcula a partir de las correlaciones entre las puntuaciones de preguntas individuales.
Se considera que los valores de esta medida que sean superiores a 0,80 son excelentes, y por debajo
de 0,50 son inaceptables. Valores bajos de consistencia interna indican que algunas de las preguntas
individuales pueden estar midiendo características diferentes.
trabajos publicados, y haciendo una búsqueda en Internet con palabras clave como «cuestionarios
de resultados en salud» (health outcomes questionnaires).
Tomar prestados instrumentos de otros estudios tiene la ventaja de que se ahorra tiempo y per
mite que se comparen los resultados de distintos estudios. Lo ideal es usar los instrumentos sin
modificaciones. No obstante, si algunas de las preguntas no son adecuadas (como puede suceder
cuando un cuestionario desarrollado para un grupo cultural se aplica en un entorno diferente),
puede ser necesario eliminar, cambiar o añadir algunas preguntas.
Si un instrumento establecido es demasiado largo, el investigador puede contactar con los autores
que lo desarrollaron para ver si cuentan con versiones más abreviadas. Si se eliminan preguntas de
escalas ya establecidas, se corre el riesgo de cambiar el significado de las puntuaciones, y se ponen
en peligro las comparaciones de los hallazgos con los resultados de los estudios en los que se usó la
escala intacta. Si se abrevia una escala, pueden reducirse también su reproducibilidad o su sensibi
lidad para detectar cambios. Sin embargo, a veces, puede aceptarse la eliminación de secciones o
«subescalas» que no son esenciales para el estudio si se dejan las demás partes intactas.
Estudio preliminar
Realice un estudio preliminar de la claridad del instrumento y del tiempo que se tarda en rellenar.
Para las mediciones esenciales, los grandes estudios piloto pueden ser útiles para observar si cada
pregunta produce un espectro adecuado de respuestas, y para estudiar la validez y la reproducibilidad
del instrumento.
Validación
Puede valorarse la validez (un aspecto de la exactitud) y la reproducibilidad (precisión) de los cues
tionarios y las entrevistas del mismo modo que cualquier otro tipo de medición (cap. 4). El proceso
se inicia escogiendo preguntas que tienen validez aparente, el juicio subjetivo, pero importante, de
que las preguntas valoran las características de interés, y continúa con el intento de determinar la
validez de contenido y la validez de constructo. Cuando sea posible, pueden compararse los nuevos
instrumentos con métodos de referencia establecidos para medir la situación de interés. Finalmen
te, puede valorarse la validez predictiva de un instrumento relacionando las mediciones con futuras
respuestas.
Si se pretende que un instrumento mida cambios, puede probarse su sensibilidad aplicándolo a
los pacientes antes y después de recibir tratamientos que se consideran eficaces por otras mediciones.
Por ejemplo, un nuevo instrumento diseñado para medir la calidad de vida en personas con altera
ción de la agudeza visual podría incluir preguntas que tengan validez aparente («¿Puede leer un
periódico sin gafas ni lentes de contacto?»). Pueden compararse las respuestas con las respuestas a
un instrumento validado existente (ejemplo 15-1) en pacientes con cataratas avanzadas y en perso
nas con exploraciones oculares normales. Puede analizarse la sensibilidad al cambio del instrumen
to comparando respuestas de los pacientes con cataratas antes y después de la cirugía. Sin embargo,
el proceso de validación de nuevos instrumentos es laborioso y costoso, y está justificado solo si los
instrumentos existentes no son adecuados para la pregunta de la investigación o la población que se
va a estudiar.
Entrevista
La habilidad del entrevistador puede tener un gran efecto sobre la calidad de las respuestas. Para
aumentar al máximo la reproducibilidad, debe normalizarse el procedimiento de una entrevista a
otra, con un enunciado uniforme de las preguntas y con señales no verbales uniformes durante la
entrevista. Los entrevistadores deben intentar no introducir sus propios sesgos en las respuestas
cambiando las palabras o el tono de su voz. Para que el entrevistador lea cómodamente las pregun
tas palabra por palabra, la entrevista debe redactarse en un lenguaje similar al habla común. Las
preguntas que parecen ampulosas o no naturales cuando se dicen en voz alta estimularán a los en
trevistadores a improvisar su propio modo, más natural, pero menos normalizado, de hacer las pre
guntas.
A veces es necesario hacer un seguimiento de las respuestas del participante para estimularle a
que dé una respuesta adecuada o para aclarar el significado de otra. Este «sondeo» también puede
normalizarse redactando frases estandarizadas en los márgenes o debajo del texto de cada pregunta.
Para una pregunta sobre cuántas tazas de café consumen los participantes en un día normal, algunos
podrían responder «No estoy seguro; varía de un día a otro». El instrumento podría incluir la si
guiente afirmación de sondeo: «Hágalo lo mejor que pueda; dígame aproximadamente cuántas toma
en un día normal».
Las entrevistas pueden realizarse en persona o por teléfono. La entrevista telefónica asistida por
ordenador (ETAO) es una técnica de encuesta telefónica en la que el entrevistador sigue un guion y
el ordenador facilita la recogida y la edición de los datos. Los sistemas de respuesta interactiva a la
voz (RIV) sustituyen al entrevistador con preguntas generadas por ordenador que recogen las res
puestas de los participantes mediante un teclado auxiliar o reconocimiento de la voz (7). Sin embar
go, pueden ser necesarias las entrevistas en persona si el estudio precisa la observación directa de
los participantes o la realización de exploraciones físicas, o si los posibles participantes no tienen
teléfono (p. ej., indigentes).
■■ RESUMEN
1. En muchos estudios clínicos, la calidad de los resultados depende de la calidad y de la idoneidad
de los cuestionarios y las entrevistas. Los investigadores deben asegurarse de que los instru-
mentos sean lo más válidos y reproducibles posible antes de que se inicie el estudio.
2. Las preguntas abiertas permiten que los participantes respondan sin limitaciones impuestas por
el investigador, y las preguntas cerradas son más fáciles de responder y de analizar. Las opciones
de respuesta a una pregunta cerrada deben ser exhaustivas y mutuamente excluyentes.
3. Las preguntas deben ser claras, sencillas, neutras y adecuadas para la población que se va a
estudiar. Los investigadores deben examinar posibles preguntas desde el punto de vista de los
posibles participantes, buscando los términos ambiguos y los errores habituales, como las pre
guntas ambiguas, las suposiciones ocultas y las opciones de respuesta que no concuerdan con
la pregunta.
4. Los cuestionarios deben ser fáciles de leer, y las preguntas de la entrevista deben ser cómodas
de leer en voz alta. El formato debe encajar en el método para la introducción electrónica de los
datos, y debe ser espacioso y estar despejado.
5. Para medir variables abstractas, como actitudes o calidad de vida, pueden combinarse las pre
guntas en escalas múltiples para generar una puntuación total. Cuando se usan estas puntua
ciones se supone que la pregunta mide una sola característica y que las respuestas tienen con-
sistencia interna.
6. Un investigador debe buscar y utilizar instrumentos existentes que se sabe que producen resul
tados válidos y fiables. Cuando es necesario modificar medidas existentes o idear una nueva,
el investigador debe empezar por recopilar las medidas existentes para usarlas como posibles
modelos y fuentes de ideas.
7. Todos los instrumentos que se van a usar en un estudio deben evaluarse antes de que empiece
el estudio. Con los instrumentos nuevos, en pequeñas pruebas preliminares iniciales se puede
mejorar la claridad de las preguntas y de las instrucciones; con estudios piloto posteriores, de
mayor tamaño, se pueden evaluar y mejorar el intervalo de medición, la reproducibilidad y la
validez del nuevo instrumento.
8. Los cuestionarios autoadministrados son más económicos que las entrevistas, pueden norma
lizarse con más facilidad, y su privacidad puede aumentar la validez de las respuestas. Por otro
lado, las entrevistas pueden garantizar que se obtengan respuestas más complejas y aumentar la
validez mediante una mejor comprensión.
9. La administración de instrumentos por entrevistas telefónicas asistidas por ordenador, correo
electrónico, dispositivos electrónicos portátiles o a través de la página web del estudio pueden
mejorar la eficacia de un estudio.
No
3. Como promedio en todo el tiempo desde que empezó a fumar, ¿aproximadamen
te cuántos cigarrillos fumaba al día?
cigarrillos al día
235
7. ¿Ha vivido alguna vez al menos 1 año en la misma casa con alguien que fumaba cigarrillos
habitualmente?
8. ¿Durante cuántos años, en total, ha vivido con alguien que fumaba cigarrillos
Sí habitualmente?
años
No 9. Como promedio durante el tiempo que vivió con personas que fumaban, ¿alrede
dor de cuántos cigarrillos al día se fumaban mientras usted estaba en casa?
cigarrillos al día
10. ¿Vive actualmente en la misma casa con alguien que fuma cigarrillos habitualmente?
Sí
No
11 etc.
BIBLIOGRAFÍA
1. Iarossi G. The power of survey design: a user guide for managing surveys, interpreting results, and influencing respon-
dents. Washington, DC: World Bank, 2006. Available at: https://openknowledge.worldbank.org/bitstream/handle/
10986/6975/350340The0Powe1n0REV01OFFICIAL0USE1.pdf?sequence=1, accessed 03/11/13.
2. McDowell I. Measuring health: a guide to rating scales and questionnaires, 3rd ed. New York: Oxford University Press,
2006.
3. Streiner DL, Norman GR. Health measurement scales: a practical guide to their development and use, 4th ed.
New York: Oxford University Press, 2009.
4. Bland JM, Altman DG. Cronbach’s alpha. BMJ 1997;314:572.
5. Mangione CM, Berry S, Spritzer K, et al. Identifying the content area for the 51-item National Eye Institute
Visual Function Questionnaire: results from focus groups with visually impaired persons. Arch Ophthalmol
1998;116:227–233.
6. Mangione CM, Lee PP, Pitts J, et al. Psychometric properties of the National Eye Institute Visual Function Ques
tionnaire (NEI-VFQ). NEI-VFQ Field Test Investigators. Arch Ophthalmol 1998;116:1496–1504.
7. Kobak KA, Greist JH, Jefferson JW, et al. Computer assessment of depression and anxiety over the phone using
interactive voice response. MD Comput 1999;16:64–68.
8. Dillman DA, Smyth JD, Christian LM. Internet, mail, and mixed-mode surveys: the tailored design method, 3rd ed.
Hoboken, NJ: Wiley, 2008.
9. Mackey DC, Manini TM, Schoeller DA, et al. Validation of an armband to measure daily energy expenditure in
older adults. J Gerontol A Biol Sci Med Sci 2011;66:1108–1113.
10. Girshik J, Fritschi L, Heyworth J, et al. Validation of self-reported sleep against actigraphy. J Epidemiol 2012;
22:462–468.
H emos visto que para emprender un proyecto de investigación clínica es necesario elegir un dise-
ño del estudio, definir la población y especificar las variables predictiva y de respuesta. Finalmente,
la mayoría de la información sobre los participantes y las variables residirá en una base de datos in-
formática que se usará para almacenar, actualizar y supervisar los datos, así como para dar formato a
estos para su análisis estadístico. La base de datos del estudio también puede almacenar datos admi-
nistrativos, como registros de llamadas, calendarios de visitas y registros de reembolso. Las bases de
datos de estudios sencillos, que están formadas por tablas de datos individuales, pueden mantenerse
usando hojas de cálculo o programas estadísticos. Las bases de datos más complejas, que contienen
múltiples tablas de datos relacionadas entre sí, necesitan un programa de gestión de bases de datos.
La gestión de los datos de un estudio de investigación clínica supone la definición de las tablas
de datos, el desarrollo del sistema de introducción de datos y la consulta de estos para su supervi-
sión y análisis. En estudios clínicos extensos, especialmente estudios que se hacen como preparación
para la solicitud de autorización por las autoridades de registro sanitario de un fármaco dispositivo,
los especialistas que crean los formularios e introducen los datos, gestionan y supervisan el proce-
so de recogida de datos, y asignan formato y extraen los datos para su análisis se denominan gestores
de los datos clínicos (1). Las grandes compañías farmacéuticas que ponen en marcha múltiples
ensayos clínicos dedican muchos recursos y personal a la gestión de los datos clínicos. Aunque la
escala generalmente es mucho menor, los nuevos investigadores también deben prestar mucha aten-
ción a los problemas de la gestión de los datos.
■■ TABLAS DE DATOS
Todas las bases de datos informáticas constan de una o más tablas de datos en las que las filas corres-
ponden a registros (que pueden representar sujetos, episodios o transacciones) y las columnas
corresponden a campos (atributos de los registros). Por ejemplo, las bases de datos de los estudios
más sencillos constan de una tabla en la que cada fila corresponde a un participante del estudio y
cada columna corresponde a un atributo específico del participante, como el nombre, la fecha de
nacimiento, el sexo y el estado de la variable predictiva o de respuesta. En general, la primera co-
lumna es un número de identificación del participante único («ID partic»). La utilización de un
número de identificación único del participante que no tiene ningún significado externo a la base
de datos del estudio simplifica el proceso de «desvincular» los datos del estudio de los identificado-
res personales, para mantener la confidencialidad de los participantes. Si la base de datos contiene
tablas adicionales con registros que corresponden a exploraciones, resultados de laboratorio o lla-
madas telefónicas, entonces la primera columna de cada una de esas tablas debe ser un identificador
único del registro, como ID Expl, ID Res Lab o ID Llam. El identificador único del registro de una
tabla de datos también se denomina clave principal de la tabla.
La figura 16-1 muestra una tabla de datos simplificada para un hipotético estudio de cohortes (ins-
pirado por un estudio real [2]) de la asociación entre la ictericia neonatal y la puntuación del CI a los
5 años de edad. Cada fila de la tabla corresponde a un participante del estudio, y cada columna a un
atributo de este. La variable predictiva dicotómica es si el participante ha tenido o no ictericia («Jaun-
dice»), y la variable de respuesta continua es el CI («IC»), que es el CI del participante a los 5 años.
Si los datos del estudio se limitan a una sola tabla como la de la figura 16-1, se pueden introducir
fácilmente en una hoja de cálculo o en un programa de análisis estadístico. A menudo, a una base
de datos con una tabla bidimensional se la denomina «archivo plano». Muchos paquetes estadísticos
237
■■FIGURA 16-1. Tabla de datos simplificada para un estudio de cohortes de la asociación entre ictericia neonatal y
puntuación del CI a los 5 años de edad. La variable predictiva dicotómica es «Jaundice» («Ictericia»), que se define aquí
por un aumento de la bilirrubina total hasta 25 mg/dL o más en los primeros 2 días después del nacimiento, y la variable
de respuesta continúa es «IQ», la puntuación del CI a los 5 años de edad. No se evaluó a los 5 años de edad a los par
ticipantes 2 390, 2 819, 3 374 y 3 901.
tienen características añadidas para poder utilizar más de una tabla, pero, en su núcleo, la mayor
parte siguen siendo bases de datos con archivos planos.
La necesidad de incluir más de una tabla en una base de datos de un estudio (y de pasar de la hoja
de cálculo o el programa estadístico a un programa de gestión de datos) surge si en el estudio se
realiza el seguimiento de múltiples resultados de laboratorio, medicaciones u otras mediciones re-
petidas en todos los participantes en el estudio. Una única tabla de datos con una fila por participan-
te en el estudio no permite la inclusión de un número grande y variable de mediciones repetidas. La
base de datos debe almacenar medicamentos, resultados de laboratorio u otras mediciones repetidas
en tablas separadas diferentes de la tabla de los participantes en el estudio. Una fila de una de estas
tablas aparte corresponde a una medición individual, como, por ejemplo, el tipo de medición, la
fecha/hora de la medición, y el resultado o valor de la medición. Un campo de la fila debe incluir el
número de identificación del participante para vincular la medición de nuevo con los campos espe-
cíficos del participante. En esta «base de datos relacional de múltiples tablas», la relación entre la
tabla de participantes y las tablas de las mediciones se denomina de una a muchas. En sentido es-
tricto, el término relacional tiene poco que ver con las relaciones entre las tablas. De hecho, relación
es el término formal de la teoría matemática de conjuntos para una tabla de datos (3, 4).
Aunque a los participantes de nuestro estudio de ictericia en el lactante se les realizó el estudio del
CI solo una vez a los 5 años de edad, en la mayoría de ellos se realizaron otras exploraciones, duran-
te las cuales, junto con otras mediciones, se evaluó el peso y la altura. Se utilizaron los datos de la
altura y el peso para calcular el índice de masa corporal (IMC) y los percentiles de la curva de creci-
miento. (V. «Extracción de datos [consultas]», más adelante en este capítulo.) La mejor forma de
poder incluir estos datos es en una tabla separada de exploraciones, en la que cada fila corresponde a
una exploración discreta y las columnas representan la fecha de la exploración, los resultados de la
exploración y el número de identificación del paciente, para vincularla de nuevo con información de
la tabla del participante, como el sexo, la fecha de nacimiento (FN) y si el niño tuvo una ictericia
neonatal (fig. 16-2). En esta estructura de bases de datos en dos tablas, la búsqueda en la tabla de
exploraciones de todas las exploraciones realizadas en un período temporal particular precisa la bús-
queda de una única columna de fecha de exploraciones. En un lugar se hace un cambio de un campo
específico del participante, como la fecha de nacimiento, y se mantiene la congruencia. Los campos
que contienen identificadores personales, como el nombre y la fecha de nacimiento, aparecen única-
mente en la tabla del participante. Las otras tablas establecen un vínculo con esta información gracias
■■FIGURA 16-2. La base de datos de dos tablas del estudio de la ictericia neonatal tiene una tabla de participantes del
estudio, en la que cada fila corresponde a un solo participante del estudio, y una tabla de exploraciones, en la que cada
fila corresponde a una exploración concreta. Por ejemplo, se identifica a la participante 2 322 como Helen, con fecha de
nacimiento el 6 de enero de 2005, en la primera tabla, y se muestran datos de las tres evaluaciones en la segunda tabla
anónima. Como pueden haberse realizado múltiples exploraciones a un participante, la relación entre las dos tablas es
de una a muchas. El campo «SubjectID» («Identidad del participante») en la tabla de evaluaciones vincula los datos
específicos de la evaluación con los datos específicos del participante.
■■FIGURA 16-3. Relación entre la tabla de participantes y la tabla de resultados de laboratorio. Los resultados de labo
ratorio permiten ver la trayectoria de la bilirrubina total de Amy en los primeros 5 días después del nacimiento.
y gordas» en muchas tablas «altas y delgadas» (1). La normalización elimina el almacenamiento re-
dundante y la posibilidad de incongruencias. Los programas de bases de datos relacionales manten-
drán la integridad referencial, lo que significa que no se permitirá la creación de un registro de una
exploración, resultado de laboratorio o registro de llamadas de un participante que no exista todavía
en la tabla de participantes. Igualmente, evita la eliminación de un participante, salvo que también se
hayan eliminado todas las exploraciones, resultados de laboratorio y llamadas de ese participante.
■■FIGURA 16-4. La tabla de los participantes en el estudio («Subject») («Participante») y la tabla de las mediciones
(«Exam») («Exploración») en la vista del «diccionario de los datos». Cada variable o campo tiene un nombre, un tipo de
dato, una descripción y un dominio o conjunto de valores permitidos.
Algunos de los tipos de datos vienen con normas de validación automáticas. Por ejemplo, los programas
informáticos para la gestión de bases de datos siempre rechazará una fecha de 31 de abril.
Nombres de variables
La mayor parte de las hojas de cálculo, y de los programas estadísticos y de gestión de bases de datos,
permiten encabezamientos de columnas o nombres de variables largos. Abundan las filosofías y las
convenciones para la asignación de nombres. Recomendamos nombres de variables lo suficientemen-
te cortos para poder escribirlos rápidamente, pero lo suficientemente largos como para que sean autoex-
plicativos. Aunque muchas veces lo permite el programa informático, recomendamos evitar los espacios
y los caracteres especiales en los nombres de las variables. Distinguimos las palabras separadas en el
nombre de una variable utilizando lo que acertadamente se denomina «InterCaps» («Mayúsculas inter-
nas»), aunque otros autores prefieren utilizar un guion bajo. Suele ser mejor usar un nombre de variable
que describa el campo, en lugar de su ubicación en el formulario de recopilación de datos (p. ej., «Algu-
naVezFumaCigarrillos», en lugar de «Pregunta1»). La mayoría de los programas informáticos permiten
que los usuarios utilicen una etiqueta de variable más larga, descriptiva y fácil de leer para utilizar en
los formularios de introducción de datos y los informes, en lugar del nombre de la variable compacto.
La justificación es que en los estudios de investigación en una misma área clínica muchas veces se
deben obtener las mismas mediciones. La normalización de las estructuras de los registros, los nombres
y las definiciones de campos, los tipos y formatos de datos, y los formularios de recogida de datos (cua-
dernos de recogida de datos) elimina el problema de «reinventar la rueda», como muchas veces ocurre
en nuevos estudios de investigación (5), y permite que se compartan y combinen datos de múltiples
estudios separados. Esto incluye el establecimiento de un diccionario de los datos y un conjunto de
instrumentos para la recogida de datos con las correspondientes instrucciones, que se anima a que uti-
licen todos los investigadores en un área de investigación particular. Una parte de la erudición profunda
en el área de investigación elegida es el conocimiento de las normas existentes en relación con los datos.
■■ INTRODUCCIÓN DE DATOS
Tanto si la base de datos del estudio consta de una como de muchas tablas, y tanto si se usa una hoja
de cálculo, un programa estadístico o un programa de gestión de bases de datos, se necesita un me-
canismo para rellenar las tablas de datos (introducir los datos).
bargo, escribir a mano los datos en un formulario en papel es cada vez menos frecuente. En general,
en los estudios de investigación se recopilan datos usando formularios en pantalla. En los ensayos
clínicos, los formularios electrónicos se denominan cuadernos de recogida de datos electrónicos
(CRDe). La recogida de los datos con formularios en pantalla tiene muchas ventajas:
• Los datos se teclean directamente en tablas de datos sin un segundo paso de transcripción, lo que
elimina esa fuente de error.
• El formulario informático puede incluir comprobaciones de validación y proporcionar una re-
troalimentación inmediata cuando se introduce un dato que está fuera del intervalo de valores.
• El formulario informático también puede incorporar lógica de exclusión. Por ejemplo, una pre-
gunta sobre el número de cajetillas al día aparecerá solo si el participante responde «sí» a una
pregunta sobre consumo de cigarrillos.
• El formulario puede verse y se pueden introducir los datos en aparatos portátiles e inalámbricos,
como una tableta (iPad), un teléfono inteligente o un ordenador portátil.
Al usar formularios en pantalla para recoger datos electrónicos, a veces es útil hacer una copia en papel
de los datos inmediatamente tras la recopilación. Es lo mismo que imprimir un recibo tras una transacción
en un cajero automático. La impresión es una «instantánea» en papel del registro inmediatamente después
de recopilar los datos, y puede usarse como documento original si se precisa una versión en papel.
C
■■FIGURA 16-5. Formatos para la introducción en una lista de respuestas mutuamente excluyentes y exhaus
tivas de manera colectiva. La lista desplegable (A; desplegada en el panel inferior) ahorra espacio en la panta
lla, aunque no funcionará si el formulario de pantalla se va a imprimir para la recogida de datos. Hace falta
más espacio tanto para la lista de selección (que es tan solo una lista desplegable que está desplegada conti
nuamente; B) como para el grupo de opciones (C), aunque sí se pueden utilizar cuando se imprimen.
determinaciones realizadas mediante absorciometría de rayos X de doble energía (DEXA) y los re-
gistros Holter, ya se encuentra en formato electrónico digital. Cuando sea posible, estos datos deben
importarse directamente a la base de datos del estudio, para evitar el trabajo y los posibles errores
de transcripción que conlleva volver a introducir los datos. Por ejemplo, en el estudio de la ictericia
neonatal, los datos demográficos de los participantes y la información de contacto se obtuvieron de
la base de datos del hospital. Los sistemas informáticos casi siempre pueden producir archivos
*Gratuitos
de texto delimitados por tabuladores o con anchura de columna fija que pueden importar los pro-
gramas de bases de datos. En los ensayos clínicos, este tipo de información actualizada por lotes se
denomina «datos no obtenidos con CRD (cuaderno de recogida de datos)» (1).
relacionales para mantener las tablas de datos de soporte. Si los datos se recogen primero en formu-
larios de papel, la introducción de los datos precisará la transcripción en formularios informáticos.
Como se comentó en el capítulo 15, existen varias herramientas, como SurveyMonkey, Zoome-
rang y Qualtrics, para desarrollar encuestas en línea que se enviarán por correo electrónico a los
participantes en el estudio o se cargarán en la página web del estudio. Todas estas herramientas
ofrecen opciones de formato de preguntas múltiples, lógica de exclusión y la posibilidad de agregar,
describir y exportar los resultados de la encuesta.
Para algunos de los paquetes estadísticos, como SAS, se han desarrollado módulos para la intro-
ducción de los datos. Los programas de bases de datos de escritorio integradas, como Microsoft
Access y Filemarker Pro, también proporcionan muchas herramientas para el desarrollo de formu-
larios de datos.
En los estudios de investigación cada vez se utilizan más plataformas de gestión de datos de in-
vestigación integradas y con posibilidades de uso en Internet. REDCap (Research Electronic Data
Capture) es un sistema de recogida de datos de investigación basado en Internet y desarrollado por
un consorcio académico de la Universidad de Vanderbilt. Permite que los investigadores elaboren
formularios de introducción de datos, encuestas y encuestas con formularios adjuntos para la intro-
ducción de datos. REDCap está disponible únicamente para investigadores académicos y se debe
alojar en el centro del investigador. Es una notable herramienta casera para nuevos investigadores
académicos que permite el desarrollo rápido de encuestas y formularios de recogida de datos en
pantalla. También permite acceder a un almacén de instrumentos de recogida de datos que se pueden
descargar. Como todas las herramientas caseras de desarrollo en Internet, las opciones de persona-
lización y funcionalidad avanzada son escasas. Una base de datos elaborada con REDCap está for-
mada por una única tabla que contiene una hilera para cada uno de un número fijo de «aconteci-
mientos» definidos por el usuario para cada uno de los participantes en el estudio. No permite un
seguimiento detallado de un número grande y variable de mediciones repetidas de cada uno de los
participantes en el estudio, como resultados de laboratorio, constantes vitales, medicamentos o re-
gistros de llamadas. Con el sistema REDCap tampoco se pueden realizar procedimientos sofisticados
de validación, consulta (v. más adelante en este capítulo) o informes de los datos, aunque facilita la
exportación a paquetes estadísticos.
Las plataformas de gestión de datos de investigación completas y basadas en Internet, como
QuesGen, MediData RAVE y Oracle InForm, permiten la introducción de estructuras de datos
complejos y ofrecen herramientas sofisticadas para la validación, la consulta y el informe de los
datos. Las compañías que suministran estas herramientas también ofrecen soporte técnico y ayuda
para la configuración. Aunque puede suponer algún coste adicional, merece la pena tener en consi-
deración estas soluciones cuando las herramientas caseras carecen de la sofisticación que permite
satisfacer las necesidades del estudio.
■■FIGURA 16-6. Una consulta en vista de hoja de cálculo que filtra los resultados corres
pondientes a los niños explorados en febrero y calcula la edad en meses (desde la fecha de
nacimiento hasta la fecha de la exploración), además del índice de masa corporal (BMI; IMC)
calculado a partir del peso y la altura. La consulta también utiliza una sofisticada función de
búsqueda en la tabla para calcular los valores del percentil de la curva de crecimiento corres
pondientes al IMC del niño. Para el paciente con el número de identificación 4 430, el valor
del percentil 100 asociado al IMC de 35,0 debería llevar a investigar el valor extremo como
un posible error en la introducción de los datos.
reducir al mínimo los datos ausentes y los errores. Por el contrario, los errores en otras variables, como
la fecha de una consulta, pueden no afectar mucho a los resultados de los análisis. La edición de los datos
es un proceso iterativo; tras identificar y corregir los errores, los procedimientos de edición deben repe-
tirse hasta que se identifiquen errores muy poco importantes. En este punto, se considera que la base de
datos editada es la versión final o que está «cerrada», de modo que ya no se permiten más cambios (1).
■■ CONFIDENCIALIDAD Y SEGURIDAD
Si los participantes en un estudio de investigación también son pacientes de una consulta o un hos-
pital, la información que les identifica está protegida por la norma de privacidad (Privacy Rule) de
la ley de portabilidad y responsabilidad de los seguros sanitarios (Health Insurance Portability and
Accountability Act, HIPAA) (10); una vez dicho esto, independientemente de que los participantes
también sean pacientes, el investigador tiene la obligación ética y legal de proteger su confidencia-
lidad. La base de datos debe asignar a cada uno de los participantes un identificador de participante
único (identidad del participante) que no tenga ningún significado externo a la base de datos del
estudio (es decir, la identidad del participante no debe incorporar el nombre, las iniciales, la fecha
de nacimiento ni el número de historia clínica del participante). Todos los campos de la base de
datos que contengan identificadores personales se deben borrar antes de compartir los datos. Si la
base de datos utiliza múltiples tablas, los identificadores personales se pueden conservar en una
tabla separada. Las bases de datos del estudio que contengan identificadores personales se deben
mantener en servidores seguros a los que puedan acceder únicamente miembros autorizados del
equipo de investigación, cada uno de los cuales tendrá una identificación de usuario y una contra-
seña. Las plataformas específicas para la gestión de datos de la investigación basadas en Internet,
como REDCap y QuesGen, permiten la designación de campos que contengan identificadores de los
participantes. Diferentes tipos de usuario pueden permitir o prohibir la exportación, la modificación
o incluso la visualización de estos campos con designación especial.
El sistema de bases de datos debe realizar una auditoría de toda la introducción y edición de los
datos. La auditoría permite la determinación de cuándo se ha modificado un elemento de datos,
quién realizó el cambio y qué cambios se realizaron. Para los ensayos de nuevos fármacos, se trata
de un requisito de las autoridades de registro (9). Las plataformas de investigación específicas basa-
das en Internet, como REDCap, QuesGen y MediData RAVE, ofrecen automáticamente la validación
y la auditoría del usuario.
La base de datos del estudio debe guardarse frecuentemente y depositarse en otro lugar. Perió-
dicamente, el procedimiento de copia de seguridad debe comprobarse restableciendo una copia de
seguridad de los datos. Como con la validación y la auditoría del usuario, las plataformas alojadas
en servidores externos, como REDCap, QuesGen y MediData RAVE, ofrecen automáticamente copias
de seguridad y sistemas de seguridad de los datos. Al final del estudio se deben archivar para su uso
futuro los datos originales, el diccionario de los datos, la base de datos final y los análisis del estudio.
Estos archivos pueden revisarse en los años siguientes, lo que permitirá al investigador responder a
preguntas sobre la integridad de los datos o el análisis, realizar otros análisis para abordar nuevas
preguntas de investigación y compartir datos con otros investigadores.
■■ RESUMEN
1. La base de datos del estudio consta de una o más tablas de datos en las que las filas correspon-
den a registros (es decir, participantes en el estudio) y las columnas corresponden a campos
(atributos de los registros).
2. La identificación de los participantes en el estudio con una identificación del participante úni-
ca que no tenga ningún significado externo a la base de datos del estudio permite la «desvincu-
lación» de los datos el estudio respecto a los identificadores personales para mantener la confi-
dencialidad. Las bases de datos que contienen identificadores personales se deben almacenar
en servidores seguros, con acceso restringido y sometidos a auditorías.
3. La introducción de un número variable de medidas repetidas para cada uno de los participantes
en el estudio, como resultados de laboratorio o medicamentos, precisa la normalización de los
datos de las mediciones en tablas separadas en las que cada fila corresponde a una medición, no
a un participante del estudio individual.
4. La base de datos del estudio también puede almacenar datos administrativos, como registros
de llamadas, calendarios de exploraciones y registros de reembolso.
5. El diccionario de los datos especifica el nombre, el tipo de datos, la descripción y el intervalo
de valores permitidos para todos los campos de la base de datos.
6. El sistema de introducción de los datos es el medio por el que se rellenan las tablas de datos;
la captura electrónica de los datos con formularios en pantalla está sustituyendo a la transcrip-
ción de esos formularios en papel para la introducción de los datos.
7. Una hoja de cálculo o un paquete estadístico es adecuado únicamente para las bases de da-
tos del estudio más sencillas; para las bases de datos complejas, hace falta crear una base de
datos relacional utilizando programas de gestión de bases de datos basados en el lengua-
je de consulta estructurado (Structured Query Language, SQL).
8. Las consultas a la base de datos clasifican y filtran los datos, y calculan valores basados en los
campos de datos. Se usan las consultas para supervisar la introducción de los datos, realizar
informes sobre el progreso del estudio y dar formato a los resultados para su análisis.
9. La pérdida de la base de datos debe evitarse mediante copias de seguridad frecuentes y depósito
externo, y mediante el archivo de copias de versiones clave de la base de datos para su uso futuro.
BIBLIOGRAFÍA
1. Prokscha S. Practical guide to clinical data management, 3rd ed. Boca Raton: CRC Press, 2012.
2. Newman TB, Liljestrand P, Jeremy RJ, et al. Outcomes among newborns with total serum bilirubin levels of 25 mg
per deciliter or more. N Engl J Med 2006;354(18):1889–1900.
3. Codd EF. A relational model of data for large shared data banks. Communications of the ACM 1970;13(6):377–387.
4. Date CJ. An introduction to database systems, 7th ed. Reading, Mass: Addison-Wesley, 2000.
5. Grinnon ST, Miller K, Marler JR, et al. National Institute of Neurological Disorders and Stroke common data ele-
ment project—approach and methods. Clin Trials 2012;9(3):322–329.
6. NCI. The National Cancer Institute Cancer Data Standards Registry and Repository. 2012. Available from:
https://cabig.nci.nih.gov/concepts/caDSR/, accessed 9/29/12.
7. FDA. Driving biomedical innovation: initiatives to improve products for patients. October, 2011. Available from:
http://www.fda.gov/downloads/AboutFDA/ReportsManualsForms/Reports/UCM274464.pdf, accessed 1/29/13.
8. CDISC. The Clinical Data Interchange Standards Consortium Study data tabulation model. 2012. Available from:
http://www.cdisc.org/sdtm, accessed 1/29/2013.
9. DHHS. Guidance for industry: computerized systems used in clinical trials. May, 2007. Available from:
http://www.fda.gov/downloads/Drugs/GuidanceComplianceRegulatoryInformation/Guidances/UCM070266.pdf,
accessed 1/29/2013.
10. DHHS. Protecting personal health information in research: understanding the HIPAA Privacy Rule. 2003. Available
from: http://privacyruleandresearch.nih.gov/pr_02.asp, accessed 1/29/2013.
L a mayor parte de este libro ha tratado sobre el lado izquierdo del modelo de la investigación
clínica, en el que se abordan asuntos del diseño (fig. 17-1). En este capítulo nos dirigimos hacia al
segundo miembro, la realización. Incluso el mejor de los planes concienzudamente elaborado en el
sillón puede resultar diferente en la práctica. Quizá no se disponga de personal de investigación
experimentado, el espacio para realizar el estudio puede ser inferior al óptimo, los participantes
pueden estar menos deseosos de participar de lo que se esperaba, la intervención puede tolerarse
mal y las mediciones resultar difíciles. Las conclusiones de un estudio bien diseñado pueden echar-
se a perder por ignorancia, descuido, falta de formación y de normalización, y otros errores en la
finalización y la realización del protocolo.
El éxito en la realización de un estudio empieza con la reunión de los recursos, entre ellos el
espacio, el personal y la gestión económica para poner en marcha el estudio. La siguiente tarea
es finalizar el protocolo mediante un proceso de evaluación preliminar de los planes de inclusión,
medición e intervención en un intento de evitar la necesidad de revisiones del protocolo después
de que haya comenzado la recogida de los datos. Después, el estudio se ejecuta con un método
sistemático de control de calidad de los procedimientos clínicos y de laboratorio y del manejo
de los datos, siguiendo los principios de las prácticas clínicas correctas (PCC) respaldadas por
la FDA.
Algunas de las estrategias de este capítulo se refieren a estudios extensos con grandes equipos
de investigación distribuidos en múltiples centros, que son dirigidos por investigadores con expe-
riencia. Sin embargo, esta información también se aplica a investigadores principales que pueden
ser coinvestigadores de estos estudios extensos, o investigadores principales en un estudio de
menor tamaño.
,QIHUHQFLD ,QIHUHQFLD
5($/,'$' 5($/,'$' +$//$=*26
(1(/81,9(562 (1(/(678',2 '(/(678',2
(UURU (UURU
3UHJXQWD 3ODQGHOHVWXGLR (VWXGLR
GHODLQYHVWLJDFLyQ UHDO
'LVHxR 5HDOL]DFLyQ
3REODFLyQ 0XHVWUD 3DUWLFLSDQWHV
HQHVWXGLR SUHYLVWD UHDOHV
■■FIGURA 17-1. Este capítulo se centra en el área que está dentro de la línea verde discontinua: realización de un
proyecto de investigación.
250
Equipo de la investigación
Los equipos de investigación oscilan, en cuanto a tamaño, desde pequeños (a menudo solo el inves-
tigador y un ayudante a tiempo parcial) hasta contar con un personal abundante a jornada comple-
ta para los grandes estudios. Independientemente del tamaño, todos los equipos de investigación
deben realizar actividades similares y cumplir las mismas funciones, que se describen en la tabla 17-1.
Con frecuencia una persona desempeña varias de estas actividades. Sin embargo, algunos de estos
deberes precisan una experiencia especial, como el análisis y la programación estadísticos. Algunos
miembros del equipo, como los directores económicos y de recursos humanos, suelen trabajar para
la universidad o el centro médico, y habrán sido proporcionados por la unidad o el departamento del
investigador. Independientemente del tamaño del equipo del estudio, el investigador principal (IP)
debe asegurarse de que se realicen todas las funciones que se describen en la tabla 17-1.
Tras decidir el número de miembros que van a componer el equipo y distribuir las tareas, el si-
guiente paso será trabajar con un administrador del departamento para encontrar candidatos para
el trabajo cualificados y con experiencia. Puede resultar difícil, porque la formación para algunos de
los miembros del equipo es variable y los requisitos laborales variarán de un estudio a otro. Por
ejemplo, la posición esencial de director del proyecto la puede ocupar una persona con experiencia
en enfermería, farmacia, salud pública, servicios de laboratorio o investigación farmacéutica, y las
obligaciones de este puesto pueden variar mucho.
La mayor parte de las universidades y centros médicos cuentan con métodos formales para anun-
ciar ofertas laborales, pero también pueden ser útiles otras vías, como anuncios en periódicos y en
la web. El método más seguro es encontrar personal cuya competencia se conozca, como, por ejem-
plo, alguien que trabaje con un compañero cuyo proyecto haya finalizado. También es habitual ne-
gociar con los compañeros para contratar a su personal con experiencia a tiempo parcial. Algunos
centros médicos académicos o unidades del centro médico tienen un conjunto de coordinadores de
investigación con experiencia y otro personal al que se puede contratar a tiempo parcial.
de vez en cuando para expresar el reconocimiento y comentar problemas y soluciones. Un buen jefe
sabe delegar autoridad de forma adecuada y, al mismo tiempo, establecer un sistema jerárquico de
supervisión que asegure un control suficiente de todos los aspectos del estudio.
Desde el principio de la fase de planificación, el investigador debe coordinar reuniones del per-
sonal periódicamente, con todos los miembros del equipo. La agenda de las reuniones debe distri-
buirse por adelantado, con los informes de progreso por las personas a las que se ha otorgado res-
ponsabilidad en áreas específicas del estudio. Estas reuniones son una oportunidad para descubrir y
solucionar problemas, y para que todo el mundo intervenga en el proceso de desarrollo del proyec-
to y en la realización de la investigación. Las reuniones mejoran con exposiciones científicas y ac-
tualizaciones relacionadas con el proyecto. Son una buena fuente de moral e interés en los objetivos
del estudio, y proporcionan formación sin abandonar el trabajo.
La mayor parte de las universidades y centros médicos orientados a la investigación proporcionan gran
número de recursos institucionales para realizar la investigación clínica, como recursos humanos y
servicios de gestión económica, servicios de consultoría, y centros de investigación clínica centralizados
que proporcionan espacio y personal con experiencia. Muchas universidades cuentan también con labo-
ratorios centrales en los que pueden realizarse determinaciones especializadas, un espacio y un equipo
centralizados para almacenar imágenes o muestras biológicas, servicios centralizados de gestión de bases
de datos, centros de inclusión profesionales, experiencia con la U.S. Food and Drug Administration
(FDA) y las normas de otras agencias de registro sanitario, y bibliotecas de formularios y documentos de
estudios. Esta infraestructura puede no estar claramente a la vista en un gran centro, y los investigadores
deberán procurar familiarizarse con sus recursos locales antes de intentar hacerlo por sí mismos.
cumplir los hitos de la inclusión y enviar informes de progreso. En las universidades o centros mé-
dicos se necesitan abogados para ayudar a elaborar esos contratos, y para asegurar que se protegen
los derechos de propiedad intelectual del investigador, el acceso a los datos, los derechos de publi-
cación, etc. Sin embargo, los abogados generalmente no están familiarizados con las tareas necesarias
para realizar un estudio específico, y la participación del investigador es esencial, especialmente en
lo que respecta al ámbito del trabajo y los productos.
Los investigadores ansiosos por comenzar un estudio y empezar a registrar datos, en ocasiones re-
gistran los datos en formularios de papel o en una hoja de cálculo como Microsoft Excel, en lugar
del programa real de la base de datos. Aunque este abordaje es más fácil al comienzo, acaba costan-
do mucho más tiempo y esfuerzo posteriormente, cuando llega el momento de analizar los datos. La
ventaja de configurar una base de datos en las primeras fases es que permite que el investigador
considere al inicio qué valores de cada una de las variables son aceptables, y que prohíba o genere
alertas para los valores que estén fuera del intervalo, que sean ilógicos o que estén ausentes. Los
sistemas de introducción y gestión de los datos de calidad elevada mejoran el control de calidad en
el momento de la recogida de los datos o su introducción, y reducen el tiempo que será necesario
posteriormente para realizar la limpieza de los datos. No obstante, la principal ventaja de un sistema
de datos de calidad elevada es evitar descubrir en fases tardías del estudio que hay un gran número de
valores ausentes, fuera del intervalo o ilógicos que no se pueden corregir.
Inclusión
En el capítulo 3 se describen los métodos para conseguir el número propuesto de participantes para
un estudio. Deseamos destacar aquí que conseguir los participantes a tiempo es el aspecto más difí-
cil de muchos estudios. El momento adecuado, el personal, los recursos y la experiencia son esen-
ciales para poder lograrlo, y debe planificarse todo bien antes del inicio del estudio.
sencillas. Por ejemplo, en un estudio que excluye a personas con abuso de alcohol, ¿puede incluirse
a una persona que ha mantenido la abstinencia durante varios años? La decisión debe tomarse con-
sultando con los coinvestigadores, pero con la comunicación adecuada a través de memorandos y el
manual de instrucciones para asegurarse de que todo el personal lo aplique uniformemente durante
el resto del estudio. Con frecuencia, los ajustes menores de este tipo no necesitan la aprobación del
CEIC, sobre todo si no suponen cambiar el protocolo que ya ha sido aprobado, pero el IP debe con-
sultar a un miembro del CEIC por si hubiera alguna duda. Deben identificarse todos los cambios del
protocolo, de los formularios de consentimiento informado, del manual de instrucciones o de otros
documentos del estudio asignando al documento revisado un número de versión nuevo, y se deben
aplicar métodos para garantizar que se utilice la última versión de cada uno de los documentos.
Cierre
En algún punto de todos los estudios longitudinales y ensayos clínicos se detiene el seguimiento de
los participantes. El período durante el cual los participantes realizan la última consulta del estudio
se denomina «cierre» y presenta varios puntos que se deben planificar (3). Como mínimo, en la
última consulta, el personal debe agradecer a los participantes su tiempo y su esfuerzo, e informarles
de que su participación fue esencial para que el estudio tuviera éxito. Además, este período de cierre
puede incluir las actividades siguientes:
• Generalmente, se debe informar a los participantes (y a sus médicos) de los resultados de las
pruebas de laboratorio con importancia clínica y de otras determinaciones que se realizaron du-
rante el estudio, ya sea en persona, en la última consulta (con una copia por escrito) o, posterior-
mente, por correo.
• En un ensayo clínico con enmascaramiento debe comunicarse a los participantes el tratamiento
que han recibido, ya sea en la última consulta o por correo, cuando todos los participantes hayan
finalizado el ensayo y se hayan realizado los principales análisis de los datos o se haya publicado
el principal manuscrito basado en los resultados del estudio.
• En general, se debe enviar por correo a los participantes (y a sus médicos) una copia del manus-
crito principal basado en los resultados del estudio u otra descripción de los hallazgos, redactado
en un lenguaje no técnico, cuando se realice la presentación o la publicación, con un número de
teléfono para los participantes que tengan preguntas.
• Una vez que todos los participantes hayan finalizado el estudio, se les puede invitar a una recep-
ción durante la que el IP les dará las gracias, comentará los resultados del estudio y responderá a
sus preguntas.
completo de cada tipo de entrevista y procedimiento técnico que realice cada miembro de este equi-
po de investigación. Al principio puede parecer embarazoso, pero pronto será cómodo. Es útil utilizar
una lista de verificación normalizada (proporcionada por adelantado, y basada en el protocolo y el
manual de instrucciones) durante estas observaciones. Después puede facilitarse la comunicación
entre el supervisor y el miembro del equipo revisando la lista y resolviendo, de un modo positivo y
no peyorativo, todos los puntos sobre el control de calidad que se anotaron. El momento y los resul-
tados de las revisiones de la realización deben anotarse en los registros de formación.
Es útil que participen compañeros del equipo de investigación como revisores para construir
un trabajo en equipo, así como para asegurar la aplicación constante de métodos normalizados
entre los miembros del equipo que realizan la misma tarea. Una ventaja de usar compañeros como
observadores en este sistema es que todos los miembros del equipo investigador adquieren una
sensación de propiedad del proceso de control de calidad. Otra de las ventajas es que, a menudo,
el observador aprende tanto observando la realización de otra persona como esta al final del pro-
ceso de revisión.
• Informes periódicos. Es importante tabular los datos de la calidad técnica de los procedimientos
y las mediciones clínicas a intervalos regulares, ya que puede dar pistas sobre la presencia de
mediciones ausentes, inexactas o variables. Las diferencias entre los miembros de un equipo
de medición de la presión arterial en los niveles medios observados en los últimos 2 meses, por
ejemplo, pueden descubrir diferencias en sus técnicas de medición. Igualmente, un cambio gra-
dual en unos meses de la desviación típica de series de lecturas puede indicar que existe un
cambio en la técnica de la medición. Los informes periódicos también deben hacer ver el éxito de
la inclusión, la puntualidad de la introducción de datos, la proporción de variables ausentes y
fuera del intervalo, el tiempo transcurrido hasta que se abordan las consultas sobre los datos, y el
éxito del seguimiento y del cumplimiento de la intervención.
• Procedimientos especiales para intervenciones con fármacos. Los ensayos clínicos en los que se
usan fármacos, sobre todo los que utilizan enmascaramiento, precisan una atención especial al
control de calidad del etiquetado, la distribución y el almacenamiento del fármaco, la dispensación
de la medicación, y la recopilación y la eliminación de la medicación no utilizada. Se asegura la
provisión del fármaco y la dosis correctos mediante una planificación meticulosa con el fabrican-
te o la farmacia de la investigación en relación con la naturaleza del método de distribución del
fármaco, supervisando su aplicación y comprobando, en ocasiones, la composición de los medi-
camentos del estudio con enmascaramiento, para asegurarse de que contienen los componentes
correctos. Los estudios farmacológicos también necesitan procedimientos claros y registros para
seguir la recepción de medicamentos del estudio, el almacenamiento, la distribución y su devo-
lución por los participantes.
conozca el grupo del estudio o el valor de otras variables esenciales. Incluso para procedimientos
aparentemente objetivos, como una determinación automática de la glucemia, esta precaución reduce
las oportunidades de que se produzca sesgo, y proporciona una sección de metodología más sólida al
comunicar los resultados. Sin embargo, el enmascaramiento de la asignación al personal del laborato-
rio significa que tiene que haber procedimientos claros para comunicar los resultados anormales a un
miembro del equipo que esté cualificado para revisar los resultados y decidir si debe notificarse al
participante o debe emprenderse alguna otra acción. En los ensayos clínicos debe haber también es-
trategias preparadas para desenmascarar (a veces urgentemente) si las determinaciones analíticas in-
dican alteraciones que podrían asociarse a la intervención del ensayo y que requieren una acción
inmediata.
• Duplicados con enmascaramiento, mezclas estándar y mediciones de consenso. Cuando se envían
muestras o imágenes a un laboratorio central para su análisis químico o su interpretación, puede ser
buena idea enviar duplicados con enmascaramiento (una segunda muestra de un subgrupo aleato-
rio de participantes a la que se asigna un número de ID separado y ficticio) mediante el mismo
sistema. Esa estrategia da una medida de la precisión de la técnica de laboratorio. Otro método para
muestras séricas que pueden guardarse congeladas es preparar una mezcla de suero al principio y
enviar periódicamente alícuotas, a través del sistema, que están marcadas con números de ID ficticios
y ocultando la asignación. Las medidas realizadas en la mezcla de suero al principio, mediante la
mejor técnica disponible, establecen sus valores; se usa después la mezcla como un patrón de refe-
rencia durante el estudio, para obtener cálculos de exactitud y precisión. Un tercer método, para
medidas que tienen variabilidad inherente, como la citología cervicovaginal y las lecturas de mamo-
grafías, es hacer participar a dos lectores independientes que desconozcan la asignación. Si ambos
están de acuerdo dentro de los límites predefinidos, se establece el resultado. Los resultados discor-
dantes pueden resolverse mediante discusión y consenso, o con la opinión de un tercer lector.
• Contratos con laboratorios comerciales. En algunos estudios, las mediciones biológicas realizadas
con suero, sangre, células o tejidos se hacen bajo contrato con laboratorios comerciales. El laborato-
rio debe contar con la licencia y la certificación adecuadas, y en los archivos de las oficinas del estu-
dio debe figurar una copia de estas certificaciones. Los laboratorios comerciales deben ofrecer datos
sobre la reproducibilidad de sus mediciones, como los coeficientes de variación, garantizar un servi-
cio puntual y disponer de procedimientos normalizados para manejar muestras codificadas, notificar
los resultados anormales a los investigadores y transferir los datos a la base de datos principal.
elección de los sistemas informáticos y los programas para la introducción, la edición y la gestión de
los datos; el diseño de los parámetros de edición de los datos para entradas ausentes, fuera de los
límites aceptables o ilógicos; la comprobación del sistema de gestión de los datos; y la planificación
de tabulaciones ficticias para asegurar que se recogen las variables adecuadas (tabla 17-4).
• Datos ausentes. Los datos ausentes pueden ser desastrosos si afectan a una gran proporción de
las mediciones, e incluso la pérdida de unos pocos puede causar a veces un sesgo en las conclu-
siones. Un estudio de las secuelas a largo plazo de una operación que tiene una incidencia de
mortalidad tardía del 5%, por ejemplo, podría infravalorar gravemente esta complicación si se
perdiera el 1 % de los participantes durante el seguimiento y si el fallecimiento fuera una razón
habitual para perderlos. Las conclusiones erróneas debidas a la pérdida de datos pueden corregir-
se a veces después del hecho (en este caso, mediante un intenso esfuerzo para seguir a los parti-
cipantes perdidos), pero, a menudo, la medición no puede reemplazarse. Hay técnicas estadísticas
para imputar valores perdidos según otras informaciones de la visita inicial o de otras visitas de
seguimiento, o por los valores medios de los demás participantes. Aunque estas técnicas son
útiles, particularmente en los análisis de múltiples variables en los que la acumulación de datos
perdidos en muchas variables predictivas podría hacer que hubiera grandes proporciones de par-
ticipantes no disponibles para el análisis, no garantizan unas conclusiones sin sesgo de ausencia
de respuesta si existe una cantidad importante de observaciones perdidas.
La única buena solución consiste en diseñar y realizar el estudio de un modo que evite la pér-
dida de datos, por ejemplo, disponiendo de un miembro del equipo investigador que compruebe
los formularios de cumplimiento antes de que el participante salga de la consulta, diseñando in-
terfaces de introducción de datos electrónicas que no permitan los saltos de entradas, y diseñan-
do la base de datos de modo que se indique la pérdida de datos inmediatamente al personal del
estudio (tabla 17-5). La pérdida de determinaciones clínicas debe abordarse mientras el partici-
pante se encuentra en la consulta, cuando es relativamente fácil corregir los errores que se hayan
descubierto.
• Datos inexactos e imprecisos. Es este un problema insidioso que a menudo no se descubre, sobre
todo cuando participa más de una persona en las mediciones. En el peor de los casos, el investi-
gador diseña el estudio y deja la recogida de los datos a sus ayudantes. Cuando vuelve a analizar
los datos, algunas de las mediciones pueden haber sufrido un importante sesgo por el uso cons-
tante de una técnica inadecuada. Este problema es particularmente grave cuando no pueden de-
tectarse los errores en los datos después de que se hayan producido. El investigador supondrá que
las variables indican lo que pretendía que indicaran e, ignorante del problema, puede extraer
conclusiones erróneas de este estudio.
La formación y la certificación del personal, la revisión periódica de los procedimientos y la
evaluación frecuente de las diferencias en la media o el intervalo de los datos generados por dife-
rentes miembros pueden ayudar a identificar o evitar estos problemas. La edición computarizada
tiene un papel importante, al usar sistemas de introducción y gestión de datos programados para
señalar o no permitir el envío de formularios con valores ausentes, incongruentes o fuera de los
límites permitidos. Debe existir un procedimiento normalizado para cambiar los datos originales
en cualquier formulario de datos. Generalmente, esto debe realizarse tan pronto como sea posible
tras la recogida de los datos, y con un proceso consistente en marcar la entrada original (sin
borrarla), firmar y fechar el cambio. Se deben incluir procesos similares en la introducción elec-
trónica de los datos y los sistemas electrónicos de edición. Esto proporciona un «rastro de audito-
ría» para justificar los cambios en los datos y evitar el fraude.
La tabulación y la inspección periódicas de las distribuciones de frecuencia de las variables del
estudio importantes a intervalos frecuentes permiten que el investigador valore la integridad y la
calidad de los datos, en un momento en el que sigue siendo posible la corrección de errores an-
teriores (p. ej., estableciendo contacto con el participante por correo electrónico o por teléfono,
o solicitando al participante que regrese al centro de investigación), y cuando pueden evitarse más
errores en el resto del estudio. En el apéndice 17B se ofrece una lista útil de temas para los infor-
mes de control de calidad.
• Datos fraudulentos. Los investigadores clínicos que dirigen equipos de investigación deben tener
en cuenta la posibilidad de que haya un compañero o empleado sin escrúpulos que decida inven-
tar la información del estudio como mejor forma de tener el trabajo hecho. Los métodos para
protegerse frente a un suceso de ese tipo consisten en tener un gran cuidado al elegir los compa-
ñeros y el personal, desarrollar una relación sólida con ellos para que todos entiendan explícita-
mente la conducta ética y la sigan estrictamente, estar alerta ante la posibilidad de fraude al
examinar los datos, y hacer comprobaciones de improviso de la fuente primaria de los datos para
asegurarse de que estos son reales.
en un solo lugar se puede seguir un patrón más sencillo, con notas sobre los cambios que se fechan
y se conservan en el manual de instrucciones.
■■ RESUMEN
1. El éxito de la realización del estudio empieza con la reunión de los recursos, entre ellos el es-
pacio, el personal y la financiación del estudio y su puesta en marcha, todo lo cual precisa un
sólido liderazgo del IP.
2. La puesta en marcha precisa la gestión del presupuesto, la obtención de la autorización del
CEIC y la finalización del protocolo y el manual de instrucciones mediante un proceso de es-
tudio preliminar de la adecuación y la viabilidad de los planes de la inclusión, las intervencio-
nes, las mediciones de las variables predictivas y de respuesta, los formularios y la base de
datos; el objetivo es minimizar la necesidad de revisiones posteriores del protocolo una vez que
haya comenzado la obtención de los datos.
3. Las revisiones menores del protocolo una vez comenzado el estudio, como añadir una pregun-
ta a un cuestionario o modificar una definición operativa, son relativamente fáciles de realizar,
aunque a veces se precise la aprobación del CEIC y pueda afectarse el análisis de los datos.
4. Las revisiones mayores del protocolo una vez comenzado el estudio, como un cambio en la
naturaleza de la intervención, los criterios de inclusión o la variable de respuesta primaria, tienen
implicaciones importantes, y deben realizarse con renuencia y con la aprobación de organismos
esenciales, como el CSDS, el CEIC y la entidad financiadora.
5. Hacen falta procedimientos de cierre para informar adecuadamente a los participantes de los
hallazgos del estudio y gestionar la transición y las implicaciones de su asistencia.
6. Se debe garantizar el control de calidad durante el estudio con un método sistemático bajo la
supervisión de un coordinador del control de calidad, siguiendo los principios de las prácticas
clínicas correctas (PCC) e incluyendo:
a. Procedimientos operativos estándar (POE) con un manual de instrucciones; formación y
certificación del personal, y revisión del rendimiento; informes periódicos (sobre inclusión
de participantes, cumplimiento de las consultas y las mediciones); y reuniones frecuentes del
equipo.
b. Control de calidad de los procedimientos de laboratorio: enmascaramiento y etiquetado
sistemático de las muestras obtenidas de los participantes en el estudio, y uso de mezclas
estándar, duplicados con enmascaramiento y mediciones de consenso.
c. Control de calidad de la gestión de los datos: diseño de formularios y sistemas electrónicos
para facilitar la supervisión de la exhaustividad, la exactitud y la integridad de la recogida,
la introducción, la edición y el análisis de los datos.
7. Los estudios colaborativos multicéntricos crean subcomités y otros sistemas distribuidos para
la gestión del estudio y el control de calidad.
1
Nota: Este es un modelo para un gran ensayo multicéntrico. El manual de instrucciones para un estudio pequeño pue-
de ser menos elaborado.
264
Apéndices
Cartas a los participantes, proveedores principales, etc.
Cuestionarios, formularios
Detalles sobre procedimientos, criterios, etc.
Materiales para la inclusión (anuncios, folletos, cartas, etc.)
2
Las tablas deben contener resultados del período completo del estudio y, cuando proceda, del período desde la redacción
del último informe. Cuando sea necesario, deben proporcionarse tasas y comparaciones entre el personal y las unidades
participantes.
266
3. Inspección de las instalaciones en las que se realizan las exploraciones y del almacén de
los registros
4. Comparación de los datos contenidos en formularios de datos seleccionados aleatoriamen-
te con los que contiene el archivo de datos informático
5. Revisión del archivo de formularios de datos y registros relacionados para valorar la ex-
haustividad y la seguridad frente a la pérdida o el mal uso
6. Observación del personal clínico cuando realiza procedimientos especificados
7. Comprobación de manuales de instrucciones, formularios y otros documentos del archivo
del centro para evaluar si están actualizados
8. Observación o descripción verbal de determinados procedimientos (p. ej., la serie de ex-
ploraciones necesarias para determinar la elegibilidad de los participantes)
9. Conversaciones con participantes reales del estudio durante su participación o tras ella,
como comprobación del proceso de consentimiento informado
10. Conversaciones privadas con personal de apoyo clave para valorar sus prácticas y su filo-
sofía con respecto a la recogida de los datos
11. Reuniones privadas con el IP acerca de los problemas identificados
B. Visita al centro de datos
1. Revisión de los métodos para inventariar los datos recibidos de las consultas
2. Revisión de los métodos para la gestión y la comprobación de los datos
3. Valoración de la idoneidad de los métodos para archivar y almacenar los registros en papel
recibidos de las consultas, incluyendo la seguridad de la zona de almacenamiento y los
métodos para proteger los registros frente a la pérdida o el uso no autorizado
4. Revisión de los recursos informáticos disponibles
5. Revisión del método de aleatorización y de las garantías para proteger frente a las altera-
ciones del proceso de aleatorización
6. Revisión de los procedimientos de edición de los datos y seguimientos de auditoría
7. Revisión de la estructura de los archivos de datos informáticos y métodos para mantener
la base de datos de análisis
8. Revisión de los métodos de programación para la gestión y el análisis de datos, incluyendo
una valoración de la documentación del programa
9. Comparación de la información contenida en los formularios del estudio original con los
del archivo de datos informático
10. Revisión de los métodos para generar archivos del análisis de los datos y los correspon-
dientes informes de los datos
11. Revisión de los métodos para hacer copias de seguridad del archivo de datos principal
12. Revisión del archivo maestro de los documentos esenciales del estudio, como manuales,
guías, formularios de datos, actas de los comités del estudio, etc., para determinar que
están completos
BIBLIOGRAFÍA
1. Mosca L, Barrett-Connor E, Wenger NK, et al. Design and methods of the Raloxifene Use for The Heart (RUTH)
Study. Am J Cardiol 2001;88:392–395.
2. MORE Investigators. The effect of raloxifene on risk of breast cancer in postmenopausal women: results from the
MORE randomized trial. Multiple outcomes of raloxifene evaluation. JAMA 1999;281:2189–2197.
3. Shepherd R, Macer JL, Grady D. Planning for closeout–From day one. Contemp Clin Trials 2008;29:136–139
4. http://www.fda.gov/downloads/Drugs/Guidances/ucm073122.pdf
5. FDA Regulations Relating to Good Clinical Practice and Clinical Trials. Available at: www.fda.gov/ScienceResearch/
SpecialTopics/RunningClinicalTrials/ucm114928.htm
6. Information about Good Clinical Practices in the European Medicines Agency International Conference on Har-
monization. Available at: http://www.ich.org or at http://www.ema.europa.eu/ema/index.jsp?curl=pages/regulation/
general/general_content_000035.jsp&murl=menus/regulations/regulations.jsp&mid=WC0b01ac0580027645&jse
nabled=true
L a mayor parte de la investigación clínica tiene lugar en centros médicos universitarios u otras
instituciones académicas extensas, centros que ofrecen muchas ventajas para realizar una investiga
ción, entre ellas la evidente de contar con investigadores con experiencia. Una cultura, una repu
tación y una infraestructura ya establecidas facilitan el trabajo tanto al investigador principiante
como al catedrático con un trabajo fijo. El éxito engendra más éxito, de manera que la investigación
clínica se concentra en centros de excelencia. Este capítulo, por el contrario, aborda la inves
tigación que se realiza fuera de estos centros.
Se define la investigación comunitaria como la que tiene lugar fuera del entorno habitual de los
centros médicos y tiene como objetivo satisfacer las necesidades de las comunidades en las que se
realiza. La investigación internacional, sobre todo en países pobres, puede conllevar muchos de los
mismos retos de responder a las necesidades locales y establecer una infraestructura de investigación
donde no existía previamente. Además, esta investigación exige el conocimiento de numerosos as
pectos políticos, burocráticos y culturales complejos que se originan en la investigación internacio
nal. Ambos tipos de investigación suponen que exista una colaboración entre investigadores locales
y compañeros de un centro de investigación establecido. Esa colaboración es fundamental para re
solver problemas sanitarios mundiales o locales de larga evolución o nuevos, y pueden ser oportu
nidades extraordinarias para el crecimiento personal y el aprendizaje mutuo. Sin embargo, estas
colaboraciones puede ser difíciles debido a las distancias físicas que separan a los investigadores,
las diferencias culturales que afectan a los participantes, los problemas políticos que influyen en las
instituciones locales y nacionales, y las limitaciones económicas, tanto en los países donantes como
en los receptores.
Preguntas locales
Muchas preguntas de investigación precisan respuestas que solo se consiguen mediante la investi
gación local. Los datos a nivel estatal o nacional a partir de fuentes centrales pueden no reflejar
exactamente la magnitud de las enfermedades en el ámbito local ni la distribución de los factores de
riesgo en la comunidad local. Las intervenciones, especialmente las que se dirigen a modificar la
conducta, pueden no tener el mismo efecto en diferentes entornos. Por ejemplo, la eficacia en la sa
lud pública de la promoción del preservativo como estrategia de prevención del VIH/sida es bastan
te diferente en Estados Unidos y en África (2). Para hallar métodos que encajen en las necesidades
locales, se precisa la investigación local (tabla 18-1).
Los datos biológicos sobre la fisiopatología de las enfermedades y la eficacia de los tratamientos
suelen poder generalizarse a una gran variedad de poblaciones y culturas. Sin embargo, puede haber
diferencias raciales, culturales o genéticas, o diferencias basadas en las causas regionales de las en
fermedades, que hacen que sea necesaria una investigación local. Por ejemplo, la eficacia de los
fármacos antihipertensivos es diferente en pacientes descendientes de africanos y europeos (3);
los microorganismos causales y los patrones de sensibilidad antimicrobiana en la neumonía son
diferentes en Bolivia y en Boston; y la percepción de la salud, la asistencia sanitaria y la enfermedad
pueden diferir mucho de unas comunidades a otras (4).
financian la investigación, los problemas con los que se encuentran en su práctica diaria, y lo que
creen que tienen importancia científica o económica general. La realización de investigaciones en la
comunidad e internacional garantiza que también se prioricen cuestiones de importancia local (8).
El valor de la participación de la comunidad en investigación va más allá de la información es
pecífica recopilada en cada estudio. Investigar tiene un triple efecto muy positivo, al elevar los pa
trones de conocimientos locales y fomentar la creatividad y el pensamiento independiente. Cada
proyecto supone la adquisición de habilidades y confianza, que permiten que los investigadores lo
cales se contemplen como participantes plenos en el progreso científico y no solo como consumido
res de conocimientos producidos en otros lugares. Esto, a su vez, fomenta más investigación. Ade
más, participar en una investigación puede proporcionar recursos intelectuales y económicos a una
comunidad, y ayuda a fomentar la capacitación y la autosuficiencia locales.
■■ INVESTIGACIÓN COMUNITARIA
En teoría, la puesta en marcha de la investigación comunitaria es el mismo proceso que para cual
quier otra tarea de investigación. El método general esbozado en este libro se aplica igual en una
pequeña ciudad de Estados Unidos que en Nepal, San Francisco o Londres. En la práctica, el mayor
reto es encontrar compañeros con experiencia o mentores con quienes trabajar y aprender. Esta
ayuda puede no estar disponible a nivel local, lo que a menudo hace que los investigadores comu
nitarios e internacionales tengan que tomar una importante decisión temprana: trabajar solos o en
colaboración con investigadores con más experiencia que se encuentran en otros lugares.
• Comience por lo sencillo. Rara vez es una buena idea empezar a investigar en una comunidad con un
ensayo aleatorizado y controlado. Los pequeños estudios piloto descriptivos que generan datos locales
útiles pueden tener más sentido: es mejor conseguir un pequeño éxito que un gran fracaso. Los pro
yectos más ambiciosos deben guardarse para más adelante, y se pueden aprovechar los datos piloto
que se han generado previamente. Por ejemplo, un estudio descriptivo sobre el uso de preservativos
en varones jóvenes en Uganda realizado por un investigador local principiante sirvió como primer paso
para un mayor ensayo de intervención sobre la prevención del VIH/sida en esa comunidad (9).
• Piense en las ventajas comparativas locales. ¿Qué preguntas puede responder un investigador en
su entorno local mejor que en ningún otro lugar? Esto suele significar dejar el desarrollo de nue
vas técnicas analíticas y nuevos tratamientos a los centros médicos universitarios y a las organi
zaciones de investigación farmacéutica. Con frecuencia es mejor que un investigador joven se
centre en problemas sanitarios o en poblaciones que no suelen encontrarse en otros lugares, pero
que sí son habituales en su comunidad.
• Red. Como se comentó en el capítulo 2, trabajar en red es importante para todo investigador. Un
nuevo investigador debe establecer todos los contactos que pueda con científicos de todas partes
que estén tratando cuestiones similares. Si no dispone de colaboradores formales, puede que al
menos sea posible encontrar a alguien con quien comentar un borrador de un protocolo de in
vestigación, un cuestionario o un manuscrito mediante correo electrónico o por teléfono. Asistir
a una conferencia científica sobre su campo de interés es una buena forma de establecer estos
contactos, y la remisión al trabajo de un compañero con mayor experiencia puede ser una buena
forma de iniciar dicho contacto.
Investigación colaborativa
Ya que es difícil empezar uno solo, un buen modo de comenzar a investigar en una comunidad sue
le ser haciéndolo en colaboración con investigadores más experimentados de otros lugares, especial
mente si esos investigadores ya disponen de confianza, contactos y metodologías en la población que
se va a estudiar. Hay dos modelos principales para esta colaboración: descendente y ascendente (10).
■■ INVESTIGACIÓN INTERNACIONAL
La investigación internacional conlleva, con frecuencia, la colaboración entre grupos con niveles
diferentes de experiencia y recursos, y por ello está sujeta a muchos de los mismos problemas que
la investigación comunitaria. Sin embargo, la investigación internacional plantea otros retos. Los
problemas que se describen en el apartado siguiente son especialmente importantes.
Skype han hecho que las comunicaciones internacionales sean más fáciles, rápidas y económicas. Se
puede tener una buena comunicación a cualquier distancia, pero ambas partes deben esforzarse. Los
métodos más modernos no sirven de nada si no se usan con frecuencia. La falta de comunicación
frecuente y de respuesta rápida a las consultas, por una u otra parte, es un signo de que la colabora
ción puede tener problemas.
Las diferencias de idioma se superponen a menudo a las barreras de comunicación causadas por
la distancia. Si el primer idioma hablado por los investigadores no es el mismo en todos los lugares,
es importante que haya uno que todo el mundo pueda usar (habitualmente ese idioma es el inglés).
Suponer que todas las interacciones sean en inglés, sin embargo, coloca a los investigadores de al
gunos países en desventaja. Es poco probable que investigadores extranjeros que no hablen el
idioma local tengan más que un conocimiento superficial de la cultura del país, y no podrán parti
cipar totalmente en muchos aspectos esenciales de un estudio, como el desarrollo y la validación
de un cuestionario. Esta comunicación tiene mucha importancia en estudios con componentes
conductuales.
Aunque se superen las barreras lingüísticas, las diferencias culturales pueden causar graves mal
entendidos entre los investigadores y los participantes, o entre los propios investigadores. Las tra
ducciones literales de cuestionarios pueden tener significados diferentes, ser culturalmente inade
cuadas u omitir factores locales esenciales. Las normas institucionales pueden ser diferentes. Por
ejemplo, en algunos marcos, un jefe de departamento de colaboradores extranjeros con escasa im
plicación directa en un estudio podría esperar ser el primer autor de la publicación resultante. Estos
temas deben tratarse y aclararse por adelantado, como parte del proceso de desarrollo institucional
del proyecto. La paciencia, la buena voluntad y la flexibilidad suelen solucionar los problemas de
este tipo. En proyectos de mayor envergadura puede ser aconsejable incluir un antropólogo, un
ético u otro experto en temas culturales como parte del equipo de investigación.
Es esencial que exista una comunicación frecuente, clara y fluida, así como la rápida aclaración
de cualquier duda o confusión. Al tratar con diferencias culturales e idiomáticas, es mejor ser repe
titivo y arriesgarse a insistir en lo evidente que hacer suposiciones incorrectas sobre lo que piensan
o dicen los demás. Los acuerdos por escrito que explican las obligaciones y responsabilidades mutuas
pueden ayudar a aclarar puntos como la propiedad de los datos, el orden de los autores, los derechos
sobre la publicación y las decisiones sobre la estructura de los resultados de la investigación. El
desarrollo de estos acuerdos precisa la atención personal y cuidadosa de los colaboradores de ambas
partes.
Asuntos de financiación
Debido a las desigualdades económicas, la colaboración entre instituciones de países pobres y ricos
solo suele ser posible con financiación por parte del país con más recursos o, con menos frecuencia,
de otros países u organizaciones internacionales. Cada vez hay más organizaciones activas en la in
vestigación sanitaria mundial, pero su apoyo a menudo está limitado por una agenda específica con
requisitos estrictos de resultados medibles. Buena parte de la financiación por donantes bilaterales
tiende a fluir a través de la institución del país rico, lo que refuerza la posición subordinada de las
instituciones de los PRBM. Como en cualquier situación con un desequilibrio de poder, esto crea
dificultades éticas. Cuando los investigadores de los países ricos controlan los recursos económicos,
no es infrecuente que traten a sus homólogos de los países menos favorecidos más como a empleados
que como a compañeros. Las entidades financiadoras y los donantes internacionales deben tener
especial cuidado en evitar esto y fomentar, en su lugar, una dirección conjunta real de las actividades
colaborativas (8).
Las diferentes prácticas de gestión económica constituyen otra posible fuente de conflictos entre
los miembros del consorcio de investigación. Las instituciones de los países ricos pueden tratar de
imponer patrones de contabilidad difíciles o imposibles de cumplir localmente. Las instituciones
de los PRBM pueden cargar los presupuestos con ordenadores y otros equipos que esperan conser
var tras finalizar el estudio. Aunque esto es comprensible a la vista de sus necesidades y de la au
sencia de fuentes de financiación alternativas, es importante que todos los subsidios que vayan más
allá del coste real de la realización de la investigación se negocien claramente, y que se apliquen
prácticas de contabilidad para satisfacer las necesidades de las agencias financiadoras. Por el con
trario, los gastos generales institucionales y los salarios de los investigadores elevados a menudo
crean una situación injusta en la que la mayor parte de los fondos para las investigaciones colabo
rativas permanecen en los países donantes, aun cuando la mayor parte del trabajo se realiza en el
país socio.
Las instituciones y los donantes de los países donantes deben prestar especial atención a la gene
ración de la capacidad de administración de la investigación de los compañeros locales. Esto puede
suponer la formación administrativa y presupuestaria o el uso de especialistas en el campo para
ayudar en las tareas administrativas locales. Un requisito para los socios internacionales es obtener
un número D-U-N-S, un número de identificación exclusivo con nueve dígitos para la localización
física de cada una de las instituciones que soliciten contratos o becas del gobierno federal estadouni
dense (http://fedgov.dnb.com/webform). El esfuerzo invertido en desarrollar unos medios adminis
trativos puede redundar en una mejor respuesta a los plazos, una comunicación más eficaz, evitar
conflictos innecesarios y construir una infraestructura sólida para investigaciones futuras.
Cuestiones éticas
La investigación internacional conlleva cuestiones éticas que deben afrontarse con firmeza. Se apli
can aquí todas las cuestiones éticas de la investigación (cap. 4). Debido a que la investigación inter
nacional puede plantear riesgos particulares en relación con la violación de la protección de los
participantes humanos, también se necesitan unas garantías y consideraciones adicionales.
¿Cuál es, por ejemplo, el grupo de comparación adecuado cuando se estudian nuevos tratamien
tos en un PRBM en el que no se dispone del tratamiento convencional? Los testigos con placebo no
son éticos cuando hay otros fármacos eficaces que constituyen el tratamiento habitual en otras
partes. Pero ¿cuál es el «tratamiento de referencia» en una comunidad en la que la mayoría de las
personas es demasiado pobre para permitirse los tratamientos que puedan estar disponibles en mu
chos países? Por un lado, puede que no sea posible que los investigadores proporcionen el tratamien
to más avanzado a todos los participantes de un estudio. Por otro lado, permitir los testigos con
placebo simplemente porque hay un acceso inadecuado a los fármacos y la asistencia sanitaria no es
ético y ha sido puesto en entredicho por muchos grupos intergubernamentales y organizaciones de
defensa de los pacientes. Por ejemplo, los estudios de tratamientos antirretrovíricos orales menos
costosos para prevenir la transmisión del VIH de la madre al hijo que se han realizado en países en
los que la mayoría de las mujeres no tenían acceso a un régimen terapéutico existente de eficacia
demostrada confirman algunos de estos problemas (12, 13).
Hay un tema relacionado que tiene que ver con el estudio de tratamientos que no es probable
que sean económicamente accesibles para la población del país. ¿Son éticos estos estudios, aunque
sigan todas las normas habituales? Por ejemplo, ¿sería ético estudiar un nuevo fármaco para la dia
betes del tipo II en un PRBM en el que probablemente los pacientes no pudieran permitirse comprar
este fármaco? Son preguntas que no tienen respuestas sencillas. Se han puesto objeciones a las con
venciones internacionales establecidas que regulan la investigación ética, como la Declaración de
Helsinki, y están sujetas a múltiples interpretaciones (14, 15).
Una prueba clave sería considerar, en primer lugar, por qué se está realizando el estudio en un
PRBM. Si el objetivo principal es conseguir información para ayudar a las personas de ese país, esto
iría a favor del estudio y se debería considerar en consecuencia. De modo ideal, el objetivo de la
investigación debe ser un cambio sostenible y un valor añadido para el país (16). Si, por el contrario,
el objetivo es la conveniencia o evitar los obstáculos de realizar el estudio en un país rico, el estudio
debe someterse a todos los requisitos éticos que se aplicarían en el país que lo patrocina, incluyendo
el importante requisito de la justicia distributiva (cap. 14).
Por estos y otros motivos, los estudios en países sin recursos económicos que están dirigidos o
financiados desde algún otro lugar deben ser aprobados por comités éticos de ambos países. Pero,
aunque es necesaria esta aprobación, no garantiza que un estudio sea ético. Los sistemas de revisión
ética de la investigación en muchos países sin recursos son débiles o inexistentes, y pueden, a veces,
estar manipulados por políticos o investigadores locales. Por el contrario, los comités de revisión de
los países ricos son a veces ignorantes o insensibles ante los temas especiales que implica la investi
gación internacional. La aprobación oficial no elimina la responsabilidad final de la realización ética
de la investigación por parte de los propios investigadores.
Otro importante problema ético es el tratamiento de los colaboradores de los PRBM socios. Varios
son los puntos que deben acordarse de antemano. ¿A quién pertenecen los datos que se generarán?
¿Quién necesita la autorización de quién para realizar y publicar los análisis? ¿Tendrán los investi
gadores locales el apoyo que precisan para preparar manuscritos para la publicación internacional
sin tener que pagar por ello dejando de ser los primeros autores? ¿Cuánto dura un compromiso por
ambas partes? Un ensayo de gran tamaño, realizado en varios países con escasos recursos, sobre
asesoramiento y pruebas voluntarias para evitar la infección por el VIH, excluyó de repente su cen
tro de colaboración en Indonesia (17). Según los investigadores, se debió a que la variable de res
puesta de interés se hizo menos frecuente en ese lugar de lo que se había proyectado en los cálculos
de potencia del estudio. Aun cuando esta decisión tenía sentido práctico, los indonesios lo conside
raron un engaño.
Hay otras cuestiones éticas que pueden tener que ver con realidades políticas y económicas lo
cales. Por ejemplo, un ensayo clínico planificado de la profilaxis preexposición frente al VIH con
tenofovir para trabajadores del sexo se suspendió, aun cuando había sido aprobado por comités
éticos multinacionales (18). A los posibles participantes del estudio les preocupó que pudieran no
contar con asistencia médica por problemas relacionados con la infección por el VIH o con los efec
tos de los fármacos, y no estaban dispuestos a participar sin garantías de seguros médicos de por
vida. El primer ministro del país intervino para interrumpir el ensayo.
Finalmente, un objetivo explícito de toda colaboración internacional debe ser aumentar la capa
cidad de investigación local. ¿Qué habilidades y equipamiento dejará el proyecto tras de sí cuando
finalice? ¿Qué actividades se realizarán para formar al personal del proyecto? ¿Participarán los in
vestigadores locales en conferencias internacionales? ¿Participarán tan solo los investigadores loca
les de alto nivel que ya han tenido muchas oportunidades, o tendrán también alguna posibilidad los
compañeros más jóvenes? ¿Serán los investigadores locales verdaderos colaboradores y autores prin
cipales de la publicación, o simplemente se cuenta con ellos para recopilar los datos? Los científicos
de los países con escasos recursos deben preguntar y esperar respuestas claras a estas preguntas.
Como se resume en la tabla 18-2, una buena comunicación y un compromiso a largo plazo son
temas recurrentes en la investigación colaborativa internacional de éxito.
La Organización Mundial de la Salud ha publicado recientemente un conjunto de casos en los que
se abordan problemas éticos en la investigación sanitaria mundial (19) para ayudar a que los inves
tigadores, los miembros de los comités éticos, las autoridades sanitarias y otras partes implicadas
ejerzan sus correspondientes funciones en la realización ética de una investigación. Se puede apren
der mucho de los errores y éxitos de los demás, aunque con buena voluntad por parte de los finan
ciadores, los socios de países donantes y los funcionarios de las dos partes de las colaboraciones de
la investigación se pueden garantizar los principios éticos en una investigación internacional, y se
puede reforzar a nivel mundial la capacidad de realizar dicha investigación.
Riesgos y frustraciones
Los investigadores de países ricos que piensan en participar en investigaciones internacionales de
ben empezar por observar de forma realista las dificultades y los riesgos que eso supone. Acometer un
trabajo de ese tipo suele ser un proceso largo y lento. Los obstáculos burocráticos son frecuentes
en ambas partes. En los países que carecen de infraestructura y estabilidad política, años de trabajo
pueden verse afectados por una importante interrupción a causa de catástrofes naturales o causa
das por el hombre. En casos extremos, estas situaciones pueden amenazar la seguridad del personal
del proyecto o de los investigadores. Por ejemplo, importantes programas colaborativos en la inves
tigación del VIH/sida que habían costado años de trabajo se destruyeron completamente por las
guerras civiles en Ruanda y el Congo. Otras dificultades menos catastróficas y más habituales son
los problemas cotidianos y los riesgos sanitarios a los que pueden enfrentarse los investigadores
expatriados, que van desde las aguas contaminadas y el paludismo hasta la niebla contaminada, la
delincuencia común y los accidentes de tráfico.
Otra frustración para los investigadores en PRBM es la dificultad para aplicar sus hallazgos. In
cluso aunque pudieran desarrollarse nuevas estrategias para evitar o tratar enfermedades y se demos
trara su eficacia, la falta de recursos y de voluntad política impide, a menudo, su aplicación de forma
extensa en los países anfitriones. Los investigadores deben ser realistas en sus expectativas, amoldar
su trabajo a las estrategias de investigación que podrían realizarse si se demostrara su eficacia, y
estar preparados para actuar como defensores para mejorar la salud de la población que estudian.
Recompensas
A pesar de las dificultades, la necesidad de más investigación sanitaria en muchas partes del mundo
es abrumadora. Al participar en investigaciones internacionales, un investigador de un país donante
puede tener, a veces, un efecto sobre la salud pública mayor y más importante de lo que sería posi
ble si permaneciera entre los muros del entorno académico. El efecto no se debe solo a la propia
investigación, sino también a lo que a veces se denomina diplomacia sanitaria mundial. De hecho,
actualmente se considera que la salud es una importante fuerza impulsora de las prioridades en
política exterior (20). La diplomacia sanitaria se puede llevar a la práctica mediante investigación
colaborativa en problemas de salud mundial, como el VIH/sida, el paludismo, la TB, la salud mater
noinfantil y el refuerzo de los sistemas sanitarios. La salud y la política siempre han estado interre
lacionadas, aunque en un mundo globalizado hay una necesidad creciente de acciones corporativas
para abordar los principales problemas sanitarios transfronterizos; la investigación internacional
forma parte de este esfuerzo mundial. La probabilidad de tener una implicación significativa y de
hacer una contribución real a la salud mundial es un privilegio que puede enriquecer nuestras carre
ras profesionales y nuestras vidas personales. Todos tenemos que ganar gracias a una mayor cola
boración y a una ampliación de las posibilidades de investigación.
■■ RESUMEN
1. La investigación comunitaria e internacional es necesaria para descubrir diferencias regionales
en aspectos como la epidemiología de una enfermedad, y los factores culturales y otros factores
locales que determinan qué intervenciones serán eficaces.
2. La participación local en la investigación clínica puede tener beneficios secundarios para la
región, como mejores niveles de conocimiento y autosuficiencia.
3. Aunque los problemas teóricos y éticos que conlleva la investigación en estudios comunitarios
e internacionales pueden aplicarse ampliamente, cuestiones prácticas, como conseguir fondos
y un mentor, son más difíciles en una comunidad; son consejos para el éxito empezar por poco,
pensar en ventajas locales y trabajar en red.
4. La colaboración entre centros médicos universitarios e investigadores de la comunidad puede
seguir un modelo descendente (investigadores de la comunidad realizan estudios que se origi
BIBLIOGRAFÍA
1. Unite for Sight. The importance of global health research: closing the 10/90 gap. Available at: http://www.unitefor
sight.org/global-impact-lab/global-health-research#_ftnref12, accessed 9/23/12.
2. Hearst N, Chen S. Condom promotion for AIDS prevention in the developing world: is it working? Studies in Fa
mily Planning 2004;35(1):39–47.
3. Drugs for hypertension. Med Lett Drugs Ther 1999;41:23–28.
4. Griffith BN, Lovett GD, Pyle DN, et al. Self-rated health in rural Appalachia: health perceptions are incongruent
with health status and health behaviors. BMC Public Health 2011;11:229. doi:10.1186/1471-2458-11-229.
5. Nutting PA, Beasley JW, Werner JJ. Practice-based research networks answer primary care questions. JAMA
1999;281:686–688.
6. Miller RS, Ivenson DC, Fried RA, et al. Carpal tunnel syndrome in primary care: a report from ASPN. J Fam Pract
1994;38:337–344.
7. United Nations Department of Economic and Social Affairs (UN DESA). Trends in international migrant stock: the
2008 revision. Available at: http://esa.un.org/migration/index.asp?panel=1, accessed 1/12/2013.
8. Lee K, Mills A. Strengthening governance for global health research: the countries that most need health research
should decide what should be funded. BMJ 2009;2000:775–776.
9. Kajubi P, Kamya MR, Kamya S, et al. Increasing condom use without reducing HIV risk: results of a controlled
community trial in Uganda. Journal of AIDS 2005;40(1):77–82.
10. Hearst N, Mandel J. A research agenda for AIDS prevention in the developing world. AIDS 1997;11(Suppl 1):S1–4.
11. Minkler M and Wallerstein N, eds. (2008). Community-Based Participatory Research for Health: From Process to
Outcomes. ISBN 978-0-470-26043-2. Jossey-Bass
12. Lurie P, Wolfe SM. Unethical trials of interventions to reduce perinatal transmission of the human immunodefi
ciency virus in developing countries. N Engl J Med 1997;337:853–856.
13. Perinatal HIV Intervention Research in Developing Countries Workshop Participants. Science, ethics, and the
future of research into maternal-infant transmission of HIV-1. Lancet 1999;353:832–835.
14. Brennan TA. Proposed revisions to the Declaration of Helsinki: will they weaken the ethical principles underlying
human research? N Engl J Med 1999;341:527–531.
15. Levine RJ. The need to revise the Declaration of Helsinki. N Engl J Med 1999;341:531–534.
16. Taylor D, Taylor CE. Just and lasting change: when communities own their futures. Baltimore: JHU Press, 2002.
17. Kamenga MC, Sweat MD, De Zoysa I, et al. The voluntary HIV-1 counseling and testing efficacy study: design and
methods. AIDS and Behavior 2000;4:5–14.
18. Page-Shafer K, Saphonn V, Sun LP, et al. HIV prevention research in a resource-limited setting: the experience of
planning a trial in Cambodia. Lancet 2005;366(9495):1499–1503.
19. Cash R, Wikler D, Saxena A, et al. Casebook on ethical issues in international health research. Geneva: World Health
Organization, 2009.
20. Katz R, Kornblet S, Arnold G, et al. Defining health diplomacy: changing demands in the era of globalization. The
Milbnk Quarterly 2011;89(3):503–523.
E l protocolo es el plan detallado del estudio por escrito. Redactar el protocolo obliga al investi-
gador a organizar, aclarar y precisar todos los elementos del estudio, y esto fomenta el rigor cientí-
fico y la eficacia del proyecto. Incluso si el investigador no precisa financiación para un estudio, sí
es necesario un protocolo para guiar el trabajo y obtener la autorización ética del comité ético de la
investigación clínica (CEIC). Una propuesta es un documento escrito con el fin de conseguir fondos
de entidades patrocinadoras. Incluye descripciones de los objetivos del estudio, su significado, el
abordaje de la investigación, las preocupaciones por los participantes humanos, el presupuesto, y
otras informaciones administrativas y de apoyo que pida la agencia específica.
En este capítulo se describirá cómo elaborar una propuesta que consiga la financiación. Se centra en
propuestas de investigaciones originales utilizando el formato propuesto por los National Institutes of
Health (NIH), aunque las propuestas que se envían a la mayoría de las demás agencias financiadoras
(como el Department of Veterans Affairs, los Centers for Disease Control, la Agency for Healthcare
Research and Quality y fundaciones privadas) generalmente precisan un formato similar. Se pueden
encontrar consejos excelentes sobre la redacción y la solicitud, la preparación de presupuestos y el envío
de propuestas en la página web de los NIH (http://grants.nih.gov/grants/writing_application.htm).
■■ REDACCIÓN DE PROPUESTAS
La tarea de preparar una propuesta suele necesitar varios meses de organización, redacción y revisión.
Los pasos siguientes pueden ayudar a que el proyecto arranque con un buen principio:
• Decida a dónde enviará la propuesta. Cada entidad financiadora tiene sus propias áreas de inte-
rés, procesos y requisitos para las propuestas. Por lo tanto, el investigador debe empezar por de-
cidir a dónde enviará la propuesta, determinar el límite sobre el importe de la financiación, y
obtendrá las directrices específicas sobre cómo preparar la propuesta y los plazos para esa entidad
concreta. Los NIH son un buen lugar para comenzar, en http://grants.nih.gov/grants/oer.htm. Se
pueden identificar las áreas de interés en las páginas web de los institutos individuales, en las que
se describen sus prioridades. Se puede obtener información adicional sobre las áreas de interés
actuales hablando con los administradores científicos de los institutos de los NIH, cuya informa-
ción de contacto y áreas de responsabilidad se enumeran en la sección de anuncios de oportuni-
dades de financiación (Funding Opportunity Announcements) de los NIH y en las páginas web de
los distintos institutos.
• Organice un equipo y designe un director. La mayor parte de las propuestas las escribe un equipo
de varias personas, que serán las que finalmente realizarán el estudio. Este equipo puede ser pe-
queño (el investigador y su mentor) o grande (colaboradores, un bioestadístico, un gestor admi-
nistrativo, auxiliares de la investigación y personal de apoyo). Es importante que este equipo
incluya o pueda acceder a la experiencia necesaria para diseñar el estudio.
Uno de los miembros del equipo puede asumir la responsabilidad de dirigir el trabajo. Gene-
ralmente se trata del investigador principal (IP), que detentará la autoridad y la responsabilidad
finales del estudio. El IP debe ejercer un liderazgo firme durante el desarrollo de la propuesta,
delegando responsabilidades de relación y otras tareas, estableciendo fechas límite, realizando
277
reuniones periódicas del equipo, garantizando que se realicen a tiempo todas las tareas necesarias,
y asumiendo personalmente la calidad de la propuesta.
El IP es muchas veces un científico con experiencia cuyo conocimiento y prudencia son útiles
para las decisiones del diseño, y cuya trayectoria en estudios previos aumenta la probabilidad de
éxito del estudio y, por lo tanto, de la financiación. Una vez dicho eso, los NIH animan a los nuevos
investigadores a que soliciten financiación como IP, tienen oportunidades de financiación especial
para ellos, y muchas veces dan preferencia a la financiación de sus propuestas (http://grants.nih.gov/
grants/new_investigators/). La definición de los NIH de «nuevo investigador» es un científico que
todavía no ha sido IP de una subvención de investigación de los NIH. Pero es muy probable que los
nuevos IP reciban financiación si ya tienen cierta experiencia en la realización de investigaciones,
bajo la guía de un científico con mayor experiencia y con financiación obtenida por ese compañero,
con una subvención para el desarrollo profesional o con pequeñas subvenciones institucionales o
de fundaciones. El historial de publicaciones, incluyendo haber sido primer autor en algunos de
estos trabajos, es esencial para aportar datos de que el nuevo investigador tiene la posibilidad de ser
un científico independiente con éxito, y está preparado y es capaz de dirigir la investigación.
Un nuevo IP debe incluir en la solicitud de la subvención coinvestigadores que tengan un his-
torial investigador de éxito en el área de interés para ofrecer guía sobre la realización del estudio y
para mejorar la probabilidad de una revisión favorable. En ocasiones, esto se puede conseguir por
el mecanismo de múltiples IP; los NIH permiten que haya más de un IP en las propuestas si los IP
aportan una experiencia diferente, pero complementaria, y si se definen con claridad sus diferentes
funciones y responsabilidades (http://grants.nih.gov/grants/multi_pi/overview.htm).
• Siga las directrices de la entidad financiadora. Todas las entidades financiadoras proporcionan
directrices por escrito que el investigador debe estudiar cuidadosamente antes de empezar a es-
cribir la propuesta. Esta información contiene los tipos de investigación que se financiarán e
instrucciones detalladas para organizar la propuesta, los límites de páginas, información sobre la
cantidad de dinero que puede solicitarse y los elementos que deben incluirse en la propuesta.
Sin embargo, estas directrices no contienen toda la información importante que el investigador
debe conocer sobre el funcionamiento y las preferencias de las entidades financiadoras. En las fases
tempranas de la elaboración de la propuesta es una buena idea discutir el plan con una persona
de la agencia que pueda clarificar las preferencias de la agencia (como el ámbito y el detalle exigi-
dos en la propuesta) y comentar si la agencia está interesada en el área de investigación prevista.
Los NIH, otras agencias federales y las fundaciones privadas cuentan con administradores cientí-
ficos («gestores de proyectos») cuyo trabajo consiste en ayudar a los investigadores a diseñar sus
propuestas de forma que respondan mejor a las prioridades de financiación de la entidad. Puede
ser muy útil contactar por correo electrónico o teléfono con el gestor de proyectos responsable de la
correspondiente área de investigación para clarificar las directrices, los intereses y los procedimien-
tos de revisión de la agencia. Posteriormente, una reunión con el gestor de proyectos en una con-
ferencia científica que sea conveniente o al viajar cerca de la sede de la agencia es una buena forma
de establecer una relación de trabajo que favorezca las propuestas financiables.
Es útil hacer una lista de verificación de los detalles que se necesitan y revisar la lista repeti-
damente antes de enviar la propuesta. El rechazo de una propuesta por lo demás excelente por
falta de cumplimiento de los detalles especificados es una experiencia frustrante y evitable. Los
gestores de las subvenciones universitarias generalmente tienen listas de verificación que revisan
antes de enviar una propuesta.
• Establezca un calendario y reúnase periódicamente. Un calendario para realizar las tareas de
redacción mantiene una suave presión sobre los miembros del equipo, para que cumplan con sus
obligaciones a tiempo. Además de abordar los componentes científicos especificados por la enti-
dad financiadora, el calendario deberá tener en cuenta los requisitos administrativos de la insti-
tución donde se llevará a cabo la investigación. Las universidades a veces piden una revisión (que
lleva su tiempo) del presupuesto y las subcontratas antes de que una propuesta pueda enviarse a
una entidad financiadora, por lo que la fecha límite real para concluir una propuesta puede ser
varios días o incluso varias semanas antes de la fecha límite establecida por la agencia. Dejar esos
detalles para el final puede precipitar una crisis de última hora que afecte a una propuesta por
lo demás bien realizada.
Un calendario suele funcionar mejor si se especifican los plazos para los productos redactados,
y si cada persona participa para finalizar sus propias tareas. Debe revisarse el calendario en reu-
niones periódicas del equipo de redacción, para comprobar que las tareas estén dentro del pro-
grama y que los plazos sean realistas.
• Encuentre una propuesta modelo. Es muy útil pedir prestada una propuesta reciente que haya
tenido éxito dirigida a la entidad de la que se espera conseguir los fondos. Las solicitudes con
éxito ilustran de un modo concreto el formato y el contenido de una buena propuesta. El inves-
tigador puede encontrar inspiración para nuevas ideas a partir del modelo, y diseñar y escribir
una propuesta que sea más clara, lógica y persuasiva. También es una buena idea conseguir ejem-
plos de críticas por escrito que la entidad haya enviado anteriormente a propuestas que tuvieron
y que no tuvieron éxito. Esto ilustrará los puntos clave que son importantes para los científicos
que revisarán la propuesta. Esos ejemplos a menudo se pueden obtener de compañeros o de la
oficina de investigación patrocinada de la institución del investigador.
• Trabaje a partir de un resumen. Hay que empezar estableciendo la propuesta como un resumen
(tabla 19-1), que constituye un punto de partida para escribir y es útil para organizar las tareas
que deben realizarse. Si son varias las personas que van a trabajar en la solicitud, el resumen
ayuda a asignar responsabilidades para escribir partes de la propuesta. Uno de los obstáculos más
habituales para crear un resumen es la sensación de que se debe elaborar todo el plan de la inves-
tigación antes de empezar a escribir la primera frase. El investigador debe dejar de lado esta idea
y permitir que sus pensamientos fluyan al papel, para crear el material en bruto para editar, me-
jorar y obtener consejos de sus compañeros.
• Revise y repase repetidamente. Escribir una propuesta es un proceso iterativo; suele haber mu-
chas versiones, cada una de las cuales refleja nuevas ideas, consejos y datos adicionales. Desde el
comienzo del proceso de redacción de la propuesta, compañeros familiarizados con el tema en
estudio y la agencia financiadora deben revisar críticamente los borradores. Debe prestarse espe-
cial atención a la importancia y el carácter innovador de la propuesta, la validez del diseño y los
métodos, y la claridad de la redacción. Es mejor tener una crítica aguda y detallada antes de enviar
la propuesta que ver cómo se rechaza el proyecto por no haber previsto y corregido los posibles
problemas. Cuando la propuesta está casi lista para su envío, el paso final será revisar cuidadosa-
mente su contenido, su formato, el cumplimiento de las directrices de la entidad y la ausencia de
errores tipográficos. Una redacción descuidada implica un trabajo descuidado y un liderazgo in-
competente, y distrae significativamente de ideas, por lo demás, buenas.
El comienzo
El título debe ser descriptivo y conciso. Proporciona la primera impresión y un recuerdo del objeti-
vo principal de la investigación y del diseño del estudio. Por ejemplo, este título: «Ensayo aleatori-
zado de ecografía de alta frecuencia guiada por RM y ecografía simulada para tratar los fibroides
sintomáticos», resume brevemente la pregunta de la investigación y el diseño del estudio. Se deben
evitar frases innecesarias y vacías, como «Un estudio para determinar la...».
El resumen del proyecto es un resumen conciso del protocolo, que debe empezar con la pregunta y
los fundamentos de la investigación, después debe establecer el diseño y los métodos, y debe concluir con
una exposición de la importancia de los posibles hallazgos del estudio. El resumen debe ser informativo
para las personas que trabajen en el mismo campo o en campos relacionados, y debe ser comprensible para
un lector no especialista pero con conocimientos científicos. La mayor parte de las entidades exigen que
el resumen tenga un número limitado de palabras, por lo que es mejor usar términos eficaces y descrip-
tivos. Se deben realizar suficientes revisiones del resumen para garantizar que sea de primera calidad. Será
la única página que leerán algunos revisores, y un recuerdo conveniente de las especificaciones de una
propuesta para todos los demás. Debe, por lo tanto, incorporar las principales características del estu-
dio propuesto, y revelar sus posibilidades y sus posibles consecuencias de una forma persuasiva.
Partes administrativas
Casi todas las entidades exigen una sección administrativa que incluya un presupuesto y una des-
cripción de la idoneidad del personal, los recursos de la institución del investigador y el acceso a
equipo, espacio y experiencia.
La sección sobre el presupuesto suele organizarse según las directrices de la entidad financiado-
ra. Los NIH, por ejemplo, tienen un formato que solicita un presupuesto detallado para los primeros
12 meses, y un resumen del presupuesto para el período completo del proyecto propuesto (general-
mente, 2-5 años). El presupuesto detallado de los 12 meses incluye las siguientes categorías de
gastos: personal (con nombres y cargos de las personas que participan en el proyecto, el porcentaje
de tiempo que cada uno dedicará al proyecto, y la cuantía que supondrá el salario y los beneficios
adicionales para cada persona), los costes de los consultores, el equipo, los suministros, los viajes,
la atención sanitaria de los pacientes, las alteraciones y renovaciones, los costes de consorcios/con-
tractuales, y otros gastos (costes de teléfono, correo, multiconferencias, fotocopias, ilustraciones,
publicaciones, libros y contratos de mantenimiento gratuitos).
El presupuesto no debe dejarse hasta el último minuto. Muchos elementos necesitan tiempo (para
conseguir buenas estimaciones del coste del espacio, el equipo y el personal). Las universidades
generalmente emplean administradores competentes cuyo trabajo es ayudar a los investigadores a
preparar presupuestos y las otras partes administrativas de una propuesta. El mejor método es noti-
ficar a este administrador, lo antes posible, el plan de enviar una propuesta, y programar reuniones
frecuentes con él para revisar el progreso y hacer un calendario para elaborar las secciones adminis-
trativas. Un administrador puede empezar a trabajar en cuanto se formule el esbozo de la propuesta,
recomendando los importes de los distintos puntos del presupuesto y ayudando a garantizar que el
investigador no pase por alto gastos importantes. Las instituciones cuentan con normas que deben
seguirse y plazos que hay que cumplir, y un administrador con experiencia puede ayudar al investi-
gador a anticiparse a esa normas, dificultades y posibles retrasos. El administrador también puede
ser muy útil para elaborar el borrador del texto de la sección de justificación del presupuesto y los
recursos, así como para recopilar los apéndices y otros materiales de apoyo para la propuesta.
En una justificación del presupuesto debe explicarse con detalle la necesidad de los importes
solicitados para cada aspecto del presupuesto. Los salarios ocuparán generalmente la mayor parte
del coste global de un proyecto de investigación clínica típico, por lo que es importante documentar
la necesidad y las responsabilidades específicas de cada persona para justificar el esfuerzo porcentual
necesario. Las descripciones completas, pero concisas, acerca de la labor de los investigadores y
demás miembros del equipo de investigación no deben dejar duda a los revisores de la propuesta de
que el esfuerzo calculado de cada integrante es esencial para que el proyecto tenga éxito.
Los revisores muchas veces están preocupados por los porcentajes de tiempo asignados a miembros
esenciales del equipo de investigación. En ocasiones pueden criticarse las propuestas, porque personas
fundamentales solo tienen una asignación de tiempo muy pequeña en el presupuesto y otros muchos
compromisos distintos, lo que implica que pueden no ser capaces de dedicar la energía necesaria al
estudio propuesto. Con más frecuencia, los revisores pueden oponerse a porcentajes que estén au-
mentados muy por encima de las necesidades que corresponden a la descripción del trabajo.
Incluso los presupuestos mejor planificados cambiarán a medida que lo hagan las necesidades del
estudio, o se produzcan gastos o ahorros inesperados. En general, una vez que se haya concedido la
subvención, se permite que el investigador gaste dinero de forma diferente a lo especificado en el pre-
supuesto siempre que los cambios sean pequeños y los gastos se relacionen con los objetivos del estu-
dio. Cuando el investigador desea desplazar dinero entre distintas partidas o realizar un gasto impor-
tante (mayor o menor) en la participación de los investigadores esenciales, puede necesitar la
aprobación de la entidad financiadora. Esta generalmente aprueba las solicitudes razonables de actua-
lizar el presupuesto siempre que el investigador no esté solicitando un aumento de los fondos totales.
Los NIH precisan una reseña biográfica breve de todos los investigadores y consultores que reci-
birán financiación gracias a la subvención. Las reseñas biográficas son resúmenes de cuatro páginas
que siguen un formato especificado que incluye una declaración personal sobre en qué medida la
experiencia del investigador hace que sea adecuado para la realización de este estudio, y enumera su
formación académica y profesional, los cargos y empleos, los puestos honoríficos, un número limi-
tado de publicaciones importantes, y las subvenciones y contratos de investigación importantes.
La sección de la propuesta sobre recursos disponibles para el proyecto puede incluir equipo téc-
nico e informático, acceso a dispositivos especializados de técnicas de imagen o de medición, espacio
para la consulta y el laboratorio, y recursos disponibles para facilitar la inclusión de los participantes,
la recogida y la gestión de los datos y el almacenamiento de muestras. En la sección de recursos
muchas veces se utilizan textos estándar: descripciones de propuestas previas o material suministra-
do por la institución, el centro o el laboratorio del investigador.
Objetivos específicos
Los objetivos específicos son descripciones de las preguntas de la investigación utilizando términos
concretos para especificar la variable de respuesta deseada. Esta sección de una propuesta para los
NIH debe ser concisa, porque está limitada a una única página. Y como esta es la página a la que
prestan más atención muchos revisores, se debe escribir cuidadosamente y se debe revisar una y otra
vez cuando se elabora la propuesta.
Un patrón habitual es comenzar con dos o tres párrafos cortos que resuman la información previa:
la pregunta de la investigación y por qué es importante, los estudios que se han realizado y por qué
no han resuelto el problema, y el abordaje previsto para responder a la pregunta en el estudio pro-
puesto. A esto le sigue una declaración breve de los objetivos específicos, expresados como objetivos
descriptivos tangibles y, siempre que sea posible, como hipótesis verificables.
Los objetivos se presentan en una secuencia lógica que el investigador adapta al estudio que quie-
re planificar. Puede comenzar con objetivos transversales para el período inicial, seguidos por objeti-
vos relacionados con los hallazgos del seguimiento. Por otro lado, puede comenzar con objetivos que
aborden mecanismos fisiopatológicos y acabar con objetivos que aborden variables de respuestas
clínicas de salud pública. Un patrón que funciona especialmente bien para las subvenciones para el
desarrollo profesional (denominado «investigación con métodos mixtos») comienza con objetivos
cualitativos que pueden utilizar grupos de discusión para diseñar un instrumento o una intervención
fundamental, a lo que siguen objetivos cuantitativos con variables predictivas, variables de respuesta
y pruebas de hipótesis. Otro patrón adicional es comenzar con el objetivo más importante para resal-
tarlo; la secuencia de los objetivos muchas veces sirve como resumen para organizar secciones pos-
teriores de la propuesta, por lo que este método tiene la ventaja de asignar al objetivo principal el
primer lugar en todas las secciones de la propuesta, como el tamaño de la muestra y la potencia.
La sección de objetivos específicos muchas veces acaba con un breve párrafo final que resume de
manera concisa las posibles consecuencias de los hallazgos del estudio sobre el conocimiento de la
salud y la enfermedad, la práctica clínica, la salud pública o la investigación futura. El objetivo es
hacer un alegato convincente que llevará a los miembros del comité de revisión que no eran revisores
primarios o secundarios (y que pueden haber leído únicamente esta página de la propuesta) a res
paldar una puntuación sobresaliente.
Estrategia de la investigación
El formato actual de los NIH limita la mayoría de los tipos de propuestas a 12 páginas para la pre-
sentación de la estrategia de la investigación, en tres secciones:
• La sección de la importancia, habitualmente dos o tres páginas, describe cómo los hallazgos del
estudio harían avanzar el conocimiento científico, abordarían un problema importante o una
barrera a los avances en esa área, mejorarían la práctica clínica o la salud pública, o influirían en
las políticas sanitarias. Esta sección puede definir brevemente la magnitud del problema, resumir
lo que ya se ha realizado, definir los problemas del conocimiento actual y mostrar en qué sentido
el estudio propuesto generará avances en el campo.
• La sección de innovaciones, habitualmente una o dos páginas, señala aspectos en los que el estudio
propuesto difiere de la investigación previa sobre el tema. Puede insistir en la posibilidad de docu-
mentar nuevos mecanismos de enfermedad, nuevos métodos de medición, poblaciones diferentes
más extensas, nuevos métodos terapéuticos y preventivos, o nuevos abordajes del análisis de los
datos. Las directrices de los NIH se centran en la forma en la que la investigación desviará los para-
digmas actuales de investigación o práctica clínica mediante la utilización de conceptos, métodos o
intervenciones innovadores. Una vez dicho eso, muchos estudios clínicos financiados dan lugar a
mejorías y refinamientos tan solo incrementales de conceptos, métodos o intervenciones. Nuestro
consejo es describir las nuevas características de la investigación con exactitud, sin afirmaciones gran-
dilocuentes de que el estudio modificará los paradigmas o utilizará métodos totalmente innovadores.
• La sección del abordaje (antiguamente denominada «metodología») generalmente tiene de siete a
nueve páginas de longitud. Ofrece los detalles del diseño y la realización del estudio, y es sometida
a un intenso escrutinio por los revisores. Las directrices de los NIH sugieren que la sección de abor-
daje se debe organizar por objetivos específicos, y que debe incluir los componentes y la secuencia
aproximada de la tabla 19-1. Esta sección generalmente comienza con una breve visión de conjun-
to del abordaje, a veces acompañada por un diagrama esquemático o una tabla, para orientar al
lector (tabla 19-2). La visión de conjunto debe describir con claridad el diseño del estudio y dar una
breve descripción de los participantes en el estudio, las mediciones principales, cualquier interven-
ción que se vaya a realizar, la duración del seguimiento y las variables de respuesta principales.
4. Limpieza de datos
5. Análisis y redacción
potencia u otros supuestos, para demostrar que el investigador ha realizado elecciones razonables. La
mayoría de los paneles de revisión de los NIH asigna mucha importancia a la sección de estadística,
por lo que es una buena idea que un estadístico participe en la redacción de este componente.
Es útil incluir una tabla que presente las visitas del estudio o los contactos con los participantes,
el momento de realización de las visitas, y qué procedimientos y mediciones se realizarán en cada
visita. Esta tabla ofrece una visión de conjunto breve de todas las actividades del estudio (v. tabla 19-2).
Las descripciones de la gestión de los datos y del control de calidad (caps. 16 y 17) deben abordar
cómo se recogerán, almacenarán y editarán los datos del estudio, junto con los planes para maximi-
zar la calidad de los datos y la seguridad.
La propuesta debe ofrecer un plan de trabajo y un calendario realistas en los que se incluyan las
fechas en las que comenzará y finalizará cada una de las fases principales del estudio (fig. 19-1). Se
pueden preparar calendarios similares para los patrones de dotación de personal y otros componen-
tes del proyecto. Para estudios extensos se puede elaborar un gráfico organizativo en el que se
describa el equipo de la investigación y en el que se pueden indicar los niveles de autoridad y res-
ponsabilidad y las líneas de notificación, y se mostrará cómo funcionará el equipo.
Aunque no es una sección necesaria, puede ser útil incluir una discusión de las limitaciones de
la investigación propuesta y los abordajes alternativos. En lugar de ignorar los posibles problemas,
el investigador debe decidir abordarlos de manera explícita, y discutir las ventajas y las desventajas
de los posibles compromisos para llegar al plan elegido. Si se señalan los retos importantes y las
posibles soluciones, las posibles críticas a la solicitud se pueden transformar en puntos fuertes. Sin
embargo, es un error insistir en exceso en estos problemas, porque esto puede llevar a un revisor a
centrarse de manera excesiva en los aspectos más débiles de la propuesta. El objetivo es tranquilizar
al revisor de que el investigador ha previsto todos los posibles problemas importantes y tiene un
abordaje realista y meditado para afrontarlos.
cogida de datos (como cuestionarios) y protocolos clínicos, y hasta tres manuscritos y resúmenes
que hayan sido aceptados, pero que todavía no se hayan publicado. Los revisores principales y se-
cundarios son los únicos miembros del comité de revisión que reciben los apéndices. Por lo tanto,
en la propuesta principal se debe resumir brevemente todo aquello que sea importante.
Debe describirse el uso propuesto y el valor de cada consultor, acompañado de una carta de
acuerdo firmada por dicho consultor y una copia de su currículo. (Los investigadores que recibirán
financiación en forma de salario con la subvención no deben enviar cartas.) También se deben incluir
otras cartas de apoyo, como las que hayan elaborado personas que ofrecerán el acceso al equipo o
los recursos. Debe incluirse una explicación de los acuerdos administrativos y programáticos entre
la organización solicitante y las instituciones colaboradoras y los laboratorios, acompañada por
cartas de compromiso de los funcionarios responsables dirigidas al investigador.
• Gubernamentales (NIH, Department of Veterans Affairs, Centers for Disease Control and Preven-
tion [CDC], Agency for Healthcare Research and Quality [AHRQ], Patient Centered Outcomes
Research Institute [PCORI], Ministerio de Defensa [Department of Defense, DOD], y otras mu-
chas agencias federales, estatales y municipales).
• Fundaciones, sociedades profesionales, como la American Heart Association (AHA) y la Ameri-
can Cancer Society (ACS), y donantes individuales.
• Corporaciones (fundamentalmente, compañías farmacéuticas y fabricantes de dispositivos); y
• Recursos internos (p. ej., la universidad del investigador).
Lograr el apoyo de estas fuentes es un proceso complejo y competitivo, que favorece a los inves-
tigadores con experiencia y tenacidad, y los investigadores noveles deben buscar un mentor con
estas características. En las secciones siguientes se analizarán varias de las fuentes de financiación
más importantes.
Iniciada por el investigador Iniciada por el instituto Iniciada por el investigador Iniciada por la fundación
Subvenciones R RFP
(solicitudes de Peticiones de Peticiones
propuestas (para un Solicitudes
subvenciones para la de solicitudes
contrato) de subvenciones
investigación de subvenciones
individual)
Subvenciones K RFA
(desarrollo de la Peticiones de
carrera profesional) solicitudes (para una
subvención)
■■FIGURA 19-2. Visión general de las fuentes de financiación de los NIH y las fundaciones, y de sus mecanismos.
cia de la discusión), y después todos los miembros del comité asignan puntuaciones mediante
votación secreta. Estas puntuaciones se promedian, se multiplican por 10 para obtener una puntua-
ción total que va desde 10 (mejor) hasta 90 (peor), y se utilizan en cada uno de los institutos para
priorizar las decisiones de financiación.
El investigador debe decidir por adelantado, con el consejo de compañeros con mayor experien-
cia, qué sección de estudio sería la mejor opción para revisar la propuesta. Las secciones de estudio
varían mucho no solo en el área de estudio, sino también en la experiencia de los revisores y la ca-
lidad de las solicitudes que compiten. Aunque no se puede controlar por completo la asignación a
una sesión de estudio, el investigador puede influir en la asignación, implicando al gestor de pro-
yectos con el que ha trabajado cuando le envió la solicitud.
Además de asignar cada una de las solicitudes de financiación a una sección de estudio particular,
el CSR también la asigna a un instituto (o centro) particular de los NIH. Posteriormente, cada ins-
tituto financia las subvenciones asignadas al mismo, en orden de puntuación de prioridad, matizada
por la revisión por un consejo asesor, y en ocasiones invalidada por el instituto (fig. 19-3). Las pro-
puestas de nuevos investigadores que todavía no han recibido financiación para la investigación de
los NIH se financian con puntuaciones y valores de corte de percentiles algo más benévolos que las
de investigadores ya consolidados. Si una solicitud tiene interés para más de un instituto, en ocasio-
nes los institutos acuerdan compartir la financiación.
Después de la revisión de una solicitud, el investigador recibe una notificación por escrito de la
decisión de la sección de estudio. Esta declaración resumen incluye la puntuación y comentarios y
críticas detallados de los miembros del comité que revisaron la solicitud.
Las solicitudes al NIH que no son financiadas, como ocurre a menudo la primera vez, se pueden
revisar y volver a enviar tan solo una vez. Si las críticas y puntuaciones de los revisores sugieren que
se puede conseguir que la solicitud sea más atractiva para el comité, entonces una versión revisada
puede tener una probabilidad excelente de obtener financiación cuando se vuelva a enviar. (Puede
ser más difícil entusiasmar a los revisores si indican que la propuesta carece de innovación o impor-
tancia.) Los gestores de proyectos del correspondiente instituto habitualmente asisten a las reuniones
de la sección de estudio, y es importante discutir la revisión con uno de ellos poco después de la
reunión, porque habitualmente ya se ha elaborado el borrador de los comentarios escritos antes de
la reunión, y puede no reflejar los problemas que plantearon los miembros de la sección de estudio
y que llevaron a las revisiones de las puntuaciones.
No es necesario que un investigador haga automáticamente todos los cambios propuestos por los
revisores, aunque debe adoptar las revisiones que satisfagan las críticas de los revisores siempre que
sea posible, y debe justificar cualquier decisión de no hacerlo. Los NIH limitan las respuestas a los
revisores a una introducción en una única página en la que se describan los cambios que se han
hecho a la propuesta revisada. Un buen formato para la introducción es resumir con brevedad cada
una de las críticas principales de la declaración del resumen en negrita o cursiva, y abordarla con una
declaración breve del cambio consiguiente de la propuesta. Para ayudar a los revisores a centrarse
en estas revisiones, los cambios se deben marcar, por ejemplo, por una línea vertical en el margen
izquierdo del texto.
para que sean los coautores en publicaciones con revisión externa. Las regulaciones federales exigen
que los autores tengan acceso a los datos (incluyendo el derecho a que realicen estudios de los datos
de todo el estudio), que hagan contribuciones importantes a los manuscritos y que asuman la res-
ponsabilidad de las conclusiones; animamos a los investigadores principales de los distintos centros
a que busquen roles de autoría para ellos mismos y para sus colaboradores y, si tienen éxito, para
que cumplan estos requisitos de autoría. En la situación ideal, los planes de análisis, los manuscri-
tos y las presentaciones de los estudios multicéntricos deben ser revisados y autorizados por un
comité de publicaciones que tenga directrices elaboradas y que esté formado por una mayoría de
miembros que no sean empleados del promotor.
Una ventaja del apoyo corporativo es que es el único modo práctico de encauzar algunas pregun-
tas de investigación. No habría otra fuente de financiación, por ejemplo, para estudiar un nuevo
antibiótico que no se encuentra todavía en el mercado. Otra ventaja es la relativa rapidez con la que
se puede conseguir esta fuente de financiación; las decisiones sobre pequeñas propuestas por parte
de los investigadores se toman en unos meses, y las compañías farmacéuticas están ansiosas por captar
investigadores cualificados para participar en sus ensayos clínicos multicéntricos. Los científicos de
la compañía generalmente tienen mucha experiencia en el tratamiento y la metodología de la inves-
tigación, lo que puede ser útil para la planificación de los análisis y la interpretación de los resultados.
Además, la mayor parte de las compañías farmacéuticas recompensan por mantener una reputación
de integridad que fomenta sus relaciones con la vigilante FDA en Estados Unidos y su lugar de cara
al público. La experiencia en investigación, el apoyo estadístico y los recursos económicos que pro-
porcionan pueden mejorar la calidad de la investigación.
Apoyo interno
Las universidades cuentan, a menudo, con fondos para la investigación local para sus propios inves-
tigadores. Las subvenciones con estos fondos suelen limitarse a cantidades relativamente pequeñas,
pero suele poder disponerse de ellas con mayor rapidez (semanas o meses), y para una mayor pro-
porción de solicitantes, que las subvenciones de los NIH o de fundaciones privadas. Los fondos in-
ternos pueden estar restringidos a determinados fines, como estudios piloto, que pueden conducir
a lograr una financiación externa, o adquisición de equipo. Estos fondos a veces están destinados a
jóvenes del cuerpo docente y ofrecen una oportunidad única para que un nuevo investigador ad-
quiera la experiencia de dirigir un proyecto financiado.
■■ RESUMEN
1. Una propuesta es una versión ampliada del plan de un estudio por escrito y detallado (protoco-
lo) que se utiliza para solicitar financiación, y también contiene la información presupuestaria,
administrativa y auxiliar que exige la agencia financiadora.
2. Un investigador que está trabajando en una propuesta de investigación debe empezar obteniendo
el consejo de compañeros con experiencia para la pregunta de la investigación que intentará re-
solver y la elección de la entidad financiadora. Los siguientes pasos serán estudiar las directrices
de esa entidad y contactar con un administrador científico de esta para lograr asesoramiento.
3. El proceso de redactar una propuesta, que a menudo tarda más de lo esperado, conlleva organi-
zar un equipo con la experiencia necesaria; designar un investigador principal (IP); resumir la
propuesta para que se adapte estrictamente a las directrices de la entidad, establecer un calen-
dario para productos escritos; buscar un modelo de propuesta; y revisar el progreso en reunio-
nes regulares. La propuesta deben revisarla compañeros apropiados, y debe repasarse con fre-
cuencia y «pulirse» al final, prestando atención a los detalles.
4. Los principales elementos de una propuesta son el resumen, las partes administrativas centra-
das alrededor del presupuesto, la justificación del presupuesto, breves reseñas biográficas y re-
cursos, los objetivos específicos, que son muy importantes, y la estrategia de la investigación,
con sus secciones de importancia, innovaciones y abordaje, incluyendo la investigación previa
por el investigador.
5. Una buena propuesta no solo necesita una buena pregunta de la investigación, un plan del
estudio y un equipo de investigación, sino también una presentación clara: la propuesta debe
comunicarse de forma clara y concisa, siguiendo un esquema lógico e indicando las ventajas y
los inconvenientes de las concesiones en el plan de estudio. Los méritos de la propuesta deben
resaltarse utilizando subencabezamientos, tablas y diagramas, para que no los pase por alto
un revisor ocupado.
6. Cuatro son las principales fuentes que sostienen la investigación clínica:
a. Los NIH y otros organismos gubernamentales son los principales proveedores de apoyo,
mediante un sistema complejo de revisión especializada y administrativa, que se mueve len-
tamente, aunque aporta una amplia variedad de subvenciones y contratos de investigación
y para el desarrollo de la carrera profesional.
b. Las fundaciones y sociedades están muchas veces interesadas en prometedoras investigacio-
nes que escapan de la financiación de los NIH, y tienen procedimientos de revisión más rá-
pidos, pero más localistas que los NIH.
c. Los fabricantes de fármacos y dispositivos constituyen una gran fuente de financiación,
que, en su mayor parte, está canalizada hacia estudios de la propia compañía sobre nuevos
fármacos y dispositivos médicos; sin embargo, las compañías valoran la relación con cien-
tíficos importantes y apoyan algunas investigaciones iniciadas por los investigadores.
d. Los fondos internos de la institución del investigador tienden a contar con tasas de finan-
ciación favorables para lograr pequeñas cantidades de dinero de forma rápida, y son un
excelente primer paso para estudios piloto y nuevos investigadores.
d. No hay ningún tratamiento farmacológico eficaz conocido para el ~20 % de pacientes con
diarrea por Clostridium difficile que recidiva después del tratamiento con antibióticos. Inves-
tigadores de Ámsterdam estudiaron a pacientes $ 18 años de edad que tuvieron una recurren-
cia de la diarrea por C. difficile después de al menos un ciclo de tratamiento antibiótico ade-
cuado. Se les asignó aleatoriamente (sin enmascaramiento) a uno de tres regímenes: un ciclo de
5 días de vancomicina seguido por lavado intestinal e infusión de una suspensión de heces
de donante voluntario a través de una sonda gastroduodenal, o un ciclo estándar de 14 días de
vancomicina con o sin lavado intestinal el día 4 o 5. El estudio se suspendió precozmen-
te después de que un análisis preliminar mostrara que la tasa de curación sin recurrencia
durante 10 semanas era de 13 de 16 (81 %) en el grupo de heces de donante, en comparación
con 4 de 13 con vancomicina sola y 3 de 13 con vancomicina más lavado (p , 0,001 para
ambas comparaciones) (van Nood y cols., N Engl J Med 2013;368:407-415).
treo para seleccionar a participantes que rellenen un breve cuestionario, comentando la viabilidad
y si los resultados podrán generalizarse a todas las personas que asisten a conciertos de rock.
a. Cuando cada cliente entra en el teatro, se le pide que tire un dado virtual (en el teléfono
móvil del investigador). Se invita a todos los asistentes que saquen un 6 a que rellenen el
cuestionario.
b. Cuando cada cliente entra en el teatro, se le pide que tire un dado virtual. Se selecciona a los
varones que saquen un 1 y a las mujeres que saquen un número par.
c. Se sabe que las entradas para el concierto están numeradas y que se venden en la taquilla en
orden sucesivo, y se selecciona a todos los clientes cuyo número de entrada termine en 1.
d. Una vez que todos estén sentados, se escogen cinco filas al azar, sacándolas de una baraja de
cartas en las que cada carta corresponde a una fila del teatro. Se invita a todos los clientes que
estén en esas filas.
e. Se invita a los 100 primeros clientes que entren al teatro.
f. Algunas entradas se han vendido por correo y otras en la taquilla justo antes del concierto.
Siempre que haya tres o más personas esperando en la cola para comprar entradas en la ta-
quilla, se invita a la última persona que esté en la cola (la que dispone de más tiempo).
g. Cuando las personas empiezan a marcharse tras el concierto, se invita a todos los que parecen
dispuestos y capaces de rellenar el cuestionario.
3. Edwards y cols. (Edwards y cols., N Engl J Med 2013;368:633-643) describieron la magnitud de la
infección producida por el metaneumovirus humano (MPVH) en niños , 5 años de edad. Los
participantes eran niños de condados de alrededor de Cincinnati, Nashville y Rochester, NY, du-
rante los meses de noviembre a mayo, de 2003 a 2009, que solicitaron asistencia médica por una
infección respiratoria aguda o por fiebre. Se incluyó a los pacientes ingresados que dieron su con-
sentimiento de domingo a jueves, a los pacientes ambulatorios 1 o 2 días a la semana, y a los pa-
cientes del servicio de urgencias de 1 a 4 días a la semana. Los autores combinaron la proporción
de niños con una prueba positiva en cada uno de los centros con datos nacionales (de los estudios
National Ambulatory Medical Care Survey y National Hospital Ambulatory Care Survey) para deter-
minar la frecuencia en la población de las visitas por enfermedad respiratoria aguda o fiebre a fin
de estimar la magnitud total del MPVH en los Estados Unidos. Estimaron que el MPVH era respon-
sable de 55 visitas a la consulta y 13 visitas al servicio de urgencias por cada 1 000 niños cada año.
a. ¿Cuál fue la población objetivo en este ensayo?
b. ¿Cuál era la población accesible, y hasta qué punto era adecuada para generalizar a la pobla-
ción objetivo?
c. ¿Cuál fue el esquema de muestreo, y en qué medida era adecuado para generalizar a la po-
blación accesible?
d. Describa en términos generales cómo habría que tener en consideración el esquema de mues-
treo para el cálculo de los intervalos de confianza de la incidencia de MPVH que se calculan.
b. En un estudio de diez años, comunica que 110 participantes que fuman no presentan mayor
incidencia de cáncer de pulmón que 294 no fumadores (p = 0,31).
c. Un investigador llega a la conclusión de que «nuestro estudio es el primero que observa que
el consumo de alcohol reduce el riesgo de sufrir diabetes en varones menores de 50 años de
edad (p , 0,05)».
1. La pregunta de la investigación es: «¿La carencia de vitamina B12 causa fracturas de cadera en el
anciano?»
a. Resuma brevemente un plan del estudio para abordar esta pregunta de la investigación con
un estudio de cohortes adecuado.
b. Un método alternativo sería obtener una muestra de una población clínica geriátrica y com-
parar la carencia de vitamina B12 en los que han tenido una fractura de cadera previamente con
las concentraciones en los que no la han tenido. En comparación con este método de transver-
sal, mencione, al menos, una ventaja y un inconveniente de su estudio de cohortes prospectivo.
c. ¿Podría diseñarse el estudio de cohortes como un estudio retrospectivo? De ser así, ¿cómo
afectaría a estas ventajas o inconvenientes?
2. Sung y cols. (Sung y cols., Am J Obstet Gynecol 2009 May;200(5):557.e1-5) evaluaron la asociación
en situación inicial entre la frecuencia de la incontinencia urinaria y los síntomas depresivos en
338 mujeres con sobrepeso u obesas de al menos 30 años de edad incluidas en el ensayo clínico
PRIDE (Program to Reduce Incontinence by Diet and Exercise). Observaron que las mujeres con
síntomas depresivos (n = 101) referían un mayor número medio de episodios de incontinencia
urinaria por semana que las mujeres sin síntomas depresivos (28 y 23, respectivamente; p = 0,005).
a. ¿Qué tipo de estudio es este?
b. Una posible explicación de este fenómeno es que la depresión aumenta la frecuencia de la
incontinencia urinaria. ¿Cuáles son algunas otras explicaciones de esta asociación, y cómo
podría diferenciarlas mediante modificaciones del diseño del estudio?
aproximadamente 10 veces más riesgo de infección del aparato urinario que los niños circuncidados
(Newman y cols., Arch Pediatr Adolesc Med 2002 Jan;156(1):44–54), asociación que se ha visto en
numerosos estudios. Lo interesante es que los niños no circuncidados de ese estudio parecían tener
menor riesgo de infecciones óticas (cociente de riesgos instantáneos = 0,77; p = 0,08). Explique cómo
solo la inclusión de lactantes con fiebre en este estudio podría introducir una asociación entre la cir-
cuncisión y las infecciones óticas que no está presente en la población general de lactantes pequeños.
3. En el ejercicio 1 del capítulo 2 le pedimos que propusiera estudios para abordar la pregunta de
si el paracetamol produce asma. Un mecanismo propuesto de esta asociación es la depleción
inducida por el paracetamol de glutatión, que protege a los pulmones de las agresiones oxidati-
vas que pueden producir inflamación. Describa brevemente cómo aprovecharía la variación de
los genotipos de los antioxidantes maternos para mejorar la inferencia de que una asociación
entre el consumo materno de paracetamol y el asma en la descendencia es causal.
1. Describa un ensayo de fase I de HairStat para la calvicie de patrón masculino. ¿Cuáles deben ser
los grupos de tratamiento? ¿Qué tipo de respuestas cabe esperar?
2. La compañía desea comparar la eficacia de HairStat con la de la finasterida. Diga, al menos, una
ventaja y un inconveniente de los siguientes métodos para probar la eficacia relativa de la finas-
terida y la estatina tópica.
a. Aleatorizar a varones calvos a recibir la finasterida o la estatina tópica.
b. En un diseño factorial, asignar aleatoriamente a varones a recibir: 1) finasterida y HairStat;
2) finasterida y placebo de HairStat; 3) placebo de finasterida y HairStat, y 4) doble pla
cebo.
3. Imagine que la compañía planea un estudio con placebo de 1 año controlado de duración de HairStat
para el tratamiento de la calvicie. La respuesta es el cambio de la puntuación de la cantidad de pelo en
las fotografías de la región con calvicie que está recibiendo tratamiento. Las consultas de seguimiento
(con fotografías) se programan cada 3 meses. Resuma un plan (con al menos dos elementos) para
estimular el cumplimiento del tratamiento en estudio y de las consultas para evaluar la respuesta.
4. Durante el estudio, el 20 % de los varones del ensayo no acudió a la visita de seguimiento a
los 3 meses, y el 40 % abandonó al cabo de 1 año. Algunos lo hicieron debido a la aparición de
una erupción en el cuero cabelludo. Mencione un inconveniente y una ventaja de analizar el efecto
del tratamiento sobre el crecimiento del cabello mediante un método estricto de intención de tratar.
5. En el análisis de intención de tratar, HairStat aumentó el crecimiento capilar (determinado por
evaluadores de la respuesta que desconocían la asignación al tratamiento, basándose en la com-
paración de las fotografías inicial y transcurrido 1 año) un 20 % más que el placebo (p = 0,06).
Los análisis posteriores mostraron que HairStat aumentó el crecimiento del pelo un 45 % más
que el placebo en los varones de menos de 40 años de edad (p = 0,01 en ese subgrupo). ¿Qué
problemas presenta la conclusión de la compañía de que HairStat es eficaz en el tratamiento de
la calvicie de varones de menos de 40 años de edad?
1. Está usted interesado en estudiar la utilidad de la velocidad de sedimentación globular (VSG) como
prueba para diagnosticar enfermedad inflamatoria pélvica (EIP) en mujeres con dolor abdominal.
a. Para hacerlo, necesitará reunir grupos de mujeres que tengan y que no tengan EIP. ¿Cuál
sería el mejor modo de muestrear estas mujeres?
b. ¿Cómo podrían estar sesgados los resultados si utiliza el diagnóstico final de EIP como mé-
todo de referencia y quienes asignan ese diagnóstico conocen la VSG?
c. Observa que la sensibilidad de una VSG de al menos 20 mm/h es del 90 %, pero la especifi-
cidad es solo del 50 %. Por otro lado, la sensibilidad de una VSG de al menos 50 mm/h es
solo del 75 %, pero la especificidad es del 85 %. ¿Qué valor de corte utilizaría usted para
definir una VSG anormal?
2. Está interesado en estudiar el rendimiento diagnóstico de la tomografía computarizada (TC)
craneal en niños que acuden al servicio de urgencias (SU) con lesiones craneales. Utiliza una
base de datos del departamento de radiología para encontrar registros de todas las TC realizadas
a pacientes de menos de 18 años y solicitadas por el SU por un traumatismo craneal. A conti-
nuación revisa los registros del SU de todos aquellos en los que la TC fue anormal, para deter-
minar si la alteración podía haberse pronosticado a partir de la exploración física.
a. De 200 TC, había lesiones intracraneales en 10. Sin embargo, usted determina que en 8 de
10 había una exploración neurológica focal o una alteración del estado mental. Ya que solo
dos pacientes tenían TC anormales que podían no haberse pronosticado a partir de la explo-
ración física, llega a la conclusión de que el rendimiento de lesiones intracraneales «inespera
das» es solo de 2 de 200 (1 %) en este caso. ¿Qué falla en esta conclusión?
b. ¿Qué falla con el uso de todas las lesiones intracraneales identificadas en la TC como la va-
riable de respuesta en este estudio de rendimiento diagnóstico?
c. ¿Cuáles serían algunas de las ventajas de estudiar los efectos de la TC en la toma de decisio-
nes clínicas, en lugar de solo en el rendimiento diagnóstico?
1. La pregunta de la investigación es identificar genes que estén asociados con mayor riesgo de sufrir
diabetes mellitus de tipo 2. El investigador observa que puede disponer de muestras de sangre con-
geladas y datos clínicos de un gran estudio de cohortes prospectivo sobre factores de riesgo de cardio-
patía isquémica que ya se ha realizado. En ese estudio se recopilaron datos basales sobre dieta, ejerci-
cio, características clínicas y concentraciones de colesterol y hemoglobina A1c. Dispone de datos de
seguimiento de criterios de valoración coronarios y aparición de diabetes. El estudio propuesto reali-
zará secuenciación del ADN de los participantes; no se precisan nuevas muestras de sangre.
a. ¿Puede realizarse el estudio propuesto con el consentimiento informado original que se ob-
tuvo para el estudio de cohortes?
b. Si el consentimiento original no daba autorización para el estudio propuesto, ¿cómo puede
llevarse a cabo el estudio propuesto?
c. Al diseñar nuevos estudios en los que se obtengan muestras de sangre, ¿cómo pueden los
investigadores planificar la autorización del uso de sus datos y muestras en estudios futuros?
2. El investigador planifica un estudio de fase II, controlado y aleatorizado, de un nuevo fármaco
antineoplásico que ha dado resultados prometedores en el cáncer de colon. Para reducir el ta-
maño de la muestra, desearía realizar un estudio controlado con placebo, en lugar de comparar-
lo con el tratamiento actual.
a. ¿Qué cuestiones éticas surgen acerca de un testigo con placebo en esta situación?
b. ¿Es posible realizar un estudio controlado con placebo de un modo éticamente aceptable?
3. El investigador planifica un estudio en preparación para un futuro ensayo de una vacuna frente
al VIH. Los objetivos son determinar: 1) si es posible reunir una cohorte de participantes con
una incidencia elevada de seroconversión al VIH a pesar del mejor asesoramiento sobre la pre-
vención frente al VIH, y 2) si la tasa de seguimiento en la cohorte será lo suficientemente eleva-
da como para realizar un ensayo de la vacuna. Los participantes serán personas con riesgo ele-
vado de infección por el VIH, entre ellos consumidores de drogas por vía intravenosa, personas
que comercian con el sexo y otras con múltiples parejas sexuales. La mayoría de los participan-
tes tendrá una formación escasa y unos conocimientos sanitarios inadecuados. El estudio será
un estudio de cohortes de observación, en el que el seguimiento de los participantes será de
2 años, para determinar las tasas de seroconversión y de seguimiento.
a. ¿Qué exigen las regulaciones federales que se comunique a los participantes como parte del
consentimiento informado?
b. ¿Qué pasos pueden adoptarse para garantizar que el consentimiento sea realmente informa-
do a este respecto?
c. ¿Cuál es la responsabilidad del investigador durante este estudio de observación para reducir
el riesgo de infección por el VIH en estos pacientes?
1. Consulte las seis primeras preguntas del cuestionario de muestra acerca del tabaquismo del
apéndice 15. Tiene respuestas de tres participantes del estudio:
Cree una tabla de datos que contenga las respuestas de estos participantes a las seis primeras
preguntas del apéndice 15. La tabla debe tener tres filas (una para cada participante) y siete
columnas (una para el ID del participante, y una para cada una de las seis preguntas).
2. El estudio PHTSE (Pre-Hospital Treatment of Status Epilepticus) (Lowenstein y cols., Control Clin
Trials 2001;22:290–309; Alldredge y cols., N Engl J Med 2001;345:631–637) fue un ensayo para
el tratamiento del estado epiléptico prehospitalario. El criterio de valoración principal fue la
desaparición de las convulsiones al llegar al hospital. Para incluir participantes, los paramédicos
contactaron con médicos del hospital por radio. A continuación se muestran los formularios para
la recopilación de datos por médicos del hospital de dos pacientes incluidos:
PHTSE
Formulario de recopilación de datos por médicos del hospital
ID del participante del PHTSE:
Administración del fármaco en estudio 189
PHTSE
Formulario de recopilación de datos por médicos del hospital
ID del participante del PHTSE:
Administración del fármaco en estudio 410
a. Disponga los datos de estos dos formularios de recogida de datos en una tabla de datos con
dos filas.
b. Cree un diccionario de los datos de nueve campos para la tabla de datos del ejercicio 2a.
c. Los formularios en papel para la recogida de datos fueron rellenados por médicos del hospi-
tal muy ocupados, a los que llamaron desde el servicio de urgencias a una sala de radio.
¿Cuáles son las ventajas y los inconvenientes de usar un formulario informático en pantalla
en lugar de un formulario en papel? Si usted diseñara el estudio, ¿qué formulario usaría?
3. Los formularios de recogida de datos del ejercicio 2 incluyen una pregunta sobre si la actividad
convulsiva seguía al llegar al hospital receptor (que era la variable de respuesta principal del
estudio). A esta pregunta se le asignó el nombre de campo ActConLleHosp y se codificó con 1 para
el sí (la actividad convulsiva continuaba) y con 0 para el no (la actividad convulsiva cesó).
Interprete los valores promedio para ActConLleHosp como se muestra a continuación:
ActConLleHosp
(1 = Sí, las convulsiones seguían; 0 = No, las convulsiones
habían cesado)
N Promedio
Lorazepam 66 0,409
Diazepam 68 0,574
Placebo 7 0,789
1. Un investigador realizó un estudio sobre la pregunta de la investigación: «¿Cuáles son los fac-
tores pronósticos de muerte tras la hospitalización por infarto de miocardio?» Los auxiliares de
la investigación recopilaron datos detallados de las historias y realizaron entrevistas extensas a
120 pacientes hospitalizados a los que se siguió durante 1 año. Alrededor del 15 % de los pacien-
tes falleció durante el período de seguimiento. Cuando estuvo completa la recogida de los datos,
uno de los auxiliares los introdujo en un ordenador usando una hoja de cálculo. Cuando el in-
vestigador inició el análisis de datos, descubrió que faltaba el 10-20 % de algunas variables
predictivas, y otras no parecían ser lógicas. Solo el 57 % de la muestra había acudido al segui-
miento al cabo de 1 año, fecha desde la que había transcurrido actualmente más de 1 año para
algunos pacientes. Se le ha llamado como consultor del proyecto.
a. ¿Qué puede hacer ahora el investigador para mejorar la calidad de sus datos?
b. Describa brevemente al menos tres formas mediante las que podría reducir los valores ausen-
tes y los errores en su siguiente estudio.
1. El investigador decide estudiar las características y la evolución clínica de pacientes con dolor
abdominal de etiología poco clara. Planifica incluir pacientes con dolor abdominal en los que
no pueda identificarse una causa específica tras realizar una serie de pruebas habituales. Hay dos
opciones para encontrar participantes para el estudio: 1) la consulta de aparato digestivo de su
centro médico universitario, o 2) una red local de consultas de la comunidad. ¿Cuáles son las
ventajas y los inconvenientes de cada método?
2. Se ha destinado al investigador a trabajar con el Ministerio de Sanidad chino en un nuevo pro-
grama para evitar las enfermedades relacionadas con el tabaco en China. De las siguientes pre-
guntas de investigación, ¿hasta qué punto hace falta para cada una de ellas investigación local
en oposición a investigación realizada en otros lugares?
a. ¿Cuál es la frecuencia y la distribución del consumo de cigarrillos?
b. ¿Qué enfermedades están causadas por el tabaquismo?
c. ¿Qué estrategias son las más eficaces para animar a las personas a dejar de fumar?
tal y como se ha realizado, sigue siendo demasiado vaga como para poder juzgar si el estudio es
Factible, Novedoso y Ético. ¿Cómo se medirán la depresión y el estado de salud, y en qué po-
blación? También será difícil establecer la causalidad en un estudio transversal: ¿la depresión
empeora la salud o viceversa?
Un diseño más específico que podría cumplir mejor los criterios FINER podría ser: «Un es-
tudio de cohortes para determinar si la depresión en estudiantes de primer curso de universidad
predice el número de visitas por enfermedad médica al servicio sanitario para estudiantes en el
año siguiente.»
2. En el caso de la asociación entre el paracetamol y el asma, la observación de que el uso de para-
cetamol y la prevalencia del asma han aumentado en todo el mundo (y la credibilidad biológica
relacionada con la depleción de glutatión inducida por el paracetamol) llevó a que todos los
estudios fueran Interesantes y Relevantes; a medida que se hagan más estudios, serán menos
Novedosos.
Estudio n.º 1: estudio de casos y testigos para comparar la frecuencia autorreferida de consumo de
paracetamol en adultos con síntomas de asma atendidos en consultas generales del sur de Londres
(dos casos) con la frecuencia descrita por adultos seleccionados aleatoriamente sin dichos síntomas,
procedentes de las mismas consultas de medicina general (los testigos). Los estudios de casos y
testigos son, a menudo, una buena forma de comenzar a investigar posibles asociaciones (cap. 8).
Este estudio era especialmente Factible, porque formaba parte de un estudio de casos y testigos
poblacional más extenso que ya investigaba la importancia de los antioxidantes de la dieta en el
asma. Las razones de posibilidades de asma aumentaron con la frecuencia del consumo de pa-
racetamol, hasta 2,38 (IC del 95 %: 1,22-4,64) en los que lo consumían a diario; p para la ten-
dencia = 0,0 002). El estudio fue Ético, porque se trató de un estudio observacional que no hizo
que los pacientes tuvieran riesgo (Shaheen y cols., Thorax 2000;55:266-270).
Estudio n.º 2: estudio transversal multinacional de síntomas alérgicos descritos por los padres (asma,
fiebre del heno y eccema) en niños de 6 a 7 años que incluyó preguntas sobre el uso de paracetamol en
el año previo y el uso habitual por fiebre en el primer año después del nacimiento. Este estudio (en el
que se incluyó a 205 487 niños de 6 a 7 años de edad de 71 centros de 31 países) no habría sido
Factible si no hubiera formado parte del estudio más general International Study of Asthma and
Allergies in Childhood (ISAAC). Esto ilustra la importancia de buscar datos existentes o estudios
existentes cuando se investiga una nueva pregunta de la investigación (cap. 13). Los autores
encontraron una sólida relación de dosis-respuesta entre el consumo actual de paracetamol y las
sibilancias, y una razón de posibilidades de 1,46 (IC del 95 %: 1,36-1,56) para las sibilancias y
una respuesta de «sí» a la pregunta: «en los primeros 12 meses de vida de su hijo, ¿le administró
habitualmente paracetamol por fiebre?» (Beasley y cols., Lancet 2008;372:1 039-1 048).
Estudio n.º 3: estudio aleatorizado y con doble enmascaramiento del efecto del paracetamol (12 mg/kg)
y del ibuprofeno (5 o 10 mg/kg) sobre los ingresos hospitalarios y las visitas ambulatorias por asma
durante 4 semanas en niños febriles de 6 meses a 12 años de edad a los que se estaba tratando por
asma en la inclusión. Un ensayo aleatorizado es, generalmente, el diseño menos Factible, debido
al coste y la logística implicados. Además, a medida que se acumulan datos del posible efecto
adverso del fármaco, los estudios aleatorizados para confirmarlo pasar a ser menos Éticos. En
este caso, los investigadores realizaron un análisis retrospectivo de los datos del grupo de niños
con asma del estudio Boston University Fever Study, un ensayo aleatorizado y con doble enmas-
caramiento cuya inclusión había finalizado en 1993. Encontraron que los niños asignados alea-
toriamente a paracetamol tuvieron un riesgo un 59 % mayor de hospitalizaciones por asma (NS)
y un riesgo un 79 % mayor de visitas ambulatorias por asma (RR = 1,79; IC del 95 %: 1,05, 2,94;
p = 0,01) (Lesko y cols., Pediatrics 2002;109:E20).
tivo de mayor interés podrían ser los estudiantes al comienzo de la enseñanza secundaria. Ade-
más, la población accesible (los estudiantes de este instituto) podría no representar
adecuadamente a la población objetivo, porque las causas del tabaquismo difieren en diversos
contextos culturales, y el investigador debería extraer la muestra de varios institutos seleccio-
nados aleatoriamente de toda la región. Lo que es más importante, es probable que el diseño del
muestreo (petición de voluntarios) atraiga a estudiantes que no sean representativos de la po-
blación accesible por su conducta de tabaquismo.
1b. La muestra no representativa podría haberse debido al error aleatorio, aunque esto habría sido
improbable, salvo que fuera una muestra muy pequeña. Si la muestra estuviera formada por
10 personas, una desproporción 7:3 se produciría con bastante frecuencia como consecuencia
del azar; de hecho, la probabilidad de seleccionar al menos siete niñas de una clase grande que
tiene el 50 % de niñas es de aproximadamente el 17 % (más otra probabilidad del 17 % de selec-
cionar al menos siete niños). Pero si el tamaño de la muestra fuera 100, la probabilidad de ob-
tener una muestra de al menos 70 niñas sería menor del 0,01 %. Esto ilustra el hecho de que el
investigador puede estimar la magnitud del componente aleatorio del error de muestreo una vez
que ha obtenido la muestra, y puede reducir dicho error hasta cualquier nivel deseado aumen-
tando el tamaño de la muestra.
La muestra no representativa también se podría deberse a un error sistemático. La gran pro-
porción de mujeres se podría haber debido a diferentes tasas de participación de niños y niñas.
Las estrategias para prevenir el sesgo de ausencia de respuesta incluyen el espectro de técnicas
para mejorar la inclusión que se discute en el capítulo 3. La gran proporción de mujeres también
podría representar un error técnico en la enumeración o la selección de los nombres a muestrear.
Las estrategias para prevenir los errores incluyen el uso adecuado de estudio preliminar y pro-
cedimientos de control de calidad (cap. 17).
2a. Muestra aleatoria (probabilística). El principal problema en relación con la posibilidad de gene-
ralizar será la ausencia de respuesta; será importante que el cuestionario sea corto y ofrecer algún
incentivo para rellenarlo. (El posible sesgo de ausencia de respuesta es problemático en todos
los esquemas de muestreo que se discuten en esta pregunta.)
2b. Muestra aleatoria estratificada (probabilística), con un muestreo tres veces mayor de mujeres,
tal vez porque el investigador previó que menos mujeres asistirían al concierto.
2c. Muestra sistemática (no probabilística). Aunque tal vez sea cómodo, este esquema de muestreo
llevaría a una representación insuficiente de los dos miembros de las parejas. Además, al menos
en teoría, el vendedor de la taquilla podría manipular qué asistentes reciben billetes que
acaban en 1.
2d. Muestra de conglomerados (probabilística). Puede ser cómoda, aunque el agrupamiento se debe
tener en consideración en los análisis, porque las personas que están sentadas en la misma fila
pueden ser más similares entre sí que los asistentes al concierto seleccionados aleatoriamente.
Esto podría ser un problema importante si la música fuera más intensa en algunas filas que en
otras.
2e. Muestra consecutiva (no probabilística). Las muestras consecutivas habitualmente son una bue-
na opción, pero las personas que llegan pronto a los conciertos pueden diferir de aquellas que
llegan más tarde, por lo que sería preferible disponer de varias muestras consecutivas seleccio-
nadas en momentos diferentes.
2f. Muestra de conveniencia (no probabilística). Este esquema no incluirá a las personas que hayan
comprado las entradas por correo. Además, podría haber una representación excesiva o insufi-
ciente de las personas que llegan a los conciertos en grupo.
2g. Muestra de conveniencia (no probabilística). Este esquema de muestreo no solo está sesgado
por los caprichos del investigador, sino que también puede hacer que haya ausencia de respues-
ta por los asistentes que no puedan oír la invitación.
3a. La población en estudio (a la que los autores querían generalizar) era la población estadouni-
dense de niños menores de 5 años en los años que estudiaron. Sabemos esto porque los autores
utilizaron datos de una encuesta nacional para estimar la magnitud de la enfermedad por el
metaneumovirus humano (MPVH) en Estados Unidos. Por supuesto, tendría mucho interés
generalizar también a los años futuros, y muchos lectores lo harán sin meditar en ello. Sin em-
bargo, es importante reconocer, especialmente con enfermedades infecciosas que pueden variar
de unos años a otros, que la generalización más allá de los años del estudio es una inferencia
adicional potencialmente frágil.
3b. La población accesible (la población de la que extrajeron los participantes) eran los niños
, 5 años de edad que vivían en los condados que rodeaban a los tres centros de investigación
(Cincinnati, Nashville y Rochester, NY) y que eran atendidos en dichos centros. Probablemente
se seleccionaron estas ciudades por su proximidad a los investigadores. No está claro en qué
medida son representativas de otras áreas de Estados Unidos en relación con la frecuencia de
infección por el MPVH.
3c. El esquema de muestreo fue una muestra de conveniencia. La elección de los días de la semana
(que no se especifican) podría haber llevado a algún sesgo si, por ejemplo, los padres de niños
con síntomas respiratorios más leves durante el fin de semana esperan hasta el lunes para lle-
varlos a ver a un médico y si los síntomas del MPVH fueran más o menos intensos que los de
otros virus. En los días en los que los investigadores estaban incluyendo pacientes, podían haber
intentado obtener una muestra consecutiva (tampoco se especifica), lo que habría ayudado a
controlar el sesgo de selección. No se muestra el motivo de la restricción de determinados meses
del año, aunque probablemente fuera porque los autores pensaban que casi todos los casos de
MPVH se producirían durante estos meses.
3d. Las observaciones estaban agrupadas por área geográfica, por lo que se debería tener en cuenta
el agrupamiento por ciudad en el análisis estadístico. Cuanto más diferentes sean las estimacio-
nes entre las ciudades, más amplios serán los intervalos de confianza. Intuitivamente, esto es
lógico. Unas tasas por ciudad muy diferentes llevarían a preguntarse en qué medida habría sido
diferente la estimación si se hubieran incluido otras ciudades, y esperaríamos ver reflejada esta
incertidumbre en un intervalo de confianza más amplio.
Se produce un nivel más sutil de agrupamiento por año. Una vez más, si hay mucha varia-
ción de unos años a otros en la incidencia del MPVH, si se desea generalizar a los años futuros
(en lugar de simplemente estimar cuál ha sido la incidencia en los años estudiados), también
se debería incluir el agrupamiento por año en el análisis estadístico, y la variación significati-
va de la incidencia de unos años a otros también llevaría a un intervalo de confianza más
amplio.
2a. Es un problema con la precisión. La excesiva variabilidad podría ser un error del observador,
pero es más probable que haya que ajustar la báscula.
2a. Esta situación puede reducir tanto la exactitud como la precisión. La exactitud se afectará por-
que, al sujetar el investigador al bebé, probablemente se alterará el peso observado; esto podría
tender a aumentar constantemente el peso observado o a disminuirlo constantemente. Este
problema con los participantes podría solventarse si la madre dedica un tiempo a calmar al niño;
una alternativa sería pesar a la madre con y sin el bebé, y calcular la diferencia.
2a. Es fundamentalmente un problema de precisión, porque el indicador de la báscula variará alre-
dedor del peso real (si la báscula es exacta). El problema se refiere a los participantes, y la solu-
ción es la misma que en el ejercicio 2c.
2a. El problema radica principalmente en la precisión, ya que los pesos de los bebés variarán, de-
pendiendo de si comen o no y de si mojan los pañales antes de la medición. Este problema de
variabilidad del participante puede reducirse advirtiendo a las madres que no alimenten a los
niños durante 3 h antes de la exploración, y que los bebés estén desnudos.
2a. Validez predictiva: las puntuaciones de desgaste profesional predecían una variable de respues-
ta que podríamos esperar que se asociara al desgaste.
2a. Validez aparente: preguntar a las personas con qué frecuencia se sienten desgastadas parece un
abordaje razonable para evaluar el síndrome de desgaste profesional.
2a. Validez de constructo: esta medida del desgaste es sensible a las circunstancias que cabría espe-
rar que afectaran al desgaste profesional.
2a. Validez relacionada con el criterio: estas dos preguntas tienen un acuerdo estrecho con una
medida estándar bien aceptada.
Si a = 0,05, b = 0,20, entonces se necesitan 100 participantes por grupo.
Si a = 0,05, b = 0,10, entonces se necesitan 133 participantes por grupo.
Si a = 0,01, b = 0,20, entonces se necesitan 148 participantes por grupo.
Crédito extra: si el investigador solo tiene acceso a 60 casos, ¿cuál de las siguientes estrategias
para aumentar la potencia será la más útil?
a. Usar una variable continua: el índice de masa corporal ya se está midiendo como una variable
continua.
b. Usar una variable más precisa: tanto el peso como la altura son variables precisas, y la desviación
típica del índice de masa corporal está compuesta principalmente por variación interindividual,
que no se puede reducir. La normalización cuidadosa de las mediciones de la altura y el peso
para reducir el error de medición seguiría siendo una buena idea, aunque no es la mejor opción.
c. Usar mediciones apareadas: no se puede aplicar; el «cambio» del índice de masa corporal no
es relevante en esta situación.
d. Usar una variable de respuesta más habitual.
e. Usar tamaños de grupos desiguales: la n de los testigos puede aumentarse, ya que es fácil
encontrar participantes sin cáncer de estómago. Por ejemplo, si el número de testigos puede
aumentarse cuatro veces hasta 240, se puede usar la fórmula de aproximación de la página 69:
n’ = ([c + 1]/2c) n
que es aproximadamente el número de casos disponibles. Por lo tanto, un estudio con 60 casos
y 240 testigos tendrá una potencia similar a la de uno con 100 casos y 100 testigos.
2. H0: no hay diferencia en la fuerza media entre los grupos tratados con DHEA y con placebo.
HA: existe una diferencia de la fuerza media entre los grupos tratados con DHEA y con placebo.
La magnitud del efecto normalizada (E/D) es 0,25 (2 kg/8 kg). Acuda al apéndice 6A, des-
cienda por la columna izquierda hasta 0,25, luego recorra la tabla en horizontal hasta la quinta
La magnitud de la muestra normalizada (E/D) es de 1,0 (2 kg/2 kg). Acuda al apéndice 6A,
descienda por la columna de la izquierda hasta 1,0, y luego vaya hasta la quinta columna desde la
izquierda, donde a (bilateral) = 0,05 y b = 0,10. Se necesitarían, aproximadamente 23 participantes.
4. H0: no hay diferencia en cuanto a la frecuencia de ser zurdo entre los estudiantes disléxicos y
los no disléxicos.
HA: existe una diferencia en cuanto a la frecuencia de ser zurdo entre los estudiantes disléxicos
y los no disléxicos.
Dado que la proporción de estudiantes no disléxicos que son zurdos (P2) es de alrededor de
0,1, el investigador desea poder detectar una proporción de estudiantes disléxico que sean zur-
dos (P1) que proporcione una razón de posibilidades de 2,0. El cálculo del tamaño de la muestra
usará una prueba de la x2, y es preciso usar el apéndice 6B. Sin embargo, ese apéndice está
pensado para introducir las dos proporciones, no la razón de posibilidades, y todo lo que se
conoce es una de las proporciones (P2 = 0,1).
Para calcular el valor de P1 que da una razón de posibilidades de 2, se puede usar la fórmula
de la página 59:
En este ejemplo:
A/D = 0,6
Usando la tabla 6D, descienda por la columna de A/D hasta 0,60, y luego hasta el intervalo
de confianza del 99 %. Se necesitarían en promedio alrededor de 74 puntuaciones de CI de es-
tudiantes de medicina para obtener una puntuación media con el intervalo de confianza espe-
cificado.
1a. Los casos podrían ser todas las mujeres entre 30 y 75 años de edad con cáncer de ovario comu-
nicado a un registro local, y con las que se puede establecer contacto telefónico y que pueden
dar su acuerdo para participar.
1b. Las testigos podrían ser una muestra aleatoria de todas las mujeres de entre 30 y 75 años de edad de
los mismos condados que en el registro de tumores. La muestra aleatoria podría obtenerse mediante
una llamada telefónica aleatoria (de aquí la necesidad de restringir los casos a las que tienen teléfono).
1c. Dado que el cáncer de ovario necesita un tratamiento intensivo y puede ser mortal, algunos
casos puedan ser reacios a participar en el estudio o pueden haber muerto antes de poder entre-
vistarles. Si un antecedente familiar de cáncer de ovario está relacionado con formas más agre-
sivas de este tipo de cáncer, el estudio podría infravalorar su riego relativo, porque esos casos
con un antecedente familiar positivo tendrían menos probabilidad de sobrevivir lo suficiente
como para incluirlas en la muestra de casos.
Si un cáncer de ovario familiar es más benigno que otros cánceres de ovario, podría ocurrir lo
contrario. Igualmente, es posible que mujeres sanas con una familiar con cáncer de ovario estuvieran
más interesadas en el estudio y más dispuestas a participar como testigos. En esa situación, la preva-
lencia del antecedente familiar de cáncer de ovario en el grupo testigo sería artificialmente elevada,
y el cálculo del riesgo de sufrir cáncer de ovario por antecedentes familiares sería falsamente bajo.
Este problema podría reducirse al mínimo si no se comunica a las posibles participantes como testi-
gos cuál es exactamente la pregunta de la investigación, o qué cáncer exactamente es el que se va a
estudiar, si puede realizarse de un modo que sea aceptable para el comité de participantes humanos.
1d. El antecedente familiar de cáncer de ovario suele medirse preguntando a las participantes cuán-
tos familiares femeninos tienen y cuántas han sufrido cáncer de ovario. Recuerde que el sesgo
puede ser un problema con este método. Las mujeres con cáncer de ovario, que puedan preocu-
parse por la posibilidad de una predisposición genética a su enfermedad, pueden recordar con
más probabilidad a las familiares con cáncer de ovario que las mujeres sanas que no tienen
motivos para pensar en esa posibilidad. Esto haría que la estimación de la asociación entre el
antecedente familiar y el cáncer de ovario fuera falsamente elevada.
Además, las mujeres pueden confundir los cánceres ginecológicos (cervical, uterino y ovárico),
y confundir también los tumores ginecológicos benignos que requieren una intervención quirúr-
gica con los tumores malignos. Esto puede llevar a una clasificación errónea (algunas mujeres sin
antecedentes familiares de cáncer de ovario comunicarán tener el factor de riesgo, y se las clasifi-
cará erróneamente). Si esta clasificación errónea se produce tanto en los casos como en los testigos,
el cálculo de la asociación entre antecedentes familiares y cáncer de ovario será falsamente bajo.
Si este tipo de clasificación errónea es más frecuente en los casos (en los que hay más probabilidad
de malinterpretar el tipo de cáncer o el motivo de la cirugía en las familiares), la estimación de la
asociación entre antecedentes familiares y cáncer de ovario será falsamente elevada. La clasificación
errónea puede disminuirse comprobando los registros anatomopatológicos de las familiares que
se ha comunicado que han tenido cáncer de ovario, con el fin de verificar el diagnóstico.
Finalmente, sería deseable tener en consideración la oportunidad de los casos y los testigos de
tener un antecedente familiar positivo: las mujeres con muchas hermanas mayores tienen más
oportunidad de tener antecedentes familiares positivos que las que solo tienen hermanos o her-
manas menores. Como se señala en el capítulo 9, el emparejamiento y la estratificación son dos
formas de abordar esta posibilidad.
1e. El método más sencillo sería dicotomizar el antecedente familiar de cáncer de ovario (p. ej.,
familiares en primer grado o no) y usar la razón de posibilidades como medida de asociación.
La razón de posibilidades se aproxima al riesgo relativo, porque la variable de respuesta (cáncer
de ovario) no es frecuente. Una prueba de la x2 sería una prueba adecuada de significación es-
tadística. Por otro lado, si se cuantificaron los antecedentes familiares (proporción de familiares
de primer y segundo grado afectadas), se podría buscar una relación dosis-respuesta, calculando
razones de posibilidades para cada nivel de exposición.
1f. El diseño de casos y testigos es un modo razonable de responder a esta pregunta de la investi-
gación, a pesar de los problemas del sesgo de muestreo, sesgo de recuerdo y clasificación errónea
que se señalaron anteriormente. La principal alternativa sería un estudio de cohortes extenso;
sin embargo, como el cáncer de ovario es muy infrecuente, probablemente no sea viable un di-
seño de cohortes para responder esta pregunta específica. Sería ideal un estudio de cohortes
retrospectivo en el que ya estuvieran recogidos sistemáticamente los datos de los anteceden-
tes familiares, si se pudiera encontrar dicha cohorte.
2a. Los casos podrían ser conductores jóvenes (tal vez de 16 a 20 años de edad) que hubieran tenido
accidentes de tráfico, y los testigos podrían ser amigos o conocidos a los que identifiquen. Sería
importante excluir a amigos con los que hayan jugado a videojuegos para evitar un emparejamien-
to excesivo. Es probable que las llamadas telefónicas con marcado aleatorio fueran menos eficaces
como estrategia para identificar a los testigos, debido a la elevada prevalencia de teléfonos móviles
(que, al contrario de las líneas terrestres, no están localizados en un ámbito geográfico determina-
do) en este grupo de edad. También se podrían identificar los casos y los testigos si el investigador
tuviera acceso a los registros de una compañía de seguros de automóvil. Se podría proponer que
los casos y los testigos estuvieran emparejados por sexo, debido a que tanto jugar con videojuegos
como tener accidentes de coche son más frecuentes en hombres jóvenes. La exposición se podría
medir con un cuestionario o una entrevista sobre el uso de videojuegos. Sería importante pregun-
tar por videojuegos que no supongan conducción, además de aquellos que sí lo hacen, porque la
inferencia causal mejoraría si la asociación fuera específica, es decir, si hubiera un efecto para el
uso de juegos de conducción o carreras, pero no para juegos de disparos o de otro tipo.
2b. Para exposiciones intermitentes que se supone que tienen un efecto breve, como el uso de un
videojuego inmediatamente antes de conducir, los estudios cruzados son una opción atractiva.
Como en el ejercicio 2a, los casos podrían ser conductores jóvenes que hubieran tenido acci-
dentes de tráfico. En los estudios cruzados no hay testigos, simplemente períodos temporales
testigo. Así, se preguntaría a los conductores que son casos por el uso de videojuegos inmedia-
tamente antes del viaje en el que se produjo el accidente, y también por períodos temporales de
control en los que no tendrán accidentes. Se compara el período temporal inmediatamente an-
terior al accidente en un análisis emparejado con otros períodos temporales para ver si el uso de
videojuegos de carreras era más frecuente en el período previo al accidente que en otros períodos
temporales.
Además de estas cuatro estrategias para controlar la confusión en los estudios de observa-
ción, hay una solución final: diseñar un ensayo clínico aleatorizado con enmascaramiento.
e. Causa-efecto: la quinta explicación posible es que comer frutas y verduras realmente reduce
el índice de episodios coronarios. A esta explicación se llega probablemente, en parte, por un
proceso de exclusión, alcanzando el juicio de que cada una de las otras cuatro explicaciones
no es probable y, en parte, buscando otras pruebas para apoyar la hipótesis causal. Ejem-
plos de esto último son los datos biológicos de que hay componentes de las frutas y las ver-
duras (p. ej., antioxidantes) que protegen frente a la ateroesclerosis, y estudios ecológicos en
los que se ha visto que la CI es mucho menos frecuente en poblaciones que consumen más
frutas y verduras.
2. Este es un ejemplo de condicionamiento a un efecto compartido: en el estudio se incluyó solo
a lactantes con fiebre, que puede estar producida por infecciones urinarias e infecciones óticas.
Como los niños no circuncidados tenían una probabilidad mucho mayor de tener una infección
urinaria, tenían más probabilidad de tener una causa de la fiebre distinta a una infección ótica
(es decir, estaban sobrerrepresentados en los niños que no tenían una infección de oído).
3. La asociación entre el uso de paracetamol por la madre y el asma en la descendencia se podría
evaluar en un estudio de cohortes en el que se preguntara a las madres por el consumo de para-
cetamol durante el embarazo y se siguiera a la descendencia para detectar la aparición de asma.
Los investigadores buscarían datos de que el genotipo materno modifica el efecto de la exposi-
ción de la madre al paracetamol sobre el asma en los niños (interacción), con una asociación
mayor entre la exposición y la variable de respuesta en aquellas que se predijera que tenían más
susceptibilidad genética. De hecho, esto es lo que publicaron Shaheen y cols. (J Allergy Clin
patrón masculino. Si estos datos no son muy sólidos, o si la finasterida no se utiliza habi-
tualmente en la práctica clínica, sería mejor comparar HairStat con un placebo. Un ensayo
aleatorizado con un placebo permitirá tener datos claros de que HairStat es mejor que el
placebo. Puede ser razonable comparar HairStat con finasterida si se considera que la finas-
terida es el tratamiento estándar de la calvicie con patrón masculino y si hay ensayos alea-
torizados de buena calidad que documentan la eficacia de la finasterida. En este caso, los
investigadores deben decidir primero si piensan que HairStat es más eficaz que la finasterida.
De ser así, un estudio con comparador activo sería la mejor opción para comparar HairStat
con finasterida. Si los investigadores piensan que HairStat es igual de eficaz que la finasteri-
da, aunque será mucho más económico, deben plantearse un estudio de ausencia de inferio-
ridad. En este caso, deben tener cuidado de utilizar un diseño del estudio que sea muy simi-
lar al que se utilizó para documentar la eficacia de la finasterida (criterios de inclusión,
dosis, duración del tratamiento, medidas de la respuesta), y deben realizar el estudio para
garantizar que haya un incumplimiento y una pérdida durante el seguimiento mínimos. Un
inconveniente importante de los estudios de ausencia de inferioridad es que es probable que
el tamaño de la muestra sea mucho mayor de lo que es necesario para un ensayo controlado
con placebo.
2b. Un diseño factorial que incluye un placebo tiene las ventajas de comparar cada tratamiento con
el placebo, y (si se planifica con una potencia estadística adecuada) comprobar si la combinación
de los tratamientos es mejor que cada uno por separado. Los inconvenientes son el mayor tama-
ño, el mayor coste y la complejidad del ensayo.
3. El cumplimiento con las consultas, el protocolo y los medicamentos del estudio puede mejo-
rarse:
–– Empleando personal de la investigación agradable que se muestre entusiasta con el estudio
–– Recordando (por mensajes digitales, por teléfono, correo postal o correo electrónico) las
consultas y la importancia de cumplir el tratamiento
–– Reembolsando los gastos de trasporte, aparcamiento y otros relacionados con el estudio
–– Dos visitas de selección antes de la aleatorización para identificar a los pacientes que tienen
más probabilidad de no acudir a las visitas de seguimiento
–– Un período de preinclusión en el que se pide a los participantes que utilicen el gel capilar de
placebo, y en el que se excluye a los que no cumplan el tratamiento
–– Otras posibles estrategias enumeradas en la tabla 11-2
4. El principal inconveniente del análisis de intención de tratar es que incluye participantes que
no han cumplido el tratamiento aleatorizado, y que, por lo tanto, reducen la magnitud aparente
de cualquier efecto que se observa en todo el grupo aleatorizado. Sin embargo, los inconvenien-
tes de usar el análisis de «como se les trató» en lugar del de intención de tratar son incluso
mayores. Porque los participantes que no cumplen la intervención suelen ser distintos de los
que cumplen en aspectos importantes, pero no medidos, el análisis de «como se les trató» ya no
tiene una comparación aleatorizada verdadera y se puede llegar a la conclusión incorrecta de
que HairStat es eficaz.
5. La conclusión de que HairStat funciona mejor en varones jóvenes, según un análisis de subgru-
pos, puede ser errónea y engañosa, porque el resultado puede deberse al azar. La probabilidad
de hallar un efecto «significativo» en un subgrupo cuando no hay ningún efecto general signi-
ficativo aumenta con el número de grupos estudiados; no está claro cuántos subgrupos se estu-
diaron para hallar este efecto «significativo». La afirmación de que el tratamiento es eficaz en
varones de menos de 40 años implica que el tratamiento no es eficaz (o incluso tiene el efecto
contrario) en varones de más edad. Este resultado también debe comunicarse y verificarse esta-
dísticamente para detectar una modificación del efecto sobre el crecimiento del cabello con
HairStat debido a la edad. La afirmación de que HairStat es eficaz en el subgrupo de hombres
más jóvenes solo se debe hacer si los análisis de subgrupos se hubieran especificado por adelan-
tado (en situación ideal, basándose en un fundamento biológico para sospechar que HairStat
podría ser más eficaz en hombres jóvenes), si no se hubiera estudiado un número grande de
subgrupos, y si el valor de p para la modificación del efecto (interacción) entre el efecto del
tratamiento y la edad fuera estadísticamente significativo.
1a. La mejor forma de obtener una muestra de participantes para estudiar una prueba diagnóstica
suele ser muestrear pacientes con riesgo de sufrir una enfermedad, antes de que se sepa quién
tiene la enfermedad y quién no. En este caso, lo mejor sería probablemente muestrear mujeres
que acuden a una consulta o a un servicio de urgencias con dolor abdominal compatible con
enfermedad inflamatoria pélvica (EIP). Comparar la velocidad de sedimentación globular (VSG)
de las mujeres hospitalizadas con EIP con la de una población testigo sana sería el peor método,
porque tanto el espectro de la enfermedad como, y especialmente, el espectro de la ausencia de
enfermedad no son representativos de los grupos en los que se usaría clínicamente la prueba.
(Las hospitalizadas por EIP tienen probablemente una enfermedad más grave que el promedio,
y las voluntarias sanas tienen mucha menos probabilidad de que los valores de su VSG estén
elevados que las mujeres con dolor abdominal por otras causas distintas a la EIP.)
1b. Si las personas que asignaban el diagnóstico final usaron la VSG para decidir quién tenía EIP y
quién no, tanto la sensibilidad como la especificidad podrían estar falsamente elevadas. Cuanto
más se base la asignación del diagnóstico en la VSG, mayor será el sesgo (denominado «sesgo
de incorporación») del estudio.
1c. La mejor respuesta es que no debe usar ningún valor corte particular para definir un resultado
anormal. En su lugar, debe representar gráficamente la interrelación entre la sensibilidad y la
especificidad usando una curva de eficacia diagnóstica (curva ROC), y presentar razones de
verosimilitudes para varios intervalos de VSG (p. ej., 20 mm/h, 20 a 49 mm/h, $ 50 mm/h),
en lugar de los valores de sensibilidad y especificidad en diferentes puntos de corte. Se ilustra en
la tabla siguiente, que puede crearse a partir de la información de la pregunta:
Razón de
VSG EIP No EIP verosimilitudes
> 50 75% 15% 5,00
20–49 15% 35% 0,43
< 20 10% 50% 0,20
100% 100%
La curva ROC también podría usarse para comparar la VSG con otras pruebas, como el re-
cuento leucocitario. Se ilustra en la hipotética curva que aparece a continuación, que sugiere
que la VSG es superior al recuento leucocitario para predecir la EIP:
100%
80%
Sensibilidad
60%
40%
VSG
recuento leucocitario
20%
0%
0% 20% 40% 60% 80% 100%
1 - Especificidad
2a. Este problema ilustra el habitual error de excluir personas del numerador sin excluirlas del
denominador. Aunque es cierto que solo había dos niños con lesiones intracraneales «inespera-
das», el denominador para el rendimiento debe ser el número de niños en los que cabría esperar
que las lesiones intracraneales fueran inesperadas, es decir, aquellos con exploración neuroló-
gica y estado mental normales. Esto probablemente sea un número mucho menor de 200. Por
ejemplo, suponga que solamente el 50 % de los niños en los que se solicitó una TC tenían un
estado mental normal y no tenían hallazgos neurológicos. En esa situación, el rendimiento sería
2 a 50, o el 4 %, es decir, casi cuatro veces mayor.
2b. Salvo que el hallazgo de una lesión intracraneal cause cambios en el tratamiento y exista algún
modo de calcular los efectos de esos cambios del tratamiento sobre la respuesta, será muy difícil
saber qué rendimiento es suficiente para que esté justificada la TC. Sería mejor usar «lesión
intracraneal que precisa una intervención quirúrgica» como variable de respuesta de este estu-
dio, aunque se necesitará un acuerdo sobre qué lesiones necesitan ser intervenidas y un cálculo
de la eficacia de estas intervenciones para mejorar la respuesta.
2c. La principal ventaja de estudiar los efectos de la TC sobre las decisiones clínicas es la capacidad
de examinar los posibles efectos beneficiosos de los resultados normales. Por ejemplo, una
TC normal podría cambiar el plan de tratamiento de «ingreso para observación» a «alta». En los
estudios de rendimiento diagnóstico suele suponerse que los resultados normales tienen poco
valor. En segundo lugar, como se comentó anteriormente, los resultados anormales de la TC
podrían no llevar a ningún cambio en el tratamiento (p. ej., si no se precisaba neurocirugía y el
paciente iba a ingresar de todos modos). Estudiar los efectos de las pruebas sobre la toma de
decisiones médicas ayuda a determinar la cantidad de información útil que proporcionan, más
allá de la que ya se conoce cuando se solicita la prueba.
3a. Si solo se incluyen niños a los que se realizó una TC, el estudio podrá sufrir sesgo de verificación
(apéndice 12B), en el que la sensibilidad está falsamente aumentada y la especificidad está fal-
samente disminuida, porque los niños sin anomalías neurológicas focales (que son «negativos
falsos» o bien «negativos verdaderos») estarán poco representados en este estudio.
3b. Si se incluyen los niños con lesiones craneales a los que no se realizó una TC, y se supone que
no tienen lesión intracraneal si se recuperan sin neurocirugía, el estudio podrá sufrir sesgo de
verificación diferencial («sesgo de método de referencia doble»; apéndice 12C), que tenderá a
aumentar tanto la sensibilidad como la especificidad, si algunas lesiones intracraneales se resuel-
ven sin neurocirugía.
1. Algunas posibilidades:
a. Analizar datos del estudio National Health and Nutrition Examination Survey (NHANES).
Estos estudios poblacionales nacionales se realizan periódicamente, y cualquier investigador
puede disponer de sus resultados con un coste nominal. Contienen datos de muestras que
incluyen variables sobre la historia clínica de colecistopatía comunicada por el propio pacien-
te y los resultados de la ecografía abdominal.
b. Analizar datos de Medicare sobre la frecuencia de colecistectomía en pacientes de más de
65 años de edad en Estados Unidos, o datos de la encuesta National Hospital Discharge Survey
sobre la frecuencia de esa intervención a todas las edades. Ambas series de datos contienen
una variable para la raza. Los denominadores deben proceder de datos del censo. Al igual que
en el estudio NHANES, son muestras muy buenas basadas en la población, pero tienen el
problema de que responden a una pregunta de la investigación algo diferente (cuál es la in-
cidencia de tratamiento quirúrgico por una colecistopatía). Esto puede ser diferente de la
incidencia real de colecistopatía, debido a factores como el acceso a la asistencia.
2a. Las principales ventajas son que usar datos del estudio CHS en un análisis de datos secundario
era rápido, fácil y barato, especialmente en comparación con el tiempo y el coste de planificar y
realizar un gran estudio de cohortes. Además, el compañero investigador ha desarrollado una
colaboración con los investigadores del estudio CHS y ha podido añadir medidas más sofistica-
das de función renal al estudio CHS en un estudio auxiliar.
2b. En algunos casos, la serie de datos secundarios no proporciona mediciones óptimas de las va-
riables predictiva y de respuesta, ni de las posibles variables de confusión. Es importante estar
seguro de que la serie de datos proporcionará respuestas razonables a la pregunta de investiga-
ción antes de invertir el tiempo y el esfuerzo necesarios para lograr el acceso a los datos. Otro
inconveniente es que puede ser difícil obtener datos de algunos estudios; el investigador gene-
ralmente tiene que escribir una propuesta, encontrar un colaborador que sea coinvestigador del
estudio, y obtener la autorización del comité directivo del estudio y del promotor.
3. Se han realizado varios grandes ensayos aleatorizados y controlados sobre el efecto de los estró-
genos y los moduladores selectivos del receptor estrogénico en varias respuestas de enfermedad,
como cáncer, episodios cardiovasculares y episodios tromboembólicos. Estos ensayos son los
ensayos aleatorizados Women’s Health Initiative, Breast Cancer Prevention Trial, Multiple Outcomes
of Raloxifene Evaluation y Raloxifene Use for the Heart. La mejor forma de empezar para este in-
vestigador sería determinar si puede medir los estrógenos en el suero congelado almacenado y,
si es así, determinar si alguno de estos grandes ensayos tiene suero almacenado que pudiera
usarse para esta medición. El mejor diseño para esta pregunta es un estudio de casos y cohortes
o de casos y testigos anidado. El investigador necesitará, probablemente, redactar una propues-
ta para este estudio auxiliar, conseguir la aprobación del comité directivo del ensayo y del pa-
trocinador, y lograr la financiación para realizar las mediciones; un proyecto relativamente ba-
rato, ya que la mayor parte del coste del estudio ya se realizó en el ensayo principal.
1a. Depende de si los participantes del estudio original dieron su consentimiento para que se utili-
zaran sus muestras para el secuenciado del ADN, de si dieron su consentimiento para que las
mediciones del ADN se utilizaran en estudios futuros, y qué tipos de estudios futuros se espe-
cificaron. El consentimiento original no incluiría la investigación propuesta si las muestras de
sangre se hubieran obtenido para utilizarlas únicamente para repetir las pruebas especificadas
en el protocolo en caso de que se perdieran las muestras o hubiera accidentes de laboratorio
(como el colesterol y la hemoglobina A1c). De manera similar, el consentimiento original no
incluiría la investigación propuesta si los participantes hubieran dado su consentimiento para
que se utilizaran las muestras de sangre para la medición genética del ADN en estudios futuros
de arteriopatía coronaria, pero no hubiera ninguna mención a la utilización de las muestras en
estudios de diabetes.
1b. Según la legislación federal, un estudio puede realizarse con datos y muestras existentes si el
nuevo investigador no puede identificar a los participantes, bien directamente o bien con la
ayuda de alguien más. Así, si el nuevo investigador recibe muestras y datos etiquetados solo por
el número de ID, y el código que vincula las muestras y las identidades de los participantes se
ha destruido o no está a disposición del nuevo investigador, no es necesario obtener un consen-
timiento informado para el estudio secundario. La justificación ética es que hacer que el material
sea anónimo de esta manera protege a los participantes de las violaciones de la confidencialidad.
La suposición es que nadie podría oponerse a que se use su material o sus datos si no hay ningún
riesgo de violación de la confidencialidad. Obsérvese, no obstante, que algunos participantes
podrían poner objeciones a que alguien quisiera secuenciar su ADN, incluso manteniendo la
confidencialidad, ya que el ADN contiene información que podría llevar, finalmente, a la pérdi-
da de la confidencialidad.
1c. Cuando los investigadores recopilan nuevas muestras en un proyecto de investigación, es pru-
dente pedir autorización para recoger y guardar más sangre para usarla en futuros estudios de
investigación. Guardar muestras permite realizar futuras investigaciones de un modo más fiable
que reuniendo una nueva cohorte. Se recomienda el consentimiento gradual: se pide el consen-
timiento al participante: 1) para el estudio específico (p. ej., el estudio de cohortes origi-
nal); 2) para otros proyectos de investigación del mismo tema general (como riesgo de arterio-
patía coronaria), o 3) para todas las demás investigaciones futuras que aprueben un CEIC y un
comité de revisión científica. Para abordar los temas que surgen en el ejercicio b, podría también
pedirse al participante el consentimiento específico para las investigaciones en las que podría
secuenciarse su ADN. El participante puede estar de acuerdo con una, con dos o con todas las
opciones. Por supuesto, es imposible describir las investigaciones futuras. De aquí que el con-
sentimiento para futuras investigaciones no sea realmente informado, en el sentido de que el
participante no conocerá la naturaleza, los riesgos y los beneficios de estudios futuros. Se pide
al participante que confíe en que el CEIC y el comité de revisión científica solo permitirán es-
tudios futuros que tengan solidez científica y ética.
2a. No dar al grupo testigo fármacos que se sabe que son eficaces sería perjudicial y, por lo tanto,
no sería ético. Incluso si los participantes dieran su consentimiento informado a participar en
un estudio controlado con placebo de ese tipo, un CEIC podría no aprobar el estudio porque
viola los requisitos de las agencias de registro de que el equilibrio riesgo/beneficio sea aceptable
y de que se reduzcan al mínimo los riesgos.
2b. Si todos los participantes en el estudio recibieran la quimioterapia que constituye el tratamien-
to estándar, también se podría aleatorizar a los participantes al nuevo tratamiento o al placebo.
De manera alternativa, los investigadores podrían tratar de identificar un subgrupo de pacientes
en los que ningún tratamiento ha demostrado prolongar la supervivencia (el criterio de valora-
ción más significativo clínicamente en la mayor parte de los tratamientos del cáncer). Por ejem-
plo, a los pacientes cuya enfermedad ha progresado a pesar de varios tipos de quimioterapia
estándar y que no tienen otras opciones que hayan sido eficaces, podría pedírseles que partici-
paran en un ensayo controlado con placebo de la intervención experimental. Un grupo testigo
aceptable podría ser el placebo o el mejor tratamiento actual. Este método supone que si el
fármaco es activo en pacientes no tratados anteriormente, también lo será después de que otros
tratamientos hayan fallado. Es, por supuesto, posible que un fármaco que no funcione en la
enfermedad resistente al tratamiento pueda ser eficaz como tratamiento de primera línea.
3a. Durante el consentimiento informado, los investigadores deben comentar: 1) la naturaleza del
estudio; 2) el número y la duración de las consultas; 3) los posibles beneficios y riesgos de la par-
ticipación (en este caso, fundamentalmente, los estigmas y la discriminación, si se viola la confi-
dencialidad); 4) alternativas a la participación en el estudio, entre ellas medidas de prevención de
la infección por el VIH disponibles fuera del ensayo; 5) la naturaleza voluntaria de la participación
y el derecho a abandonar en cualquier momento, y 6) la protección de la confidencialidad compa-
tible con los requisitos de notificación exigidos por las autoridades de salud pública estatales.
3b. Los investigadores necesitan presentar la información de un modo que los participantes puedan
entender. Los participantes con poca formación sanitaria no podrán entender un formulario de
consentimiento informado por escrito. Sería útil que los investigadores consultaran con grupos
de apoyo cómo presentar la información. Las sugerencias podrían ser videograbaciones, DVD y
revistas de tiras cómicas. Deben realizarse pruebas preliminares. Además, los investigadores
deben determinar qué malentendidos sobre el estudio suelen ser frecuentes, y revisar el proce-
so de consentimiento para evitarlos.
3c. Aun cuando el estudio sea un estudio de observación, los investigadores tienen una obligación
ética de proporcionar información a los participantes sobre cómo reducir el riesgo de sufrir in-
fección por el VIH. Hay razones éticas y científicas para hacerlo. Los investigadores tienen la
obligación ética de evitar dañar a los participantes en su estudio. No pueden no aplicar medidas
de salud pública disponibles que se sabe que evitan la enfermedad mortal, que es el criterio de
valoración del estudio. Estas medidas incluirían asesoramiento, preservativos y envío a un pro-
grama de tratamiento de consumo de sustancias tóxicas y de cambio de agujas. Los investigado-
res pueden también invocar estas medidas para evitar dañar a los participantes en el siguiente
ensayo de la vacuna, aun cuando la potencia del ensayo habrá disminuido.
2f. ¿Ha tenido alguna vez lo que se podría considerar un problema con la bebida?
Sí
No
3a. La obtención de datos mediante entrevistas necesita más formación y tiempo del personal que
un cuestionario autoadministrado, y es, por lo tanto, más cara.
3b. A algunos participantes no les gusta responder a otra persona sobre cuestiones delicadas acerca
del comportamiento sexual.
3c. Salvo que los entrevistadores estén bien preparados y las entrevistas estén normalizadas, la in-
formación obtenida puede variar.
3d. Sin embargo, los entrevistadores pueden repetir y sondear de un modo que mejore la compren-
sión y produzca unas respuestas más exactas y completas, en algunas situaciones, que un cues-
tionario autoadministrado.
1.
Así podrían aparecer los datos en un programa de hoja de cálculo como Excel. Hay muchas
posibilidades aceptables para los nombres de campo (encabezamientos de las columnas). Estos
nombres de campo usan letras mayúsculas en mitad del término para separar sus partes. Los
diseñadores de bases de datos se dividen por igual entre aquellos a los que les gusta este sistema
de uso de mayúsculas y aquellos a los que no.
2a.
IDPartic NúmKit FechaAdm HorAdm FinCPre HFinCPre LlegHosp ActCLleg ECGVLleg
Hosp Hosp Hosp Hosp
189 A322 3/12/1994 17:39 0 17:48 1
410 B536 12/1/1998 01:35 1 01:39 01:53 0 4
2b.
Nombre del campo Tipo de dato Descripción Norma de validación
IDPartic Entero Identificador de participante único
NúmKit Texto(5) Código farmacéutico de investigación
de cinco caracteres
FechaAdm Fecha Fecha de administración del fármaco
del estudio
HorAdm Hora Hora de administración del fármaco
del estudio
FinCPreHosp Sí/no ¿Cesó la convulsión antes de llegar
al hospital?
HFinCPreHosp Hora Hora en que cesaron las convulsiones antes
de llegar al hospital (en blanco si la
convulsión no cesó)
LlegHosp Hora Hora de llegada al hospital
ActCLlegHosp Sí/no ¿Siguió la actividad convulsiva al llegar Comprobar con
al hospital? FinCPreHosp
ECGVLlegHosp Entero ECG verbal al llegar al hospital (dejar Entre 1 y 5
en blanco si seguían las convulsiones)
estudio no es práctica. La forma más sencilla, rápida y agradable para el usuario de capturar
datos en un medio no volátil sigue siendo el uso de bolígrafo y papel.
3. Cuando se codifica con 0 para no o ausente, y con 1 para sí o presente, el valor promedio de una
variable dicotómica (sí/no) se puede interpretar como la proporción con el atributo. De los pa-
cientes a los que se aleatorizó a recibir lorazepam, el 40,9 % (27 de 66) seguía con convulsiones
al llegar al hospital; de los pacientes a los que se aleatorizó a recibir diazepam, el 57,4 % (39 de
68) seguía con convulsiones; y de los pacientes a los que se aleatorizó a recibir placebo, el 78,9 %
(56 de 71) seguía con convulsiones.
1a. ¡No es suficiente! Pero hay algunos pasos que puede dar:
• Identificar todos los valores ausentes y fuera del intervalo, y volver a comprobar los formu-
larios en papel para asegurarse de que se introdujeron los datos correctamente.
• Recuperar datos perdidos con las historias.
• Recopilar datos de entrevistas perdidos de pacientes supervivientes (aunque esto no ayudará
con los que fallecieron ni con aquellos cuyas respuestas pudieran haber cambiado con el
tiempo).
• Hacer un esfuerzo especial para encontrar participantes que se hayan perdido durante el se-
guimiento, y conseguir, al menos, una entrevista telefónica con ellos.
• Conseguir la situación vital, a través del National Death Index o alguna compañía que busque
personas.
1b. Recopilar menos datos:
• Comprobar los formularios sobre el terreno inmediatamente después de recopilar los datos
para asegurarse de que se han cumplimentado todas las preguntas, y de que son exactas.
• Usar una introducción de datos interactiva con comprobaciones de valores ausentes, fuera de
los límites válidos e ilógicos.
• Revisar brevemente la base de datos tras la introducción de los datos, de forma que puedan
conseguirse los datos ausentes antes de que el paciente se vaya del hospital (o fallezca).
• Tabular periódicamente las distribuciones de los valores de todas las preguntas durante el
estudio, para identificar valores ausentes, valores fuera del intervalo y posibles errores.
• Mantener reuniones periódicas con el equipo para revisar el progreso e insistir en la impor-
tancia de disponer de datos completos.
2a. Solo puede responderse con datos locales. La investigación de otros lugares no ayudará.
2b. Es algo muy conocido por la bibliografía internacional. No es probable que repetir una investi-
gación de este tipo en China sea un uso eficaz de los recursos.
2c. Para esta pregunta, es probable que la posibilidad de generalización de la investigación a otros
lugares sea intermedia. Las estrategias para dejar de fumar que fueron útiles en otros países
pueden servir como base para las estrategias a estudiar en China, pero no se puede estar seguro
de que tengan el mismo éxito en China sin una investigación local. Pueden ser útiles estudios
anteriores en poblaciones de otros lugares con lazos culturales con China, como inmigrantes
chinos recientes a Estados Unidos.
327
b-caroteno. Sin embargo, en un ensayo aleatorizado de suplementos de b-caroteno no se encontró ningún efec-
to sobre el riesgo de enfermedad cardiovascular, lo que indica que la asociación observada en los estudios de
observación era espuria.
Base de datos relacional. Programa informático que permite el almacenamiento de información relacionada
en una serie de tablas. Las tablas pueden estar vinculadas entre sí por campos comunes. Por ejemplo, una base
de datos relacional para un estudio podría incluir la IDEstudio y la FechaNacimiento de cada uno de los parti-
cipantes en una tabla de Participantes, y la IDEstudio y la FechaVisita en una tabla de Encuentros, que podría
tener muchos encuentros por participante. La edad de un participante el día de un encuentro se puede calcular
fácilmente utilizando la IDEstudio para relacionar cada una de las FechaVisita con la fecha de nacimiento del
participante.
Beta (b). Cuando se diseña un estudio, la probabilidad máxima preestablecida de cometer un error de tipo II,
es decir, de no rechazar la hipótesis nula cuando es falsa. Esta medida sólo es significativa en el contexto de una
magnitud del efecto determinada. Por ejemplo, si un investigador especifica un valor de b de 0,20 (y de a de
0,05), necesitaría aproximadamente 25 000 participantes por grupo con un seguimiento de 10 años para demos-
trar que el uso diario de ácido acetilsalicílico reduce a la mitad el riesgo de cáncer de colon. Planteado de otra
manera, si el ácido acetilsalicílico tuviera realmente ese efecto, un estudio de 25 000 participantes por grupo
tendría una probabilidad del 20 % de no rechazar la hipótesis nula de ausencia de diferencia (con a = 0,05).
Véase también Potencia.
Búsqueda. Comando o instrucción en una base de datos relacional para seleccionar o manipular los datos. Por
ejemplo, el coordinador del estudio escribió una búsqueda para seleccionar los nombres y la información de
contacto de todos los participantes en el estudio que debían acudir a una visita de seguimiento en los 2 meses
siguientes y para los que todavía no se había programado la cita.
Calibración. Proceso de garantizar que un instrumento ofrezca una lectura constante; habitualmente se realiza
midiendo un patrón conocido y después ajustando (calibrando) el instrumento en consecuencia. Por ejemplo,
la balanza se calibró todos los meses pensando un bloque de acero de 50 kg.
Campo. Columna de una tabla de una base de datos relacional que incluye datos sobre un atributo específico
del registro. Por ejemplo, dos de los campos de la tabla Encuentros serán IdPartic (para relacionarlo con la in-
formación específica del participante) y PesoKg (peso en kg).
Caso. Participante que tiene, o que llega a tener, la variable de respuesta de interés. Por ejemplo, se definieron
los casos como los que tuvieron angina inestable, infarto de miocardio o muerte súbita durante el seguimiento.
Véase también Testigo.
Causa-efecto. Concepto de que una variable predictiva es responsable de la producción de una variable de
respuesta, o aumenta la probabilidad de aparición de la variable de respuesta. La finalidad de la mayoría de los
estudios de observación es demostrar una relación de causa-efecto, aunque esto es difícil, salvo que la causa
(p. ej., un tratamiento) se asigne aleatoriamente. Por ejemplo, el investigador realizó un estudio de casos y
testigos para determinar si había una relación de causa-efecto entre el consumo de alcohol (la causa) y el cáncer
pancreático (el efecto). Véanse también Confusión y Efecto-causa.
Clave principal. En una base de datos relacional, el campo o la combinación de campos que identifican de
manera única a cada fila de una tabla particular. Por ejemplo, el investigador creó un NúmeroDeVisita único
para que fuera la clave principal de una tabla de visitas ambulatorias.
Cociente de riesgos. El cociente de la tasa de riesgos instantáneos en las personas expuestas a un factor de
riesgo dividido por la tasa de riesgos instantáneos en las personas no expuestas; casi siempre se estima con un
modelo de riesgos proporcionales (modelo de Cox). Por ejemplo, el cociente de riesgos de presentar arteriopa-
tía coronaria era de 2,0 cuando se comparó a hombres de 50 a 59 años de edad con mujeres de la misma edad.
Coeficiente de correlación. Término estadístico que indica el grado en el que las mediciones continuas están
relacionadas linealmente, de manera que el cambio de una medición se asocia a un cambio proporcional de la
otra. A menudo se abrevia como r. Por ejemplo, en una muestra de mujeres de mediana edad, la altura y el peso
se correlacionaban con un valor de r = 0,7.
Coeficiente de variación (CV). Medida de la precisión de una medición, que se obtiene dividiendo la desvia-
ción típica de una serie de mediciones realizadas en una única muestra por la media de dichas mediciones. En
ocasiones se calcula el CV de los valores de la porción central y los extremos de la medición. Por ejemplo, el
laboratorio determinó que el coeficiente de variación de la concentración sérica de estradiol era del 10 % en una
muestra de mujeres perimenopáusicas (en las que en la concentración de estradiol era muy baja), y de tan sólo
el 2 % en mujeres más jóvenes.
Por ejemplo, los investigadores controlaron la calidad de la recogida de los datos preparando procedimientos
por escrito explícitos para todas las mediciones del estudio en un manual de instrucciones, y observando inter-
mitentemente al personal del estudio para asegurarse de que seguía dichos procedimientos.
Corrección de Bonferroni. Técnica para evitar el error de tipo I dividiendo el valor de a total de un estudio
por el número de hipótesis estudiadas. Por ejemplo, como los investigadores estaban estudiando cuatro hipóte-
sis diferentes, utilizaron la corrección de Bonferroni para reducir el valor de a de cada una de las hipótesis
desde 0,05 hasta 0,0125.
Criterios de exclusión. Lista de atributos que impiden que un posible participante sea elegible para un estudio.
Por ejemplo, los criterios de exclusión del estudio fueron tratamiento previo con un antidepresivo en los 2 años
previos, uso actual de a-bloqueantes o b-bloqueantes, e imposibilidad de leer inglés a nivel de sexto curso.
Véase también Criterios de inclusión.
Criterios de inclusión. Lista de atributos que deben cumplir los posibles participantes en un estudio. Por
ejemplo, los criterios de inclusión en un estudio fueron personas de 18 a 65 años de edad que vivían en San
Francisco y no tenían antecedentes de depresión. Véase también Criterios de exclusión.
Criterios de participación. Lista de atributos que deben tener los pacientes para poder participar en un estu-
dio. Los criterios de selección pueden variar si se incluye a los participantes en diferentes grupos, como en es-
tudios de casos y testigos o de dobles cohortes. Por ejemplo, los criterios de selección para un estudio de un
nuevo tratamiento de la gota incluyeron edad entre 20 y 75 años, al menos un episodio de gota diagnosticado
por un médico en los 12 meses previos, y una concentración sérica de ácido úrico de al menos 6 mg/dl. Véanse
también Criterios de exclusión y Criterios de inclusión.
Criterios de selección. Reglas que definen quién es idóneo para participar en un estudio, y que abarcan los
criterios de inclusión y exclusión. Por ejemplo, en un ensayo clínico de testosterona transdérmica para a umentar
la libido en mujeres posmenopáusicas, los criterios de selección podrían ser mujeres de 45 a 60 años de edad
con libido baja que no tengan cardiopatía isquémica y que no hayan tenido más de tres períodos menstruales
en el año previo.
Cruzamiento. Término utilizado para describir a un participante, habitualmente en un ensayo clínico, que
comienza en un grupo (p. ej., la asistencia habitual) y cambia al otro grupo (p. ej., el tratamiento activo) duran-
te el estudio. La mayoría de las veces se produce cuando el tratamiento activo supone un procedimiento. Por
ejemplo, durante el estudio se cruzó a 15 participantes con cáncer de próstata a los que se asignó inicialmente
a espera vigilante a recibir radioterapia o cirugía.
Cuestionario. Instrumento de medición formado por una serie de preguntas para obtener información de los
participantes del estudio. Los cuestionarios puede ser autoadministrados o administrados por el personal del
estudio. Por ejemplo, en el cuestionario de frecuencia de alimentos por bloques (Block Food Frequency Question-
naire) se pregunta por la ingesta habitual de 110 alimentos distintos para evaluar la ingesta de múltiples nutrien-
tes y grupos de alimentos.
Curva de eficacia diagnóstica (ROC). Técnica gráfica para cuantificar la exactitud de una prueba diagnóstica
e ilustrar el equilibrio entre la sensibilidad y la especificidad con diferentes valores liminares que establecen la
positividad de la prueba. La curva muestra la incidencia de valores positivos verdaderos (sensibilidad) en el eje
de ordenadas y la correspondiente tasa de falsos positivos (1 – especificidad) en el eje de abscisas para diversos
valores de corte que definen la positividad de la prueba. El área bajo la curva ROC, que varía de 0,5, para una
prueba inútil, hasta 1,0 para una prueba perfecta, es un resumen útil de la exactitud general de la prueba. Por
ejemplo, el área bajo la curva ROC para el uso de la TC (que se podría interpretar como claramente positiva,
probablemente positiva, no útil, probablemente normal o claramente normal) para diagnosticar apendicitis fue
0,95, mucho mejor que el valor de 0,77 para la ecografía (que tuvo categorías de interpretación similares).
Datos. Nombre en plural que se utiliza para describir mediciones, habitualmente en formato numérico. Por
ejemplo, los datos sobre la prevalencia de diversas enfermedades son útiles cuando se toman decisiones sobre
la asignación de los recursos sanitarios.
Datos ausentes. Datos que no se obtuvieron durante un estudio, ya sea en situación inicial o durante el segui-
miento. Por ejemplo, el investigador estaba preocupado de que la proporción relativamente grande (34 %) de
pacientes de los que no se disponía de datos de consumo de alcohol pudiera haber sesgado su estudio sobre los
factores de riesgo de caídas.
Desviación típica. Medida de la varianza (dispersión) de una variable continua. Por ejemplo, el investigador
señaló que la media de edad de una cohorte de 450 hombres era de 59 años, con una desviación típica de
10 años.
Diccionario de los datos. Tabla u hoja de cálculo que incluye información sobre cada una de las variables de
un estudio, como su nombre y tipo (p. ej., numérico o alfanumérico), la definición de cada una de las variables
y el intervalo de valores permitido. Por ejemplo, el investigador consultó el diccionario de los datos porque
había olvidado que un «5» en el campo llamado «raza» se utilizaba para indicar indio estadounidense/nativo de
Alaska.
Diferencia de riesgos. Riesgo de una variable de respuesta en un grupo menos el riesgo en un grupo de com-
paración. Por ejemplo, si el riesgo de episodios tromboembólicos venosos en mujeres que utilizan habitualmen-
te estrógenos es 5/1 000 (0,5 %) y el riesgo en las que nunca han utilizado estrógenos es 2/1 000 (0,2 %), la dife-
rencia de riesgos en mujeres que utilizan estrógenos en comparación con las que no los utilizan es 3/1 000
(0,3 %). Véase también Número que es necesario tratar.
Diseño entre grupos. Diseño de un estudio que compara las características o variables de respuesta de los
participantes en dos (o más) grupos diferentes. Por ejemplo, el investigador utilizó un diseño entre grupos para
comparar las tasas de mortalidad intrahospitalaria en pacientes tratados en unidades de cuidados intensivos que
tenían intensivistas de manera continua con las de aquellos pacientes tratados en unidades que utilizaban mo-
nitorización electrónica de los pacientes. Véase también Diseño intragrupo.
Diseño intragrupo. Diseño de estudio en el que se comparan las mediciones en un único grupo de participan-
tes, la mayoría de las veces en dos períodos temporales diferentes. Este diseño elimina la confusión, porque cada
participante es su propio testigo. Sin embargo, los diseños intragrupo son susceptibles de efectos de aprendiza-
je, regresión a la media y tendencias a largo plazo. Por ejemplo, utilizando un diseño intragrupo se midió la
glucemia basal en un grupo de pacientes con diabetes antes de comenzar un programa de ejercicio y después de
la finalización del programa para determinar si el ejercicio reducía la glucemia basal. Véanse también Diseño
entre grupos, Prueba de la t para una muestra y Diseño de series cronológicas.
Diseño de series cronológicas. Diseño de estudio intragrupo en el que se realizan mediciones antes y después
de que cada uno de los participantes (o una comunidad completa) reciba una intervención. Este diseño elimina
la confusión, porque cada uno de los participantes es su propio testigo. Sin embargo, los diseños intragrupo son
susceptibles a los efectos del aprendizaje, la regresión a la media y las tendencias a largo plazo. Por ejemplo,
utilizando un diseño de series cronológicas se midió la glucemia basal en un grupo de pacientes con diabetes
antes de comenzar un programa de ejercicio y de nuevo después de finalizar el programa para determinar si el
ejercicio reducía la glucemia basal. Véase también Diseño intragrupo.
Dosis-respuesta. Fenómeno por el cual cuanto mayor sea la exposición (dosis), mayor será la magnitud o la
probabilidad de la variable de respuesta (respuesta). (Si una exposición es protectora, entonces cuanto mayor
sea la exposición, menor será la probabilidad de la variable de respuesta.) Por ejemplo, en un estudio se encon-
tró una relación dosis-respuesta entre la exposición al sol y el número de nevos melanocíticos; en otros se en-
contró una relación dosis-respuesta entre el número de nevos y el riesgo de melanoma.
Efectividad. Aunque no hay ninguna definición estándar de este término, lo utilizamos para referirnos a una
medida del grado en que una intervención actúa adecuadamente en la práctica real, en contraposición con la forma
en la que actúa en un ensayo aleatorizado. Por ejemplo, como en varios ensayos clínicos realizados en contextos
urbanos se ha encontrado que el activador del plasminógeno hístico (tPA) redujo la morbimortalidad cardiovas-
cular, los investigadores estudiaron su efectividad en 25 servicios de urgencias rurales. Véase también Eficacia.
Efecto-causa. Situación en la que una variable de respuesta da lugar a la variable predictiva, en lugar de que
ocurra lo contrario. Por ejemplo, aunque en un estudio de casos y testigos se observó que la exposición a los
broncodilatadores inhalados se asociaba a un aumento del riesgo de neumopatía intersticial, la explicación más
probable era de efecto-causa, es decir, que los pacientes con neumopatía intersticial tenían más probabilidad de
haber sido tratados (erróneamente) con inhaladores. Véase también Causa-efecto.
Eficacia. Aunque no hay ninguna definición estándar de este término, lo utilizamos para referirnos a una me-
dida del grado en que una intervención actúa adecuadamente en un ensayo clínico, en contraposición con cómo
actuaría en la práctica real. Por ejemplo, en un ensayo clínico se describió que el activador del plasminógeno
hístico (tPA) tuvo una eficacia del 25 % en la reducción de la morbimortalidad en pacientes con accidente cere-
brovascular agudo. Véase también Efectividad.
Emparejamiento. En un estudio de casos y testigos, proceso de seleccionar los testigos para que sean similares
en determinados atributos a los casos, para reducir la confusión por esos atributos. Por ejemplo, en un estudio
de casos y testigos de los factores de riesgo de brucelosis se emparejó a los testigos con los casos por su edad
(con una diferencia de menos de 3 años), el sexo y el país de residencia. Véase también Emparejamiento excesivo.
Emparejamiento excesivo. Situación en la que el emparejamiento más allá de lo necesario para controlar la
confusión reduce la capacidad del investigador de determinar si un factor de riesgo se asocia a una respuesta
porque los testigos han llegado a ser demasiado similares a los casos. Por ejemplo, como se emparejó a los tes-
tigos con los casos por la edad (± 3 años), el sexo, la raza y el nivel socioeconómico, el emparejamiento excesi-
vo hizo que fuera imposible determinar si el nivel educativo se asociaba al riesgo de accidente cerebrovascular
en los participantes de 65 años o mayores, porque las variables de emparejamiento son determinantes impor-
tantes del nivel educativo en ese grupo de edad.
Encuesta. Estudio transversal en una población específica, que habitualmente supone la administración de un
cuestionario. Por ejemplo, en la encuesta National Epidemiologic Survey on Alcohol and Related Conditions se inclu-
yó una muestra representativa de adultos estadounidenses y se les hicieron preguntas sobre el consumo de alcohol
actual y pasado, los trastornos por consumo de alcohol y la utilización de servicios de tratamiento del alcoholismo.
Enmascaramiento. Proceso de garantizar que los pacientes y/o los investigadores desconozcan el grupo (es
decir, de intervención o testigo) al que se asigna a los participantes, habitualmente en el contexto de un estudio
aleatorizado. También se denomina ocultación, especialmente en estudios oftalmológicos. Por ejemplo, median-
te la utilización de comprimidos de placebo idénticos y el mantenimiento de la lista de las asignaciones de los
participantes fuera del centro, tanto los participantes como los investigadores (incluyendo los auxiliares de in-
vestigación) desconocían a qué pacientes se había tratado con el medicamento activo.
Ensayo aleatorizado con enmascaramiento. Diseño de estudios en el que se asigna aleatoriamente a los
participantes elegibles a los grupos del estudio con una probabilidad determinada, y los investigadores, los par-
ticipantes y el resto del personal que participa en el estudio desconocen la asignación a los grupos del estudio.
Por ejemplo, en un ensayo aleatorizado con enmascaramiento de un nuevo comprimido para el tratamiento de
la diarrea haría falta que se asignara aleatoriamente a los participantes elegibles al nuevo comprimido o a un
comprimido de placebo idéntico (habitualmente con una probabilidad del 50 % de ser asignado a cualquiera de
los grupos), y que los investigadores, los participantes y el personal del estudio desconocieran si un participan-
te está tomando el medicamento activo o el placebo.
Ensayo de ausencia de inferioridad. Ensayo clínico en el que se compara un nuevo tratamiento que tiene
algunas ventajas respecto a un tratamiento establecido (p. ej., el nuevo tratamiento es más seguro, menos cos-
toso o más fácil de utilizar), con el objetivo de demostrar que la eficacia del nuevo tratamiento no es inferior a
la del tratamiento establecido. Por ejemplo, en un ensayo de un nuevo analgésico que no produce somnolencia,
se demostró que el nuevo fármaco no era inferior a la oxicodona para el alivio del dolor postoperatorio.
Ensayo clínico. Diseño de investigación en el que los pacientes reciben una de (al menos) dos intervenciones
diferentes. Habitualmente las intervenciones se asignan aleatoriamente; de aquí el término ensayo clínico alea-
torizado. Los ensayos clínicos en ocasiones se denominan experimentos. Por ejemplo, el investigador realizó un
ensayo clínico para determinar si el tratamiento profiláctico con penicilina reducía el riesgo de endocarditis
bacteriana en pacientes con válvulas cardíacas anómalas a los que se realizaron intervenciones dentales.
Ensayo factorial. Ensayo clínico de dos o más tratamientos (p. ej., A y B), en ocasiones con dos variables de
respuesta no relacionadas, en el que se asigna aleatoriamente a los pacientes a recibir un tratamiento activo A y
un placebo de B, un tratamiento activo B y un placebo de A, los dos tratamientos activos A y B, o los dos place-
bos de A y B. Por ejemplo, el investigador realizó un estudio factorial para determinar si el uso a largo plazo de
b-caroteno y ácido acetilsalicílico afectaba al riesgo de cáncer del tubo digestivo.
Ensayo de fase I. Ensayo de fase temprana, generalmente sin enmascaramiento y no controlado, en el que se
evalúan dosis crecientes de un nuevo tratamiento en un número pequeño de voluntarios humanos para evaluar
su seguridad. Por ejemplo, en un ensayo de fase I de un nuevo fármaco para el tratamiento de los sofocos me-
nopáusicos generalmente se incluiría a un número pequeño de voluntarias (con o sin sofocos) a las que se ad-
ministrarían dosis crecientes del fármaco para determinar sus efectos sobre el hemograma, la función hepática
y renal, los hallazgos de la exploración física, los síntomas y otros acontecimientos adversos inesperados.
Ensayo de fase II. Pequeño estudio aleatorizado (y preferiblemente con enmascaramiento) para evaluar el
efecto de diversas dosis de un nuevo tratamiento sobre los efectos adversos, además de sobre criterios de valo-
ración indirectos o clínicos. Por ejemplo, en un ensayo de fase II de un nuevo tratamiento de los sofocos cuya
seguridad se ha demostrado en un estudio de fase I, se podría incluir a un número pequeño de mujeres posme-
nopáusicas con sofocos, se las asignaría aleatoriamente a dos o tres dosis diferentes del nuevo fármaco o al
placebo, y después se las seguiría para determinar la frecuencia de los sofocos, además de los efectos adversos.
Ensayo de fase III (fundamental). Ensayo aleatorizado (y preferiblemente con enmascaramiento) que es
suficientemente extenso como para evaluar la eficacia y la seguridad de un nuevo tratamiento. Por ejemplo, si
se ha establecido la dosis óptima de un nuevo tratamiento de los sofocos en un ensayo de fase II y el nuevo
tratamiento era aceptablemente seguro, el siguiente paso sería un ensayo de fase III extenso en el que se asigna-
ría aleatoriamente a mujeres posmenopáusicas con sofocos al nuevo tratamiento o al placebo, y se las seguiría
para determinar la aparición de sofocos y de acontecimientos adversos.
Ensayo de fase IV. Extenso estudio, que puede ser o no un ensayo aleatorizado, realizado después de la auto-
rización de comercialización de un fármaco por una agencia de registro sanitario como la U.S. Food and Drug
Administration (FDA), habitualmente para determinar la seguridad del fármaco durante un período más pro-
longado de lo que es posible en un ensayo de fase III. Por ejemplo, después de la autorización por la FDA de un
nuevo fármaco para el tratamiento de los sofocos menopáusicos, en un ensayo de fase IV se incluiría a mujeres
con sofocos menos graves que aquellas a las que se incluyó en el ensayo de fase III.
Ensayo preclínico. Estudio que se realiza antes de evaluar una intervención en seres humanos. En estos ensa-
yos se podrían incluir células, tejidos o animales. Por ejemplo, la U.S. Food and Drug Administration precisa
ensayos preclínicos en dos especies de animales diferentes para documentar la seguridad antes de poder estudiar
nuevos fármacos en seres humanos.
Epidemiología. Ciencia de determinar la frecuencia y los determinantes de las enfermedades o de otras varia-
bles de respuestas sanitarias en las poblaciones. Por ejemplo, en un estudio se investigó la epidemiología de la
violencia por armas cortas en ciudades del interior.
Epidemiólogo. Médico, desglosado por sexo y edad. Por ejemplo, uno de los autores (¡pero no vamos a decir
quién!).
Equilibrio. Situación en la que se desconoce cuál de dos posibilidades (el fármaco X es mejor que el placebo,
el fármaco X es peor que el placebo) tiene más probabilidad de ser cierta. Por lo tanto, es ético comparar el
fármaco X y el placebo en un ensayo aleatorizado. Por ejemplo, los investigadores pensaban que había un equi-
librio clínico en un ensayo porque se desconocía si un nuevo tratamiento propuesto para el cáncer de esófago
produciría mejores resultados que el tratamiento actual.
Error aleatorio. Separación de una medición o estimación respecto al valor verdadero debido a variación alea-
toria. El error aleatorio se puede reducir repitiendo las mediciones y aumentando el tamaño de la muestra. Por
ejemplo, si la prevalencia verdadera del consumo de aceite de pescado en personas con arteriopatía coronaria
en la población es el 20 %, en un estudio en el que se incluya a 100 participantes se podría encontrar que exac-
tamente el 20 % consume aceite de pescado, aunque simplemente por error aleatorio es probable que la propor-
ción sea algo mayor o menor que esa cifra.
Error de clasificación. Error de medición de una variable categórica en la que se considera (erróneamente)
que los participantes con un valor de la variable tienen otro valor. Por ejemplo, los autores estaban preocupados
de que como las historias clínicas estaban incompletas, se considerara erróneamente que no se hubieran caído
algunos participantes que realmente se hubieran caído durante el ingreso hospitalario. Véanse también Error de
clasificación diferencial y Error de clasificación no diferencial.
Error de medición. Situación en la que la precisión o la exactitud (o ambas) de una medición son peor que
perfectas; por lo tanto, siempre hay al menos algún error de medición para alguna de las variables (con la posi-
ble excepción de la muerte). Por ejemplo, para reducir el error de medición el investigador utilizó una pesa de
acero inoxidable de 2 kg para calibrar semanalmente la balanza para lactantes.
Error sistemático. Véase Sesgo.
Error típico de la media. Estimación de la precisión de la media de una variable continua en una muestra;
depende de la desviación típica (y de la raíz cuadrada) del tamaño de la muestra. Por ejemplo, el inves
tigador señaló que la media de edad de la cohorte de 450 hombres era de 59 años, con un error típico de
0,48 años.
Error de tipo I. Error que se produce cuando se rechaza una hipótesis nula que realmente es verdadera en la
población debido a un resultado estadísticamente significativo en un estudio. Por ejemplo, se produce error de
tipo I si un estudio de los efectos del caroteno de la dieta sobre el riesgo de presentar cáncer de colon (con un
valor de a de 0,05) concluye que el caroteno reduce el riesgo de cáncer de colon (p , 0,05) cuando realmente
no hay ninguna asociación. Véase también Resultado positivo falso.
Error de tipo II. Error que se produce cuando el estudio no permite rechazar una hipótesis nula que real-
mente es falsa en la población (es decir, p . a). Por ejemplo, se produce error de tipo II si un estudio no
rechaza la hipótesis nula de que el caroteno no tiene ningún efecto sobre el riesgo de cáncer de colon
(p . 0,05), cuando el caroteno realmente reduce el riesgo de cáncer de colon. Véase también Resultado
negativo falso.
Escala. Abordaje frecuente para medir conceptos abstractos haciendo múltiples preguntas a las que se asigna
una puntuación, y a las que se combina en una escala. Por ejemplo, la escala SF-36 para medir la calidad de vida
hace 36 preguntas que permiten obtener ocho escalas relacionadas con la salud y el bienestar funcional. (SF es
el acrónimo de «short form», formato abreviado.) Véase también Escala de Likert.
Escala analógica visual. Escala (habitualmente una línea) que representa un espectro continuo de respuestas,
desde un extremo hasta el otro. Habitualmente la línea mide 10 cm de longitud y la puntuación se mide como
la distancia en centímetros desde el extremo inferior. Por ejemplo, una escala analógica visual de la intensidad
del dolor podría estar formada por una línea recta con «sin dolor» en un extremo y «dolor insoportable» en el
otro extremo; el participante en el estudio marca una «X» en el punto que mejor describe la intensidad del
dolor que siente.
Escala de Likert. Conjunto de respuestas (habitualmente cinco) a una pregunta que ofrece un intervalo de
opciones con un espacio similar entre ellas. Por ejemplo, las posibles respuestas a la pregunta «¿Cuál es la pro-
babilidad de que vuelva usted a este servicio de urgencias para ser atendido?» fueron las siguientes: muy proba
ble, algo probable, ni probable ni improbable, algo improbable, muy improbable.
Especificación. Estrategia de la fase de diseño para abordar un factor de confusión especificando un valor de
esa variable de confusión como criterio de inclusión en el estudio. Por ejemplo, en un estudio del efecto del
chupete sobre el riesgo de síndrome de muerte súbita del lactante, el investigador podría utilizar la especificación
para incluir en el estudio únicamente a lactantes alimentados con fórmula. Si se encontrara una disminución del
riesgo de muerte súbita en los niños que hayan utilizado el chupete, no se podría deber a que tuvieran más
probabilidad de recibir lactancia materna.
Especificidad. Proporción de personas sin la enfermedad que se estudia en las que la prueba es negativa («ne-
gativa en la salud», o NS). Por ejemplo, en comparación con los resultados anatomopatológicos de la biopsia,
la especificidad de un resultado . 4,0 ng/ml en el análisis del PSA sérico es de aproximadamente el 95 % para la
detección de cáncer de próstata; en otras palabras, el 95 % de los hombres sin cáncer de próstata tendrán un
PSA # 4,0 ng/ml. Véase también Sensibilidad.
Estandarización. Instrucciones detalladas y específicas sobre cómo se debe realizar una medición, diseñadas
para maximizar la reproducibilidad y la precisión de la misma. Por ejemplo, en un estudio en el que se mide la
presión arterial, la estandarización de la medición podría incluir instrucciones sobre la preparación del parti
cipante, el tamaño del manguito que se debe utilizar, dónde se debe colocar el manguito, cómo inflar y desinflar
el manguito, y qué ruidos cardíacos indican la presión arterial sistólica y diastólica.
Estratificación. Estrategia de la fase de análisis para controlar la confusión, separando a los participantes en el
estudio en estratos de acuerdo con los niveles de una posible variable de confusión, y analizando la asociación
entre las variables predictiva y de respuesta por separado en cada uno de los estratos. Por ejemplo, en un estudio
de la asociación entre el ejercicio y el riesgo de accidente cerebrovascular, la falta de ejercicio habitual se podría
asociar a aumento del riesgo de accidente cerebrovascular porque muchas personas que no hacen ejercicio son
obesas, y la obesidad aumenta el riesgo de accidente cerebrovascular. Para reducir al mínimo el posible efecto
de confusión de la obesidad, se estratificó a los participantes por el índice de masa corporal, y se realizaron los
análisis por separado en las personas que tenían peso normal, sobrepeso u obesidad en situación inicial.
Estudio analítico. Estudio que busca asociaciones entre dos o más variables. Por ejemplo, el investigador
realizó un estudio analítico de si la altura se correlacionaba con la presión arterial en estudiantes de medicina.
Véase también Estudio descriptivo.
Estudio de antes/después. Estudio en el que se comparan los atributos de los participantes antes y después
de una intervención. Por ejemplo, en el estudio se compararon las concentraciones séricas medias de colesterol
antes y después del inicio de una dieta pobre en grasas.
Estudio de casos y cohortes. Diseño de investigación en el que se selecciona a los participantes que presen-
tan una enfermedad (u otra variable de respuesta) como casos durante el seguimiento de una cohorte más ex-
tensa, y después se los compara con una muestra aleatoria de la cohorte total. Por ejemplo, en un estudio de
casos y cohortes se incluyó una cohorte de 2 000 hombres con cáncer de próstata temprano, y se compararon
las concentraciones de andrógenos y de vitamina D de muestras obtenidas en la situación inicial en los que
murieron durante el seguimiento con las concentraciones de una muestra aleatoria de toda la cohorte.
Estudio de casos y testigos. Diseño de investigación en el que se comparan los casos que tienen una enfer-
medad (u otra variable de respuesta) con los testigos que no la tienen. Por ejemplo, en un estudio de casos y
testigos se comparó el consumo semanal medio de frutos secos y semillas de los casos de diverticulitis vistos en
un servicio de urgencias con el consumo de frutos secos y semillas de los testigos que tenían otros diagnósticos
del tubo digestivo.
Estudio de casos y testigos anidado. Estudio de casos y testigos en el que se selecciona a los casos y los
testigos de una cohorte definida (de mayor tamaño) o de entre los participantes incluidos previamente en un
estudio de cohortes. Este estudio se utiliza generalmente cuando es demasiado costoso realizar determinadas
mediciones en todos los participantes de la cohorte; por el contrario, se realizan esas mediciones en muestras
de esos participantes que se habían almacenado en situación inicial. Por ejemplo, los investigadores realizaron
un estudio de casos y testigos anidado para determinar si las concentraciones de citocinas en las muestras de
sangre obtenidas en papel de filtro para el cribado neonatal se asociaban a la aparición de parálisis cerebral en
la cohorte natal de 2009 del estado de Ohio.
Estudio de cohortes. Un estudio de cohortes prospectivo supone la inclusión de un grupo de participantes
(la cohorte), la realización de algunas mediciones iniciales, y después su seguimiento a lo largo del tiempo para
observar la variable de respuesta; en un estudio de cohortes retrospectivo se identifica un grupo de participantes
(la cohorte) en los que ya se han realizado las mediciones y en los que ya se ha producido todo o parte del se-
guimiento. Por ejemplo, un investigador realizó un estudio de cohorte retrospectivo para determinar si el resul-
tado de una prueba de inteligencia emocional aplicada cuando los soldados se enrolaron en el ejército estadouni-
dense se asociaba a la probabilidad posterior de presentar trastorno de estrés postraumático (TEPT).
Estudio de cohortes dobles. Diseño de estudio en el que se incluye a los pacientes en una de dos cohortes
distintas, a menudo por su ocupación. Por ejemplo, se utilizó un estudio de dobles cohortes para comparar los
riesgos de dermatitis de contacto en las manos, además de las micosis de los pies, en alfareros y bailarines.
Estudio de cohortes múltiples. Estudio de cohortes en el que se incluyen dos o más grupos distintos de
participantes (las cohortes), y después se comparan sus variables de respuesta. A menudo se utiliza en estudios
de exposiciones laborales, en los que las cohortes que se comparan han estado expuestas a un posible factor de
riesgo o no lo han estado. Por ejemplo, los investigadores realizaron un estudio de cohortes múltiples de si la
exposición a los rayos cósmicos durante los vuelos en avión se asocia a un aumento del riesgo de neoplasias
malignas sanguíneas; los investigadores estudiaron cuatro cohortes: pilotos y auxiliares de vuelo (que estarían
expuestos a rayos cósmicos) y vendedores de billetes y auxiliares de tierra (que no lo estarían). Véase también
Estudio de cohortes dobles.
Estudio de cohortes prospectivo. Diseño de estudio en el que se miden los valores iniciales de las variables
predictivas en un grupo definido (la cohorte) de participantes en el estudio, y después se sigue a ese grupo a lo∑largo
del tiempo para detectar respuestas específicas. Por ejemplo, el Nurses Health Study es un estudio de cohortes
prospectivo de factores de riesgo de enfermedades frecuentes en mujeres. La cohorte es una muestra de enfermeras
de Estados Unidos, y las respuestas han incluido enfermedades cardiovasculares, cáncer y mortalidad.
Estudio de cohortes retrospectivo. Estudio de cohortes en el que la reunión de la cohorte, las mediciones
iniciales y el seguimiento se han producido en el pasado. Por ejemplo, para describir la evolución natural de los
aneurismas de la aorta torácica, un investigador que realizó un estudio de cohortes retrospectivo en 2012 podría
obtener datos de registros del alta hospitalaria de pacientes a los que se realizó un diagnóstico de aneurisma
aórtico en 2007, y utilizaría los registros del alta hospitalaria y el registro de mortalidad nacional para determi-
nar en qué pacientes se produjo posteriormente rotura del aneurisma aórtico o la muerte antes de 2012.
Estudios cruzados. Variante del diseño de casos y testigos en el que cada caso sirve como su propio testigo, y
se compara el valor de una exposición específica dependiente del tiempo en el período previo a que se produje-
ra la variable de respuesta con su valor durante uno o más períodos de tiempo testigos. Este diseño está expues-
to a sesgo de recuerdo, por lo que tiene su máxima utilidad cuando se puede determinar objetivamente una
exposición. Por ejemplo, se utilizó un diseño de casos con cruzamiento para determinar si los pacientes que
consultaron en un servicio de urgencias con migraña tenían más probabilidades de haber comido chocolate en
las 2 h previas que a hora similar el día antes.
Estudio con cruzamiento. Diseño de investigación en el que se cambia a todos los participantes de un grupo
de tratamiento (o testigo) al otro grupo, habitualmente en el punto medio del estudio. En ocasiones hay un
período de reposo farmacológico entre las dos fases. Este diseño, que permite que todos los participantes reciban
el tratamiento activo, sólo es útil para situaciones que vuelven al estado inicial después del tratamiento. Por
ejemplo, se incluyó a pacientes con migraña en un estudio con cruzamiento para comparar un nuevo fármaco
con el placebo para la prevención de las migrañas.
Estudio descriptivo. Estudio que no busca asociaciones, comprobación de hipótesis o realización de compa-
raciones. Por ejemplo, el investigador realizó un estudio descriptivo de la prevalencia de la obesidad en niños
preescolares. Véase también Estudio analítico.
Estudio de equivalencia. Estudio cuya finalidad es demostrar que dos (o más) tratamientos producen resul-
tados similares; habitualmente, uno de los tratamientos es nuevo y se sabe que el otro es eficaz. Por ejemplo, se
utilizó un diseño de estudio de equivalencia para comparar dos antibióticos (fármaco nuevo A con fármaco
antiguo B) para el tratamiento de la neumonía.
Estudio de hipótesis múltiples. Situación en la que un investigador analiza más de una (y habitualmente
muchas más de una) hipótesis en un estudio, lo que aumenta el riesgo de cometer un error de tipo I salvo que
se ajuste el nivel de significación estadística. Por ejemplo, aunque el investigador encontró una asociación esta-
dísticamente significativa (p = 0,03) entre el consumo de vitamina D y el deterioro cognitivo, se criticaron sus
resultados porque no había tenido en consideración el efecto del estudio de hipótesis múltiples, porque en el
estudio se habían analizado más de 30 suplementos nutricionales. Véase también Corrección de Bonferroni.
Estudio de observación. Término general para un diseño de investigación en el que los investigadores sim-
plemente observan a los participantes sin realizar ninguna intervención. Por lo tanto, esta categoría incluye
estudios transversales, de casos y testigos y de cohortes, pero no ensayos aleatorizados ni estudios de antes y
después. Por ejemplo, los investigadores realizaron un estudio de observación para determinar los factores de
riesgo del melanoma.
Estudio piloto. Pequeño estudio realizado para determinar si un estudio a gran escala es viable, además de op-
timizar la logística y maximizar la eficiencia del estudio a gran escala. Por ejemplo, en un ensayo piloto de yoga
restaurador para la prevención de la diabetes en pacientes con resistencia insulínica se pretendería demostrar la
viabilidad de medir la resistencia insulínica, mejorar y normalizar la intervención con yoga, y demostrar que es
posible incluir y aleatorizar a los participantes a los grupos de yoga y testigo.
Estudio de pruebas diagnósticas. Estudio en el que se evalúa si los resultados de una técnica médica son
útiles para evaluar la probabilidad de un diagnóstico particular en un paciente. Por ejemplo, se elaboró un es-
tudio de una prueba diagnóstica para determinar si la concentración sérica de bicarbonato es útil para diagnos-
ticar sepsis en pacientes con fiebre.
Estudios de pruebas médicas. Término general utilizado para los estudios que miden en qué grado una
prueba (o una serie de pruebas) identifica a los pacientes con un diagnóstico o una variable de respuesta parti-
cular. Por ejemplo, el investigador realizó un estudio de una prueba médica para determinar las razones de ve-
rosimilitud de la presencia y la ausencia de angina típica (definida como dolor torácico u opresión subesternal
al esfuerzo) para el diagnóstico de arteriopatía coronaria.
Estudio de reproducibilidad. Estudio en el que la reproducibilidad de una medición es la principal pregunta
de la investigación; habitualmente se realiza comparando los resultados de una medición realizada muchas veces
por la misma persona o con el mismo dispositivo (reproducibilidad intraobservador), o los resultados de la
misma medición realizada por diferentes personas o con diferentes equipos (reproducibilidad interobservador).
Por ejemplo, los investigadores realizaron un estudio de reproducibilidad para determinar si un nuevo estetos-
copio electrónico podía mejorar la capacidad de detectar soplos cardíacos diastólicos.
Estudio transversal. Diseño de investigación en la que se selecciona a los participantes y se realizan las medi-
ciones durante un período de tiempo limitado, habitualmente para estimar la prevalencia de una exposición o
una enfermedad. Por ejemplo, se estimó la prevalencia de la miopía en un estudio transversal de 1 200 estudian-
tes universitarios de Berkeley, California.
Exactitud. El grado en el que una medición corresponde a su valor verdadero. Por ejemplo, el peso corporal
autorreferido es una medición menos exacta del peso corporal real que el peso medido con una báscula electró-
nica calibrada.
Experimento. En investigación clínica, estudio en el que se asigna aleatoriamente a los participantes a un
(o más) tratamiento o a un grupo de comparación. También se denomina ensayo aleatorizado. Por ejemplo, los
investigadores realizaron un experimento para determinar si el fármaco X era mejor que el placebo en el trata-
miento de la fibromialgia.
Exposición. Término utilizado para indicar que un participante en el estudio tiene un factor de riesgo particu-
lar. Por ejemplo, se definió la exposición al ácido acetilsalicílico como tomar un promedio de uno o más com-
primidos de ácido acetilsalicílico (de cualquier dosis) a la semana durante el período previo de 6 meses.
Factor de confusión. Véase Confusión.
Heterogeneidad. Situación en la que la asociación entre una variable predictiva y otra de respuesta no es
uniforme, ya sea entre estudios diferentes o entre distintos subgrupos de participantes. Por ejemplo, hay una
heterogeneidad importante entre los estudios que han analizado los efectos del tratamiento posmenopáusico
con estrógenos sobre el estado de ánimo y la cognición, de manera que en algunos estudios se han visto resul-
tados positivos, en otros, efectos adversos, y en otros, ningún efecto.
Hipótesis. Término general para la declaración de una creencia sobre lo que se encontrará en el estudio. Por
ejemplo, la hipótesis del estudio fue que el uso crónico de antiepilépticos se asociaba a un aumento del riesgo
de cáncer bucal. Véanse también Hipótesis nula e Hipótesis de la investigación.
Hipótesis alternativa. Proposición, utilizada para estimar el tamaño de la muestra, de que hay una asociación
entre las variables predictiva y de respuesta en la población. Por ejemplo, la hipótesis alternativa del estudio fue
que los adolescentes que fuman cigarrillos tienen una probabilidad diferente de abandonar el colegio que aque-
llos que no fuman. Véase también Hipótesis nula.
Hipótesis bilateral. Hipótesis alternativa en la que el investigador está interesado en evaluar la posibilidad de
cometer un error de tipo I en cualquiera de las dos direcciones posibles (es decir, riesgo mayor o menor). Por
ejemplo, el investigador evaluó la hipótesis bilateral de que bailar salsa se asociaba a aumento o disminución
del riesgo de demencia. Véase también Hipótesis unilateral.
Hipótesis compleja. Hipótesis de la investigación que tiene más de una variable predictiva o de respuesta.
Deben evitarse las hipótesis complejas, porque es difícil verificarlas estadísticamente. Por ejemplo, los investi-
gadores reformularon su hipótesis compleja («Que un nuevo programa de gestión de casos afectaría a la duración
de la estancia y a la probabilidad de reingreso») en dos hipótesis simples («Que un nuevo programa de gestión de
casos afectaría a la duración de la estancia» y también «Que un nuevo programa de gestión de casos afectaría a
la probabilidad de reingreso»). Véase también Hipótesis simple.
Hipótesis de la investigación. Declaración del investigador que resume los elementos principales del estudio,
como la población de interés, las variables predictivas y de respuesta, y el resultado previsto. Con fines estadís-
ticos, la hipótesis de la investigación se plantea de una forma que establece la base de las pruebas de significación
estadística, y generalmente incluye una hipótesis nula y una hipótesis alternativa. Por ejemplo, la hipótesis de
la investigación era que la migraña se asociaría a un aumento del riesgo de accidente cerebrovascular de al me-
nos el 20 %.
Hipótesis nula. Forma de la hipótesis de la investigación que especifica que no hay diferencia entre los grupos
que se comparan. Por ejemplo, la hipótesis nula afirmaba que el riesgo de presentar claudicación sería el mismo
en los participantes con concentraciones normales de lípidos a los que se trató con una estatina y en aquellos a
los que se trató con el placebo.
Hipótesis a posteriori. Hipótesis que se formulan después del análisis de los datos. Por ejemplo, en un estudio
de la asociación entre el insomnio y el riesgo de accidente cerebrovascular, la hipótesis de que el insomnio
aumenta el riesgo de diverticulitis es una hipótesis a posteriori.
Hipótesis simple. Hipótesis con una sola variable predictiva y una sola variable de respuesta. Por ejemplo, el
investigador reformuló la hipótesis compleja en la hipótesis simple de que las personas que consumen fruta al
menos cinco veces a la semana tienen menos probabilidad de presentar cáncer de colon. Véase también Hipóte-
sis compleja.
Hipótesis unilateral. Hipótesis alternativa en la que el investigador está interesado en evaluar la posibilidad
de cometer un error de tipo I en tan sólo una de las dos direcciones posibles (es decir, riesgo mayor o menor,
pero no ambos). Por ejemplo, el investigador estudió la hipótesis unilateral de que el tabaquismo se asociaba a
aumento del riesgo de demencia. Véase también Hipótesis bilateral.
Homogeneidad. Situación en la que la asociación entre una variable predictiva y una variable de respuesta es
uniforme en diferentes estudios. Por ejemplo, hay homogeneidad entre estudios de un tamaño razonable que
han analizado los efectos del tabaquismo sobre el cáncer de pulmón: en todos se ha encontrado un gran aumen-
to del riesgo en fumadores.
Incidencia. Proporción de personas que llegará a presentar una variable de respuesta durante el período de
seguimiento; en ocasiones se denomina proporción de incidencia o incidencia acumulada. Por ejemplo, los in-
vestigadores encontraron que las embarazadas vegetarianas tenían menor incidencia de parto pretérmino que
las embarazadas que comían carne.
Incidencia acumulada. Véase Incidencia.
Inclusión. Proceso de identificación y reunión de los participantes elegibles en un estudio. Los métodos de
inclusión varían dependiendo de la naturaleza del estudio. Por ejemplo, la inclusión para el estudio supuso
la identificación de pacientes elegibles en consultas especializadas, anuncios en folletos y periódicos, y utiliza-
ción de Internet y páginas web de medios sociales.
Independiente. Este término se puede utilizar al menos de dos maneras. Primero, es la situación en la que las
variables no influyen mutuamente unas sobre otras. Por ejemplo, los investigadores determinaron que el con-
sumo de frutos secos con la dieta y la concentración sérica de glucosa eran independientes: no había datos en
su estudio de que el consumo de frutos secos aumentara la concentración de glucosa, y viceversa. Segundo, se
utiliza independiente para referirse a un efecto que tiene una variable sobre otra variable que no depende (es
decir, «es independiente») de una tercera variable. Por ejemplo, como estaba preocupado de que el nivel edu-
cativo materno y la lactancia materna se asociaran entre sí, el investigador ajustó el nivel educativo materno para
estimar el efecto independiente de la lactancia materna sobre las habilidades del lenguaje a los 2 años de edad.
Inferencia. Proceso de extraer conclusiones sobre una población basadas en las observaciones en una muestra.
Por ejemplo, como refirió beber agua de pozo una cifra doble de casos de cáncer vesical que de testigos (p = 0,02),
los investigadores realizaron la inferencia de que el consumo de agua de pozo aumenta el riesgo de cáncer vesi-
cal en la población.
Información sanitaria protegida. Información sanitaria identificable de manera individual. Las regulaciones
federales sobre la privacidad de la salud (denominadas regulaciones HIPAA, por la Health Insurance Portability
and Accountability Act) exigen que los investigadores mantengan la confidencialidad de la información sanitaria
protegida en la investigación. Por ejemplo, la investigación sanitaria protegida no se debe almacenar en memo-
rias portátiles ni se debe enviar por correo electrónico ordinario.
Interacción. Otro nombre para la modificación del efecto.
Intervalo de confianza. Término que habitualmente se interpreta mal; debe pensarse que un intervalo de
confianza es una medida de la precisión: cuanto más estrecho sea el intervalo de confianza, más precisa es la
estimación. Los intervalos de confianza están estrechamente relacionados con la significación estadística: un
intervalo de confianza del (1 – a) % incluye (aproximadamente) el intervalo de valores cuya diferencia res-
pecto a los valores observados no alcanzó la significación estadística (con un nivel de significación a).
A menudo se interpreta erróneamente que los intervalos de confianza son afirmaciones directas sobre la
probabilidad posterior (es decir, que hay una probabilidad del 95 % de que el valor verdadero esté contenido
dentro del intervalo de confianza del 95 %). Esto es incorrecto, porque la probabilidad posterior depende de
otra información, aparte de la que se encontró en el estudio. Por ejemplo, un riesgo relativo de 1,6 con un
intervalo de confianza del 95 % desde 0,9 hasta 2,8 no sería estadísticamente significativo con un valor de a
de 0,05, porque el intervalo incluye la «ausencia de efecto» (un riesgo relativo de 1,0). Véanse también Alfa
y Valor de p.
Intervención. En un ensayo aleatorizado, el tratamiento activo que reciben los participantes. Muchas veces se
utiliza como adjetivo (grupo de intervención). Por ejemplo, en un ensayo aleatorizado de psicoterapia para el
tratamiento de la ansiedad, la intervención supuso 6 meses de sesiones semanales de 1 h con un psicólogo titu-
lado e insistió en abordajes cognitivos-conductuales. Véase también Testigo (segunda definición).
Investigación aplicada. Investigación que tiene como objetivo traducir los hallazgos científicos en mejoras de
la salud. La investigación aplicada puede tener como objetivo estudiar hallazgos de ciencia básica del laborato-
rio aplicándolos a estudios clínicos en pacientes (habitualmente denominados «investigación del laboratorio
a la cabecera» o «T1»), o aplicar los hallazgos de los estudios clínicos para mejorar la salud de las poblaciones
(a menudo denominados «investigación de la cabecera a la población» o «T2»). Por ejemplo, un estudio para
determinar si una alteración genética que produce sordera congénita en ratones tiene un efecto similar en seres
humanos sería un estudio de investigación T1; un estudio para determinar si un proyecto estatal de cribado
neonatal con una prueba que mide la respuesta cortical a los ruidos para detectar pérdida auditiva mejora el
crecimiento escolar sería un estudio de investigación T2.
Investigador principal. Persona que tiene en último término la responsabilidad del diseño y la realización de
un estudio, y del análisis y la presentación de los hallazgos del estudio. Por ejemplo, el comité ético de la inves-
tigación clínica pidió hablar con el investigador principal del estudio porque algunos miembros tenían pregun-
tas sobre el protocolo.
Kappa (k). Término estadístico que mide el grado en el que dos (o más) observadores están de acuerdo en si se
ha producido o no un fenómeno, más allá de lo que cabe esperar por el azar. Varía desde −1 (desacuerdo perfec-
to) hasta 1 (acuerdo perfecto). Por ejemplo, el valor de k del acuerdo entre dos anatomopatólogos sobre la
presencia de cirrosis en una muestra de piezas de biopsia hepática fue de 0,85.
Magnitud del efecto. En relación con la planificación del tamaño de la muestra, la medida de cómo es de
grande la diferencia que desea detectar el investigador entre los grupos que comparará, o la magnitud de la
asociación. En un sentido más general, magnitud real de la diferencia o la asociación después de que haya fina-
lizado el estudio. Por ejemplo, los investigadores basaron las estimaciones del tamaño de la muestra en una
magnitud del efecto de una diferencia de 20 mg/dl de la glucemia entre los dos grupos.
Marcador indirecto. Medición que se piensa que se asocia a variables de respuesta clínica significativas. Un
buen marcador indirecto habitualmente mide los cambios de un factor intermedio en la vía principal que deter-
mina la variable de respuesta clínica. Por ejemplo, el aumento del recuento de linfocitos CD4 en pacientes con
infección por el virus de la inmunodeficiencia humana (VIH) es un buen marcador indirecto de la eficacia de
los antirretrovíricos, porque predice un menor riesgo de infecciones oportunistas.
Marginales. Los totales de fila y columna de una tabla de contingencia. Por ejemplo, el estudio de los margi-
nales de la tabla de 2 × 2 mostró que había números similares de hombres y mujeres en el estudio.
Media. Valor medio de una variable continua en una muestra o población; se calcula como la suma de todos
los valores de la variable dividida por el número de participantes. Por ejemplo, la concentración media de co-
lesterol sérico en una muestra de 287 mujeres de mediana edad era 223 mg/dl. Véanse también Mediana y Des-
viación típica.
Mediador. Variable que está producida por la variable predictiva de interés y que también da lugar a la varia-
ble de respuesta; explica al menos en parte cómo la variable predictiva produce la variable de respuesta. Por
ejemplo, en un análisis del efecto de la obesidad sobre el riesgo de accidente cerebrovascular, los investigadores
no controlaron la diabetes porque pensaban que un mecanismo mediante el cual la obesidad podría dar produ-
cir un accidente cerebrovascular era un mediador que producía diabetes.
Mediana. Valor de una variable que divide una muestra o población en dos mitades del mismo tamaño; es
equivalente al percentil 50. A menudo se utiliza cuando una variable continua tiene algunos valores muy altos
(o muy bajos) que influirían en exceso en la media. Por ejemplo, la mediana de los ingresos anuales de la mues-
tra de 54 médicos fue de 225 000 dólares. Véanse también Media y Desviación típica.
Mediciones emparejadas. Mediciones muy relacionadas entre sí de alguna manera, como las que se realizan
en lados diferentes de la misma persona, en miembros diferentes de una pareja de gemelos o (la mayoría de las
veces) en el mismo participante en dos momentos diferentes, como antes y después de una intervención. Por
ejemplo, en un estudio del efecto de un programa de ejercicio sobre la concentración de glucohemoglobina en
participantes con diabetes del tipo II, las mediciones emparejadas de la glucohemoglobina incluyeron las medi-
ciones realizadas en la situación inicial y de nuevo después de 3 meses de ejercicio.
Metaanálisis. Proceso para combinar los resultados de varios estudios con variables predictivas y de respuesta
similares en un único resumen del resultado. Por ejemplo, en un metaanálisis de 12 estudios publicados, se encon-
tró que el uso de antiinflamatorios no esteroideos se asociaba a un riesgo de presentar asma un 28 % mayor.
Método de referencia. Método no ambiguo para determinar si un paciente tiene o no una enfermedad o una
variable de respuesta particular. Por ejemplo, el método de referencia para el diagnóstico de fractura de cadera
precisaba la confirmación radiológica por un radiólogo certificado.
Modelo de Cox. También llamado modelo de riesgos proporcionales de Cox. Técnica estadística multivariada que
mide los efectos individuales de una o más variables predictivas sobre la incidencia (riesgo) con la que se pro-
duce una variable de respuesta en la muestra, teniendo en consideración las diferentes duraciones del segui-
miento en los distintos pacientes. Por ejemplo, utilizando un modelo de riesgos proporcionales de Cox, los
hombres tenían aproximadamente el doble de probabilidad que las mujeres, y los negros aproximadamente el
triple de probabilidad que los blancos, de presentar accidente cerebrovascular después de ajustar la edad, la
presión arterial y la diabetes, además de la duración del seguimiento. Véase también Modelo de regresión logística.
Modelo de efectos aleatorios. Término utilizado en el análisis estadístico multinivel. Se describe en este libro
únicamente en relación con el metaanálisis, donde describe un modelo estadístico en el que los pesos de los
estudios y la varianza de la estimación resumen del efecto incorporan un término correspondiente a la variabi-
lidad de los resultados de los estudios individuales incluidos. Por ejemplo, en un metaanálisis de ensayos clíni-
cos del efecto de la práctica del yoga sobre la depresión, los resultados en los ensayos fueron variables; por lo
tanto, los estudios pequeños contribuyeron más al resumen del efecto, y el intervalo de confianza fue más amplio
utilizando el modelo de efectos aleatorios que con el modelo de efectos fijos. Véase también Modelo de efectos
fijos.
Modelo de efectos fijos. Término general que se utiliza en análisis estadístico multinivel; en este libro sólo
se utiliza en relación con el metaanálisis, donde describe un modelo estadístico en el que los pesos del estudio
y la varianza de la estimación resumen del efecto se basan únicamente en las variancias intraestudio de los es-
tudios incluidos. Por ejemplo, en un metaanálisis de ensayos clínicos del efecto de la práctica del yoga sobre la
depresión, los resultados de los ensayos fueron variables; el resumen del efecto basado en el modelo de efectos
fijos estuvo dominado por un estudio extenso, y el intervalo de confianza fue más estrecho de lo que se habría
estimado con un modelo de efectos aleatorios. Véase también Modelo de efectos aleatorios.
Modelo de regresión logística. Técnica estadística que se utiliza para estimar los efectos de una o más varia-
bles predictivas sobre una variable de respuesta dicotómica, ajustando los efectos de otras variables predictivas
y de confusión. Por ejemplo, en un modelo de regresión logística, los hombres tenían aproximadamente el doble
de probabilidad que las mujeres, y los negros aproximadamente tres veces la probabilidad de los blancos, de
presentar un accidente cerebrovascular, después de ajustar la edad, la presión arterial y la diabetes.
Modificación del efecto. Situación en la que la fuerza de la asociación entre una variable predictiva y una
variable de respuesta se ve modificada por una tercera variable (denominada a menudo modificador del efecto,
aunque puede ser difícil determinar cuál es la variable predictiva y cuál el modificador del efecto). Por ejemplo,
los investigadores encontraron que los efectos del nivel de ingresos sobre el riesgo de accidente cerebrovascular
diferían en blancos y negros, de manera que la pobreza tenía una mayor asociación con el accidente cerebrovas-
cular en negros que en blancos. Véase también Confusión.
Muestra. Subgrupo de la población que participa en un estudio. Por ejemplo, en un estudio de un nuevo tra-
tamiento del asma, en el que la población objetivo son todos los niños con asma y la población accesible son los
niños con asma de la ciudad del investigador vistos este año, la muestra del estudio son los niños de la ciudad
del investigador vistos este año que realmente participan en el estudio.
Muestra aleatoria. Muestra extraída mediante la enumeración de las unidades de la población y la selección
de un subgrupo de manera aleatoria. Por ejemplo, la obtención de una muestra aleatoria de personas con cata-
ratas de la consulta de un investigador precisaría que el investigador elaborara una lista de todos los pacientes
con cataratas y que utilizara una tabla de números aleatorios o números aleatorios generados por ordenador para
seleccionar la muestra. Véase también Muestreo probabilístico.
Muestra basada en la población. Muestra de personas que representan a una población completa. Por ejem-
plo, en el estudio National Health and Nutrition Examination Survey (NHANES), que aporta datos sobre una
muestra aleatoria de toda la población de Estados Unidos, se utiliza una muestra basada en la población.
Muestra consecutiva. Muestra de un estudio en la que se elige a los pacientes uno tras otro hasta que se al-
cance el tamaño de la muestra. Habitualmente se utiliza para referirse a la muestra prevista; también se puede
referir a la muestra real cuando se realizan revisiones de historias clínicas, porque puede no ser necesario el
consentimiento informado. Por ejemplo, los investigadores realizaron muestreo consecutivo para revisar las
historias de los primeros 100 pacientes con artritis reumatoide vistos en la consulta de reumatología desde el 15
de enero de 2013.
Muestra de conveniencia. Grupo de participantes a los que se seleccionó para un estudio simplemente porque
era relativamente fácil acceder a ellos. Por ejemplo, el investigador utilizó una muestra de conveniencia de los
pacientes de su consulta para que actuaran como testigos en su estudio de casos y testigos de los factores de
riesgo de meningioma.
Muestra prevista. Grupo de pacientes que el investigador quiso incluir en un estudio, tal y como se describió
en el protocolo del estudio. Por ejemplo, la muestra prevista para el estudio incluyó a mujeres con cáncer de
mama a las que se vio inicialmente para su tratamiento los lunes o los jueves en el hospital Longview (los días
que el investigador o su equipo de investigación estaban disponibles) y en las que habían transcurrido menos
de 6 semanas desde el diagnóstico inicial, durante el período desde el 1 de enero de 2013 hasta el 30 de junio de
2014. Véanse también Población accesible y Muestra.
Muestra representativa. Muestra de personas incluidas en un estudio que representa a la población objetivo.
Por ejemplo, en el Framingham Heart Study, la población objetivo eran todos los adultos. La población accesible
(para los investigadores localizados en Boston) fue la población adulta de la ciudad de Framingham, Massachusetts.
Los investigadores realizaron una lista de los adultos de Framingham y pidieron a uno de cada dos residentes
que participaran en el estudio. Este abordaje podría llevar a una muestra representativa, aunque algunas perso-
nas se negaron a participar y fueron sustituidas por voluntarios. Como los voluntarios generalmente tienen
hábitos más saludables que los no voluntarios, la muestra puede haber tenido una representación excesiva de
personas sanas. Además, la población de Framingham (que era principalmente blanca) no representa a todos
los adultos de Estados Unidos, y es evidente que no representa a adultos de otros países.
Muestra sistemática. Muestra que se extrae enumerando las unidades de la población elegible y seleccionan-
do un subgrupo de la población mediante un proceso preespecificado. Por ejemplo, en el Framingham Heart
Study, los investigadores elaboraron una lista de todos los residentes adultos de la ciudad de Framingham,
Massachusetts, y después seleccionaron a uno de cada dos residentes para su inclusión en el estudio como par-
te de una muestra sistemática.
Muestreo. Proceso de selección de participantes para su inclusión en un estudio cuando el número de partici-
pantes elegibles es mayor que el tamaño de la muestra estimado. Por ejemplo, el investigador utilizó un esque-
ma de muestreo de «1 de 3» para seleccionar, en promedio, a uno de cada tres participantes elegibles. Véanse
también Muestreo por conglomerados, Muestreo consecutivo, Muestreo de conveniencia, Muestreo probabilístico,
Muestreo aleatorio estratificado y Muestreo sistemático.
Muestreo aleatorio estratificado. Técnica de muestreo en la que se estratifica a los posibles participantes en
grupos de acuerdo con características como la edad, la raza o el sexo, y se obtiene una muestra aleatoria de cada
uno de los estratos. Se pueden ponderar los estratos de diferentes maneras. Por ejemplo, los investigadores
utilizaron muestreo aleatorio estratificado en un estudio de la prevalencia del cáncer pancreático en California
para realizar un muestreo excesivo de las minorías raciales y étnicas.
Muestreo por conglomerados. Técnica de muestreo en la que se selecciona a los participantes como grupos
(conglomerado) y no como individuos. Se utiliza la mayoría de las veces por comodidad cuando se realizan
muestreos de poblaciones extensas. Por ejemplo, un investigador interesado en determinar la prevalencia del
consumo de drogas utilizó muestreo por conglomerados para incluir a 300 pacientes. Primero identificó a los
posibles participantes eligiendo 10 prefijos de tres cifras (p. ej., 285-, 336-, etc.) en un código de área, y después
utilizó marcación telefónica aleatoria para encontrar 30 participantes que se prestaran voluntarios en cada uno
de los conglomerados de tres dígitos.
Muestreo con densidad de incidencia. En un estudio de casos y testigos anidado, técnica para muestrear
los testigos cuando una exposición importante cambia a lo largo del tiempo; por lo tanto, se debe medir la ex-
posición en un momento similar en los casos y en los testigos. Por ejemplo, en un estudio de casos y testigos
anidado para determinar si el uso de antihistamínicos, que varía estacionalmente, aumenta el riesgo a corto
plazo de fracturas de cadera (probablemente debido a un aumento del riesgo de caída), se utilizó muestreo por
densidad de incidencia de los testigos, de manera que el uso por un testigo del antihistamínico se midió el mis-
mo mes en que se produjo una fractura de cadera en un caso.
Muestreo probabilístico. Proceso aleatorio, habitualmente utilizando una tabla de números aleatorios o un
algoritmo informático, para garantizar que cada uno de los miembros de una población tenga una probabilidad
especificada de ser incluido en la muestra, de manera que constituye una base rigurosa para hacer inferencias
desde la muestra hasta la población. Por ejemplo, la observación de una muestra probabilística del 5 % de las
personas con enfermedad pulmonar obstructiva crónica (EPOC) basada en los diagnósticos al alta hospitalaria
de todos los hospitales de California debería ofrecer hallazgos fiables sobre los factores de riesgo de reingreso y
muerte.
Nivel de significación estadística. Véase Alfa.
Normalización. En una base de datos relacional, proceso de eliminar las redundancias y mejorar la fiabilidad,
asegurándose de que los datos de cada una de las preguntas se almacenen en no más filas o tablas de lo necesa-
rio. Por ejemplo, después de que el consultor de la base de datos hubiera normalizado la base de datos, pudo
actualizar el número de teléfono de un participante alterando tan sólo una fila de una única tabla.
Número que es necesario tratar. Número absoluto de personas que deben recibir un tratamiento para pre-
venir la aparición de una variable de respuesta. Se calcula como el recíproco de la diferencia de riesgos. Por
ejemplo, cuando se evaluaron los efectos beneficiosos del tratamiento de la hipertensión leve a moderada, el
número que era necesario tratar era de aproximadamente 800 pacientes al año para prevenir un episodio de
accidente cerebrovascular.
Objetivos específicos. En una propuesta de investigación, declaraciones breves sobre los objetivos de la in-
vestigación. Por ejemplo, un objetivo específico de un ensayo aleatorizado del efecto de la testosterona sobre la
densidad mineral ósea en hombres podría ser: «Evaluar la hipótesis de que, en comparación con los hombres a
los que se asigne a recibir el parche de placebo, aquellos a los que se asigne a recibir el parche de testosterona
tendrán menos osteopenia durante 3 años de tratamiento».
Ocultación. Véase Enmascaramiento.
Partición recursiva. Técnica multivariada para clasificar a las personas según su riesgo de una variable de
respuesta; al contrario de las técnicas que precisan un modelo, como la regresión logística, no precisa ningún
supuesto sobre la forma de la relación entre las variables predictivas y la variable de respuesta. Crea un árbol de
clasificación que incluye una serie de preguntas con respuesta de sí/no, denominado árbol de clasificación y
regresión (ACR). Por ejemplo, utilizando partición recursiva, los investigadores determinaron que los pacientes
del servicio de urgencias de 20 a 65 años que tenían dolor abdominal pero que no tenían pérdida de apetito,
fiebre ni dolor de rebote a la palpación, tenían riesgo bajo de apendicitis aguda. Véanse también Regla de predic-
ción clínica y Ajuste excesivo.
Participante. Alguien que participa en un estudio de investigación. A menudo se prefiere el término partici-
pante a sujeto, porque insiste en que la persona incluida en el estudio es un participante activo en el avance de
la ciencia, no simplemente un sujeto en el que se experimenta. Por ejemplo, en un estudio de un nuevo trata-
miento del insomnio, los participantes son las personas que son elegibles y a las que se incluye en el estudio.
Período de preinclusión. En un ensayo clínico, período breve durante el cual los pacientes elegibles toman el
placebo o se les aplica la intervención activa; sólo aquellos que consiguen un determinado nivel de cumplimien-
to, toleran la intervención o tienen un efecto beneficioso en una variable de respuesta intermedia son elegibles
para el ensayo principal. Por ejemplo, en el estudio Cardiac Arrhythmia Suppression Trial sólo se aleatorizó a
continuar la medicación o a cambiar al placebo a aquellos que tuvieron una reducción satisfactoria de las extra-
sístoles ventriculares con la medicación activa durante el período de preinclusión.
Período de reposo farmacológico. En un estudio con cruzamiento, tiempo transcurrido entre el primer y el
segundo tratamiento, cuya finalidad es permitir que los efectos de la intervención se desvanezcan y que la me-
dida de la variable de respuesta vuelva a la situación inicial. Por ejemplo, en un estudio cruzado en el que se
compare un diurético con el placebo para el tratamiento de la hipertensión arterial, el investigador podría dejar
un período de reposo farmacológico sin tratamiento entre los dos períodos de tratamiento para permitir que la
presión arterial volviera al valor inicial.
Persona-tiempo. Suma de los períodos de tiempo durante los cuales cada uno de los participantes en un estu-
dio o una población están en riesgo; se utiliza como denominador para el cálculo de las tasas de incidencia. Se
puede calcular como el número de personas que tienen riesgo de una variable de respuesta multiplicado por el
tiempo medio que están en riesgo. Por ejemplo, el número de persona-tiempo total de seguimiento en 1 000 par-
ticipantes que tuvieron un promedio de 2,5 años de riesgo fue un total de 2 500 personas-año, aunque se siguió
al 5 % de los participantes durante 1 mes o menos. Véase también Tasa de incidencia.
Personas vulnerables. Posibles participantes en el estudio que tienen mayor riesgo de ser utilizados de ma-
neras éticamente inadecuadas en la investigación. Por ejemplo, como las personas con deterioro cognitivo o
problemas de comunicación pueden no poder dar un consentimiento totalmente informado a participar en un
estudio, se considera que son personas vulnerables. Otros ejemplos son niños, prisioneros, fetos y personas con
un nivel socioeconómico bajo.
Plagio. Tipo de conducta científica impropia en la que el investigador se apropia de las ideas, resultados o pa-
labras de otra persona sin otorgarle el crédito correspondiente. Por ejemplo, el uso de la descripción por otro
investigador de un nuevo método de medición sin una atribución correcta constituye plagio.
Población. Conjunto completo de personas con las características especificadas. Por ejemplo, se podría definir
la población adulta de Estados Unidos con diabetes del tipo II como todos los adultos estadounidenses que to-
man un fármaco hipoglucemiante o que tienen una glucemia basal mayor de 125 mg/dl.
Población accesible. Grupo de personas a las cuales el investigador tiene acceso y a las que se podría seleccio-
nar, o abordar, para participar en el estudio. Por ejemplo, la población accesible para el estudio estaba formada
por mujeres con cáncer de mama a las que se trató en las 6 semanas siguientes al diagnóstico original en el
hospital Longview desde el 1 de enero de 2013 hasta el 30 de junio de 2014. Véanse también Muestra prevista y
Población objetivo.
Población objetivo. Gran conjunto de personas definidas por características clínicas y demográficas a las que
el investigador del estudio quiere generalizar los resultados del estudio. Por ejemplo, la población objetivo para
un estudio de un nuevo tratamiento del asma en niños del hospital del investigador podrían ser los niños con
asma de todo el mundo.
Posibilidad de generalización. Grado en el que se piensa que los resultados de una muestra de estudio se
aplican a otras poblaciones. Por ejemplo, el revisor puso en duda la posibilidad de generalizar una tasa de éxito
publicada del 90 % de la radioablación intraluminal de las redes esofágicas inferiores, porque todos los procedi-
mientos los realizó el digestólogo que había inventado y perfeccionando la técnica en 350 pacientes, mientras
que la mayoría de los digestólogos en ejercicio verían tan sólo un pequeño grupo de pacientes con el mismo
problema a lo largo de su carrera profesional.
Posibilidades. Riesgo de una enfermedad (o de otra variable de respuesta) dividido por (1 – riesgo). Por ejem-
plo, si el riesgo de cáncer de mama a lo largo de toda la vida en mujeres es del 15 %, entonces la posibilidad
de presentar cáncer de mama a lo largo de toda la vida es 0,18 (0,15/0,85). El riesgo y la posibilidad son simila-
res para enfermedades infrecuentes (las que se producen en menos de aproximadamente el 10 % de las personas).
Potencia. Probabilidad de rechazar correctamente la hipótesis nula en una muestra si el efecto real en la pobla-
ción es igual o mayor que una magnitud del efecto especificada. Por ejemplo, suponga que el ejercicio produce
una reducción media de 20 mg/dl de la glucosa basal en mujeres diabéticas de toda la población. Si un investi-
gador ajusta la potencia en el 90 % y extrae una muestra de la población en numerosas ocasiones, y realiza en
todas las ocasiones el mismo estudio con las mismas mediciones, entonces en nueve de cada 10 estudios el in-
vestigador rechazaría correctamente la hipótesis nula y concluiría que el ejercicio reduce la glucemia basal.
Véase también Beta.
Precisión. Grado en el que una medición de una variable es reproducible, con un valor que es casi el mismo en
todas las ocasiones en que se mide. Por ejemplo, una báscula mecánica de balancín puede medir el peso corpo-
ral con mucha precisión, mientras que una entrevista para medir la gravedad de la depresión tiene más proba-
bilidad de producir valores que varían de un observador a otro.
Pregunta de la investigación. La pregunta que pretende responder un proyecto de investigación. Una buena
pregunta de la investigación debe incluir las variables predictiva y de respuesta de interés, y la población que se
estudiará. Las preguntas de la investigación generalmente adoptan la forma de «¿Está asociado A con B en la
población C?», o (en un ensayo clínico) «¿A produce B en la población C?» Por ejemplo, «¿El uso habitual de
seda dental reduce el riesgo de episodios coronarios en pacientes diabéticos?»
Pregunta de la investigación secundaria. Preguntas distintas a la pregunta de la investigación principal,
que a menudo incluyen factores predictivos o variables de respuesta adicionales. Por ejemplo, si la pregunta de
la investigación principal es determinar la asociación entre el consumo de alcohol en embarazadas y el bajo peso
al nacimiento en los lactantes, una pregunta secundaria sería determinar la asociación entre el consumo de al-
cohol y la anemia durante el embarazo.
Prevalencia. Proporción de personas que tienen una enfermedad o trastorno en un momento determinado. La
prevalencia depende tanto de la incidencia de una enfermedad como de su duración. Por ejemplo, la prevalencia
del lupus eritematoso sistémico es la proporción de personas que tienen esta enfermedad en un momento de-
terminado; podría aumentar si la enfermedad fuera más frecuente o si el tratamiento produjera tal mejoría que
las personas con la enfermedad vivieran más tiempo.
Propuesta. Documento que incluye un protocolo del estudio, un presupuesto y otra información administra-
tiva y de apoyo, que se elabora para obtener financiación de una agencia financiadora. Por ejemplo, los National
Institutes of Health (NIH) precisan propuestas para la financiación de múltiples tipos de investigación.
Propuesta de investigación. Documento elaborado para obtener financiación para la investigación, en el que
se describe el diseño del estudio propuesto, los participantes, las mediciones, los análisis estadísticos y los as-
pectos éticos. Por ejemplo, los National Institutes of Health reciben miles de propuestas de investigación cada
año de investigadores que solicitan financiación para sus estudios.
Protocolo. Plan de un estudio escrito y detallado. Por ejemplo, en el protocolo de un estudio se especificó que
solamente se podía elegir como participantes a las personas que entendieran el inglés con un nivel de octavo
curso.
Prueba de la ji al cuadrado (x2). Técnica estadística que compara dos (o más) proporciones para determinar
si difieren significativamente entre sí. Por ejemplo, en un estudio se determinó si el riesgo de demencia era si-
milar en personas que realizaban ejercicio al menos dos veces a la semana y en personas que realizaban ejercicio
con menos frecuencia, comparando estadísticamente esos riesgos con una prueba de la x2.
Prueba preliminar. Evaluación de cuestionarios, medidas o procedimientos específicos que puede realizar el
personal del estudio antes del comienzo de un estudio. Su finalidad es evaluar la funcionalidad, adecuación o
viabilidad de la medición. Por ejemplo, la prueba preliminar del sistema de introducción de datos y gestión de
bases de datos se podría realizar pidiendo al personal del estudio que rellenara formularios con datos ausentes,
fuera del intervalo o ilógicos para garantizar que el sistema de edición de los datos identificara esos errores.
Prueba de la t (o prueba de la t de Student). Prueba estadística que se utiliza para determinar si el valor
medio de una variable continua en un grupo difiere significativamente del de otro grupo. Por ejemplo, en los
participantes en un estudio a los que se trató con dos antidepresivos diferentes podría utilizarse la prueba de la
t para comparar las puntuaciones medias de depresión después del tratamiento de los dos grupos (una prueba
de la t para dos muestras no emparejadas) o el cambio medio desde el valor inicial hasta después del tratamien-
to en los dos grupos (prueba de la t para dos muestras emparejadas). Véase también Prueba de la t para una
muestra y Prueba de la t para dos muestras.
Prueba de la t para una muestra. Prueba estadística que se utiliza para comparar el valor medio de una varia-
ble en una muestra con una constante fija (un número particular). El tipo más frecuente de prueba de la t de una
muestra es la prueba de la t emparejada, en la que la media de la diferencia entre mediciones emparejadas de
una muestra (p. ej., en el mismo participante en diferentes momentos) se compara con cero. Por ejemplo, los in-
vestigadores encontraron que los hombres ganaban una media (± DT) de 4 ± 3 kg de peso durante el período de
residencia (p = 0,03 mediante la prueba de la t para una muestra). Véase también Prueba de la t para dos muestras.
Prueba de la t para dos muestras. Prueba estadística que se utiliza para comparar el valor medio de una
variable en una muestra con su valor medio en otra muestra. Por ejemplo, los investigadores encontraron que
los participantes tratados con suplementos de aceite de oliva tuvieron un aumento medio de la concentración de
colesterol unido a lipoproteínas de alta densidad de 10 mg/dl durante el estudio, en comparación con un
aumento de 2 mg/dl en los que recibieron el placebo (p = 0,14 mediante la prueba de la t para dos muestras).
Véase también Prueba de la t para una muestra.
Prueba de la Z. Prueba estadística utilizada para comparar proporciones a fin de determinar si hay diferencias
estadísticamente significativas entre ellas. Al contrario de la prueba de la x2, que siempre es bilateral, se puede
utilizar la prueba de la Z para hipótesis unilaterales. Por ejemplo, puede utilizarse una prueba de la Z unilateral
para determinar si la proporción de presos que tienen diabetes es significativamente mayor que la proporción de
personas que viven fuera de la cárcel que tienen diabetes. De manera similar, se podría utilizar una prueba de la Z
(o una prueba de la x2) bilateral para determinar si la proporción de presos que tienen diabetes es significativamen-
te diferente (es decir, mayor o menor) de la proporción de personas de fuera de la prisión que tienen diabetes.
Puntuación de susceptibilidad. Probabilidad estimada de que un participante en un estudio tenga un valor
especificado de una variable predictiva, la mayoría de las veces la probabilidad de recibir un tratamiento parti-
cular. El control de la puntuación de susceptibilidad (p. ej., mediante emparejamiento, estratificación o análisis
multivariado) es un método para afrontar la confusión por indicación: en lugar de ajustar todos los factores que
se podrían asociar a la variable de respuesta, el investigador crea un modelo multivariado para predecir la recep-
ción del tratamiento. Después se asigna a cada uno de los pacientes una probabilidad prevista de tratamiento (la
puntuación de susceptibilidad), que después se puede utilizar como única variable de confusión cuando se es-
time la asociación entre el tratamiento y la variable de respuesta. Por ejemplo, los investigadores utilizaron una
puntuación de susceptibilidad para ajustar los valores asociados al uso de ácido acetilsalicílico a fin de determi-
nar la asociación entre el uso de ácido acetilsalicílico y el cáncer de colon.
Razón de posibilidades. Cociente de las posibilidades de una enfermedad (o de otra variable de respuesta)
en las personas expuestas a un factor de riesgo entre las posibilidades de esa enfermedad en las personas no
expuestas. El cociente de riesgos y la razón de posibilidades son similares cuando una enfermedad es infrecuen-
te en personas expuestas y no expuestas, porque las posibilidades y los riesgos de la enfermedad son similares.
Por ejemplo, la razón de posibilidades de insuficiencia renal en personas con hipertensión es de 2,0, lo que
significa que los pacientes hipertensos tienen aproximadamente el doble de probabilidad de presentar insufi-
ciencia renal que las personas no hipertensas.
Razón de riesgos (riesgo relativo). Riesgo de una variable de respuesta en un grupo dividido por el riesgo
en un grupo de comparación. Por ejemplo, si el riesgo de episodios tromboembólicos venosos en mujeres que
utilizan actualmente estrógenos es 5/1 000 (0,5 %) y el riesgo en las que nunca han utilizado estrógenos es 2/1 000
(0,2 %), el riesgo relativo de las mujeres que utilizan estrógenos en comparación con las que no lo hacen es 2,5.
Véanse también Cociente de riesgos instantáneos y Razón de posibilidades.
Razón de verosimilitud. Término que se utiliza para describir los efectos cuantitativos del resultado de una
prueba médica sobre la probabilidad de que un paciente tenga la enfermedad que se estudia. Se define como la
probabilidad de ese resultado de la prueba en un paciente con la enfermedad dividido por la probabilidad de ese
resultado en un paciente sin la enfermedad. Por ejemplo, el cociente de verosimilitudes de los síntomas carac-
terísticos de la angina típica (opresión subesternal con el esfuerzo) es de aproximadamente 50 para el diagnós-
tico de arteriopatía coronaria.
Redes de investigación basadas en consultas. Redes en las que los médicos de contextos comunitarios
trabajan juntos para estudiar preguntas de la investigación de interés. Por ejemplo, en un estudio de una red de
investigación basada en consultas del tratamiento del síndrome del túnel carpiano en atención primaria, se
observó que la mayoría de los pacientes mejoraban con tratamiento conservador. Esto contrastaba con la biblio-
grafía previa de centros médicos académicos, en la que se observaba que la mayoría de los pacientes con síndro-
me del túnel carpiano necesitaban cirugía.
Registro (record). Fila de una tabla de bases de datos relacional (que se identifica de manera óptima por una
clave principal) que incluye información sobre esa persona, transacción, resultado o fenómeno. Por ejemplo,
una tabla de participantes podría tener un registro para cada uno de los participantes del estudio, con IdEstudio
como clave principal, además de otra información, como la fecha de nacimiento y el sexo como campos.
Registro (registry). Base de datos de personas con una enfermedad determinada o a las que se ha realizado
una intervención particular. Los estudios se pueden realizar utilizando registros y recogiendo los datos de las
variables de respuesta como parte del registro, o relacionando los datos de registros con otras fuentes, como
registros de cáncer o el registro de mortalidad nacional. Por ejemplo, en el San Francisco Mammography Regis-
try se obtienen datos sobre todas las mujeres a las que se realiza una mamografía en los tres principales centros
de mamografía de San Francisco; los investigadores han relacionado estos datos con registros de cáncer locales
para estimar la exactitud de la mamografía.
Regla de predicción clínica. Algoritmo que combina diferentes variables predictivas, como la presencia o
ausencia de diversos síntomas o signos y los resultados de las pruebas médicas, para estimar la probabilidad de
una enfermedad o una variable de respuesta particular. Por ejemplo, los investigadores elaboraron una regla de
predicción clínica para el diagnóstico de fractura de muñeca en mujeres posmenopáusicas basada en la infor-
mación sobre fracturas previas, las características de la caída (si se había producido), la exploración física del
antebrazo y los medicamentos actuales.
Regresión a la media. Tendencia a que los valores extremos (muy altos y muy bajos) sean más próximos a la
media poblacional cuando se repiten. Por ejemplo, en un grupo de niños seleccionados para un estudio por
tener presiones arteriales sistólicas por encima del percentil 95, se observó que la mayoría de los niños tenían
menores valores de presión arterial en la primera visita de seguimiento, aunque todavía no habían recibido
ningún tratamiento.
Respuesta. Término general para los criterios de valoración de un estudio, como la muerte o la aparición de
una enfermedad. Por ejemplo, en un estudio de si la radiocirugía era beneficiosa en pacientes con metástasis
cerebrales solitarias, se siguió a los pacientes para determinar la respuesta de muerte o internamiento en una
residencia de ancianos especializada.
Resultado negativo falso. Término que se puede utilizar de dos maneras distintas. En el contexto de una
prueba médica, se refiere a un resultado de una prueba que es falsamente negativo en un paciente que tiene la
enfermedad que se estudia. Por ejemplo, aunque la paciente tenía cáncer de mama confirmado mediante biopsia,
la mamografía dio un resultado negativo falso. En el contexto de un estudio de investigación se refiere a un
estudio que no detecta en la muestra un efecto (es decir, el resultado del estudio no es estadísticamente signifi-
cativo) que sí está presente en la población. Por ejemplo, aunque en estudios posteriores se observó que el ta-
baquismo aumenta el riesgo de accidente cerebrovascular, en uno de los primeros estudio de casos y testigos se
observó un resultado negativo falso (p = 0,23).
Resultado positivo falso. Término que se puede utilizar de dos maneras diferentes. En el contexto de una
prueba médica se refiere a un resultado de una prueba que es falsamente positivo en un paciente que no tiene
la enfermedad que se estudia. Por ejemplo, aunque la paciente no tenía cáncer de mama ni lo presentó durante
6 años de seguimiento, la mamografía mostró un resultado falsamente positivo. En el contexto de un estudio de
investigación, se refiere a un estudio que detecta en la muestra un efecto (es decir, el resultado del estudio es
estadísticamente significativo) que no está presente en la población. Por ejemplo, aunque en estudios posterio-
res se demostró que el tabaquismo no aumenta el riesgo de enfermedad de Parkinson, se observó un resultado
positivo falso en uno de los primeros estudios de casos y testigos (p = 0,03).
Resumen del efecto. En un metaanálisis, el efecto medio ponderado que se observa en los estudios incluidos;
la fórmula para los pesos depende del modelo. Por ejemplo, en un metaanálisis de ensayos aleatorizados del
efecto de un inhibidor de la enzima convertidora de la angiotensina (ECA) sobre la mortalidad en pacientes con
arteriopatía coronaría, el resumen del efecto en el modelo de efectos fijos fue el riesgo relativo medio ponderado,
ponderado por el inverso de la varianza del riesgo relativo de cada uno de los estudios incluidos. Véanse también
Modelo de efectos fijos y Modelo de efectos aleatorios.
Revisión experta. Revisión de un protocolo, una propuesta o un manuscrito por personas con el mismo nivel
de experiencia que el investigador que preparó estos documentos. Por ejemplo, las propuestas enviadas para su
financiación por los NIH son sometidas a un proceso de revisión experta en la que científicos del mismo ámbi-
to puntúan el protocolo utilizando criterios bien definidos. De manera similar, los manuscritos enviados a re-
vistas médicas son sometidos a revisión experta por científicos que ayudan a los editores de la revista a decidir
si se debe publicar el manuscrito.
Revisión sistemática. Revisión de la bibliografía médica en la que se utiliza un abordaje sistemático para
identificar todos los estudios sobre una pregunta de la investigación determinada, unos criterios claros para in-
cluir un estudio en la revisión, y métodos estandarizados para extraer los datos de los estudios incluidos. En
una revisión sistemática también se puede incluir un metaanálisis de los resultados del estudio. Por ejemplo,
el investigador realizó una revisión sistemática de todos los estudios en los que se evaluó si los suplementos de
cinc reducen el riesgo de presentar catarro.
Riesgo relativo. Véase Cociente de riesgos.
Sensibilidad. Proporción de pacientes con la enfermedad en los que es positiva una prueba («positiva en la
enfermedad» o PE). Por ejemplo, en comparación con los resultados anatomopatológicos de la biopsia, la sen-
sibilidad de un resultado . 4,0 ng/ml en un análisis del PSA sérico es de aproximadamente el 20 % para la de-
tección de cáncer de próstata; en otras palabras, el 20 % de los hombres con cáncer de próstata tendrán un
PSA . 4,0 ng/ml. Véase también Especificidad.
Sesgo. Error sistemático en la medición, o en una asociación estimada, debido a un problema del diseño, la
ejecución o el análisis del estudio. Por ejemplo, debido al sesgo en la forma en la que los participantes recorda-
ron su exposición a productos químicos tóxicos, los pacientes con leucemia tenían más probabilidad de referir
el uso de insecticidas que los testigos.
Sesgo de ausencia de respuesta. Tipo de sesgo en el que la ausencia de respuesta (p. ej., a un cuestionario)
afecta a los resultados del estudio. Por ejemplo, los investigadores estaban preocupados por el sesgo de au-
sencia de respuesta en su estudio de los efectos del consumo de drogas sobre el riesgo de presentar insufi-
ciencia renal.
Sesgo diferencial. Término general para una situación en la que la medición varía sistemáticamente según el
estado del participante, habitualmente dependiendo de que el participante sea un caso o un testigo; se produce
la mayoría de las veces con exposiciones que se recuerdan. Por ejemplo, como los casos de enfermedad celíaca
del adulto tenían más probabilidades de evocar exposiciones a productos que contenían trigo durante la infan-
cia que sus hermanos que habían crecido en el mismo hogar, los investigadores sospecharon que había sesgo de
recuerdo diferencial. Véase también Sesgo no diferencial.
Sesgo no diferencial. Tipo de sesgo que no depende de que el participante sea un caso o un testigo (o en
ocasiones de que un participante haya estado expuesto o no a una tercera variable). El sesgo no diferencial
tiende a hacer que sea más difícil encontrar asociaciones porque reduce las diferencias aparentes entre los grupos.
Por ejemplo, aunque el recuerdo de la exposición previa a antibióticos fue imperfecto en los casos y en los tes-
tigos, aparentemente el sesgo no fue diferencial, porque una revisión de las historias clínicas indicó que los dos
grupos tenían inexactitudes similares. Véase también Sesgo diferencial.
Sesgo de doble método de referencia. Véase Sesgo de verificación diferencial.
Sesgo de espectro. Situación en la que la exactitud de una prueba es diferente en la muestra de lo que habría
sido en la población porque el espectro de la enfermedad (que afecta a la sensibilidad) o de ausencia de enfer-
medad (que afecta a la especificidad) en la muestra difiere del de la población en la que se utiliza la prueba. Por
ejemplo, debido al sesgo del espectro, se encontró que un nuevo análisis sérico diseñado para diagnosticar el
cáncer esofágico era relativamente exacto en un estudio de pacientes con cáncer de esófago avanzado en com-
paración con estudiantes de medicina sanos, aunque tuvo un rendimiento bajo cuando se utilizó en pacientes
ancianos con dificultad deglutoria no diagnosticada.
Sesgo de muestreo. Error sistemático que hace que la muestra de personas incluidas en un estudio no repre-
sente a la población objetivo. Por ejemplo, si se incluyera a los participantes en un estudio de factores de riesgo
de osteoporosis de entre los pacientes hospitalizados por fractura de cadera, parecería falsamente que la caída
es un factor de riesgo de osteoporosis debido al sesgo de muestreo.
Sesgo del observador. Situación en la que un investigador (o auxiliar de la investigación) realiza una evalua-
ción no objetiva que depende de su conocimiento de uno o más atributos del participante, como si el partici-
pante es un caso o un testigo, o si ha estado expuesto o no a un factor de riesgo particular. Por ejemplo, aparen-
temente el sesgo del observador fue responsable del hallazgo de que, de acuerdo con la entrevista, había más
probabilidad de considerar que tenían problemas de manejo de la ira los adolescentes hispanos que los asiáti-
cos, porque en una encuesta autoadministrada y una revisión de los registros escolares no se encontraron dife-
rencias entre ambos grupos.
Sesgo de participante. Véase Sesgo de recuerdo.
Sesgo de publicación. Distorsión de la bibliografía publicada que se produce cuando los estudios publicados
no son representativos de todos los estudios que se han realizado, habitualmente porque los resultados positi-
vos se envían y publican con más frecuencia que los resultados negativos. Por ejemplo, los autores del metaaná-
lisis sospecharon sesgo de publicación porque encontraron que se habían publicado seis estudios positivos pe-
queños, y tan sólo un estudio negativo extenso.
Sesgo de recuerdo. Tipo específico de sesgo en el que el hecho de que un participante recuerde la exposición
o factor de riesgo, y cómo lo recuerde, depende de otro factor, especialmente de si el participante es un caso o
un testigo. Por ejemplo, se pensó que el sesgo de recuerdo era el motivo por el que los casos de esclerosis lateral
amiotrófica tenían más probabilidades de recordar la exposición a insecticidas que los testigos.
Sesgo de verificación (también denominado sesgo de estudio diagnóstico o sesgo de derivación). Sesgo en la
evaluación de la exactitud de una prueba que se produce cuando se verifica selectivamente la enfermedad en los
pacientes mediante el estudio con un método de referencia basado, en parte, en los resultados de la propia
prueba que se está estudiando. Por ejemplo, si en un estudio de la exactitud de la percusión torácica para diag-
nosticar neumonía se incluyera únicamente a pacientes en los que se hubiera realizado una radiografía de tórax,
y aquellos en los que se detectara matidez a la percusión tuvieran mayor probabilidad de que se les realizara una
radiografía, habría un falso aumento de la sensibilidad de la percusión, y una disminución falsa de su especifi-
cidad, debido al sesgo de verificación.
Sesgo de verificación diferencial. Sesgo que se produce en estudios de pruebas diagnósticas cuando se
aplican métodos de referencia distintos a diferentes participantes, dependiendo, al menos en parte, del resul-
tado de la prueba que se estudia. Por ejemplo, en un estudio de cribado con el antígeno prostático específico
(PSA) para detectar cáncer de próstata en hombres, a los que tenían concentraciones elevadas de PSA se les
realizó una biopsia prostática, mientras que se realizó seguimiento clínico a los que tenían concentraciones
normales de PSA; esto planteó la preocupación de que el sesgo de verificación diferencial hubiera aumentado
falsamente la sensibilidad, y hubiera reducido la especificidad, del cribado mediante PSA en hombres con
cáncer de próstata indolente.
Sujeto. Véase Participante.
Supresión. Tipo de confusión en la que el factor de confusión reduce la asociación aparente entre la variable
predictiva y la variable de respuesta, porque se asocia a la variable predictiva, pero afecta a la variable de res-
puesta en la dirección opuesta. Por ejemplo, se podría pasar («suprimir») por alto una asociación entre el taba-
quismo y las arrugas cutáneas si los fumadores fueran más jóvenes y no se controlara la confusión por la edad.
Tabla de datos. Tabla de los datos del estudio en la que cada hilera corresponde a un registro único y cada
columna corresponde a un campo o atributo. En todos los estudios habrá una tabla de participantes en el estu-
dio, cada una de cuyas filas corresponde a un participante individual, y las columnas corresponden a información
específica del participante, como sexo y fecha de nacimiento. En la mayoría de los estudios se utilizarán tablas
adicionales en las que las filas corresponden a visitas del estudio, resultados de laboratorio, contactos telefónicos,
etcétera.
Tamaño de la muestra. Este término tiene dos significados. Puede ser el número de participantes incluidos
en un estudio, o el número estimado de participantes que es necesario para que un estudio tenga éxito. Por
ejemplo, el investigador estimó que necesitaría tener un tamaño de la muestra de 54 participantes para tener
una potencia del 90 % a fin de detectar un aumento al doble del riesgo de conducta agresiva en niños de tercer
curso expuestos a videojuegos violentos.
Tasa de incidencia. La tasa con la que se produce una enfermedad o una variable de respuesta particular en
un grupo de participantes que previamente no tenían ese trastorno. Habitualmente se calcula como el número
de nuevos casos de la variable de respuesta dividido por el número de persona-tiempo en riesgo. Por ejemplo,
la tasa de incidencia de infarto de miocardio fue de 35,3 por cada 1 000 persona-años en hombres de mediana
edad, y aproximadamente la mitad (17,4 por cada 1 000 persona-años) en mujeres de mediana edad. También
se refiere a la medida del riesgo que se define como el número de personas que presentan una respuesta dividi-
do por el número de personas-tiempo en riesgo. Por ejemplo, la tasa de incidencia de accidente cerebrovascular
en el estudio fue de 23 por cada 1 000 personas-año. Véanse también Cociente de riesgos instantáneos y Persona-
tiempo.
Tasa de respuesta. Proporción de participantes elegibles que responden a un cuestionario o a una pregunta
particular del mismo. Una tasa de respuesta baja puede reducir la validez interna del estudio y sesgar los resul-
tados. Por ejemplo, en una encuesta de estudiantes de secundaria, una tasa de respuesta del 20 % a una pregun-
ta sobre el consumo de marihuana indicaría que es poco probable que el resultado sea una estimación válida de
la frecuencia real de consumo de marihuana en estudiantes. Véase también Datos ausentes.
Tasa de riesgos instantáneos. Término epidemiológico que mide la incidencia instantánea a la que se pro-
duce una variable de respuesta en una población. En la práctica casi siempre se estima como la incidencia de
una variable de respuesta. Por ejemplo, se estimó que la tasa de riesgos instantáneos de presentar arteriopatía
coronaria en mujeres de 50 a 59 años de edad era de 0,008 al año.
Testigo. Término que tiene dos significados diferentes. Primero, testigo se refiere a un participante que no tiene
la variable de respuesta de interés, por lo que es un miembro de un grupo de comparación con el que se com-
paran aquellos que sí tienen la variable de respuesta (los «casos»). Por ejemplo, en un estudio de factores de
riesgo de enfermedad ulcerosa péptica, se seleccionaron los testigos de entre los pacientes hospitalizados duran-
te el período del estudio con un diagnóstico no relacionado con el tubo digestivo. Segundo, testigo se refiere al
«tratamiento» inactivo (p. ej., el placebo o el «tratamiento habitual») que recibieron los participantes de un
ensayo clínico que no recibieron la intervención en estudio; en ese contexto también se utiliza testigo para re-
ferirse a un participante que recibió el tratamiento inactivo. Por ejemplo, a los testigos se les administraron
comprimidos de placebo que tenían un aspecto idéntico al fármaco activo. Véanse también Caso e Intervención.
Testigo con placebo. Testigo inactivo que es indistinguible del fármaco activo o de la intervención utilizados
en un ensayo aleatorio. Por ejemplo, en un ensayo aleatorio controlado con placebo de un nuevo tratamiento
para la incontinencia, el placebo debe tener un aspecto, un olor, un sabor y un tacto iguales a los de la nueva
medicación que se está estudiando.
Testigo procedente de la consulta. En el contexto de un estudio de casos y testigos, la selección de los tes-
tigos de las mismas consultas (o centros) de las que se extrajeron los casos. Por ejemplo, el investigador utilizó
testigos procedentes de la consulta en su estudio de si correr sobre la acera al menos 3 km a la semana se aso-
ciaba a artrosis de rodilla en la radiografía.
Testigos procedentes del hospital. En un estudio de casos y testigos, la selección de los testigos de los mis-
mos hospitales de los que se extrajeron los casos. Por ejemplo, en su estudio de si el consumo de carnes proce-
sadas se asociaba a cáncer del tubo digestivo superior, el investigador utilizó testigos procedentes del hospital
seleccionados de entre los pacientes que tenían enfermedades no malignas del tubo digestivo tratados en el
mismo hospital que los casos.
Validez. Grado en el que una medición representa el fenómeno de interés. Por ejemplo, la puntuación de un
cuestionario de calidad de vida es válida en la medida en que realmente mide la calidad de vida.
Validez aparente. Término que describe en qué grado una medida parece medir un fenómeno particular, ba-
sado en si parece razonable; generalmente no es un método muy fiable para evaluar la validez. Por ejemplo, se
consideró que una medición de la popularidad en adolescentes tenía validez aparente porque los investigadores
pensaban que diferenciaba a los estudiantes populares de sus institutos de aquellos que no lo eran. Véanse tam-
bién Validez de constructo, Validez de contenido y Validez relacionada con el criterio.
Validez de constructo. Término que describe en qué grado una medición corresponde a las definiciones teóricas
del rasgo (el «constructo») que se está midiendo. Por ejemplo, se pensaba que una medida de ansiedad social tenía
validez de constructo porque había diferencias importantes de sus valores en las personas cuyos amigos las descri-
bían como «amante de la diversión» y «extrovertido», y aquellas a las que describían como «tímido» y «poco
probable que vaya a fiestas». Véanse también Validez de contenido y Validez relacionada con el criterio.
Validez de contenido. Término que describe en qué grado una medición representa varios aspectos del fenó-
meno que se está estudiando. Por ejemplo, se pensó que una medida del insomnio tenía validez de contenido
porque medía la cantidad total de sueño, los episodios de despertares nocturnos, el despertar a primera hora de
la mañana, la energía al levantarse por la mañana y la somnolencia diurna. Véanse también Validez de construc-
to y Validez relacionada con el criterio.
Validez predictiva. Término que describe en qué grado una medición representa el fenómeno subyacente que
pretende medir, de acuerdo con su capacidad de predecir variables de respuesta relacionadas. Por ejemplo, la
validez predictiva de la medición de la depresión se reforzaría si se asociara al riesgo de suicidio posterior.
Validez relacionada con el criterio. Término que describe en qué grado una medición se correlaciona con
otras formas de medir el mismo fenómeno. Por ejemplo, se pensó que una medición de la depresión en adoles-
centes tenía validez relacionada con el criterio porque tenía una correlación elevada con las puntuaciones del
cuestionario de depresión de Beck. Véanse también Validez de constructo y Validez de contenido.
Valor de p. De acuerdo con las pruebas estadísticas, la probabilidad de encontrar un efecto (de manera más
precisa, un valor del estadístico de prueba) tan grande o mayor que el que se encontraría en el estudio única-
mente por el azar si la hipótesis nula realmente fuera cierta. Por ejemplo, si la hipótesis nula es que beber café
no se asocia al riesgo de infarto de miocardio, y en el estudio se encontró que el riesgo de infarto de miocardio
en bebedores de café en comparación con los no bebedores era 2,0 con un valor de p de 0,10, habría habido una
probabilidad del 10 % de encontrar un riesgo relativo de 2,0 o mayor en este estudio si no hubiera una asociación
entre el consumo de café y el infarto de miocardio en la población.
Valor predictivo negativo. Probabilidad de que una persona con un resultado negativo de una prueba no
tenga la enfermedad que se estudia. Por ejemplo, en una población de hombres con una prevalencia de cáncer
de próstata del 10 %, el valor predictivo de un antígeno prostático específico (PSA) # 4,0 ng/ml es de aproxima-
damente el 91 %. Véanse también Prevalencia, Probabilidad previa, Sensibilidad y Especificidad.
Valor predictivo positivo. Probabilidad de que una persona con un resultado positivo de una prueba tenga la
enfermedad que se estudia. Por ejemplo, en una población de hombres con una prevalencia de cáncer de prós-
tata del 10 %, el valor predictivo positivo de un antígeno prostático específico (PSA) . 4,0 ng/ml es de aproxi-
madamente el 30 %. Véanse también Prevalencia, Probabilidad previa, Sensibilidad y Especificidad.
Variabilidad. Magnitud de la dispersión de una medición, que habitualmente se calcula como la desviación
típica. Por ejemplo, si el cambio del peso corporal que produce una dieta varía desde un aumento de peso im-
portante hasta una pérdida de peso importante, el cambio es muy variable. Véanse también Desviación típica y
Error típico de la media.
Variable. Medición que puede tener valores diferentes. Por ejemplo, el sexo es una variable porque puede adoptar
dos valores diferentes, masculino y femenino. Véanse también Variable categórica, Variable de confusión, Variable con-
tinua, Variable dicotómica, Variable discreta, Variable nominal, Variable ordinal, Variable de respuesta y Variable predictiva.
Variable categórica. Variable que puede tener sólo varios valores posibles. Por ejemplo, el investigador trans-
formó las mediciones del nivel educativo referidas en una variable categórica con cuatro valores: menos de se-
cundaria, secundaria o algunos años de universidad, título universitario o título de posgrado. Véanse también
Variable continua, Variable dicotómica, Variable nominal y Variable ordinal.
Variable de confusión. Véase Confusión.
Variable continua. Medición que, en teoría, puede tener un número infinito de posibles valores. En la prácti-
ca el término muchas veces se utiliza para mediciones que tienen «muchos» (según algunos autores 10 o más,
y según otros 20 o más) valores posibles. Por ejemplo, la presión arterial sistólica se mide como variable conti-
nua en mm Hg utilizando un esfigmomanómetro de mercurio. Véanse también Variable categórica, Variable di-
cotómica y Variable discreta.
Variable dependiente. Véase Variable de respuesta.
Variable dicotómica. Variable que puede tener sólo uno de dos valores, como sí/no u hombre/mujer. Por
ejemplo, el evaluador dicotomizó la presión arterial sistólica en hipertensa ($140 mm Hg) o no. Véanse también
Variable categórica y Variable continúa.
Variable discreta. Tipo de variable que adopta únicamente valores enteros. Con fines prácticos, las variables
continuas en ocasiones se tratan como variables discretas. Por ejemplo, la edad generalmente se expresa como
la edad en años en el último cumpleaños, y el tabaquismo actual como el número medio de cigarrillos fumados
al día. Véase también Variable continua.
Variable independiente. Véase Variable predictiva.
Variable instrumental. Variable que se asocia con la variable predictiva, pero que no se asocia de ninguna otra
manera con la variable de respuesta; por lo tanto, se puede utilizar para estimar indirectamente el efecto de la
variable predictiva sobre la variable de respuesta. Por ejemplo, los investigadores encontraron grandes diferencias
regionales en el uso de una nueva vacuna antigripal, por lo que pudieron utilizar la región de residencia como
variable instrumental para estudiar el efecto de la vacuna antigripal sobre la mortalidad total en ancianos.
Variable nominal. Variable categórica para la cual no hay un orden lógico. Por ejemplo, la filiación religiosa
(cristiano, budista, hindú, musulmán, judío, otra, ninguna) se codificó como variable nominal.
Variable ordinal. Variable categórica cuyos valores tienen un orden lógico. Por ejemplo, se trató el consumo
actual de alcohol como una variable ordinal: los valores eran ausencia de consumo de alcohol, 1 o 2 bebidas a la
semana, . 2 y , 7 bebidas la semana, 1 a 2 bebidas al día, y $ 3 bebidas al día. Véase también Variable nominal.
Variable predictiva. Cuando se considera la asociación entre dos variables, la que se produce primero o tiene
más probabilidad, por motivos biológicos, de producir la otra. Por ejemplo, en un estudio para determinar si la
obesidad se asocia a un aumento del riesgo de apnea del sueño, la obesidad sería la variable predictiva. En un
ensayo aleatorizado analizado mediante intención de tratar, la variable predictiva es la asignación a un grupo
determinado.
Variable de respuesta. Definición formal de la respuesta para cada uno de los participantes. Por ejemplo, en
un estudio de los efectos de diferentes tipos de ejercicio sobre el peso corporal y la composición corporal, las
variables de respuesta se definieron como el cambio del peso en kilogramos desde el momento inicial hasta la
medición final después de 1 año, y el cambio de la circunferencia de la cintura en centímetros durante ese mis-
mo período.
Variables categóricas policotómicas. Variables categóricas con tres o más categorías. Por ejemplo, el grupo
sanguíneo, que incluye los grupos A, B y O, es una variable categórica policotómica.
351
Cuestionario(s)(cont.) lista
escalas y puntuaciones para medir variables abstractas, desplegable, 243, 244f
229‑230 para escoger, 243, 244f
métodos de administración, 233 opciones de respuesta, 243
páginas web, 233 completas, 243
pasos en la recogida de instrumentos para el estudio, mutuamente excluyentes, 243
230‑232 paquetes informáticos, 245
preguntas programas informáticos para la gestión de los datos,
abiertas y cerradas, 223‑243 243‑246
de doble efecto, 228 respuesta(s)
suposiciones ocultas, 228‑229 opciones, 243
Cumplimiento del protocolo, 160‑162, 160t completas, 243
Curvas de eficacia diagnóstica (ROC), 177, 177f mutuamente excluyentes, 243
CV. V. Coeficiente de variación (CV) codificadas y texto libre, 243
resultados de laboratorio, 243
Datos tabla, 240f
administrativos, 237 sistema, 237
análisis, 247 transcripción con el teclado, 242
ausentes, 261 preliminares, 283
base de datos, 237 tabla, 237‑241, 241f
almacenamiento fuera del centro, 248 clave principal, 237
análisis de datos secundarios, 193, 195 estudio de cohortes, 237, 238f
auditoría, 248 fichero plano, 237‑238
búsqueda, 237 número de identificación del participante, 237
resultados, ictericia del lactante, 246f tabla única, 237
computarizada, 193 tabulados, 259
confidencialidad, 247‑248 tipos, 240
consola integrada, 245 Declaración resumen, 287
copias de seguridad, 248 Definición operativa, 255
dos tablas, 238 Delatores, 218
ictericia del lactante, 239f Densidad mineral ósea (DMO), 140, 193
electrónica, 247 Derivación, 181
identificadores personales, 238, 248 Desviación típica, 34, 70, 73, 175
integridad referencial, 239 Deterioro
normalización, 239 de la capacidad de toma de decisiones, 209‑210
relación, 238 cognitivo/comunicativo, 216
seguridad, 247‑248 Diario, 228
sistema Diazinon‑oxón, 125
de apoyo, 243 Diferencias
frontal, 243 culturales, 268, 272
uso de hojas de cálculo, 237 de riesgos, 179
búsquedas, 246‑247 Diplomacia sanitaria, 275
conjunto mundial, 275
combinados, 194 Diseño(s)
de base comunitaria, 194‑195 adaptativos, 154‑155
individuales, 193 casos y testigos con densidad de incidencia, 97
diccionario, 240 cruzamiento, 156‑158, 157f
edición, 247 estudio(s), 6‑7, 6f
elementos, 241 abordaje, 3‑5, 4t
errores, identificación y corrección, 246‑247 análisis de datos secundarios, 192‑196
extracción, 246‑247 conjuntos de datos
formularios electrónicos en pantalla, ventajas, 242 de base comunitaria, 194‑195
fraudulentos, 262 combinados, 194
gestión individuales, 193
control de calidad, 260‑262, 260t, 261t pregunta de la investigación, 195‑196
estudio preliminar, 250 ventajas y desventajas, 192
investigación clínica, 237‑248 auxiliares, 196‑197
programas informáticos, 245t de casos y testigos, 97‑104
imprecisos o inexactos, 261‑262 eficiencia para variables de respuesta
introducción, 242‑246 infrecuentes, 99
captura electrónica, 242‑243 estructura, 97‑99, 98f
distribuida, 242 generación de hipótesis, 100
edición, 248, 262 medición diferencial, sesgo, 102‑104, 103t
formularios legibles por ordenador, 242 sesgo de muestreo, 100‑102, 100f
grupo de opción, 243, 244f de cohortes, 85‑95
importación de mediciones, 243 abordaje estadístico, 93‑95
casos y testigos anidado con densidad de resultados de pruebas, efectos sobre las decisiones
incidencia, 104‑108, 106f clínicas, 181‑182
cohortes múltiples y testigos externos, 91‑93, 92f sesgo de verificación, 186‑187
diseño de casos y testigos anidado, 104‑108, 105f viabilidad, costes y riesgos de las pruebas,
estudio transversal, 85‑88, 86f estudios, 182‑183
prospectivo, 88‑90, 88f reducción del sesgo, 219
retrospectivo, 90‑91, 90f reunión de participantes, 25, 25f
cruzados, 108 factorial, 151‑152, 152f
cumplimiento del protocolo, facilidad, 160‑162, entre grupos, 155‑156, 156f, 157f
160t no aleatorizado, 155
diseños observacionales, elección, 108, 109t del período de preinclusión, 162
elaboración del protocolo, 10 de la preinclusión con placebo, 162
ensayo aleatorizado con enmascaramiento, 147‑149 visual, 226
aplicación de las intervenciones, 147‑149, 148t Dispositivos electrónicos, 228
asignación aleatoria de los participantes, 145‑149 portátiles, 233
intervención, elección, 137‑139 Distribución de las respuestas, 40
medición(es) de las variables DMO. V. Densidad mineral ósea (DMO)
iniciales, 144‑145 Docencia, 16
de respuesta, 140‑142 Dominios, 240
selección de los participantes, 142‑144, 143t Duplicados con enmascaramiento y medidas
testigo, elección, 139 de consenso, 260
ensayo clínico, 151‑169
aleatorización por conglomerados, 152‑153 EAV. V. Escala analógica visual (EAV)
análisis de los resultados, 164‑166 Edición computarizada, 261
autorización Efectividad, 193‑194
nuevas intervenciones por las autoridades de Efecto(s)
registro, 158‑159 adversos, 141‑142
nuevos tratamientos por la FDA, 158, 158t de aprendizaje, 156
determinación y adjudicación de las variables de causales, infraestimación, 130
respuesta, 162 compartido, condicionamiento, 129‑130
diseño(s) magnitud, 47‑48
adaptativos, 154‑155 estandarización, 56‑57
con cruzamiento, 156‑158 tamaño de la muestra fijo, 65
factorial, 151‑152 modificación, 26, 122‑123, 128, 133‑134, 143,
entre grupos no aleatorizados, 155 151, 165
intragrupo, 155‑156, 156f, 157f resumen, 200, 205
ensayos con testigo activo, 153‑154 Efecto‑causa, 117, 121, 121t
estudios piloto, 159 Eficacia, 138, 194
método de Bonferroni, 168‑169 Eficiencia, 40
seguimiento y cumplimiento del protocolo, estudio de casos y testigos, 99
160‑162, 160t Ejecución del estudio, 250‑267
supervisión, 163‑164, 164t base de datos, diseño, 254‑255
inferencia causal, 8, 117‑136 control de calidad, 257‑263
asociaciones reales distintas a la relación calibración, formación y certificación, 258
causa‑efecto, 121‑122, 121t datos
errores en la cuantificación de los efectos ausentes, 261
causales, 129‑130 fraudulentos, 262
espuria en diseños observacionales, 117‑121, inexactos e imprecisos, 261‑262
120f estudios multicéntricos colaborativos, 262
estrategia, elección, 130‑132 gestión de los datos, 260‑262, 260t, 261t
fase(s) informes periódicos, 259
análisis, factores de confusión, 126‑129, 127t manual operativo, 258
diseño, factores de confusión, 122‑126, 123t práctica clínica adecuada, 257, 257t
minimización del sesgo, 119‑121, 120f procedimientos
pruebas diagnósticas y pronósticas, 171‑190 especializados para intervenciones
determinación de la utilidad del estudio, 171‑173, farmacológicas, 259
172t de laboratorio, 259‑260
errores de diseño, 185‑187 estudio preliminar, 255
exactitud de las pruebas, estudios, 175‑179, finalización, 256
177f, 192t reunión de los recursos, 251‑255
k para medir el acuerdo entre observadores, equipo de investigación, 251‑252
cálculo, 188, 188t espacio, 251
problemas, 171‑173 liderazgo y formación del equipo, 252
pruebas, efectos sobre las variables de respuesta, puesta en marcha del estudio, 253‑254
183‑185 revisiones de protocolo, 255‑256
reproducibilidad de pruebas, estudios, 173‑175 Ejemplo numérico, sesgo de verificación, 189‑190
discordancia entre la pregunta y las opciones de de antes/después para la toma de decisiones clínicas,
respuesta, 229 182
enunciado, 227 auxiliares, 196‑197, 203
escalas y puntuaciones para medir variables abstractas, de casos
229‑230 y cohortes, 104‑108, 105f
pasos para recoger instrumentos para el estudio, y testigos, 3, 97‑104
230‑232 anidado, 97, 104‑108, 105f, 109t
en persona, 233 con densidad de incidencia, 104‑108, 106f
preguntas cálculo de medidas de asociación, 111
abiertas y cerradas, 223‑225 efecto‑causa, 121
de doble efecto, 228 eficiencia para respuestas infrecuentes, 99
suposiciones ocultas, 228‑229 emparejamiento, 123‑125
telefónica, 233 estructura, 97‑99, 98f
asistida por ordenador (ETAO), 233 generación de hipótesis, 100
Enunciado del cuestionario, 227 puntos
Epidemiología débiles, 100‑104
genética molecular, 41 fuertes, 99‑100
molecular, genética, 41 razón de posibilidades como estimación del
Equilibrio, 155, 220 riesgo relativo, 114‑115
Equipo sesgo
de investigación, miembros, funciones, 252t de medición diferencial, 102‑104, 103t
redacción de la propuesta, 277‑278 de muestreo, 100‑102, 100f
revisión del rendimiento, 258‑259 testigos
Error(es) múltiples, uso, 69
aleatorio, 9, 9f, 118 procedentes de la consulta, 101
precisión, 34, 38t ventajas y desventajas, 109t
de clasificación, 103 de cohortes, 3, 88‑95
diferencial, 103 abordaje estadístico, 93‑95
no diferencial, 102‑103 causa‑efecto, 121
conceptual terapéutico, 212 comparación con estudio de casos y testigos, 97
de diseño, 7f diseño de casos y testigos anidado, 104‑108,
frecuentes, 71‑72 105f
de la investigación, 8‑10, 9f, 10f con «densidad de incidencia», 104‑108
sistemático, 9, 9f estudio auxiliar, 196
exactitud, 37, 38t, 41 incidencia, 89t
minimización, 118t, 119 múltiples, 91‑93, 92f, 109t
típico de la media (ETM), 73 y testigos externos, 91‑93, 92f
de tipo I, 46‑47, 48, 63 problemas, 94‑95, 95t
abordaje de Bonferroni, 168‑169 prospectivo, 88‑90, 88f, 89t, 109t
minimización, 117‑119 prueba diagnóstica, 172t, 175
pruebas múltiples, 163‑164 retrospectivo, 90‑91, 90f, 109t
de tipo II, 46‑47, 48 ventajas y desventajas, 109t
Erudición, pregunta de la investigación, 15 de confirmación, 18
Escala(s), 32‑34, 33t criterios de valoración, efecto, 183‑185
acortamiento, 231 cruzados, análisis, 108
analógica visual (EAV), 224 descriptivo, 4
creación, 230 técnicas para el cálculo del tamaño muestral,
medición de variables abstractas, 229‑230 63‑65, 80‑81
con múltiples preguntas, 229 de doble cohorte, 91‑92, 92f
Escepticismo, 15, 285 ecológicos, 195
Espacio, 251 de eficacia comparativo, 153
Especificación, variables de confusión, 122‑123, 123t inéditos, 201
Especificidad, 177, 189 internacionales, 268‑276
hipótesis, 44 aspectos éticos, 273‑275, 274t
medición, 39 barreras de distancia, idioma y cultura, 271‑272
tamaño de la muestra, 64 colaboración, 271‑272, 274t
Estadística descriptiva, 28‑29, 63, 183 justificación, 268‑270, 269t
Estrategia de investigación de la propuesta, 282‑284, 283t problemas de financiación, 272‑273
Estratificación, 126‑127, 143 recompensa, 275
Estudio(s), 182 riesgos y frustraciones, 275
analítico, 5 nuevas terapias, fases, 158, 158t
técnicas para el tamaño muestral, 55‑60, 56t observacionales, 3‑4
coeficiente de correlación, 59‑60, 79t comparación con ensayos clínicos., 137
prueba(s) efecto de la prueba sobre una variable de respuesta,
de la ji al cuadrado (x2), 57‑59, 75t 184
de la t, 56‑57, 73t elección, 108, 120t