Ensayos Clínicos
Ensayos Clínicos
Ensayos Clínicos
Fase II
Fase III
Fase IV
Primeros pasos en la
investigacin de un
frmaco en seres
humanos
Ensayo teraputico, pero
slo exploratorio
Randomization (USA) o randomisation (UK) son palabras inglesas. En castellano no existe el trmino "randomizado"
ni "randomizacin", se debe decir siempre aleatorio o aleatorizado para no cometer un barbarismo.
63
Algunos autores dividen la fase II en IIa y IIb. En general, durante la fase IIa se
realizan estudios piloto con pocos participantes y criterios de inclusin/exclusin muy
estrictos. En esta fase IIa se evala el efecto farmacolgico, y pueden participar tanto
enfermos como sanos. En la fase IIb se incluye un mayor nmero de participantes, el
objetivo es medir el patrn dosis-respuesta y lo que prima es la eficacia por lo que slo
se incluyen enfermos. Esta fase IIb permite optimizar los ensayos de fase III.
Segn el diseo, se habla de ensayos paralelos cuando dos o ms grupos son
asignados a diferentes intervenciones y seguidos a lo largo del tiempo. Es el diseo
ms frecuente. En cambio, en los ensayos cruzados o de secuencia cruzada
("crossover") cada paciente es asignado aleatoriamente de modo sucesivo a dos o
ms tratamientos (se asigna la secuencia). As cada paciente sirve como su propio
control (ver figura 7.1). El objetivo de este diseo es aumentar la eficiencia del estudio
y se aproxima todava ms al paradigma contrafctico.
Figura 7.1. Ensayo clnico de secuencia cruzada ("crossover")
Observacin
Observacin
Grupo 1
Grupo 1 (A)
Grupo 2
Grupo 2 (A)
Tratamiento A
Efecto?
Tratamiento A
Efecto?
Personas dan su
consentimiento Aleatorizacin
LAVADO
Observacin
Comienzo
del estudio
Grupo 2
Tratamiento B
Presente
Observacin
Grupo 2 (B)
Efecto?
Tiempo
Grupo 1
Tratamiento B
Grupo 1 (B)
Efecto?
Futuro
La principal ventaja del ensayo crossover es eliminar la variabilidad entreindividuos (between-subject) en la respuesta a la intervencin, pues estos ensayos
valoran el efecto intra-individuo (within-subject). Sus inconvenientes son:
Al observar el efecto de un tratamiento se asume la ausencia de efectos residuales
del tratamiento anterior (carryover en ingls). Debe existir un perodo de blanqueo
o lavado (washout) suficientemente largo como para asegurar que no permanecen
los efectos residuales del primer tratamiento asignado.
La secuencia con la que se administran los diferentes tratamientos puede
asociarse a respuestas psicolgicas diferentes (mayor entusiasmo al principio del
estudio, que disminuye con el tiempo).
Este diseo no es posible cuando la nueva terapia es quirrgica o el primer
tratamiento est dirigido a curar definitivamente la enfermedad.
Resulta difcil adjudicar los efectos secundarios tardos.
El anlisis estadstico es ms complejo que para grupos paralelos y requiere el uso
de mtodos emparejados o de medidas repetidas: McNemar, t emparejada,
Wilcoxon, modelos mixtos de anlisis de la varianza.
Los ensayos con n=1 (n-of-1-trials) consisten en que en un solo paciente, se usa
primero una terapia (p. ej., durante un mes o una semana) y luego otra. El paciente no
sabe qu terapia est recibiendo cada da (enmascaramiento, ver ms adelante).
Como todos los datos de la muestra consisten en una sola persona (valorada en
tiempos distintos) las conclusiones slo se pueden aplicar a esa persona (4).
Los ensayos factoriales (tabla 7.2 y figura 7.2) se usan cuando se quieren evaluar
dos terapias asumiendo que son diferentes y que su mecanismo de accin es
64
independiente. Se utiliza la misma poblacin para valorar las dos terapias frente al
grupo control, aumentando as la eficiencia.
Tabla 7.2. Ensayo factorial.
TRATAMIENTO B
+
- NINGUNO a b
SLO B
TRATAMIENTO A
+
SLO A
c d
AyB
a, b, c, y d corresponden a la designacin de cada celda de la tabla de
contingencia
Es posible evaluar los efectos del tratamiento A comparando los resultados de las
celdas c+d con los de las celdas a+b, y de manera similar para el tratamiento B (b+d
versus a+c). El Physicians Health Study (5,6) fue un ensayo factorial de prevencin
primaria de enfermedad cardiovascular con aspirina y de cncer con betacaroteno; los
participantes se aleatorizaron a cuatro posibles intervenciones (figura 7.2):
Aspirina + betacaroteno
Aspirina + placebo
Betacaroteno + placebo
Placebo + placebo.
Figura 7.2. Ensayos factoriales.
Asignacin de tratamientos en el Physicians Health Study (5,6).
A le a to r iz a d o s
AAS
( T ra ta m ie n to A )
B e ta - C a ro te n o s
( T ra ta m ie n to B )
( A y B : c e ld a d )
P la c e b o d e A
( N o tr a ta m ie n to )
P la c e b o d e B
( N o tr a ta m ie n to )
( S o lo A : c e ld a c )
B e ta - C a ro te n o s
( T ra ta m ie n to B )
( S o lo B : c e ld a b )
P la c e b o d e B
( N o tr a ta m ie n to )
( N i A n i B : c e ld a a )
En los ensayos factoriales, los placebos que se utilizan tienen que parecerse
externamente al tratamiento activo asignado en cada secuencia. Es la razn por la que
se habla de "placebo de A" y "placebo de B" para los dos tratamientos A y B
respectivamente. El diseo factorial tambin se utiliza cuando se quiere estudiar la
eficacia de terapias combinadas (por ejemplo en oncologa). En este caso, los
medicamentos usados pueden tener efectos diferentes cuando se combinan y al final
interesar comparar por separado los tres grupos con algn tratamiento activo frente al
que slo recibe placebos.
Se habla de ensayos explicativos si el efecto de la intervencin se valora en
condiciones lo ms experimentales posibles con criterios de inclusin muy estrictos.
Esto aleja el ensayo de la prctica clnica habitual y le resta validez externa. Los
ensayos explicativos se realizan para la aprobacin de nuevos frmacos, pues valoran
su eficacia en condiciones ideales.
En cambio, los ensayos pragmticos (7) valoran la efectividad, coste o aceptacin
de las intervenciones en un mbito ms real. Sus criterios de inclusin son amplios
(hay pocos criterios de exclusin) y los participantes son parecidos a los que se
atienden en la asistencia clnica rutinaria. Valoran ms la efectividad (y a veces hasta
la eficiencia) que la eficacia y ganan en validez externa.
65
Por ejemplo, hace pocos aos se dio mucha publicidad a un estudio realizado en Sevilla que no encontraba
diferencias significativas al comparar hijos de familias con padre y madre frente a nios criados por una pareja de
homosexuales. El nmero total de nios criados por homosexuales era inferior a 30 (y se realizaban an ms
subdivisiones en funcin del tipo de pareja homosexual). Es un ejemplo tpico de error tipo 2. En esta situacin, concluir
que el estudio demuestra la igualdad sera totalmente equivocado. As lo sealaron entonces algunos catedrticos
como Amando de Miguel, conocido socilogo, y el Presidente de la Sociedad Espaola de Pediatra. Simplemente,
habra que admitir que el estudio no es informativo y faltan pruebas para poder poner de relieve alguna diferencia. Ver:
Martnez-Gonzlez MA, de Irala J. Sobre la adopcin por lesbianas. Diario de Navarra. 1 de marzo de 2004.
66
intentan probar que la nueva terapia es igual o si fuese peor que el tratamiento
habitual la diferencia entre ambos sera muy pequea e inferior a (4). De este modo,
la pregunta en los ensayos de no inferioridad no es simtrica. Un ensayo de no
inferioridad, se suele valorar con pruebas de significacin estadstica a una cola.
Algo distinto de los ensayos de equivalencia y los de no inferioridad vistos ms
arriba es un ensayo de bio-equivalencia, habitualmente destinado a valorar solamente
si el principio activo de un medicamente genrico tiene las mismas caractersticas
farmacodinmicas que el frmaco estndar de referencia.
Figura 7.3. Ensayos de equivalencia.
67
Pocos ensayos tienen potencia suficiente como para poder valorar el efecto dentro
de subgrupos ms pequeos o de valorar interacciones. Suele hacer falta multiplicar
aproximadamente por 4 el tamao muestral para poder valorar interacciones (13-14).
Elevar la potencia estadstica requiere incrementar mucho el nmero de
participantes y, por consiguiente, los costes y las dificultades. Todas estas
consideraciones hacen que se procure obtener resultados relevantes con el menor
nmero de participantes posibles. El nmero de participantes estar determinado por
el clculo del tamao de la muestra que a su vez est determinado por el riesgo alfa
que se quiera aceptar a priori de cometer un error de tipo 1, por la potencia estadstica
que se necesita para los objetivos del estudio (o su complementario, por el riesgo beta
de cometer un error tipo 2), y por la diferencia mnima que se detectar entre las
intervenciones evaluadas (tabla 7.3).
Tabla 7.3. Clculo del tamao muestral (n) en ensayos clnicos.
Elemento
Riesgo alfa
Riesgo beta
Magnitud
de
efecto
o
diferencia
que se espera
encontrar
Explicacin
Probabilidad de rechazar H0 cuando H0 es cierta (cometer un error tipo 1 o decir que hay
diferencias cuando en realidad no las hay). Habitualmente se fija alfa=0,05 (a dos colas) y
su correspondiente valor zalfa/2 = 1,96. Cuanto mayor sea alfa, menor ser z, y menos n se
necesitar.
Probabilidad de no rechazar H0 cuando debera rechazarse (cometer un error tipo 2 o decir
que no hay diferencias cuando en realidad las hay). Habitualmente se fija beta=0,20 (slo
puede ser a una cola) y su correspondiente valor zbeta = 0,84. Decir que beta=0,20 es
equivalente a decir que la potencia estadstica es del 80%. Cuanto mayor sea la potencia,
mayor ser z, y ms n se necesitar. Si la potencia es del 90%, z beta = 1,28. Si la potencia es
del 95%, zbeta = 1,645.
Diferencia "d" entre los dos tratamientos. Cuanto mayor sea la diferencia, menos n se
necesitar.
Es el factor que ms influye en el clculo del tamao muestral
Si la escala en que se mide el efecto es una variable cuantitativa, se requiere proporcionar
la diferencia que se espera que acabar existiendo entre las medias de los dos grupos y
adems la desviacin estndar (s) que se supone que va a tener esta variable.
Si la escala es dicotmica (aparicin o no de un efecto) se debe proporcionar informacin
sobre la proporcin (p) de participantes que sufrir el efecto. Se establece que q=1-p.
68
Las caractersticas anteriores hacen que no sea aventurado afirmar que ningn
ensayo clnico es "representativo".
En la figura 7.4. se muestran las diferentes etapas de un ensayo clnico desde el
momento de la seleccin hasta la evaluacin de los resultados.
Figura 7.4. Diagrama de flujo de los participantes de un ensayo clnico.
S E L E C C I N D E P A R T IC IP A N T E S
C r ite r io s d e in c lu s i n y e x c lu s i n
C o n s e n t im ie n t o in f o r m a d o
E x c lu id o s
n o c u m p l e n c r i t e r i o s , r e c h a z a n p a r t ic i p a r , o t r a s r a z o n e s
A L E A T O R IZ A C I N
c i e g o , d o b le c i e g o , t r ip l e c ie g o
In te rv e n c i n
S e g u id o s
C u m p le n
C o n tro l
P e rd id o s
N o c u m p le n
69
S e g u id o s
C u m p le n
P e rd id o s
N o c u m p le n
Una de las ms desafortunadas equivocaciones que puede darse en epidemiologa es confundir un ensayo
aleatorizado con un estudio de casos y controles porque ambos tienen grupo "control". Tal error garrafal
desgraciadamente no es infrecuente.
2
www.predimed.es
70
Para ampliar este concepto, puede consultarse: Freedman, B. Equipoise and the ethics of clinical research. N Engl J
Med 1987;317:141-5
71
72
1 0 0 0 p a c ie n te s
6 0 0 v a ro n e s
4 2 0 j v e n e s
2 1 0 tto . e x p .
1 8 0 m a y o re s
2 1 0 tto . c o n tr o l
9 0 tto . e x p .
4 0 0 m u je r e s
1 6 0 j v e n e s
9 0 tt o . c o n t r o l
8 0 tto . e x p .
TRATAMIENTO EXPERIMENTAL
n=500
Varones y jvenes:
210 (42%)
Varones y mayores:
90 (18%)
Mujeres y jvenes:
80 (16%)
Mujeres y mayores:
120 (24%)
2 4 0 m a y o re s
8 0 tto . c o n tr o l
1 2 0 tto . e x p
1 2 0 tto . c o n tr o l
TRATAMIENTO CONVENCIONAL
n=500
Varones y jvenes:
210 (42%)
Varones y mayores:
90 (18%)
Mujeres y jvenes:
80 (16%)
Mujeres y mayores:
120 (24%)
POBLACIN TOTAL
N=1000
Varones y jvenes:
Varones y mayores:
Mujeres y jvenes:
Mujeres y mayores:
420 (42%)
180 (18%)
160 (16%)
240 (24%)
MINIMIZACIN
Se trata de un procedimiento no aleatorizado. Consiste en buscar para cada
paciente asignado al grupo activo, un control con el que tenga mnimas diferencias en
cuanto a sus factores pronsticos (caractersticas basales). Se van asignando
pacientes al grupo de tratamiento o al grupo control de modo que se consiga ir
minimizando las diferencias entre los dos grupos. Para cada paciente que se incorpora
se busca intencionadamente qu tratamiento conducira a un mejor equilibrio entre los
dos grupos en cuanto a igualdad de factores pronsticos. Por ejemplo, si el grupo
tratamiento experimental tiene ms mujeres que el grupo tratamiento convencional, se
asignara a la siguiente mujer que entra en el estudio al grupo tratamiento
convencional para ir igualando los grupos en cuanto a distribucin de la variable sexo.
El uso de procedimientos no aleatorios como ste reduce la credibilidad de un
ensayo. De todos modos la minimizacin es considerada la nica alternativa vlida a la
aleatorizacin. En algunas circunstancias puede tener ventajas, especialmente cuando
la muestra no es grande, pues permite obtener grupos muy semejantes con un
nmero reducido de participantes.
ENSAYOS COMUNITARIOS POR CONGLOMERADOS (CLUSTERS)
La unidad de asignacin al azar no es el individuo sino el grupo. Se les llama
ensayos comunitarios de intervencin. No se asignan al azar individuos, sino
comunidades (aulas, pueblos, centros de salud, hospitales, consultorios). Esto no
garantiza necesariamente que los grupos sean homogneos y comparables,
especialmente si las unidades asignadas son pocas. Es preferible que se aleatoricen
muchos grupos, aunque en cada uno haya pocos individuos. Muchas veces se les
puede considerar estudios cuasi-experimentales, en vez de experimentales puros (17).
Puede surgir un efecto conglomerado (cluster) no siempre previsto por los
investigadores, por ejemplo si cada cirujano ha operado a unos cuantos pacientes y se
aleatoriza por cirujanos, no por pacientes. El diseo y anlisis de estos ensayos con
conglomerados es complicado y requiere acudir antes a un experto. Una regla general
es que consultar al epidemilogo cuando ya se han recogido los datos es como llamar
al mdico cuando el paciente ya ha muerto. En ese punto, muchas veces, el
epidemilogo simplemente podr firmar el certificado de defuncin del ensayo. Este
regla general es ms acuciante cuando se sospecha un efecto cluster.
Se han publicado directrices especficas para ensayos comunitarios de
intervencin con aleatorizacin por clusters (32,33).
73
74
simulada (sham surgery) como grupo control. Los sujetos del grupo control fueron
preparados para la artroscopia, se les hicieron 3 pequeas incisiones en la piel de la
rodilla, se simularon los ruidos de la intervencin y los sujetos pasaron la noche en el
hospital. Para lograr un adecuado enmascaramiento, a veces es preciso producir
efectos colaterales similares en ambos grupos. Por ejemplo, si un tratamiento
determinado tiese la orina de los pacientes, se podra aadir un tinte incuo en
aquellos pacientes que toman el placebo. De todos modos, a veces no es factible o
tico utilizar este tipo de tcnicas. Tambin debe evitarse que los participantes de un
ensayo coincidan en una sala de espera. Al hablar mientras esperan, se podran dar
cuenta (por ejemplo al comentar efectos secundarios) de qu tratamiento han recibido.
En los ensayos clnicos abiertos no existe enmascaramiento. En este caso, se
deben explicar al escribir el artculo los motivos que justifiquen esta opcin.
Segn el enmascaramiento, los ensayos pueden ser simple ciego, doble ciego y
triple ciego. En el simple ciego el paciente desconoce qu intervencin recibe. En el
doble ciego, tanto pacientes como evaluadores del desenlace (end-point) desconocen
la intervencin.
No siempre son unvocas estas expresiones. Pueden ser confusas y debe dejarse
claro al redactar el artculo qu se ocult a quin (34). Entre los investigadores, puede
enmascararse tanto a los que administran la intervencin como a los que evalan los
resultados. Enmascarar a ambos (tanto a los responsables de la intervencin como a
quienes valorarn los eventos) se puede denominar triple ciego.
La evaluacin ciega por terceros se da cuando otro investigador, que no ha
intervenido en el seguimiento de los pacientes, realiza el anlisis estadstico para
evaluar el resultado y cuando analiza los datos no sabe qu cdigo corresponde al
tratamiento y cul al control. Es especialmente til cuando la intervencin no se puede
ocultar a los que administran la intervencin.
El enmascaramiento puede ser tan importante como la aleatorizacin, ya que
previene el sesgo del observador o del paciente al referir sus sntomas (que son
sesgos de informacin). De hecho, cuando algunos autores se refieren al ensayo
clnico como el mejor mtodo (gold standard) para demostrar causalidad y lo sitan en
la cima de la pirmide de la medicina basada en evidencias, slo consideran vlido el
ensayo clnico aleatorizado, doble ciego y controlado, aunque no necesariamente ha
de ser controlado frente a placebo (19-22).
Sin embargo no se puede descartar automticamente un ensayo porque no sea
doble ciego. Hay circunstancias donde el mejor diseo posible no es el doble ciego.
Se puede evaluar si el enmascaramiento ha sido efectivo preguntando a los
participantes o a los profesionales sanitarios que les atienden qu tratamiento piensan
que ha recibido cada uno de los participantes y tabulando los resultados.
En ocasiones existe cierta confusin entre la OSA y el enmascaramiento de la
intervencin, por eso es importante recalcar las diferencias entre ambas:
La OSA es previa a la aleatorizacin y el enmascaramiento es posterior.
La OSA pretende garantizar el control de factores de confusin al inicio del estudio
y el enmascaramiento pretende evitar sesgos de informacin en la medida de la
variable resultado y posibles cointervenciones a lo largo del ensayo.
La OSA es factible en todo ensayo, a diferencia del enmascaramiento que puede
resultar muy difcil de aplicar o no tico en algunas intervenciones (ciruga,
educacin sanitaria, intervenciones nutricionales...).
La OSA es una caracterstica que afecta a todo el ensayo, mientras que el
enmascaramiento es especfico para cada desenlace (end-point) e incluso, en
algunos casos, para ciertos desenlaces. Por ejemplo, si un antibitico produjera un
cambio del color de la orina o una colitis, se perdera el enmascaramiento cuando
el paciente se diera cuenta de ello, pero, tambin en este caso, gracias a la OSA,
el investigador sigue sin saber qu tratamiento le corresponde asignar al siguiente
paciente y la OSA sigue siendo til a lo largo del ensayo.
75
76
IN T E R V E N C I N
C u m p le n
T o m a n e l t r a t a m ie n to
P LACEBO
N o c u m p le n
N o t o m a n e l tr a t a m ie n to
Asignados
a intervencin
N o c u m p le n
T o m a n u n tra ta m ie n to
Anlisis por
intencin de tratar
(segn asignacin inicial)
Grupos comparados
C u m p le n
T o m a n P la c e b o
Asignados
a placebo
N pacientes
1065
357
708
2695
Mortalidad (%)
18,2
24,6
15,0
19,4
Fuente: (37)
77
parece que las diferencias entre los grupos sean muy relevantes si se realiza la
comparacin por intencin de tratar (18,2% frente a 19,4%).
La situacin podra ser an ms complicada si en el grupo control hubiese
personas que -contrariamente a lo asignado- se sometieron (se auto-asignaron) por su
cuenta y riesgo al tratamiento porque se lo auto-prescribieron (pacientes asignados a
placebo que decidieron por libre comprarse clofibrato). Esto diluira todava ms las
diferencias respecto al tratamiento recibido y, si realmente existiesen diferencias, stas
se infra-estimaran.
ANLISIS INTERMEDIOS
Los anlisis intermedios (interim analyses) son aquellos anlisis estadsticos de la
ocurrencia de los end-points en cada rama de tratamiento que se realizan previamente
al anlisis formal y planificado que se considerar definitivo (38,39).
En muchos ensayos, no en todos, se deben realizar anlisis intermedios por
razones ticas y cientficas, para conocer pronto un posible efecto beneficioso de un
tratamiento nuevo o para detenerlo a tiempo si aparecen efectos adversos o se
dispone ya de evidencias para esperar que no sea informativo en absoluto.
Tambin se pueden hacer por razones econmicas, para valorar la posibilidad de
acortar la duracin del ensayo o por razones prcticas o administrativas para valorar si
el protocolo se va siguiendo bien, si existen efectos secundarios o para valorar
cualquier aspecto relacionado con el buen funcionamiento del proyecto.
En ensayos prolongados de gran tamao se suelen programar formalmente una
serie de anlisis intermedios para decidir si se detendr en cada uno de esos
momentos el ensayo (40). Este tipo de anlisis preestablecido se llama anlisis
secuencial y precisa de ciertas condiciones para utilizarse:
Que los pacientes puedan evaluarse rpidamente
Que el diseo del ensayo sea sencillo
Que el desenlace sea claro
Que el nmero de hiptesis a valorar sea pequeo.
En estos casos, hay que definir los criterios para detener el ensayo cuando
aparezcan diferencias entre ambos grupos con el fin de evitar un dao o la privacin
de un beneficio o cuando ya hay evidencia estadstica suficiente a favor de la ausencia
real de diferencias entre los grupos comparados. Pero esto no es ni mucho menos
sencillo.
En un ensayo que dure muchos aos, si se hace un anlisis intermedio cada 6
meses, es fcil que, por simple azar, alguna vez se halle una p<0,05 a pesar de que a
largo plazo no haya diferencias (Figura 7.7). Si el test se repite cada mes, esto todava
ser ms fcil.
Al hacer muchas comparaciones, alguna ser significativa slo por casualidad.
Alguien ha llamado a este problema de comparaciones mltiples el "experimento de la
metralleta": siempre se le acaba dando el tiro a la diana. Para compensar esta alta
probabilidad de resultados estadsticamente significativos sin fundamento cientfico, se
usan valores p penalizados, que tengan que ser mucho menores que 0,05 para
conducir a la detencin del ensayo.
La idea es que globalmente, considerando todos los tests que se planifiquen, se
pueda asumir un error alfa global del 5% (38,39).
78
valor
p
meses de observacin
Fuente: adaptado de (38).
Para evitar los resultados "significativos" simplemente por repeticin de tests, hay
varios esquemas de "penalizacin" de valores p para comparaciones mltiples hechas
en anlisis intermedios de ensayos clnicos. Se presentan en la tabla 7.5. Hoy da se
usa ms la regla de O`Brien-Flemming (41).
Tabla 7.5. Valores p penalizados para detener un ensayo.
Nmero de anlisis
interim planificados
2
3
4
Anlisis n
Pocock
Peto
O'Brien Flemming
1
2 (final)
1
2
3 (final)
1
2
3
4 (final)
1
2
3
4
5 (final)
0,029
0,029
0,022
0,022
0,022
0,018
0,018
0,018
0,018
0,016
0,016
0,016
0,016
0,016
0,001
0,05
0,001
0,001
0,05
0,001
0,001
0,001
0,05
0,001
0,001
0,001
0,001
0,05
0,005
0,048
0,0005
0,014
0,045
0,0001
0,004
0,019
0,043
0,00001
0,0013
0,008
0,023
0,041
80
81
Resultados
Discusin
Explicacin
Presentar slo resultados de subgrupos en el abstract si se basan en el resultado
principal (primary end-point), si estaban previstos a priori y si se interpretan en el
contexto total del ensayo.
Indicar el nmero de anlisis de subgrupos que se hicieron y cuntos de ellos se
presentan. Distinguir anlisis de subgrupos que estaban planificados y son
relevantes o de especial inters (biolgicamente plausibles) de los realizados por
otros motivos (decididos post hoc).
Indicar el efecto que tienen las comparaciones mltiples sobre la inflacin del
error tipo 1 (puede haber sido significativa alguna comparacin simplemente
porque se han hecho muchas?). Plantearse hacer formal o informalmente
penalizacin de los valores p (p.ej. tipo Bonferroni o Benjamini-Hochberg) por
comparaciones mltiples
Presentar tests de interaccin para demostrar la heterogeneidad de efectos
Presentar los intervalos de confianza de las medidas del efecto dentro de
subgrupos
Un grfico de bosque (forest plot, semejante al del metanlisis) puede ser til
Aadir notas de cautela, evitar la sobreestimacin, valorar la credibilidad de que
existan efectos especiales en subgrupos particulares, reconocer las limitaciones,
decir si otros estudios han hallado tambin ese efecto especial en el mismo
subgrupo
82
publicado es posible que no se pueda ser capaz de responder con certeza a alguna de
estas 13 preguntas. En tal caso, no se debe aplicar el principio jurdico de presuncin
de inocencia (in dubio pro reo), sino todo lo contrario. Publicarlo mal suele ser
sinnimo de que se ha hecho mal. Est demostrado que cuanto peor es la
presentacin de los resultados de un ensayo en su publicacin, menos vlido es ese
ensayo. Presentar de manera inadecuada el diseo y desarrollo del ensayo, su
anlisis o su interpretacin es seal de que no se fue cuidadoso en su ejecucin.
Por eso, los investigadores que proyecten hacer un ensayo, deben comenzarlo
pensando ya de antemano en cmo harn al final la publicacin de sus resultados.
Esto se ha falicitado porque actualmente, en muchas revistas biomdicas es requisito
para la publicacin de un ensayo clnico el cumplimiento de las Normas Consolidadas
para la Publicacin de Ensayos Clnicos Aleatorizados (CONSORT: CONsolidated
Standards of Reporting Trials1). Estas normas se elaboraron en 1996, se han
actualizado despus en 2001 y 2010 (45). Establecen los aspectos metodolgicos que
deben reflejar las publicaciones de ensayos para poderlos valorar adecuadamente.
Los autores del CONSORT advierten explcitamente para que no se use como listagua para evaluar la calidad de los ensayos clnicos publicados ni para construir con
ellas escalas de calidad2. No obstante, las normas CONSORT han logrado de manera
efectiva que mejore la calidad de los ensayos que se publican. La adopcin de estas
normas por las revistas mdicas ha hecho que se premie a los buenos ensayos y se
castigue a los malos. El castigo consiste en que no les aceptarn la publicacin. En la
tabla 7.7 se muestran los aspectos recogidos por las normas CONSORT que se deben
tener en cuenta al publicar un ensayo clnico.
Despus de las normas CONSORT, que son especficas slo para ensayos
aleatorizados, han surgido iniciativas semejantes para otros diseos. Cada iniciativa
ha buscado un acrnimo para facilitar su memorizacin:
Estudios observacionales: STROBE (The STrengthening the Reporting of
OBservational Studies in Epidemiology. Ann Intern Med. 2007;147:573-7
Estudios de pruebas diagnsticas: STARD (STAndards for Reporting of
Diagnostic accuracy). Ann Intern Med. 2003;138:40-4.
Meta-anlisis: PRISMA (Preferred Reporting Items for Systematic reviews and
Meta-Analyses). Ann Intern Med. 2009;151:264-9,
Todas ellas estn en una red llamada EQUATOR3.
Los aspectos ticos del ensayo clnico deben estar siempre presentes en la
publicacin (46). El consentimiento informado previo a la aleatorizacin y la aprobacin
del comit tico son dos aspectos esenciales que no pueden faltar, sin embargo se ha
constatado su frecuente omisin en los ensayos publicados (47). Sin embargo, existe
otra variedad de temas relevantes como los criterios de seleccin de los pacientes o el
uso del placebo que del mismo modo deben ser conocidos por el lector para la
valoracin del ensayo clnico4.
Otro aspecto importante recomendado en las Normas Consolidadas para la
Publicacin de Ensayos Clnicos Aleatorizados (CONSORT) es que se presenten
diagramas de flujo que muestren el curso que siguieron los participantes en el estudio.
En la figura 7.8 se presenta un ejemplo de diagrama de flujo utilizado en el estudio
experimental de cesacin tabquica realizada en pacientes diabticos de Navarra (48).
1
www.consort-statement.org
Existe un programa CASP (Critical Appraisal Skills Programme) para ayudar a adquirir habilidades para hacer una
lectura crtica y obtener as la evidencia cientfica necesaria para tomar las decisiones. En este programa colabora el
Centre for Evidence-Based Medicine de la Universidad de Oxford. En Espaa existe un grupo CASP (CASPe) que
utiliza la aproximacin CASP a la lectura crtica y que forma parte de una organizacin internacional (CASPi). Se puede
consultar en la siguiente direccin: www.redcaspe.org/.
3
www.equator-network.org
4
La Declaracin de Helsinki es el documento de referencia a nivel internacional sobre los principios ticos que deben
respetarse en la investigacin con seres humanos.
2
83
Seccin
Ttulo y resumen
Introduccin
Antece-dentes
objetivos
Mtodos
2a
2b
3a
Diseo
3a
Participantes
Intervenciones
4a
4b
5
Variable de resultado
6a
6b
Tamao de muestra
7a
7b
Aleatorizacin:mtodo
8a
8b
Aleatorizacin: Oculta
Aleatorizacin:
Desarrollo
Enmascaramiento
10
Mtodos estadsticos
11a
11b
12a
12b
Resultados
Flujo de participantes
(diagrama de flujo
muy recomiendable)
13a
13b
Reclutamiento
Datos basales
14a
14b
15
Nmeros analizados
16a
Descriptor
Identificar el ensayo como aleatorizado en el ttulo
resumen estructurado del diseo, mtodos, resultados y
conclusiones
Antecedentes cientficos y justificacin
Objetivos especficos e hiptesis
Describir diseo del ensayo (paralelo, factorial), incluyendo
razn de asignacin.
Cambios (razonados) en mtodo tras comenzar el ensayo
(p.ej. criterios de elegibilidad).
Criterios de seleccin.
Lugar e instalaciones dnde se recogieron los datos.
Detallar las intervenciones en cada grupo para que sean
reproducibles; cmo y cundo se administraron.
Definir claramente las variables dependientes, primarias y
secundarias, incluyendo cmo y cundo se valoraron.
Cambios (razonados) en las variables de resultado tras
comenzar el ensayo.
Cmo se calcul el tamao muestral.
Cuando sea aplicable, explicar los anlisis intermedios y las
reglas de detencin.
Mtodos utilizados para generar la secuencia de asignacin
aleatoria.
Tipo de aleatorizacin: detalles de restriccin si la hubo (por
bloques, estratificada...).
Mecanismos utilizados para ocultar la secuencia de
aleatorizacin (como contenedores secuenciales numerados),
describir las medidas tomadas para ocultar la secuencia hasta
que se implement la intervencin.
Quin gener la secuencia aleatoria, quin reclut a los
participantes, y quin los asign a sus grupos.
Si se hizo, quien estaba cegado despus de asignar las
intervenciones (p.ej. los participantes, los profesionales
sanitarios, los evaluadores de resultados).
Si es relevante, describir la similitud de las intervenciones.
Mtodos estadsticos utilizados para comparar los grupos en el
resultado principal y resultados secundarios.
Mtodos para anlisis adicionales como anlisis de subgrupos
o anlisis ajustados
Para cada grupo: nmero de personas aleatorizadas, nmero
que recibi la intervencin prevista, y nmero analizado para el
resultado principal. Describir y justificar las variaciones sobre el
protocolo previsto inicialmente
Para cada grupo: prdidas y exclusiones postaleatorizacin
(razonadas)
Fechas que definan reclutamiento y seguimiento
Porqu termin o se detuvo el ensayo
Una tabla mostrando las caractersticas demogrficas y
clnicas basales de cada grupo
Para cada grupo, nmero de participantes (denominador)
incluido en cada anlisis y si el anlisis se hizo segn los
84
Resultados
estimacin
17a
17b
Anlisis auxiliares
18
Efectos adversos
Discusin
Limitaciones
19
Generalizabilidad
21
Interpretacin
22
Otra informacin
Registro
Protocolo
23
24
Financiacin
25
20
Limitaciones
del
ensayo;
potenciales
fuentes
de
sesgos;imprecisin; y, si fuese relevante, multiplicidad de
anlisis
Generalizabilidad (validez externa, aplicabilidad) de los
hallazgos del ensayo
Interpretacin consistente con los resultados, haciendo un
balance de riesgos y beneficios, y considerando otra evidencia
relevante
Nmero de registro y nombre del registro de ensayos
Dnde se puede encontrar el protocolo del ensayo, si est
disponible
Fuentes de financiacin y otros apoyos (tales como suministrar
frmacos), papel que desempe la agencia financiadora
Fuente: (45).
4 8 2 d i a b e t i c p a t ie n ts r e g i s t e r e d a s s m o k e r s
a ll c o n t a c te d b y p h o n e
3 8 p a ti e n ts r e f u s e d t o p a r t ic ip a te ( 8 % )
3 8 p a tie n ts u n a b le to b e c o n ta c t e d ( 8 % )
4 0 6 p a tie n ts a g r e e d to p a r tic ip a te
f a c e - t o - f a c e in t e r v ie w p e r fo r m e d
1 2 6 in e lig ib le p a t ie n ts
2 8 0 e lig i b le p a ti e n ts
2 8 0 p a tie n ts r a n d o m iz e d
240 m en and 40 w om en
C o n tro l g ro u p
1 3 3 p a t ie n ts
6 month follow-up
1 p a t ie n t
d ie d
1 3 2 p a t ie n ts
c o m p le t e d
3 q u it s m o k in g
c o n fir m e d b y
u r in e c o t i n i n e
Fuente: (48).
85
E x p e rim e n ta l g ro u p
1 4 7 p a tie n ts
1 p a t ie n t
l o s t t o f o ll o w - u p
1 4 6 p a t ie n ts
c o m p le t e d
2 5 q u it s m o k in g
c o n fir m e d b y
u r in e c o t i n i n e
VALIDEZ EXTERNA
El objetivo final de muchos ensayos es trasladar sus resultados a la prctica
clnica. Sin embargo, incluso los resultados de ensayos clnicos de gran calidad
metodolgica pueden tener escasa relevancia clnica. Para valorar las consecuencias
que los resultados de un ensayo pueden tener para la clnica se deben tener en cuenta
los siguientes aspectos:
Para valorar la importancia clnica lo que cuenta es la magnitud absoluta del
efecto. Esta magnitud corresponde a la importancia clnica o prctica, no a la
significacin estadstica. Ensayos clnicos con gran tamao muestral pueden
encontrar diferencias estadsticamente significativas pero sin relevancia clnica.
Se deben valorar preferiblemente, estimadores de efectos absolutos y no slo
relativos. Por ejemplo: RAR, NNT, RAE, RAP1. En concreto, la relevancia clnica se
mide por la reduccin absoluta del riesgo y por el nmero necesario que hay que
tratar (NNT) para lograr evitar un evento. El NNT va tomando cada vez mayor
auge.
Hay que dar ms importancia a los intervalos de confianza para medidas de
asociacin e impacto y valorar as la precisin. Los intervalos de confianza muy
anchos (poco precisos) resultan poco informativos al ser compatibles con una
amplia variedad de interpretaciones (49).
En algunos ensayos clnicos se pueden utilizar variables intermedias, como los
marcadores bioqumicos, en lugar de eventos clnicos (cambio en colesterol LDL
en vez de nmero de infartos; infecciones por el virus del papiloma humano, en
vez de cnceres de crvix). Usar LDL o las infecciones por VPH puede disminuir la
duracin del ensayo pero limita su aplicacin en la prctica clnica. La medicina
basada en evidencias exige contar los casos de eventos clnicos duros (se
entiende por duros aquellos que corresponden a un diagnstico clnico indudable).
Se deben tener siempre muy en cuenta la plausibilidad biolgica de la asociacin
encontrada y el resto de criterios generales de causalidad (Bradford Hill) vistos en
el captulo anterior (17).
RAR=reduccin absoluta del riesgo, NNT=nmero necesario para tratar, NNH= nmero necesario para daar,
IAR=incremento absoluto del riesgo, RAE=riesgo atribuible en expuestos, RAP=riesgo atribuible poblacional (ver
captulo 5).
86
REFERENCIAS
(1) Colditz GA, Taylor PR. Prevention trials: their place in how we understand the value of prevention strategies.
Annu Rev Public Health 2010;31:105-20.
(2) Gad SC. Clinical Trials Handbook. N. York: Wiley, 2009.
(3) Stanley K. Design of randomized clinical trials. Circulation 2007;115:1164-9.
(4) Motulsky H. From sample to population. En: Motulsky H. Intuititive Biostatistics, 2 ed. N. York: Oxford University
Press, 2010:17-21.
(5) The Steering Committee of the Physicians' Health Study Research Group. Final report on the aspirin component of
the ongoing Physicians' Health Study. N Engl J Med 1989;321:129-135.
(6) Hennekens CH, Buring JE, Manson JE, et al. Lack of effect of long-term supplementation with beta-carotene on the
incidence of malignant neoplasms and cardiovascular disease. N Engl J Med 1996;334:1145-1149.
(7) Zwarenstein M, Treweek S, Gagnier JJ, et al. Improving the reporting of pragmatic trials: an extension of the
CONSORT statement. BMJ 2008;337:a2390.
(8) Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ 1995;311:485.
(9) Argimn JM. La ausencia de significacin estadstica en un ensayo clnico no significa equivalencia teraputica. Med
Clin (Barc.) 2002;118:701-3.
(10) D'Agostino RB, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues the encounters of
academic consultants in statistics. Stat Med 2003;22:16986.
(11) Mayo NE. Randomised trials and other parallel comparisons of treatment. En: Bailar JC III, Hoaglin DC. Medical
uses of statistics, 3 ed. N. Jersey: John Wiley & Sons, 2009:51-90.
(12) Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and
equivalence randomized trials: an extension of the CONSORT statement. JAMA 2006;295:1152-60. Erratum in:
JAMA 2006;296:1842.
(13) Brookes ST, Whitely E, Egger M, et al. Subgroup analyses in randomized trials: risks of subgroup-specific analyses;
power and sample size for the interaction test. J Clin Epidemiol 2004;57:229-36.
(14) Wang R, Lagakos SW, Ware JH, Hunter DJ, Drazen JM. Statistics in medicine--reporting of subgroup analyses in
clinical trials. N Engl J Med 2007;357:2189-94.
(15) Martnez-Gonzlez MA, Snchez-Villegas M, Fauln Fajardo FJ (eds.). Bioestadstica amigable, 2 ed. Madrid: Daz
de Santos, 2006.
(16) Rodrguez-Artalejo F, Martnez Vizcano V, Conde Herrera M, Domnguez Rojas V, del Rey Calero J. Estudios
experimentales. En: Sierra A, Sanz Gonzlez MC, Fernndez-Crhuet J, et al (eds.). Pidrola Gil, Medicina
Preventiva y Salud Pblica, 11 ed. Barcelona: Masson, 2008;152-60.
(17) De Irala J, Martnez-Gonzlez MA, Segu-Gmez M (eds.). Epidemiologa aplicada, 2 ed. Barcelona: Ariel, 2008.
(18) Bland JM, Altman DG. Regression towards the mean. BMJ 1994;308:1499.
(19) Michels KB, Rothman KJ. Update on unethical use of placebos in randomised trials. Bioethics 2003;17:188-204.
(20) Rothman KJ. Placebo mania. BMJ 1996;313:3-4.
(21) Rothman KJ, Michels KB. The continuing unethical use of placebo controls. N Engl J Med 1994;331:394-8.
(22) Hrbjartsson A. Clinical placebo interventions are unethical, unnecessary, and unprofessional. J Clin Ethics
2008;19:66-9.
(23) Finkelstein JS, Hayes A, Hunzelman JL, et al. The effects of parathyroid hormone, alendronate, or both in men with
osteoporosis. N Engl J Med 2003;349:1216-26.
(24) Black DM, Greenspan SL, Ensrud KE, et al. The effects of parathyroid hormone and alendronate alone or in
combination in postmenopausal osteoporosis. N Engl J Med 2003;349:1207-15.
(25) Fernndez-Jarne E, Martnez-Losa E, Prado-Santamara M, et al. Risk of first non-fatal myocardial infarction
negatively associated with olive oil consumption: a case-control study in Spain. Int J Epidemiol 2002;31:474-80.
(26) Martnez-Gonzlez MA, Garca-Lpez M, Bes-Rastrollo M, et al. Mediterranean diet and the incidence of
cardiovascular disease: A Spanish cohort. Nutr Metab Cardiovasc Dis 2010 Jan 20. [Epub ahead of print]
(27) Buckland G, Gonzlez CA, Agudo A, et al. Adherence to the Mediterranean diet and risk of coronary heart disease in
the Spanish EPIC Cohort Study. Am J Epidemiol 2009;170:1518-29.
(28) Martinez-Gonzalez MA, Bes-Rastrollo M, Serra-Majem L, Lairon D, Estruch R, Trichopoulou A. Mediterranean food
pattern and the primary prevention of chronic disease: recent developments. Nutr Rev 2009;67 Suppl 1:S111-6.
(29) Martnez-Gonzlez MA, Corella D, Salas-Salvad J, et al. Cohort Profile: design and methods of the PREDIMED
study. Int J Epidemiol. 2010 Dec 20. [Epub ahead of print].
(30) Hulley SB, Cummings SR, Browner WS, Grady DG, Newman TB (eds.) Designing Clinical Research, 3 ed.
Baltimore: Lippincott, Williams & Wilkins, 2006.
(31) Jolley D. The glitter of the t table. Lancet 1993;342:27-9.
(32) Puffer S, Torgerson D, Watson J. Evidence for risk of bias in cluster randomised trials: review of recent trials
published in three general medical journals BMJ 2003;327:785-9.
87
(33) Donner A, Klar N. Statistical considerations in the design and analysis of community intervention trials. J Clin
Epidemiol 1996;49:435-9.
(34) Schulz KF, Grimes DA. Blinding in randomised trials: hiding who got what. Lancet 2002;359:696-700.
(35) Moseley JB, O'Malley K, Petersen NJ, et al. A controlled trial of arthroscopic surgery for osteoarthritis of the knee. N
Engl J Med 2002;347(2):81-8.
(36) Ruiz-Canela M, Martnez-Gonzlez MA, de Irala J. Intention to treat analysis is related to methodological quality.
BMJ 2000;320:1007-8.
(37) The Coronary Drug Project Research Group. Influence of adherence to treatment and response of cholesterol on
mortality in the Coronary Drug Project. N Engl J Med. 1980;303:103841.
(38) Schulz KF, Grimes DA. Multiplicity in randomised trials II: subgroup and interim analyses. Lancet 2005;365:1657-61.
(39) Grant AM, Altman DG, Babiker AB, et al. Issues in data monitoring and interim analysis of trials. Health Technol
Assess. 2005;9:1-238.
(40) Bassler D, Briel M, Montori VM, et al. Stopping randomized trials early for benefit and estimation of treatment effects:
systematic review and meta-regression analysis. JAMA 2010;303:1180-7.
(41) O'Brien PC, Fleming TR. A multiple testing procedure for clinical trials. Biometrics 1979;35:549-56.
(42) Writing Group for the Women's Health Initiative Investigators. Risks and benefits of estrogen plus progestin in healthy
postmenopausal women: principal results From the Women's Health Initiative randomized controlled trial. JAMA
2002;288:321-33.
(43) Herson J. Data safety and monitoring committees in clinical trials. Boca Ratn: Chapman and Hall/CRC, 2009.
(44) Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective Publication of antidepressant trials and its
influence on apparent efficacy. N Engl J Med 2008;358:252-60.
(45) Schulz KF, Altman DG, Moher D, for the CONSORT Group. CONSORT 2010 Statement: Updated Guidelines for
Reporting Parallel Group Randomized Trials. Ann Intern Med. 2010;152:726-32.
(46) Ruiz-Canela M, de Irala J, Martnez-Gonzlez MA, Gmez-Gracia E, Fernndez-Crehuet J. Methodological quality
and reporting of ethical requirements in clinical trials. J Med Ethics 2001;27:172-6.
(47) Ruiz-Canela M, Martnez-Gonzlez MA, Gmez-Gracia E, Fernndez-Crehuet J. Informed consent and approval by
institutional review boards in published reports on clinical trials. N Engl J Med 1999;340:1114-5.
(48) Canga N, de Irala J, Vara E, Duaso MJ, Ferrer A, Martnez-Gonzlez MA. Intervention study for smoking cessation in
diabetic patients: a randomized controlled trial in both clinical and primary care settings. Diabetes Care
2000;23:1455-60.
(49) Martnez-Gonzlez MA, Segu-Gmez M, Delgado-Rodrguez M. Como mejorar los intervalos de confianza? Med
Clin (Barc) 2010;135:30-4.
88