Diseño de un estudio de pruebas diagnósticas con Gold Standard

En buena medida, la estructura de un estudio de pruebas diagnósticas clásico es la siguiente:

  1. Se selecciona la prueba que se desea evaluar, especificándola lo más posible, de modo que uno sepa bajo qué condiciones se aplicó (tipo de equipo, técnica utilizada, criterios de positividad, etc.) y cualquier interesado pueda reproducirla si lo desea.

  2. Se identifica un método diagnóstico, o varios de ellos que en conjunto representen la mejor forma de establecer el diagnóstico real del paciente, al que llamaremos “prueba o patrón de oro (EO) [gold standard]” o “estándar de referencia”, contra el cual vamos a comparar la prueba que deseamos evaluar. Por ejemplo:

Los resultados de la cirugía + la anatomía patológica + seguimiento clínico (EO), respecto de un examen de imágenes no invasivo (por ejemplo, la ecografía para el diagnóstico de apendicitis aguda).

Los resultados de la tomografía axial computarizada (EO), respecto de la radiografía simple de cráneo, para predecir lesión intracraneana en un paciente con trauma encéfalo craneano.

Una prueba de laboratorio de alta sensibilidad pero más compleja y de alto costo (EO), respecto de un test rápido que puede realizarse mediante tiras reactivas.

  1. Se aplica la prueba sobre un grupo amplio de pacientes, que sea lo más representativo posible de todo el espectro de casos (mezcla de casos o case mix) sobre los cuales se aplicaría el nuevo test en la práctica. Por ejemplo, si la prueba pretende diagnosticar un cáncer en fases incipientes, habrá que aplicarla en pacientes con distintos niveles de riesgo de presentar ese cáncer y sin evidencias clínicas de él. Si se aplica sólo en pacientes de muy alto riesgo o con cáncer clínicamente evidente, lo más probable es que en el estudio la prueba parezca ser muy sensible y después cuando se aplique en la práctica, la sensibilidad real termine siendo ostensiblemente más baja.

Habitualmente tanto la prueba como el patrón de referencia se aplican transversalmente, es decir dentro de un período de tiempo acotado, sobre una muestra consecutiva de sujetos que se presentan con elementos que hacen sospechar la enfermedad, sin exclusiones arbitrarias. Se asume que una muestra consecutiva es la más representativa de la población en quien se aplicaría la prueba en el contexto real.

Cabe señalar que la terminología para referirse a este tipo de diseño no es homogénea; por ejemplo, cuando la secuencia en la que se realizan las pruebas sobre la serie es tal que los sujetos primero son sometidos a la prueba índice y después al patrón de referencia, algunos autores hablan de “cohorte diagnóstica” (por la idea de seguimiento, desde el primer test hasta el segundo). Y hay otros que, cuando el patrón es complementado con el seguimiento clínico de los pacientes, se refieren al estudio como un corte transversal “extendido”.

En general estos estudios se plantean de manera prospectiva, pero también es frecuente observar diseños restrospectivos o bidireccionales. Como siempre, el uso de métodos retrospectivos de recolección de datos agrega un potencial de error, sometiendo al investigador a la calidad y disponibilidad de los datos existentes.

  1. Se somete al patrón de oro a todos los pacientes a los que se aplicó la prueba, de manera de estar seguro que los pacientes que resultaron negativos en la prueba no tenían realmente un diagnóstico positivo y al revés, que los que resultaron positivos no eran en realidad falsos positivos.

Esto no siempre se cumple; muchas veces los pacientes que resultan negativos en la prueba no son sometidos al patrón de oro. Suponga que se desea evaluar la utilidad de la Rx de cráneo en pacientes con trauma encéfalo craneano (TEC) leve y su patrón de oro es la tomografía axial computarizada (TAC). En teoría, lo correcto sería someter a todos los pacientes a ambos exámenes, sin embargo pudiera ocurrir que los pacientes con Rx normal y asintomáticos después de haberse realizado la radiografía, no sean finalmente enviados a TAC por el costo que implica esta última y el bajo riesgo de lesión intracraneana que poseen. Si así ocurre, es posible que algunos de esos pacientes sí posean una lesión intracraneana que no fue detectada por el hecho de no haberles realizado el segundo examen (aunque esa lesión no sea clínicamente importante).

Otra condición para asegurar la validez de los resultados es que el patrón de oro sea aplicado por un investigador independiente de quien aplicó la prueba y que además esté ciego a sus resultados, de forma que al interpretar el patrón de oro no se vea influenciado por ella. En nuestro ejemplo, quien interpreta la TAC no debiera conocer los resultados de la Rx.

  1. Una vez registrados los resultados de ambas pruebas, la que deseamos evaluar y el patrón de oro (que representa en teoría “el verdadero diagnóstico”), lo que sigue es el análisis de los datos. Para ese efecto, se construye una tabla de 2x2 o “tabla de contingencia”, en la forma que se indica a continuación:

[CENTER]

[/CENTER]

Utilicemos ahora un ejemplo ficticio para ilustrar la forma de calcular los indicadores de resultado básicos de todo estudio de pruebas diagnósticas: sensibilidad, especificidad y valores predictivos. La prueba es la ecografía abdominal y el patrón de oro son: los resultados de la cirugía y la biopsia en los pacientes operados, y el seguimiento en aquéllos que no fueron intervenidos inicialmente (puede ser que algunos de los pacientes terminen siendo operados gracias al seguimiento, y en ellos el resultado final estará dado igualmente por los resultados de la cirugía y la biopsia; si no son intervenidos y evolucionan favorablemente, se puede asumir que no tenían apendicitis).

[CENTER]
[/CENTER]

Hoy día Internet nos ofrece calculadoras online que permiten hacer estos análisis en forma automática, o un celular :slight_smile: