]> ANÁLISIS INCORRECTO DE ESTUDIOS CASO-CONTROL CON EMPAREJAMIENTO
Sociedad Andaluza de Enfermedades Infecciosas
Logo de la Sociedad Andaluza de Enfermedades Infecciosas

ANÁLISIS INCORRECTO DE ESTUDIOS CASO-CONTROL CON EMPAREJAMIENTO

(Esta página puede tener requerimientos especiales para su visualización)

Este tipo de estudio caso-control sigue un diseño por el que un grupo de pacientes (casos) con una determinada enfermedad o condición (el efecto) es comparado con otro grupo de pacientes (controles) que no poseen dicha condición o enfermedad, con la finalidad de determinar qué factores (las causas o factores de riesgo) son los que influyen en el desarrollo la citada condición. Para ello, se recoge la información de todos los casos disponibles y uno o más controles para cada caso (formando grupos/parejas, también llamados sets), según unos criterios de emparejamiento (matching) que deben ser establecidos a priori por el investigador. Estos criterios de selección deben ser tales que hagan que cada control sea tan similar a su correspondiente caso que difiera tan sólo en la presencia de la condición estudiada. De esta manera las únicas diferencias que quedan distribuidas al azar y en las que pueden coincidir o diferenciarse los casos y sus respectivos controles son los factores de riesgo que se van a analizar.

Un ejemplo de lo comentado anteriormente puede ser el estudio Case-control study of risk factors for the development of enterococcal bacteremia (Eur J Clin Microbiol Infect Dis. 2001 Feb;20(2):83-90). Para el mismo se seleccionaron 122 parejas (emparejamiento 1:1) de pacientes hospitalizados con bacteriemia enterocócica (casos) y pacientes febriles sin bacteriemia (controles), emparejados estrictamente por la fecha de los hemocultivos, la edad, sexo y área de hospitalización, factores que de esa forma dejaban de ser factores de confusión para el análisis.

El tamaño muestral, el tipo de emparejamiento - 1 control por cada caso (1:1) o más de un control por caso (1:M) -, el tipo y número de variables por las que se emparejan casos y controles y las estrategias selección de controles son temas que no van a formar parte de esta nota.

A la hora de diseñar el análisis de los datos correspondientes a un estudio caso-control como el que nos ocupa es de suma importancia el tener en cuenta el emparejamiento que el propio diseño del estudio ha impuesto. El resultado de no hacerlo así es considerar la muestra como una mezcla de pacientes independientes entre sí, supuestamente seleccionados aleatoriamente o representativos de toda la población potencialmente elegible para el estudio, sin considerar el hecho de que cada uno de los pacientes-control fue seleccionado cumpliendo determinados criterios respecto a su correspondiente paciente-caso, y por lo tanto, dejando así sin seleccionar otros pacientes potencialmente incluibles en el estudio.

También lo podemos analizar desde el punto de vista opuesto. Esta metodología de inclusión de pacientes en el estudio, que es la correcta en un diseño caso-control con emparejamiento es, al traspasarla a un estudio de cohortes, un error gravísimo: estaríamos provocando intencionadamente el llamado sesgo de selección. Por tanto, al analizar los datos del estudio caso-control a la manera que lo haríamos para un estudio cohortes (sin tener en cuenta el emparejamiento), estaríamos llegando a conclusiones erróneas, ya fuera con respecto a la existencia o no de relación entre las variables consideradas, o bien, de existir dicha relación, en la fuerza de la misma.

Pongamos un ejemplo de lo anterior. La siguiente información forma parte de un estudio acerca de la toma de anticonceptivos orales entre mujeres con (183) y sin (183) cáncer endometrial, y su objetivo es analizar la posible influencia de estos medicamentos en el desarrollo de la citada neoplasia (Tabla 1, tomado de Case-control studies, Schlesselman 1982):

 
Tabla 1
  Cáncer No cáncer  
Toma ACO 55 19 74
No toma ACO 128 164 292
 

183

183

366

 

Se trata de una tabla de 2x2 en la que mediante una prueba   χ 2   se llega a la conclusión de que las proporciones de toma de ACO encontradas en la primera (30%) y segunda columna (10.4%) no son homogéneas. De los datos presentados puede estimarse una odss ratio de 3.71, derivada de la siguiente fórmula:

OR = 55 × 164 128 × 19 = 3.71 ,   p < 0.001

Sin embargo, si se tiene en cuenta el emparejamiento entre casos y controles la conclusión resulta ser mucho más rotunda (Tabla 2):

Tabla 2

Controles

 

Toma ACO

No toma ACO

Casos

Toma ACO

12

43

55

No toma ACO

7

121

128

 

19

164

183

La relación causa-efecto resulta fortalecida, encontrándose una OR de 6.14, en vez de 3.71.

OR = 43 7 = 6.14 ,   p < 0.001

Para este análisis se ha tenido en cuenta únicamente la información de interés: la información sobre disparidad entre parejas (celdas en color azul y rojo). Y es que la igualdad entre parejas no aporta información útil. Como vemos, el no tener en cuenta el emparejamiento dentro de cada set (en este caso pareja), implica infravalorar la relación del factor con la condición de caso o control, tendiendo la OR hacia la unidad (6.14 -> 3.71).

A este resultado podemos llegar de dos formas posibles (se incluye código para SPSS):

Este segundo planteamiento es el que también seguiremos en el caso de diseñar un estudio con varios controles por caso (1:M).

Respecto a las variables cuantitativas, en el estudio caso-control deberían ser analizadas mediante una prueba de Wilcoxon (si es un emparejamiento 1:1), y no mediante una prueba t-Student o U-Mann-Whitney. Si el emparejamiento es 1:M, es recomendable el uso de la regresión logística condicional, usada en este caso como prueba univariada, es decir, con la inclusión de una única variable en el modelo (The analysis of case-control studies, Breslow & Day, 1980).

A la hora de realizar el análisis multivariado el planteamiento debe ser exactamente el mismo que con el análisis univariado. En este caso existe en la literatura médica una importante tendencia a no considerar el emparejamiento de los pacientes. Y así, se suele realizar una regresión logística binaria incondicional en vez de una regresión logística binaria condicional.

Como decía anteriormente, la literatura médica está repleta de ejemplos de este error. A veces incluso, se afirma que se realiza el análisis correcto no siendo conscientes de que el software empleado no lo realiza de forma expresa. Es el caso del frecuentemente usado paquete SPSS, que en su módulo de regresión logística binaria incluye como método de selección de variables los algoritmos condicionales hacia adelante y hacia atrás, induciendo a error al no experto en el uso de este programa. Esta realidad viene dada en parte por el desconocimiento de los autores de la técnica que debe realizarse, y en parte por la no disponibilidad de software asequible para su realización.

Como orientación, se puede decir que R (función clogit del paquete survival), BMDP (módulo LR) y SAS (función CLOGIT) contienen módulos específicos que realizan dicho análisis, mientras que SPSS puede realizar dicho análisis mediante una transformación de los datos y el uso del algoritmo para el análisis de supervivencia de la regresión de Cox.

Si bien en ambos casos se trata de regresiones logísticas binarias, la probabilidad de ocurrencia del desenlace analizado (ser caso, tener la enfermedad), es planteada de formas muy diferentes. Sin intención de asustar al lector poco avezado, sino a modo de ilustración de lo dicho anteriormente, estas probabilidades de ocurrencia del factor analizado son como vemos a continuación (Tabla 3, tomado de Schlesselman, 1982, y Breslow & Day, 1980):

Tabla 3

Probabilidad incondicional

p j ( y = 1 X j ) = e z ( 1 + e z )         z = k = 1 vars + 1 β k &InvisibleTimes; x jk

Probabilidad condicional (1:1)

p ( y = 1 ∣X ) = i = 1 sets 1 1 + e z         z = k = 1 vars β k &InvisibleTimes; ( x i 1 k x i 0 k )

Probabilidad condicional (1:M)

p ( y = 1 ∣X ) = i = 1 sets 1 1 + j = 1 controles e z         z = k = 1 vars β k &InvisibleTimes; ( x ijk x i 0 k )

 

La pregunta que podríamos hacernos ahora es en cuánto erramos si no seguimos la metodología correcta. La importancia de no realizar un análisis condicional depende de la odds ratio real (la que queremos estimar con nuestra muestra), el número de casos y controles elegidos para cada set y la frecuencia con que se presenta el factor estudiado entre los controles. A excepción de los diseños 1:1, el sesgo está poco influenciado por la prevalencia del factor en los controles y la odds ratio real, pero se reduce espectacularmente al incrementar el número de controles o el número de casos para cada set. Así, se estima que para una odds ratio real de 2, fijados los restantes parámetros citados, la odds ratio media estimada por el análisis incondicional será de 4 si se trata de un diseño 1:1 y 2.19 si es un diseño 1:10; y una odds ratio real de 10 será estimada en 100 por un análisis incondicional en el caso de un diseño 1:1, y en 16.16 en el diseño 1:10 (Breslow & Day 1980).

Un ejemplo de lo dicho hasta ahora: Se analizó la presencia de bajo peso en los recién nacidos de 56 parejas de mujeres (con y sin hijos con bajo peso) emparejadas por la edad, en relación con la presencia o no de hipertensión (HT), irritabilidad uterina (UI), ganancia de peso desde la última regla (LASTWT), la raza (RACE), el tabaquismo (SMOKE), y partos pretérminos previos (PTD) (Applied Logistic Regresión, Hosmer & Lemeshow, 2000). El análisis incondicional nos daría los siguientes resultados (Tabla 4):

Tabla 4
 

B

E.T.

Wald

gl

Sig.

Exp(B)

LASTWT

-0.017

0.008

4.268

1

0.039

0.983

RACE    

1.368

2

0.505

 
RACE(1)

0.714

0.613

1.357

1

0.244

2.043

RACE(2)

0.368

0.591

0.388

1

0.534

1.444

SMOKE(1)

1.222

0.526

5.387

1

0.020

3.393

PTD(1)

0.992

0.537

3.409

1

0.065

2.696

HT(1)

1.776

0.852

4.340

1

0.037

5.904

UI(1)

1.108

0.587

3.565

1

0.059

3.028

Constante

0.794

1.182

0.451

1

0.502

2.212

 
Mientras que el análisis condicional nos daría estos otros resultados:
Tabla 5
 

B

ET

Wald

gl

Sig.

Exp(B)

LASTWT

-0.018

0.010

3.323

1

0.068

0.982

RACE    

0.881

2

0.644

 
RACE(1)

0.571

0.690

0.686

1

0.407

1.771

RACE(2)

-0.025

0.699

0.001

1

0.971

0.975

SMOKE

1.401

0.628

4.977

1

0.026

4.058

PTD

1.808

0.789

5.256

1

0.022

6.098

HT

2.361

1.086

4.726

1

0.030

10.603

UI

1.402

0.696

4.055

1

0.044

4.063

Fijémonos en las significaciones y en las OR. Las diferencias en los resultados (en negrita en la Tabla 5) son claras, y llaman poderosamente la atención sobre la necesidad de un enfoque apropiado para el análisis.

Veamos cómo podemos realizar este análisis con las herramientas más comunes.

En R:

Método para realizar regresión logística condicional en R

donde Y representa el campo que identifica el estado de caso o control, X1 representa la forma de indicar variables cualitativas, X2 la forma de representar las cuantitativas, "pareja" el campo identificador de cada pareja, y "datos" la base de datos.

En SAS:

1. Emparejamiento 1:1:

proc mdc data = lbwt11;
model lbwt = lastwt smoke race2 race3 ptd ht ui / type = clogit
nchoice = 2;
id pairid;
run;

2. Emparejamiento 1:M:

proc mdc data = in.bbdm13;
model fndx = chk agmn wt mod wid nvmr / type = clogit nchoice = 4;
id str;
run;

Cualquier paquete de software que incluya regresión de Cox estratificada podría ser usado para realizar regresión logística condicional binaria si el emparejamiento es 1:1. Para ello tenemos que disponer de un campo que identifique el estado de caso(1)/control(0), una variable ficticia tiempo que identifique también el estado caso(1)/control(2), una variable de estratificación que identifique cada pareja y una o varias variables que se desee que sean evaluadas. Esto es así porque el algoritmo usualmente empleado para el análisis de supervivencia se iguala al de la regresión logística binaria condicional para diseños 1:1 cuando se modela de la citada forma. En el caso concreto de SPSS, el código necesario para preparar los datos y analizarlos con posterioridad sería el que sigue:

RECODE
   lbwt
   (0=2) (1=1) INTO t .
EXECUTE .

COXREG t /STATUS=lbwt(1) /STRATA=pairid
   /CONTRAST (race)=Indicator(1) /CONTRAST (smoke)=Indicator(1) /CONTRAST (ptd)=Indicator(1)
   /CONTRAST (ht)=Indicator(1) /CONTRAST (ui)=Indicator(1)
   /METHOD=ENTER lastwt race smoke ptd ht ui
   /PRINT=CI(95) CORR SUMMARY
   /CRITERIA=PIN(.05) POUT(.10) ITERATE(20) .

Ficha bibliográfica

Título:
Análisis incorrecto de estudios caso-control con emparejamiento
Dirección:
http://saei.org/hemero/epidemiol/nota1.asp
Descripción:
Descripción del alcance y repercusiones de analizar muestras pareadas sin tener en cuenta el emparejamiento, como si se tratara de una muestra en la que cada sujeto no tuviera ninguna relación con los restantes sujetos. Se aborda tanto el análisis univariado como el multivariado y se aportan ejemplos.
Palabras clave:
emparejamiento; estudios caso-control; análisis univariado; análisis multivariado; regresión logística
Autor:
Fco. Javier Caballero Granado. Hospital Punta de Europa. Algeciras, Cádiz. España.
Editor:
Sociedad Andaluza de Enfermedades Infecciosas
Derechos:
Sociedad Andaluza de Enfermedades Infecciosas
Publicado:
2006-01-23
Modificado:
2008-04-21
Forma parte de:
Notas sobre epidemiología y estadística
Metadatos RDF asociados a esta página
Metadatos DublinCore insertados en esta página

 
 Usted es el visitante 
 Usuarios activos 
 

Accesibilidad
Certificados
 
 Requerimientos
 
Avisos legales: Uso, privacidad y seguridad
Última actualización: 21/04/08