

A diferencia con el modelo lineal, el modelo de regresión logística no asume linealidad en la relación entre una covariable y la variable dependiente, pero sí respecto al logit de la odds de la variable dependiente (tal como veíamos en la Figura 3 de la Parte I). Si no se cumpliera esta asunción la relación entre covariable y variable dependiente estaría infraestimada, pudiendo llegar a concluirse que no existe dicha relación cuando realmente sí la hay. Los diferentes tipos de relación que pueden detectarse entre variable dependiente y covariable los vemos en la siguiente figura (Figura 4):

Figura 4
Existen técnicas para comprobar si alguna de las covariables cuantitativas viola esta asunción de linealidad respecto al logit. Utilizaremos el siguiente modelo para seguir las explicaciones:

Figura 5




Una vez que logramos nuestro modelo final pasamos a analizar cómo de bueno es su ajuste a los datos de los que disponemos (bondad de ajuste del modelo). Se entiende que dicho modelo tiene, por el método que hayamos elegido (la selección de variables fue introducida en la Parte I y continuará explicándose más adelante en este documento), todas las covariables e interacciones que creemos que deben estar presentes en el modelo, que se han resuelto problemas por estimaciones poco creíbles (si las había), y se ha comprobado la ausencia de multicolinealidad.
Para entender este apartado hay que considerar nuestros datos de n sujetos como una tabla con los valores de Y, y los valores de X (x1, … , xp) correspondientes a p covariables. Es posible imaginarse que los sujetos de la muestra puedan agruparse según unos mismos valores para las p covariables, formando m patrones de covariables. Y para cada uno de estos patrones de covariables (Xj), los sujetos integrantes tendrían su correspondiente valor de Y, y una P(Y=1|X) media. Cuando las covariables sean todas cualitativas será fácil que se pueda formar un número reducido de patrones de covariables, siendo m mucho menor que n, y diciéndose así que la distribución de los patrones de covariables sigue una distribución m-asintótica; por el contrario, la presencia de al menos una covariable cuantitativa continua hará que haya tantos posibles patrones de covariables como sujetos (m tiende a ser igual a n), diciéndose entonces que dichos patrones de covariables siguen una distribución n-asintótica. Pues bien, en general el ajuste del modelo va a depender de la probabilidad predicha para los m patrones de covariables, y no para los n sujetos de nuestra muestra.
Los pasos a seguir para analizar la bondad de ajuste del modelo deben ser:
Estas medidas nos permiten tener una idea global sobre el ajuste del modelo, pero no nos permiten comprobar la presencia de valores extremos y de su influencia en el modelo desarrollado.
Devianza del modelo. Es una medida del grado de diferencia entre las frecuencias observadas y predichas por el modelo de la variable dependiente, de forma que a mayor devianza, peor es el modelo. Su cálculo es -2 veces el logaritmo neperiano de la verosimilitud del modelo. La devianza nos puede orientar durante la etapa de selección del modelo final. Idealmente el modelo final, el mejor modelo, debería tener la menor devianza de los modelos analizados.
Razón de verosimilitud. El estadístico que se usa es G, que es -2 veces el logaritmo neperiano del cociente entre la verosimilitud del modelo con el conjunto de p covariables introducidas en el mismo y la del modelo sólo con la constante (o más fácil la diferencia entre las devianzas del modelo saturado y el modelo sólo con la constante). Este estadístico sigue una distribución χ2 con p grados de libertad. Si este estadístico alcanza significación estadística indica un buen ajuste, quiere decir que uno o más de los coeficientes de las covariables introducidas en el modelo es distinto de 0. SPSS® ofrece este estadístico con el término "χ2 del modelo" (frente a "χ2 de mejora " que en SPSS® indica la razón de verosimilitud por la introducción de una covariable).
χ2 residual de Pearson y devianza de residuos: Se trata de dos pruebas basadas en los residuos de nuestro modelo (se verá más adelante el concepto de residuo), que siguen una distribución χ2 con m-(p+1) grados de libertad. La ausencia de significación indica que el ajuste del modelo es bueno. No son aportadas por SPSS®.
Ambos estadísticos asumen que las celdas de las tablas de contingencia formadas por todas las covariables cualitativas no tienen frecuencias 0 y en no más del 20% de ellas las frecuencias esperadas son menores de 5. Esta asunción debe haberse asegurado en el análisis univariado previo.
Prueba de Hosmer-Lemeshow: Cuando los patrones de covariables siguen una distribución n-asintótica, la χ2 residual de Pearson y la devianza de resíduos no se ajustan bien a una distribución χ2. Por ello en general será más apropiada la prueba de Hosmer-Lemeshow, que agrupa los n sujetos en m patrones según criterios estadísticos. En concreto los sujetos se agrupan según los 9 deciles de las probabilidades esperadas; a partir de aquí puede construirse una tabla de contingencia de 10 x 2 de la que puede construirse un estadístico que seguirá una distribución χ2 con 8 grados de libertad. La ausencia de significación indica un buen ajuste del modelo.
Es conveniente comprobar la tabla de contingencia de la que deriva el estadístico; la presencia de celdas con frecuencias esperadas menores de 5 aconseja colapsar filas para eliminar estas celdas de baja frecuencia esperada; esto implicaría además reducir proporcionalmente los grados de libertad de la χ2 empleada (1 por fila eliminada) y recalcular el estadístico.
Tablas de clasificación: La ecuación del modelo ya diseñado nos proporciona una probabilidad P(Y=1|X), lo que nos permite predecir a partir de ella para cada sujeto un valor de y (Ypred), tal que si P(Y=1|X)≤0.5 entonces Ypred=0, y si P(Y=1|X)>0.5 entonces Ypred=1. Estos valores predichos de Y pueden enfrentarse a los valores reales de Y (Yobs) de la muestra, obteniendo una tabla de 2x2 de la que es posible determinar la tasa global de clasificaciones correctas, la sensibilidad, la especificidad, el valor predictivo positivo, el valor predictivo negativo y el llamado índice de Youden (sensibilidad + especificidad - 1); mayores valores del índice de Youden denotarán una mejor capacidad predictiva.
Sin embargo, las tablas de clasificación y sus correspondientes índices son malos parámetros para comparar distintos modelos, pues sensibilidad y especificidad dependen, no del ajuste del modelo, sino de la distribución de probabilidades de la muestra sobre la que se calculan.
Otra forma de medir la asociación entre Ypred e Yobs es mediante índices de correlación por rangos (Tau-a de Kendall, D de Sommers y gamma de Goodman-Kruskal).
Área bajo la curva ROC: Una curva ROC enfrenta en un sistema de ejes la sensibilidad (en el eje y), al complementario de la especificidad (en el eje x). El procedimiento consiste en determinar las correspondientes tablas de clasificación de puntos de corte de P(Y=1|X) crecientes (0.1, 0.2, … , 0.8, 0.9, 1), y determinar a partir de ellas las correspondientes sensibilidades y especificidades.
Si estuviésemos interesados en el punto de corte óptimo para predecir Y, es decir, el punto de corte que ofreciera mayor sensibilidad y especificidad, recurriríamos al análisis gráfico de la curva, seleccionando como punto de corte aquél que correspondiera con el punto de inflexión de la curva ROC. Otra forma sería analizar una gráfica en la que se representaran para cada punto de corte (en el eje x) su sensibilidad y especificidad (en el eje y); el punto de corte óptimo coincidiría con aquél en el que se cruzaran las dos curvas.
Diferentes modelos nos ofrecerán diferentes curvas ROC. La comparación entre modelos respecto a la capacidad predictiva de los mismos puede hacerse comparando la forma de las curvas y el área bajo las mismas; las mejores curvas serán aquellas con área más próxima a la unidad. Como regla general, un área de 0.5 implica ausencia de discriminación; entre 0.7 y 0.79 es una discriminación aceptable; entre 0.8 y 0.89 es excelente; 0.9 ó superior es una discriminación excepcional.
El área bajo la curva suele estar implementada en los paquetes estadísticos más usados, pero es fácil de calcular de la siguiente forma:
Ecuación 10
donde UMW es el estadístico U de Mann-Whitney y n0 y n1 son el número de sujetos con y=0 e y=1.
Es interesante resaltar que un modelo puede tener una mala bondad de ajuste dada por los estadísticos vistos anteriormente, pero tener una buena capacidad de discriminación. Y viceversa, modelos con una buena bondad de ajuste pueden ser malos predictores.
Se trata de detectar observaciones que potencialmente puedan ocasionar un impacto importante en el modelo por ser atípicos o demasiado influyentes (outliers), de forma que las estimaciones del modelo se encuentren desviadas. El interés por detectar estas observaciones consiste en el impacto en sí en el modelo y también en que pueden corresponder a errores de introducción de datos o a casos extremos que puedan ser de interés para su estudio individualizado. Cuando detectemos valores/sujetos extremos debríamos eliminarlos temporalmente y recalcular el modelo final sin ellos, con lo que obtendríamos un ajuste más adecuado y estimaciones más correctas de los coeficientes de regresión.
Medida de influencia (o leverage, estadístico h): Es una medida de cómo valores individuales pueden potencialmente afectar los resultados del modelo. Representa, para cada sujeto de la muestra, la distancia del valor conjunto de las covariables para dicho sujeto respecto al valor medio de dichas covariables en el conjunto de todos los sujetos de la muestra. Valores elevados de h pueden significar un distanciamiento respecto de la media esperada de P(Y=1) para un determinado patrón de covariables. El valor de h para cada sujeto debe ser comparado con el h medio. No todos los paquetes estadísticos realizan igual el cálculo de h, de forma que mientras unos tienen en cuenta el agrupamiento en patrones de covariables (Stata®), otros no lo hacen (SAS®, SPSS®), lo que tendremos que tener en cuenta a la hora de interpretar los resultados (el valor dado será h/m, siendo m el número de sujetos en el patrón de covariables). En cualquier caso, un valor mayor de 2 x p/n en SPSS (siendo p el número de covariables y n el tamaño muestral), se considera de elevada influencia.
Sin embargo, una representación de la influencia respecto a la probabilidad estimada nos permite ver que se trata siempre de una curva con forma de M, tal que valores de probabilidad estimada por debajo de 0.1 o por encima de 0.9 es esperable que tengan siempre valores de influencia tendentes a 0. Esto quiere decir que, en la práctica, sólo los valores de influencia correspondientes a probabilidades estimadas entre 0.1 y 0.9 pueden darnos una idea de distanciamiento o influencia. SPSS nos permite guardar los valores de h.
Medida del efecto de eliminar determinados patrones de covariables (o sujetos de la muestra): Se valora por el incremento (positivo o negativo), de determinados estadísticos o estimaciones (χ2 residual de Pearson, la devianza residual, coeficientes de regresión estandarizados), como consecuencia de la eliminación de un patrón de covariables (o de un sujeto de la muestra). Nos permiten detectar patrones de covariables (o sujetos) pobremente ajustados por el modelo (valores grandes de Δχ2 y/o ΔD), o con gran influencia sobre las estimaciones de los coeficientes (Δβ).
SPSS ofrece una distancia de Cook (normalmente aplicada a la regresión lineal múltiple), adaptada a la regresión logística (conceptualmente similar a Δβ). Sin embargo no ofrece ni la devianza residual ni la χ2 residual de Pearson. Si que queremos sus valores tendremos que calcularlos a partir de los residuos correspondientes; pero tenemos que tener en cuenta que SPSS también aquí nos ofrece unos residuos en los que no se tienen en cuanta patrones de covarianza, lo que implica que, por ejemplo en el caso de los residuos de Pearson (en SPSS residuo normalizado), si y=0 el valor ofrecido será inversamente proporcional a m, el número de sujetos que pertenecen a dicho patrón (el valor real saldría de multiplicarlo por -sqrt(m)), y si y=1 nos ofrecerá un valor directamente proporcional al número de sujetos que pertenecen a dicho patrón (el valor real saldría de multiplicarlo por el resultado del cociente (1 - m · Pest )/((1 - Pest) · sqrt(m))). Este problema sólo será realmente serio y nos obligará a realizar manualmente los correspondientes residuales cuando el número de patrones de coavariables es muy inferior al tamaño muestral.
Δβ o distancias de Cook superiores a 1, así como Δχ2 o ΔD superiores a 3.84 (p<0.05 para una χ2 con 1 grado de libertad), indican importante influencia.
Δχ2 suele proporcional valores mayores que ΔD, permitiendo visualizar mejor los sujetos con gran influencia. Por otra parte, al igual que ocurre con h, los valores de Δχ2, ΔD e Δβ es esperable a priori que tomen valores diferentes según la Pest(y=1|X) para cada sujeto, de la siguiente forma:
Δβ y h presentan distribuciones con forma de M, con la zona central más o menos marcada, mientras que, según las circunstancias, la distribución de Δχ2 puede tener forma de U, de M o de U invertida. Por este motivo es importante considerar tanto el dato analítico (el valor del estadístico que empleemos), como el patrón gráfico, y comparar varios gráficos entre sí. Hosmer y Lemeshow recomiendan examinar, siempre que se pueda, los siguientes gráficos:
Una tabla similar a la siguiente podría ser de ayuda:
| Variable | Todos | Patrón de covariables eliminado | |||||
|---|---|---|---|---|---|---|---|
| - P1 | - P2 | - Ptodos | |||||
| Constante | β0 | dato | Δβ0 | dato | Δβ0 | Δβ0 | |
| ... | ... | ... | ... | ... | ... | ... | |
| Edad | βj | dato | Δβj | dato | Δβj | Δβj | |
| yobs | — | dato | dato | — | |||
| Pest(y=1|X) | — | estimación | estimación | — | |||
| yest | — | estimación | estimación | — | |||
| Δβ | — | estimación | estimación | — | |||
| Δχ2 | — | estimación | estimación | — | |||
| ΔD | — | estimación | estimación | — | |||
| h | — | estimación | estimación | — | |||
| Modelo | D | estimación | estimación | estimación | estimación | ||
| χ2 | estimación | estimación | estimación | estimación | |||
Podemos valorar de esta forma qué ocurre al eliminar unos patrones de variables concretos (-P1 y -P2), en comparación con la no eliminación de ningún patrón ("Todos"), y la eliminación de ambos patrones a la vez (-Ptodos). Podemos comprobar por qué pueden ser considerados sujetos atípicos (vemos el dato tabulado), como repercute porcentualmente la eliminación en cada uno de los coeficiente de regresión, observar si es igual o contraria la clasificación del sujeto (yobs frente a yest según el valor de Pest).
Análisis de residuos: Se denominan residuos brutos a las diferencias entre el dato observado de la variable dependiente y su valor predicho para cada sujeto. A partir de este valor, podemos obtener diferentes valores según determinadas transformaciones que ayudan mejor o peor a localizar valores extremos. Así tenemos:
También contamos con los residuos de la devianza.
Para analizar los residuos estandarizados debemos conocer su media, mediana, desviación típica, asimetría curtosis, etc, lo que nos permitirá conocer la distribución de los mismos. Al igual que en el apartado anterior, interesa realizar tanto una valoración analítica como gráfica. Gráficamente podemos hacer:


Sugiero al lector que refresque todo lo referente a la introducción sobre la selección de variables del modelo. Fundamentalmente quiero recordar que no hay modelos perfectos, ya que cada modelo diseñado es una descripción particular de la realidad, y al menos en teoría, podríamos tener más de un modelo con verosimilitudes, ajuste y capacidad predictiva adecuadas. Siempre debe guiarnos el sentido común, siendo el mejor modelo el que, a juicio del investigador, mejor describe o explica el problema que se investiga. Dicho esto, y teniendo presentes los problemas que pudiera causarnos no controlar personalmente la selección del mejor modelo, sino dejarlo en manos de un algoritmo, hay que decir que la selección automatizada del modelo puede ahorrarnos gran cantidad de tiempo si lo usamos con carácter exploratorio.
Podemos utilizar cuatro algoritmos de selección de variables:
Matemáticamente, la verosimilitud aumenta conforme aumenta el número de covariables del modelo, cosa factible si el tamaño muestral se incrementa a la par. Sin embargo los modelos mejor interpretables son los más simples. Por ello hay estadísticos que nos permiten comparar modelos penalizando aquéllos con un mayor número de covariables:
Según estos estadísticos, son mejores los modelos con menores AIC y BIC.
El método de selección y estadístico usados por cada paquete estadístico es diferente, y convendría que estuviéramos familiarizados con el método de selección y el estadístico empleado para ello usados por el paquete estadístico que usemos.
Indices de correlación por rangos:
Fco. Javier Caballero Granado
Servicio de Medicina Interna
Hospital Punta de Europa
Algeciras, Cádiz