Tanto va el cántaro a la fuente… Comparaciones múltiples

Cuando un estudio no encuentra resultados estadí­sticamente significativos sus autores traten de encontrar diferencias mediante comparaciones múltiples entre grupos basados en caracterí­sticas diferentes a las basales. El problema es que cuantas más comparaciones se realicen, mayor será la probabilidad de cometer un error de tipo I, encontrando un efecto falsamente positivo simplemente por efecto del azar.

cantaro

Manuel Molina Arias
Servicio de Gastroenterologí­a
Hospital Infantil Universitario La Paz. Madrid. España

…que termina por romperse. ¿Qué se rompe, el cántaro o la fuente? El refrán se refiere, claro está, al cántaro. El dicho hace referencia a los tiempos en que no habí­a agua en las casas y habí­a que ir hasta la fuente a por ella, de forma que, más tarde o más temprano, el cántaro se rompí­a, ya fuese por desgaste por un uso excesivo o por algún desgraciado accidente que acababa con él hecho pedazos. Supongo que la fuente podí­a romperse también, pero para eso ya habí­a que ser muy bestia, así­ que el refrán no contempla esa posibilidad.

En la actualidad empleamos esta frase para referirnos al hecho de que si repetimos una acción con demasiada insistencia podemos  acabar teniendo algún contratiempo.

Por ejemplo, hagamos un paralelismo entre ir a la fuente con el cántaro y hacer un contraste de hipótesis. ¿Creéis que no tienen nada que ver? Pues lo tienen: si hacemos contrastes de hipótesis de forma insistente podemos acabar llevándonos un disgusto, que no será otro que el de cometer un error de tipo I. Me explicaré para que no penséis que me he dado con el cántaro en la cabeza en uno de los viajes a la fuente.

Recordemos que siempre que hacemos un contraste de hipótesis establecemos una hipótesis nula (H0) que dice que la diferencia observada entre los grupos de comparación se debe al azar. A continuación, calculamos la probabilidad de que la diferencia se deba al azar y, si es menor que un valor determinado (habitualmente 0,05), rechazamos H0 y afirmamos que es altamente improbable que la diferencia se deba al azar, por lo que la consideramos real. Pero claro, altamente improbable no significa seguro. Siempre hay un 5% de probabilidad de que, siendo H0 cierta, la rechacemos, dando por bueno un efecto que en realidad no existe. Esto es lo que se llama cometer un error de tipo I.

Si hacemos múltiples comparaciones la probabilidad de cometer un error aumenta. Por ejemplo, si hacemos 100 comparaciones, esperaremos equivocarnos aproximadamente cinco veces, ya que la probabilidad de equivocarnos en cada ocasión será del 5% (y la de acertar del 95%).

Así­ que podemos preguntarnos, si hacemos n comparaciones, ¿cuál es la probabilidad de tener al menos un falso positivo? Esto es un poco laborioso de calcular, porque habrí­a que calcular la probabilidad de 1, 2,…, n-1 y n falsos positivos utilizando probabilidad binomial. Así­ que recurrimos a un truco muy utilizado en el cálculo de probabilidades, que es calcular la probabilidad del suceso complementario. Me explico. La probabilidad de algún falso positivo más la probabilidad de ninguno será de 1 (100%). Luego la probabilidad de algún falso positivo será igual a 1 menos la probabilidad de ninguno.

¿Y cuál es la probabilidad de ninguno? La de no cometer error en cada contraste ya hemos dicho que es de 0,95. La de no cometer errores en n contrastes será de 0,95n. Así­ que la probabilidad de tener al menos un falso positivo será de 1 ““ 0,95n.

Imaginaos que hacemos 20 comparaciones. La probabilidad de cometer, como mí­nimo, un error de tipo I será de 1-0,9520 = 0,64. Habrá un 64% de probabilidad de que cometamos un error y demos por existente un efecto que en realidad no existe por puro azar.

Pues que chorrada, me diréis. ¿Quién se va a poner a hacer tantas comparaciones sabiendo el peligro que tiene? Pues, si os paráis a pensarlo, lo habéis visto muchas veces. ¿Quién no ha leí­do un artí­culo sobre un ensayo que incluí­a un estudio post hoc con múltiples comparaciones? Es bastante frecuente cuando el ensayo no da resultados con significación estadí­stica. Los autores tienden a exprimir y torturar los datos hasta que encuentran un resultado satisfactorio.

Sin embargo, desconfiad siempre de los estudios post hoc. El ensayo debe tratar de responder a una pregunta previamente establecida y no buscar respuestas a preguntas que nos podemos hacer después de finalizarlo, dividiendo los participantes en grupos según caracterí­sticas que no tienen nada que ver con la aleatorización inicial.

De todas formas, como es una costumbre difí­cil de erradicar, sí­ que podemos exigir a los autores de los ensayos que tengan una serie de precauciones si quieren hacer estudios post hoc con múltiples contrastes de hipótesis. Lo primero, todo análisis que se haga con los resultados del ensayo debe especificarse cuando se planifica el ensayo y no una vez terminado. Segundo, los grupos deben tener cierta plausibilidad biológica. Tercero, debe evitarse hacer comparaciones múltiples con subgrupos si los resultados generales del ensayo no son significativos. Y, por último, utilizar siempre alguna técnica que permita mantener la probabilidad de error de tipo I por debajo del 5%, como la corrección de Bonferroni o cualquier otra.

A nosotros nos quedará un último consejo: valorar con precaución las diferencias que se puedan encontrar entre los distintos subgrupos, sobre todo cuando los valores de p son discretos, entre 0,01 y 0,05.

Y aquí­ dejamos los estudios post hoc y sus trampas. No hemos comentado que hay más ejemplos de comparaciones múltiples además del análisis de subgrupos postaleatorización. Se me ocurre el ejemplo de los estudios de cohortes que estudian diferentes efectos producto de una misma exposición, o el de los análisis intermedios que se hacen durante los ensayos secuenciales para ver si se cumple la regla de finalización preestablecida. Pero esa es otra historia…

Bibliografí­a

1.- Sainani KL. The problem of multiple testing. PMR. 2009;1:1098-103. PubMed

2.- Glickman ME, Rao SR, Schultz MR. False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. J Clin Epidemiol. 2014;67:850-7. PubMed

3.- McLaughlin MJ, Sainani KL. Bonferroni, Holm and Hochberg corrections: fun names, serious changes to p values. PMR. 2014;6:544-6. PubMed

More from Manuel Molina

Hay comparaciones que no son odiosas. El gráfico de quantiles

Se describe un modo gráfico para comparar dos distribuciones de datos y,...
Read More

2 Comments

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.