Una caja con bigotes. El gráfico de caja

El gráfico de caja es muy utilizado en estadí­stica descriptiva. De forma simple nos permite saber la mediana y el rango intercuartí­lico de una distribución, además de intuir su morfologí­a y simetrí­a. Además, permite estimar la aproximación a la normal de la distribución y comparar la igualdad de varianzas entre varias distribuciones.
caja-bigote
Manuel Molina Arias
Servicio de Gastroenterologí­a
Hospital Infantil Universitario La Paz. Madrid

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias. En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchí­sima frecuencia en estadí­stica por sus interesantes capacidades descriptivas.

Para saber de qué hablamos, tenéis representados dos gráficos de caja en la Figura 1. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

figura-1Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartí­lico. Por último, en el interior de la caja hay una lí­nea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda lí­nea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartí­lico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartí­lico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mí­nimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartí­lico cuando los haya. En estos casos, el valor mí­nimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartí­lico de su distribución e intuir la simetrí­a de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la Figura 2. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.

figura-2

Si nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así­ porque la distribución tiene la mayorí­a de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale para la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

Por último, este tipo de gráfico sirve también para comparar varias distribuciones. En la figura 3 podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

figura-3Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, pudiendo concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que querí­a contar sobre esta caja con bigotes, que tan útil resulta en estadí­stica descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas especí­ficas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

Lectura recomendada

Martí­nez Gonzaléz MA, Gea A, Sayón-Orea C. Procedimientos descriptivos. En: Martí­nez González MA, Sánchez-Villegas A, Toledo Atucha EA, Faulin Fajardo J, eds. Bioestadí­stica amigables, 3ª ed. Elsevier España SA. Barceloma, 2014; pg: 13-64. (web)

More from Manuel Molina

El gregario. El ensayo clí­nico por grupos

El ensayo clí­nico aleatorio convencional es un diseño individualista, en el que...
Read More

1 Comment

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



5 + 5 =