¿Carne o pescado? Elección entre media y mediana

Este es el difí­cil dilema que se me presenta cada vez que voy a comer a un buen restaurante. Yo, la verdad, soy más de carne, pero como los libros de ciencias dicen que soy un animal omní­voro y no me gusta contradecirles, procuro comer de todo, incluido pescado.Cada uno tiene sus razones a favor y en contra. La carne es más sencilla de comer. Por otro lado, me resulta más difí­cil comer un buen pescado si no es en un buen restaurante, así­ que me cuesta perder la oportunidad. Pero es que la carne está tan rica. Difí­cil decisión...
Manuel Molina Arias
Servicio de Gastroenterologí­a Pediátrica
Hospital Universitario La Paz. Madrid

 

media-aritmetica
Es mucho más fácil decidir entre una media y una mediana, donde va a parar. Como todos sabéis, la media (nos referimos a la media aritmética) y la mediana son medidas de tendencia o centralización. Nos dan información sobre cuál es el valor central de una distribución. La forma más sencilla de calcular la media aritmética es sumando todos los valores de la distribución y dividiendo el valor resultante por el número de elementos de la distribución, la querida N.

Para calcular la mediana tenemos que ordenar los valores de la distribución de menor a mayor y localizar aquel que ocupa el lugar central. Si el número de elementos es impar la mediana será el valor del elemento central. Por ejemplo, si tenemos una distribución de 11 elementos ordenados de menor a mayor, el valor del que ocupa el lugar sexto será la mediana de la distribución. Si el número es par, la mediana es la media de los 2 centrales. Por ejemplo, si tenemos 10 elementos, será la media del quinto y el sexto. Hay fórmulas y otras formas para calcular la mediana cuando el número de elementos es grande, pero lo mejor es, como siempre, recurrir a un programa informático que lo hará sin el menor esfuerzo.

En general, es mucho más sencillo decidir entre media y mediana que entre carne y pescado, ya que existen unas normas generales que podemos aplicar a cada caso concreto.

La primera, cuando los datos no se ajustan a una distribución normal es más correcto utilizar la mediana. Esto es así­ porque la mediana es mucho más robusta, lo que quiere decir que se afecta menos por la presencia de sesgos en la distribución o de valores extremos.

La segunda tiene que ver con lo anterior. Cuando haya valores muy extremos la mediana informará mejor del punto central de la distribución que la media, que tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son.

Por último, algunos dicen que con algunas variables tiene más sentido utilizar mediana que media. Por ejemplo, si hablamos de supervivencia, la mediana nos informa sobre el tiempo de supervivencia, pero también sobre cuánto sobrevive la mitad de la muestra, por lo que serí­a más informativa que la media aritmética.

En cualquier lugar, elijamos la que elijamos, las 2 medidas siguen teniendo utilidad. Y para entender todo esto vamos a ver un par de ejemplos tan buenos como que me los acabo de inventar.

Supongamos un colegio con 5 profesores. Al de ciencias le pagan 1.200 euros al mes, al de matemáticas 1.500, al de literatura 800 y al de historia 1.100. Ahora resulta que el director es un fanático del fútbol, así­ que contrata a Pep Guardiola como profesor de gimnasia. El problema es que Pep no trabaja por 1.000 euros al mes, así­ que le asignan un sueldo nada menos que de 20.000 euros mensuales.

En este caso la media es de 4.920 euros al mes y la mediana de 1.200 euros. ¿Cuál os parece mejor medida de tendencia central en este caso? Parece claro que la mediana da una mejor idea de lo que suelen ganar los profesores en este colegio. La media se dispara mucho porque se va detrás del valor extremo de 20.000 euros mensuales.

Muchos pensaréis, incluso, que la media tiene poca utilidad en este caso. Pero eso es porque lo miráis desde el punto de vista del aspirante a profesor. Si fueseis aspirantes al cargo de gerente del colegio y tuvieseis que preparar el presupuesto mensual, ¿cuál de las dos medidas os serí­a más útil? No cabe duda que la media, que os permitirí­a saber cuánto dinero tenéis que dedicar al pago de los profesores, conociendo el número de profesores del colegio, claro está.

Veamos otro ejemplo. Supongamos que reúno 20 gordos y los reparto en 2 grupos para ensayar 2 dietas de adelgazamiento. Haciendo un alarde de imaginación las vamos a llamar dieta A y dieta B.

Al cabo de tres meses los de la dieta A pierden 3,4 kg de media, mientras que los de la dieta B pierden una media de 2,7 kg. ¿Cuál de las dos dietas es más eficaz?

Para aquellos listillos que habéis dicho que la dieta A, voy a proporcionaros un poco más de información. Esta es la diferencia de peso final menos inicial para los pacientes de la dieta A: 2, 4, 0, 0, -1, -1, -2, -2, -3 y -35. Y este es el mismo dato para los sujetos que siguieron la dieta B: -1, -1, -2, -2, -3, -3, -3, -3, -4 y -5. ¿Seguí­s pensando que la dieta A es más eficaz?

Seguro que los más atentos habréis detectado ya la trampa de este ejemplo. En el grupo A hay un valor extremo que pierde 35 kg con la dieta, lo que hace que la media se dispare hacia esos -35 kg. Así­ que vamos a calcular las medianas: -0,5 kg para la dieta A y -3 kg para la dieta B. Parece que la dieta B es más eficaz y que las medianas, en este caso, dan una mejor información sobre la tendencia central de las distribuciones. Pensad que en este ejemplo es fácil darse cuenta mirando los datos crudos, pero si en lugar de 10 tenemos 1000 participantes no podrí­amos hacerlo así­. Tendrí­amos que detectar la existencia de extremos y utilizar una medida de centralización más robusta, como la mediana.

Seguro que alguno borrarí­a el valor extremo y se manejarí­a con las medias, pero esto no es aconsejable, porque los valores extremos pueden dar también información sobre aspectos determinados. Por ejemplo, ¿quién nos dice que no hay una situación metabólica especial en la que la dieta A es mucho más eficaz que la B, que lo es en la mayorí­a de los casos?

Y aquí­ vamos a dejarlo por hoy. Solo deciros que en algunas ocasiones podemos recurrir a la transformación de los datos para que se ajusten a una normal o para reducir el efecto de los extremos. También existen otros indicadores de centralización robustos diferentes a la mediana, como la media geométrica o la media recortada. Pero esa es otra historia…

Para saber más sobre medidas de centralización

Describing data with numeric summary values. En: Bowers D. Medical statistics from scratch. An introduction for health professionals, 2nd ed. John Wiley & Sons, Ltd. West Sussex, UK, 2008: 51.68.  (pdf)

 

Artí­culo publicado en Ciencia Sin Seso… Locura Doble

More from Manuel Molina

Con poco afinamos mucho. El tamaño muestral en las encuestas.

En esta nueva entrega de Ciencia sin seso se describen los factores...
Read More

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

6 + 1 =