Una familia muy robusta. Medidas de centralización robustas

Algunas medidas de centralización, como la media aritmética, son poco robustas en el sentido de que su valor se ve muy influido por la existencia de sesgos en la distribución o de valores extremos. Además de la mediana, se describen algunas medidas de centralización alternativas a la media aritmética que son más resistentes a estos factores, como la media geométrica, la media recortada o la media winsorizada. Una nueva entrada de Ciencia sin Seso...
Manuel Molina Arias
Servicio de Gastroenterologí­a Pediátrica
Hospital Universitario La Paz. Madrid

 

La media es un estadí­stico caprichoso. Me refiero a la media aritmética, claro. ¿Y por qué digo que es caprichosa? Por su gusto por irse tras los valores extremos.La media aritmética (a partir de ahora, simplemente la media) es la medida de tendencia central más utilizada. Y una medida de tendencia central es aquella que nos informa sobre cuál es el centro de la distribución.Supongamos que medimos los valores de colesterol sérico y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155.Si os fijáis, la mayor parte de los valores (16, para ser exactos), están entre 150 y 180 mg/dl. Vamos a calcular la media a ver si nos informa correctamente sobre el centro de la distribución.Como sabéis, para calcular la media se suman todas las observaciones y se divide por el número total de observaciones. Para los que gustéis de fórmulas, serí­a la siguiente:medidas1Si lo calculáis, veréis que la media es de 190. Este valor está fuera del intervalo que incluye al 80% de los elementos. ¿Y cómo puede ser? Fácil, ya lo habréis visto. Resulta que en la muestra se nos han colado dos hermanos con hipercolesterolemia familiar y tienen unos valores altí­simos, que actúan como valores extremos de la distribución. Y aquí­ es donde entra la tendencia de la media a abandonar el punto central e irse detrás de los valores extremos. Como los valores extremos están hacia la derecha, la media se desplaza hacia la derecha y pierde su cualidad de representar el punto medio.En estos casos, si queremos determinar mejor cuál es el centro de la distribución tenemos que recurrir a medidas robustas. Este término no tiene nada que ver con la fuerza fí­sica que hay que emplear para calcularlas, sino que hace referencia a los estadí­sticos que no se ven influidos (o que se afectan poco) por cambios pequeños en la muestra o por valores extremos.En este sentido, la media aritmética es muy poco robusta. Fijaos que si quitamos simplemente los dos valores extremos, pasa de 190 a 163 (mucho más representativo del centro de la distribución).

Existen una serie de medidas robustas de tendencia central. La más conocida es la mediana. Para calcularla, lo primero que tenemos que hacer es ordenar los valores de menor a mayor: 143, 152, 152, 152, 154, 155, 155, 159, 163, 166, 167, 168, 168, 170, 171, 177, 183, 185, 426 y 435. Como son 20 valores, la mediana será el valor promedio de los que ocupan las posiciones décima y undécima (166 y 167), o sea, 166,5. Como veis, más cerca del centro sin necesidad de suprimir los valores extremos.

Además de la mediana, existe una serie de parientes de la media aritmética que pertenecen a la familia de las medidas de tendencia central robustas.

Una de ellas es la media geométrica, que se calcula multiplicando todos los valores y hallando la raí­z con exponente n (número de casos). Para los amantes de las fórmulas, ahí­ va:

medidas2

En nuestro caso multiplicarí­amos 143X152X152…x426x435 y harí­amos la raí­z de í­ndice 20 del producto. En nuestro caso vale 179,57. El cálculo es un poco engorroso, por eso yo he usado el programa R para calcularla. Hay otra forma de llegar al mismo valor que consiste en hallar los logaritmos neperianos de los valores, calcular su media aritmética y, finalmente, hacer el antilogaritmo del promedio. En cualquier caso, cualquier programa estadí­stico puede calcular la media geométrica sin pestañear. Esta media es poco utilizada, aunque podemos verla en ocasiones en trabajos sobre Microbiologí­a, ya que algunos de los parámetros que utilizan, como los tí­tulos de las diluciones, siguen una escala logarí­tmica.

Para aquellos que les haya parecido sencillo lo de la media geométrica tengo preparada la media armónica. Esta se calcula dividiendo el número de observaciones por la suma total del inverso de cada valor. Quizás con la fórmula se entienda mejor:

medidas3

Haciendo otra vez uso de R, su valor es de 173,36, un valor parecido al anterior. Esta media tampoco es utilizada muy a menudo, aunque a veces podemos encontrarla, sobre todo en trabajos sobre Farmacologí­a.

Mucho más sencilla de calcular es la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitarí­amos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularí­amos la media aritmética con los restantes. Su valor es de 165,31.

Una variante de esta última es la media winsorizada. En vez de eliminar los valores, los sustituirí­amos por los valores más próximos sin eliminar. En nuestro caso 143 y 152 se sustituirí­an por 152 y 426 y 435 por 185. Su valor es de 165,95.

Quizás el miembro de esta robusta familia que se utiliza con más frecuencia, después de la mediana, sea la media ponderada. A cada elemento se le atribuye un peso determinado (w) y, para calcular la media ponderada, se suman los productos de cada valor por su peso y se divide el total por la suma de pesos. La fórmula es la siguiente:

medidas4

Vamos a calcular una media ponderada inventada de los valores de presión arterial en la que el peso para la sistólica vale 20 y para la diastólica 10. Si los valores de sistólica y diastólica son 120 y 60, respectivamente, la media ponderada valdrí­a

medidas5

Una especie de media ponderada es la que se conoce con el nombre de trimedia. Esta se calcula como la media aritmética de los tres cuartiles (primero, mediana y tercero), ponderando la mediana por dos y los cuartiles primero y tercero por uno (la suma se divide por cuatro). En nuestro ejemplo del colesterol el primer cuartil vale 154,8, la mediana 166,5 y el tercer cuartil 172,5, así­ que la trimedia es igual a

medidas6

Y aquí­ lo vamos a dejar por hoy. Veis que las primas robustas de la media aritmética forman una gran familia. Pero no penséis que hemos hablado de todos los miembros de esta familia. Existen muchos otros cuya estadí­stica es bastante más antipática, pero que podemos calcular con la mayorí­a de los paquetes informáticos. Son, por ejemplo, los estimadores R de tendencia y los estimadores M de tendencia, como el de Huber, el biponderado de Tukey, el redescendente de Hampel, el de Andrew, etc., etc. Pero esa es otra historia…

 

More from Manuel Molina

Aunque la mona se vista de seda… índices de propensión

...mona se queda. Y se queda. Por mucho que lo intente, seguirá...
Read More

2 Comments

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.