No te dejes llevar por los extremos. Parámetros de escala robustos.

La presencia de valores extremos puede sesgar la estimación de los parámetros de localización y de escala de una distribución. En estos casos pueden utilizarse estimadores robustos de la desviación tí­pica, más acorde a la desviación real de los datos de la distribución. Los más idóneos y sencillo son la desviación mediana absoluta y la desviación winsorizada muestral.
Manuel Molina Arias
Servicio de Gastroenterologí­a.
Hospital Infantil Universitario La Paz. Madrid.

Ya vimos en una entrada anterior que los valores extremos de una distribución, los llamados outliers, pueden sesgar las estimaciones de los estadí­sticos que calculamos en nuestra media.

Un ejemplo tí­pico es el de la media aritmética, que se desplaza en la dirección de los valores extremos, si los hay, tanto más cuanto más extremos sean los valores. Vimos que, para evitar este inconveniente, existí­an una serie de familiares de la media aritmética que se consideraban robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de outliers. De todos estos, el más conocido es la mediana, aunque existen algunos más, como la media recortada, la winsorizada, la ponderada, la geométrica, etc.

Pues bien, algo parecido a lo que le pasa a la media ocurre también con la desviación tí­pica, el estadí­stico de escala o dispersión utilizado con más frecuencia. La desviación tí­pica o estándar también se ve sesgada por la presencia de valores extremos, obteniendo valores que son poco representativos de la dispersión real de la distribución.

Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos de la media. Supongamos que medimos los valores de colesterol sérico en un grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435 mg/dl) que nos sesgarán los estadí­sticos habituales que son la media y la desviación tí­pica. En nuestro caso, podemos calcular la desviación tí­pica y ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación de la mayorí­a de los valores respecto a cualquiera de las medidas de centralización robustas que podamos elegir.

¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores robustos de la desviación, que hay varios. Algunos de ellos surgen a partir de los estimadores robustos de la media. Veamos algunos.

El primero, que surge a partir de la mediana, es la desviación absoluta mediana (DAM). Si recordáis, la desviación tí­pica es la suma de las diferencias de cada valor con la media, elevadas al cuadrado, y dividida por el número de elementos, n (o por n-1 si lo que queremos es obtener un estimador no sesgado de la desviación tí­pica poblacional). Pues bien, de modo similar, podemos calcular la mediana de las desviaciones absolutas de cada valor con la mediana de la muestra, según la siguiente fórmula:

DAM = Mediana {|Xi – Me|}, para i=1 hasta n.

Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl, bastante más ajustado que la desviación tí­pica clásica.

El segundo se calcula a partir de la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitarí­amos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularí­amos la media aritmética con los restantes. Pues bien, podemos calcular la desviación de la forma clásica con los elementos recortados, obteniendo el valor de 10,5 mg/dl.

Por último, en tercer lugar podrí­amos hacerlo siguiendo el razonamiento que se utiliza para calcular la media winsorizada. En este caso, en vez de eliminar los valores, los sustituirí­amos por los valores más próximos sin eliminar. Una vez winsorizada la distribución, calculamos la desviación tí­pica con los nuevos valores de la forma habitual. Su valor es de 9,3 mg/dl, similar a la anterior.

¿Cuál utilizamos de las tres? Pues nos interesa utilizar una que se comporte de forma eficiente cuando la distribución sea normal (en estos casos la mejor es la desviación tí­pica clásica) pero que no sea muy sensible cuando la distribución se aparte de la normal. En este sentido, la mejor es la desviación absoluta mediana, seguida de la desviación tí­pica winsorizada muestral.

Un último consejo antes de finalizar. No os pongáis a calcular estas medidas a mano, ya que puede resultar muy laborioso. Los programas de estadí­stica hacen los cálculos por nosotros sin el menor esfuerzo.

Y aquí­ terminamos. No hemos hablado nada de otros estimadores de la familia de los M-estimadores, como la varianza media biponderada o la varianza media de porcentaje ajustado. Estas medias son mucho más difí­ciles de comprender desde el punto de vista matemático, aunque son muy fáciles de calcular con el paquete informático adecuado. Pero esa es otra historia.

 

BIBLIOGRAFíA

Estimación con una muestra unidimensional. En: Garcí­a Pérez A, ed. Métodos avanzados de estadí­stica aplicada. Métodos robustos y de remuestreo. Universidad Nacional de Educación a Distancia. Madrid, 2005; 41-78.

More from Manuel Molina

Aquiles y el bosque de los efectos. Metanálisis (II).

El metanálisis es una técnica que permite obtener un resultado resumen a...
Read More

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



8 + 4 =