Ovejas negras. Valores extremos.

Un valor extremo o anómalo puede alterar la estimación de los parámetros poblacionales o la realización de los contrastes de hipótesis. La mejor manera de evitar estos efectos es el uso de técnicas de estimación robustas, menos sensibles a la presencia de valores anómalos.
Manuel Molina Arias.
Servicio de Gastroenterologí­a.
Hospital Infantil Universitario La Paz. Madrid

Se dice que es una oveja negra aquél elemento de un grupo que va en dirección distinta o contraria a la del resto del grupo. Por ejemplo, en una familia de adictos a la telebasura, la oveja negra serí­a un miembro de esa familia que se desviviese por ver los documentales de la segunda cadena. Claro que si la familia es adicta a los documentales, la oveja negra se morirá por ver la telebasura. Siempre al revés.

En estadí­stica hay algo parecido a las ovejas negras. Son los datos anómalos, también llamados datos extremos, pero más conocidos por su nombre en inglés: outliers.

Un outlier es una observación que parece inconsistente con el resto de los valores de la muestra, siempre teniendo en cuenta el modelo probabilí­stico supuesto que debe seguir la muestra. Como veis, es un dato que lleva la contraria a los demás, como una oveja negra.

El problema del outlier es que puede hacer mucho daño al estimar parámetros poblacionales a partir de una muestra. Vamos a recordar un ejemplo que vimos en otra entrada sobre el cálculo de medidas de centralidad robustas. Se trataba de un colegio con cinco maestros y un director fanático del futbol. Al hacer los contratos establece los siguientes sueldos: 1200 euros al mes para el profesor de ciencias, 1500 para el de mates, 800 para el de literatura y 1100 para el de historia. Pero resulta que se le antoja contratar a Pep Guardiola como profesor de gimnasia, así­ que tiene que pagarle nada menos que 20000 euros mensuales.

¿Veis por dónde la va la cosa? Efectivamente, Pep es la oveja negra, el valor anómalo. Fijaos qué pasa si calculamos la media: 4920 euros al mes es el sueldo medio de los profesores de este centro. ¿Os parece una estimación real? Claramente no, el valor de la media está desplazada en la dirección del outlier, y se desplazarí­a más cuánto más extremo sea el valor anómalo. Si a Pep le pagasen 100000 euros, el sueldo medio ascenderí­a a 20920 euros. Una locura.

Si un valor anómalo puede hacerle tanto daño a un estimador, imaginad lo que puede hacer con un contraste de hipótesis, en el que la respuesta es un aceptar o rechazar la hipótesis nula. Así­ que nos planteamos, ¿qué podemos hacer cuando descubrimos que entre nuestros datos hay una (o varias) ovejas negras? Pues podemos hacer varias cosas.

La primera que se nos pasa por la cabeza es tirar el outlier a la basura. Prescindir de él a la hora de analizar los datos. Esto estarí­a bien si el valor extremo es producto de un error en la recogida de los datos pero, claro, podemos prescindir de datos que dan información adicional. En nuestro ejemplo, el outlier no es ningún error, sino que es producto del historial deportivo del profesor en cuestión. Necesitarí­amos algún método más objetivo para poder decidir suprimir el outlier, y aunque existen unas pruebas llamadas de discordancia, tienen sus problemas.

La segunda cosa que podemos hacer es identificarlo. Esto significa que tenemos que averiguar si el valor es tan extremo por alguna razón concreta, como pasa en nuestro ejemplo. Un valor extremo puede estar señalando algún hallazgo importante y no tenemos porqué desdeñarlo con rapidez, sino tratar de interpretar su significado.

En tercer lugar, podemos incorporarlos. Como hemos dicho al definirlos, el outlier lleva la contraria a los demás datos de la muestra según el modelo de probabilidad que suponemos que sigue la muestra. A veces, un dato extremo deja de serlo si asumimos que los datos siguen otro modelo. Por ejemplo, un outlier puede serlo si consideramos que los datos siguen una distribución normal pero no si consideramos que siguen una logarí­tmica.

Y, en cuarto lugar, la opción más correcta de todas: utilizar técnicas robustas para hacer nuestras estimaciones y nuestros contrastes de hipótesis. Se llaman técnicas robustas porque se afectan menos por la presencia de valores extremos. En nuestro ejemplo con los profesores utilizarí­amos una medida de centralidad robusta como es la mediana. En nuestro caso es de 1200 euros, bastante más ajustada a la realidad que la media. Además, aunque le paguen a Pep 100000 euros al mes, la mediana seguirá siendo de 1200 euros mensuales.

Y con esto terminamos con los valores anómalos, esas ovejas negras que se mezclan con nuestros datos. No hemos comentado nada por simplificar, pero también podrí­amos tratar de averiguar cómo afecta el outlier a la estimación del parámetro, para lo cual existe toda una serie de metodologí­a estadí­stica basada en la determinación de la llamada función de influencia. Pero esa es otra historia…

More from Manuel Molina

Como un huevo a una castaña. Diferencias entre un diagrama de barras y un histograma

¿Existen diferencias entre un huevo y una castaña? y ¿entre el diagrama...
Read More

2 Comments

    • A mí no. Desconocemos datos como la antigüedad, el número de horas lectivas de cada uno, el número de alumnos, etc, para poder llegar a la conclusión de que las diferencias en sueldo se deben a las materias impartidas. Además, la muestra es muy pequeña para sacar conclusiones significativas, ¿no te parece? ;-)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



1 + 5 =