¿Por qué sobra uno? Estimando parámetros de la población

Manuel Molina Arias
Afiliación Servicio de Gastroenterología
Hospital Infantil Universitario La Paz. Madrid

Hoy vamos a hablar sobre uno de esos misterios de la estadística que pocos sabemos por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s). La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

Nosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos Ïƒ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y Ïƒ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1.000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y Ïƒ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de Ïƒ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

Bibliografía

Martínez González MA, Toledo JB, López Fidalgo J. Intervalo de confianza y contraste de hipótesis. En: Martínez González MA, Sánchez Villegas A, Toledo Atucha EA, Faulin Fajardo J, eds. Bioestadística amigable, 3ª ed. Elsevier España SL. Barcelona, 2014; cap 4: 101-44. (indice)

¿Quieres que te informemos de los temas más interesantes sobre Anestesia, Críticos, Urgencias y Dolor?

Una vez al mes te resumimos la actualidad médica según tus intereses.

¿Quieres que te informemos de los temas más interesantes sobre Anestesia, Críticos, Urgencias y Dolor?

Una vez al mes te resumimos la actualidad médica según tus intereses.

4 Comments

Javiera dice:

4 julio 2020 a las 12:31 am

Tenía esta duda desde hace tiempo. Muy buena explicación! Se agradece

Responder
Manuel Molina dice:

4 julio 2020 a las 8:41 am

Gracias a ti, Javiera. Me alegro de que te haya sido útil.

Responder
Rodrigo dice:

3 mayo 2022 a las 6:37 pm

Se entiende, pero esperaba una aproximacion mas cientifica, o es decir mas desmostrativa, osea con su formulas, del tema

Responder
Carlos dice:

11 noviembre 2022 a las 2:35 pm

Una explicación al alcance de todos, me gustó

Responder

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

¿Por qué sobra uno? Estimando parámetros de la población

Manuel Molina Arias
Afiliación Servicio de Gastroenterología
Hospital Infantil Universitario La Paz. Madrid

Bibliografía

Perro ladrador, poco mordedor. Correlación.

4 Comments

Deja una respuesta Cancelar la respuesta

More Stories

Curso-Taller en Dolor Miofascial en los sindromes regionales musculoesqueleticos: enfoque.

Manuel Molina Arias Afiliación Servicio de Gastroenterologí­a Hospital Infantil Universitario La Paz. Madrid

Bibliografí­a

You may also like

4 Comments

Deja una respuesta Cancelar la respuesta

More Stories

Manuel Molina Arias
Afiliación Servicio de Gastroenterología
Hospital Infantil Universitario La Paz. Madrid

Bibliografía