Con poco afinamos mucho. El tamaño muestral en las encuestas.

En esta nueva entrega de Ciencia sin seso se describen los factores de los que depende el tamaño muestral necesario para realizar una encuesta y cómo éstos influirán sobre la precisión de los resultados obtenidos.

encuestaA todos nos gusta saber qué va a pasar en el futuro. Por eso tratamos de inventar cosas que nos ayuden a saber qué va a ocurrir, cuál va a ser el resultado de una determinada cosa. Un ejemplo muy claro es el de las elecciones en polí­tica o el de las encuestas para preguntar a la gente sobre una cuestión de interés. Por eso se han inventado los sondeos, para tratar de anticipar el resultado de una encuesta antes de realizarla. Hay mucha gente que no se fí­a mucho de los sondeos pero, como veremos a continuación, son una herramienta bastante útil: nos permiten realizar estimaciones bastantes finas y con un esfuerzo relativamente pequeño.

Pensemos, por ejemplo, que vamos a hacer un referéndum a la suiza para preguntar a la gente si quiere reducir la jornada laboral. Algunos me diréis que esto es perder el tiempo, ya que en España una encuesta así­ tendrí­a un resultado más que previsible, pero nunca se sabe. En Suiza se preguntó y prefirieron seguir trabajando más tiempo.

Si queremos saber con seguridad cuál va a ser el resultado de la votación tendrí­amos que preguntar a todo el mundo cuál va a ser su voto, lo que resulta poco práctico para llevarlo a cabo. Así­ que hacemos un sondeo: elegimos una muestra de un tamaño determinado y les preguntamos. Obtenemos así­ una estimación del resultado final, con una precisión que vendrá determinada por el intervalo de confianza del estimador que calculemos.

¿Y la muestra tendrá que ser muy amplia?.

Pues no demasiado, siempre que esté bien elegida. Veámoslo.

Cada vez que hacemos el sondeo, obtenemos un valor de la proporción p que votará, por ejemplo, sí­ a la propuesta. Si repitiésemos el sondeo muchas veces, obtendrí­amos un conjunto de valores próximos entre sí­ y, probablemente, próximos al valor real de la población al que no podemos acceder. Pues bien, estos valores (resultado de los diferentes sondeos repetidos) siguen una distribución normal, de tal manera que sabemos que el 95% de los valores estarí­an entre el valor de la proporción en la población más menos dos veces la desviación estándar (en realidad 1,96 veces la desviación). A esta desviación estándar se le llama error estándar, y es la medida que nos permite calcular el margen de error de la estimación mediante su intervalo de confianza:

Intervalo de confianza del 95% (IC 95) = proporción estimada ± 1,96 x error estándar

En realidad, esta es una ecuación simplificada. Si partimos de una muestra finita (n) obtenida de una población (N), el error estándar debe multiplicarse por un factor de corrección, de tal forma que la fórmula queda de la siguiente manera:

Diapositiva1

Si os paráis a pensar un momento, cuando la población es muy grande el cociente n/N tiende a cero, con lo que el resultado del factor de corrección tiende a uno. Es por esto por lo que la muestra no tiene porqué ser excesivamente grande y por lo que un mismo tamaño de muestra nos puede servir para estimar el resultado de unas elecciones municipales o el de unas nacionales.

Por lo tanto, la precisión de la estimación está más en relación con el error estándar. ¿Cuál serí­a el error estándar en nuestro ejemplo? Al ser el resultado una proporción, sabemos que seguirá una distribución binomial, por lo que el error estándar será igual a

Diapositiva2

siendo p la proporción obtenida y n el tamaño muestral.

La imprecisión (la amplitud del intervalo de confianza) será mayor cuanto mayor sea el error estándar. Por lo tanto, a mayor producto p(1-p) o a menor tamaño muestral, menos precisa será nuestra estimación y mayor será nuestro margen de error.

px1-p

De todas formas, este margen de error es limitado. Veamos por qué.

Sabemos que p puede tener valores entre cero y uno. Si examinamos la figura con la curva de p frente a (1-p), vemos que el valor máximo del producto se obtiene cuando p=0,5, con un valor de 0,25. Según p se aleje de 0,5 en uno u otro sentido, el producto será menor.

Luego, para un mismo valor de n, el error estándar será máximo cuando p valga 0,5, según la ecuación siguiente:

Diapositiva3

Así­, si expresamos la fórmula del intervalo de confianza más amplio:

Diapositiva4

O sea, que el margen de error máximo es de

Diapositiva5

Esto quiere decir que con una muestra de 100 personas tendremos un margen de error máximo de más/menos un 10%, dependiendo del valor de p que hayamos obtenido (pero, como máximo, un 10%). Vemos, pues, que con una muestra que no tiene porqué ser muy grande se puede obtener un resultado bastante preciso.

Y con esto terminamos por hoy. Os preguntaréis, después de todo lo que hemos dicho, por qué hay encuestas cuyo resultado no se parece nada al definitivo. Pues se me ocurren dos respuestas. La primera, nuestro amigo el azar. Hemos podido elegir, por puro azar, una muestra que no está centrada alrededor del verdadero valor de la población (nos pasará un 5% de las veces). El segundo, puede que la muestra no sea representativa de la población general. Y este es un factor fundamental, porque si la técnica de muestreo no es correcta, los resultados de la encuesta no serán nada fiables.

Pero esa es otra historia…

Bibliografí­a

Sampling theory. En: Pagano M, Gauvreau K, eds. Principles of biostatistics, 2nd ed. Editorial Cengage Learning. Delhi, India, 2012: 514-25. (googlebooks)

 
Manuel Molina Arias.
Servicio de Gastroenterologí­a Pediátrica.
Hospital Universitario La Paz. Madrid
More from Manuel Molina

Búsqueda con filtros en Pubmed. Buscando las pepitas de oro.

Una vez obtenidos los resultados de la búsqueda, esta puede refinarse y...
Read More

2 Comments

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.