Como un huevo a una castaña. Diferencias entre un diagrama de barras y un histograma

¿Existen diferencias entre un huevo y una castaña? y ¿entre el diagrama de barras y el histograma?. A primera vista pueden parecer muy similares, pero si nos fijamos bien existen claras diferencias entre ambos tipos de gráficos, que encierran conceptos totalmente diferentes.

 

¿En qué se parecen un huevo y una castaña? Si disparamos nuestra imaginación podemos dar algunas respuestas tan absurdas como rebuscadas. Los dos son de forma más o menos redondeada, los dos pueden servir de alimento y los dos tienen una cubierta dura que encierra la parte que se come. Pero, en realidad, un huevo y una castaña no se parecen en nada aunque queramos buscar similitudes.

Lo mismo les pasa a dos herramientas gráficas muy utilizadas en estadí­stica descriptiva: el diagrama de barras y el histograma. A primera vista pueden parecer muy similares, pero si nos fijamos bien existen claras diferencias entre ambos tipos de gráficos, que encierran conceptos totalmente diferentes.

Ya sabemos que hay distintos tipos de variables. Por un lado están las cuantitativas, que pueden ser continuas o discretas. Las continuas son aquellas que pueden tomar un valor cualquiera dentro de un intervalo, como ocurre con el peso o la presión arterial (en la práctica pueden limitarse los valores posibles debido a la precisión de los aparatos de medida, pero en la teorí­a podemos encontrar cualquier valor de peso entre el mí­nimo y máximo de una distribución). Las discretas son las que solo pueden adoptar ciertos valores dentro de un conjunto como, por ejemplo, el número de hijos o el número de episodios de isquemia coronaria.

Por otra parte están las variables cualitativas, que representan atributos o categorí­as de la variable. Cuando las variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorí­as dirí­amos que es cualitativa ordinal. Por ejemplo, la variable fumador serí­a cualitativa nominal si tiene dos posibilidades: sí­ o no. Sin embargo, si la definimos como ocasional, poco fumador, moderado o muy fumador, ya existe cierta jerarquí­a y hablamos de variable cualitativa ordinal.

Pues bien, el diagrama de barras sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorí­as y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categorí­a. También podrí­amos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.

El gran mérito del diagrama de barras es expresar la magnitud de las diferencias entre las categorí­as de la variable. Pero ahí­ está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes. Como podéis ver en la figura 1, la diferencia entre poco y fumadores ocasionales parece mucho mayor en el primer gráfico, en el que nos hemos comido parte del eje vertical. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

fig1

Cambiando de tema, el histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí­ no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse. Como veis en la figura 2, las columnas, a diferencia del diagrama de barras, están todas juntas y el punto medio es el que da el nombre al intervalo. Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre tendrán un área mayor aquellos intervalos con mayor frecuencia.

fig2

Existe, además, otra diferencia muy importante entre el diagrama de barras y el histograma. En el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así­ calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Y aquí­ dejamos estos gráficos que pueden parecer lo mismo pero que, como queda demostrado, se parecen como un huevo a una castaña.

Solo un último comentario. Dijimos al principio que era un error utilizar diagramas de barras (y no digamos ya histogramas) para representar variables cualitativas nominales. ¿Y cuál utilizamos?. Pues un diagrama de sectores, la famosa y ubicua tarta que se utiliza en más ocasiones de las debidas y que tiene su propia idiosincrasia. Pero esa es otra historia…

 

BIBLIOGRAFíA

Martí­nez-González MA, de Irala J. Procedimientos descriptivos. En: Martí­nez-González MA, Faulin FJ, Sánchez A eds. Bioestadí­stica amigable, 2ª ed. Diaz de Santos, Madrid 2006: 13-78.

Manuel Molina Arias
Servicio de Gastroenterologí­a.
Hospital Infantil Universitario La Paz. Madrid
Tags from the story
,
More from Manuel Molina

Paso a paso. Cálculos de probabilidad con una distribución normal.

La distribución normal es una de las más utilizadas en biomedicina. Mostramos...
Read More

24 Comments

  • Muchas gracias, bastante clara la explicación. Además de los ejemplos de las variables cualitativas y cuantitativas.
    Por cierto, lo que se menciona sobre que hay que tener cuidado en cómo los datos de las gráficas 1 y 2 son iguales, pero a simple vista parecen datos distintos es bastante cierto. Ahora se manipula a la gente haciéndoles creer lo que les conviene con este truco.

  • Osease… La gráfica de barras sólo aporta el dato y la Frecuencia Absoluta de éste. Y el Histograma presenta un sin fí­n de posibilidades en el eje Y como Frecuencia Relativa, Frecuencia porcentual, Probabilidades, etc.

  • Pregunta, sobre una oración en particular:
    «También podrí­amos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.»

    ¿No sería variables cuantitativas continuas?, tengo entendido que la manera de representar los datos cualitativos o categoricos (sean ordinales o nominales) es un grafico de barra, o de torta.

    ¿O estoy muy equivocado?

    • Gracias Jonathan por tu pregunta.
      En efecto, el histograma debe utilizarse para variables cuantitativas continuas, ya que es, en realidad, una distribución de frecuencias. Para las cuantitativas discretas puede usarse una variante de este tipo de gráficos que tienen algunos paquetes estadísticos, como el «discrete plot» de R.
      Por otra parte, las cualitativas nominales suelen representarse mediante un diagrama de sectores (nuestra tarta). Para el caso de las cualitativas ordinales podemos usar también las tartas, pero tienen el inconveniente que se pierde la información sobre el orden de la variable. Para evitar esto podemos recurrir a un diagrama de barras.

      • Si me confundí, con lo de variable cuantitativa continua, entendí que hay que hacerlo con histograma.

        Mi duda surgía en esa oración que te marqué, y la pregunta sería:
        ¿Cómo haría para representar una variable cualitativa nominal, solo con graficos de tortas, no puedo usar graficos de barras? ¿ Por qué ?
        Entiendo que podemos usarlo, solo que despreciaríamos el orden en caso que sea nominal. (y sino usar una tarta).

  • Podrías usar los dos. En realidad, si la variable tiene muchas categorías, el diagrama de sectores es más difícil de entender a simple vista que el de barras.

  • Hola, ¿cómo podríamos representar una variable cuantitativa pero en intervalos de (0,5), (5,7) , (7,9), (9 y 10) teniendo en cuenta que en la x, los intervalos no contienen mismo número de variables y cada uno presenta distinto tamaño…?

    • Hola Itziar. Si entiendo bien la pregunta, creo que puedes emplear un histograma. No es obligatorio que la amplitud de todos los intervalos sea la misma. Lo que sí debe cumplirse es que el área de cada sector sea proporcional a la densidad o probabilidad de la variable en ese sector. Recuerda que el histograma es una distribución de frecuencias.
      En un diagrama de barras podrías hacerlo con intervalos diferentes manteniendo la misma amplitud para todas las barras (aunque confundirías al observador), pero en un histograma no sería correcto.

  • Buen día. Tengo más o menos la misma duda que Jonathan: ¿por qué las graficas de barras no se deben utilizar para las variables cualitativas nominales?
    ¿Puedo usar un histograma para variables cuantitativas discretas? (Sí/No, por qué)

    • Hola Pamela.
      El histograma se utiliza para representar la distribución de frecuencias de una variable cuantitativa continua y tiene la ventaja, a diferencia del diagrama de barras, de permitir estimar la frecuencia de valores de la variable que no hemos medido. Por eso las barras están juntas, porque la distribución de frecuencias es continuas.
      En el diagrama de barras representamos variables cualitativas (ordinales) o variables discretas. Al no ser posibles todos los valores de la variable, no tiene sentido representar las barras juntas (aunque podríamos hacerlo si nos gusta más, pero siempre conociendo el significado del gráfico).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *



Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.