En el siguiente artículo te enseñamos las diferencias entre los distintos diagramas de cajas y bigotes así como su interpretación.

Histograma

Los gráficos de caja (Box Plots) fueron originalmente desarrollados por M.E. Spear (1) y permiten conocer cómo se distribuyen los datos dentro de una variable. A diferencia de los histogramas que requieren un tamaño de muestra de al menos 30 casos para ser útiles, los gráficos de cajas pueden ser construidos con tan solo 5 casos y aportan más detalles acerca de las colas de la distribución (2). Para entender cómo se construye un diagrama de cajas vamos a fijarnos en el histograma que se muestra en la Figura 1.

 Histograma

Figura 1. Histograma que muestra el número de sujetos que alcanzan un determinado valor de estereopsis con el test Howard Dolman

Diagramas de Caja

Diagrama de Cajas y Bigotes

Figura 2. Diagramas de cajas tipo "Box and whisker" y "Notched box and whisker"

Como ya vimos cuando hablamos de los histogramas nos encontramos con una distribución asimétrica positiva, la cual posee su mediana en torno a un valor de estereopsis de 14 segundos de arco. Este valor puede ser mas o menos intuido de manera aproximada observando el histograma de la Figura 1. Si nos fijamos en los diagramas de cajas de la Figura 2 vemos que una linea horizontal dentro de la caja marca el valor exacto de la mediana, punto que deja a la mitad de los casos por encima y a la otra mitad por debajo. El límite inferior de la caja marca la posición del primer cuartil (deja por debajo el 25% de los casos) y el límite superior de la caja representa el tercer cuartil (deja por debajo el 75% de los casos). Teniendo en cuenta esto podemos decir que el 50% de los casos se encuentran dentro de la caja (rango intercuartílico).

Los valores del primer y tercer cuartil/percentil son 9” y 21” respectivamente. Siendo el rango intercuartílico la diferencia entre ambos valores de estereopsis (12”). Conocer las posiciones de los cuartiles y rangos intercuartílicos nos servirá para calcular las lineas superior e inferior que extienden a las cajas, llamadas “bigotes”. El bigote superior representa el máximo valor posible establecido como la posición del tercer cuartil (21”) más 1,5 veces el rango intercuartílico (21+1,5x12=39”). El límite inferior de igual forma muestra la posición del primer cuartil menos 1,5 veces el rango intercuartílico (9-1,5x12=-9”), el bigote inferior representa el mínimo valor posible que como no puede ser -9” será sustituido por el valor mínimo inferior incluido en nuestra muestra (aunque los datos no se muestran en el capítulo, el mínimo de nuestra muestra es 3”). Este tipo de forma de dibujar los bigotes se corresponde con el estilo de representación de Tukey ya que los gráficos de caja según el estilo original de Spear (1) establecían como bigotes superior e inferior los valores mínimo y máximo de los datos.

Cuando las representaciones se llevan a cabo según el estilo de Tukey (3), más allá de los bigotes una serie de puntos marcan los valores periféricos (outliers) que en ocasiones pueden deberse a errores en la recogida de los datos. Además, los software estadísticos pueden acompañar a estos puntos con un número que identifica su posición dentro del vector de datos. Los valores periféricos u outliers deben ser estudiados con detenimiento con el fin de decidir si deben o no ser eliminados del análisis estadístico. Cuando los valores periféricos se alejan en gran medida del resto de datos se marcan de manera diferente dentro de los gráficos (en este caso mediante cuadrados negros), estos casos representan valores extremos más allá de la posición del primer o tercer cuartil, menos o mas 3 veces el rango intercuartílico en lugar de 1,5 veces como los valores periféricos.

Los diagramas de caja son especialmente útiles cuando la distribución de una variable es asimétrica o se aleja de la distribución normal. En este tipo de casos interpretar una variable en función de su media o desviación estándar es un error puesto que estos estimadores no describen fielmente las características de nuestra muestra. 

Cuando la muestra es lo suficientemente grande se puede realizar una representación gráfica de los intervalos de confianza al 95% que servirán para interpretar de manera gráfica si existen diferencias significativas entre las medianas (m) de dos variables. Estos IC-95% se representan mediante muescas calculadas como m±1.58xRIC√n, si las muescas de las cajas de ambas variables no se solapan significará que existen diferencias significativas entre las medianas de ambas variables. Este tipo de interpretación gráfica tan solo se recomienda con muestras lo suficientemente grandes en las que las muescas ocupan una posición clara dentro del rango intercuartílicoen el caso de que las muescas se extiendan hasta el extremo de la caja, no se debería de llevar a cabo este tipo de interpretación gráfica. Las revistas científicas recomiendan describir como se han construido los gráficos de caja, estilo Tukey o Spear, así como el tamaño de la muestra (2). Existen herramientas online gratuitas como http://boxplot.tyerslab.com/ a través de las cuales podemos realizar los gráficos de caja.

Referencias

  1. Spear M. Charting Statistics. New York:John Wiley and Sons, Inc; 1952.
  2. Krzywinski M, Altman N. Points of significance: Visualizing samples with box plots. Nat Methods. 2014;11(2):119-120. doi:10.1038/nmeth.2813.
  3. Tukey J. Exploratory Data Analysis. Reading MA: Addison-Wesley Publishers; 1977.

Aprende de forma Rápida y Práctica con nuestros Cursos Online 100% Videotutoriales HD


Estadística Aplicada a las Ciencias de la Salud con SPSS

Nivel Básico / Intermedio
 17 horas de contenidos

Estadística Multivariante en con SPSS y AMOS

Nivel Anvanzado
6 horas de contenidos