Regla de Sturges

En estadística descriptiva esta regla es muy utilizada cuando se quiere realizar un histograma de frecuencias ya que con esta regla se calcula el número de clases (o intervalos) necesarios para representar fielmente los datos.

k = 1 + log_{2}(N)

Donde N es el número de muestras a representar y k el número óptimo de clases o intervalos.

Hoy en día, con el uso del ordenador, esta regla se hace menos conocida ya que es el propio ordenador el que se encarga de calcular el número de intervalos. De hecho, en R, la función hist tiene el parámetro breaks = «Sturges» por defecto, aunque siempre podemos modificar este parámetro.

Ahora bien, ¿de donde viene la regla de Sturges?

Sturges consideró un histograma de frecuencias ideal con k intervalos, donde el i-ésimo intervalo contiene un número de muestras dado por el coeficiente binomial combn(k-1,i) (utilizo funciones de R para la notación). Por el Teorema Central del Límite sabemos que cuando k aumente el histograma de frecuencias se aproximará a la distribución Normal.

Podemos calcular el número de muestras de todos los intervalos, ya que

N = \sum_{i=0}^{k-1}{k-1 \choose i} = (1+1)^{k-1} = 2^{k-1}

Si aplicamos logaritmos

log_{2}(N) = k - 1

por lo que el número óptimo de intervalo k vendrá dado por

k = 1 + log_{2}(N)

que es la Regla de Sturges.