Muchas veces me preguntan cual es la diferencia entre la desviación estándar y el error muestral o más concretamente cuando se utiliza uno u otro para acompañar a una estimación, ¿media y desviación típica o media y error muestral?
Sinceramente creo que el problema siempre es más de concepto que de aplicación de fórmulas o ecuaciones. La idea general es la siguiente: La desviación estándar (sd) es un valor que representan cuanto se alejan los valores de una distribución de un valor central (media) y el error estándar (se) representa la incertidumbre de una medida (en este caso la media) y que es función de la desviación estándar y del tamaño muestral (sd/sqrt(n)). Cuanto mayor sea el tamaño muestral, menor será nuestra incertidumbre
Lo veremos más claro con ejemplos donde se puedan observar las diferencias en los conceptos y en los resultados.
Proponemos el siguiente caso: Tenemos 100 valores de una distribución normal de media 5.3 y desviación típica 1.7. Está claro el significado de la desviación típica en estos datos, nos informa de la media de distancias que tienen los datos respecto de su media aritmética (5.3), el 68% de los datos se encuentran entre 3.6 y 7 y el 95% de los datos se encuentran entre 1.9 y 8.7.
En este caso concreto, la forma de describir la variable sería utilizado la media y la desviación típica, entonces ¿cuándo usamos el error muestral o error estándar? Como hemos comentado el error estándar podemos entenderlo como un indicador de incertidumbre para una medida dada (en este caso, la media). Si tomamos 1000 muestras con reemplazamiento de 50 valores (aquí lo importante son los 50 valores, la «n» de la raíz cuadrada, las 1000 muestras con reemplazamiento es para que salga lo más exacto posible) de los datos originales y calculamos la media de cada muestra, tenemos 1000 medias, nos preguntamos, ¿Qué relación tiene la desviación estándar de la muestra original (sd) y la desviación estándar (sd50) de las 1000 medias? Pues que sd50 = sd/sqrt(50) = 1.7/sqrt(50) = 0.2404, error estándar de la media de nuestra distribución original.
Veámoslo en R
media<-5.3; sd<-1.7
muestra<-rnorm(100,mean=media,sd=sd)
mean(muestra); sd(muestra)
nmedias<-numeric(1000)
for (i in 1:1000) {
nmedias[i]<-mean(sample(muestra,size=50,replace=TRUE))
}
sd(nmedias); sd(muestra)/sqrt(50)
muestra<-rnorm(100,mean=media,sd=sd)
mean(muestra); sd(muestra)
nmedias<-numeric(1000)
for (i in 1:1000) {
nmedias[i]<-mean(sample(muestra,size=25,replace=TRUE))
}
sd(nmedias); sd(muestra)/sqrt(25)
Está claro lo que queremos decir cuando afirmamos que el error estándar es una medida de incertidumbre, nos informa de la variabilidad que tenemos en la medida que estamos estudiando (en este caso la media) y es evidente que cuantas más muestras estudiemos menos inseguridad tendremos de la medida y eso se refleja en el denominador.
Entonces, ¿Cómo se presentan los datos?, pues depende lo que estemos describiendo, pero una medida no excluye a la otra. Si queremos informar de la distribución hablaremos de desviación típica, pero si hablamos de un estimador en concreto (media, mediana, cuartiles, …) será más correcto hablar de error estándar. En nuestro ejemplo podemos afirmar lo siguiente: «Tenemos una distribución de media 5.3 y desviación típica 1.7. El error estándar para la media es 0.17 (1.7/sqrt(100)).»
COMENTARIOS RECIENTES