Clasicamente se puede definir la probabilidad de un evento como la razón entre el número de casos del evento sobre el número de casos totales
$p=\frac{\text{casos particulares}}{\text{casos totales}}.$
El concepto de probabilidad también es muy utilizado para describir sistemas, sus tendencias y para realizar predicciones o extrapolaciones sobre un conjunto de datos. Esta es una de las nociones más utilizadas de probabilidad a pesar de ser simplemente una cantidad totalmente subjetiva, por ejemplo un 30% de probabilidad de lluvia simplemente da una idea de que pasará, puesto que al final lloverá o no lloverá. En este sentido, los únicos valores de probabilidad que tienen sentido son los de 0% y 100%, puesto que aseguran algo, que no lloverá o que lloverá. Sin embargo, siendo estos valores de probabilidad algo subjetivo y no físicamente medible, podemos asociarlos con la cantidad de información que tenemos acerca de un fenómeno. Así, un 0% o 100% de probabilidad quiere decir que conocemos con certeza al sistema, es decir, tenemos toda la información relevante. Si tenemos un 30% de probabilidad quiere decir que poseemos un poco de información, pero no la suficiente. En este sentido, afirmar que hay una probabilidad de lluvia de un 30% tiene el mismo contenido de información que decir que la probabilidad es del 70%. Si bien un 70% de lluvia nos da la idea de que es más probable que llueva, tenemos la misma cantidad de información que si el pronóstico fuera de un 30%. Un 0% o 100% de probabilidad nos da completo conocimiento del fenómeno y un 50% un desconocimiento total.
Por lo tanto, es natural en pensar en la cantidad de incerteza de la información de un sistema como una función de la probabilidad, de tal forma que sea simétrica respecto de $p=1/2$ y nos de incerteza nula en $p=0$ y $p=1$. En otras palabras, podemos definir la incerteza de información dada por un valor de probabilidad $p$ como $h(p)$ donde $h:[0,1]\to [0,1]$, $h(x)=h(|x-1/2|)$ y $h$ una función creciente en $(0,1/2)$.
La más famosa de estas nociones de información es la entropía de un sistema de un bit (o de un sistema binario), en donde se utiliza la función
$h(p)=-p \log_2 p-(1-p)\log_2(1-p)$
la cual cumple con las propiedades requeridas. Esta también puede formularse como el valor esperado de $\log_2 (1/p)$, es decir
$H(X)=E(\log(1/X))$
donde $X$ es una variable aleatoria con distribución de probabilidad $p$.
Así, la próxima vez que escuchen el pronóstico del clima, si ven una probabilidad de lluvia del 50%, es que los meteorólogos no tienen la menor idea de qué pasará, un 30% (o un 70%) quiere decir que tienen un 11.87% de la cantidad de información, en otras palabras, tampoco saben mucho de lo que está pasando. Incluso una afirmación de un 10% da una cantidad de información de tan solo el 54.1%, lo que me hace dudar aún más de los servicios meteorológicos.