Hoy durante el recital de piano de mi amigo Alfredo notaba algo extraño que desde mucho tiempo me ha acosado pero nunca habia puesto tiempo en analizar detenidamente, y es la increible capacidad que tiene el cerebro humano de comprender la música.
Notaba como de forma natural, lograba identificar el tempo en el que mi amigo interpretaba el piano, es decir, llevar el tiempo de la canción con mi pié, o como decimos coloquialmente, llevaba el ritmo.
Esto puede sonar una tarea muy sencilla de identificar, puesto que una forma tentadora de hacerlo es simplemente seguir el tiempo de las notas consecutivas, sin embargo, de esta forma se tendría un tempo errático, no regular en el tiempo. Parecería entonces que es cuestión de hallar un máximo común divisor entre estas separaciones de notas, pero de nuevo, esto no resuelve el problema de manera eficaz, pues en la mayoría de casos, se obtienen valores muy altos de bpm (beats per minute). Un valor típico de tempo esta cerca de los 120 bpm o 2 notas por segundo.
Luego de estos pequeños inconvenientes, me puse a pensar un poco en otro que es un poco mas sutíl, y es que si una canción está en un tempo $\tau$, matemáticamente es correcto tambien clasificarla con un tempo de $2^n\tau$, con $n\in\mathbb{Z}$, sin embargo, solamente una de estas opciones suena acorde en el cerebro.
Una cosa interesante es el factor de una potencia de 2 en los tempos equivalentes, aunque resulte muy natural dividir en 2 o duplicar el tempo, ¿porqué 2 y no otro número? ¿digamos 3?, ¿5?, ¿$\pi$? La respuesta quizás ya la haya abordado
anteriormente, solo que en otra escala de tiempo. Si una nota
suena igual una octava abajo o una octava arriba, naturalmente un tempo
sonará bien si se duplica o se divide por la mitad. Ahora la pregunta es ¿cómo sabe nuestro oído cual es el factor correcto?
Una idea para abordar esta incógnita es representar una canción $\phi(t)$ por un vector en el espacio $M=\otimes_{\alpha\in\mathbb{R}}\mathbb{R}v_\alpha$, donde $v_\alpha$ es un vector de la base. Es importane notar que por definición diremos que los $v_\alpha$ son linealmente independientes, sin embargo podemos interpretar a $v_\alpha$ como $e^{\alpha t}$, es decir, los $v_\alpha$ viven en diferentes espacios de factores. Con esto tenemos que
$\phi(t)=\sum_{\alpha\in\mathbb{R}} c_\alpha(t)v_\alpha$
donde la suma es una serie formal y los $c_\alpha(t)$ no son otra cosa que los coeficientes de fourier de $\phi(t)$.
Como el tempo lo determina la cantidad de notas que se ejecuten, podríamos decir que está relacionado con las variaciones en la amplitud de los sonidos (prescencia o ausencia), en otras palabras, se podría analizar el comportamiento de $d\phi(t)$ en $M$, es decir
$d\phi (t)=\sum_{\alpha\in\mathbb{R}} d c_\alpha (t) v_{\alpha}$
esta fue la razón por la que resulta conveniente tomar los $v_\alpha$ como objetos abstractos, así al tomar la derivada no tenemos factores proporcionales a la frecuencia de cada armónica.
Ahora bien, la magnitud de este vector derivada puede darnos una idea de cuanto cambia el vector inicial $\phi$, por lo tanto podemos analizar en un intervalo de tiempo
$|d\phi(t)|^2=\int_a^b\int_{-\infty}^\infty|dc_\alpha(t)|d\alpha dt$
y tratar de relacionarlo de alguna manera con algo que nos mida el tempo en este intervalo. La integral interior converge puesto que dado que los coeficientes $c_\alpha$ son coeficientes de fourier, tenemos que $\phi$ es una función de potencia finita, es decir, una función en $L^2$ y por lo tanto $d\phi$ tambien sera de potencia finita.
El motivo de analizar el comportamiento de la señal en un intervalo es que el tempo de una canción es una cantidad que puede o no ser constante a lo largo de toda la canción, es muy frecuente que dependiendo del género musical, el tempo en efecto no sea un parámetro constante a lo largo de la canción, como es el caso del progresivo. Por lo tanto, podemos considerar el tempo como una propiedad semilocal y no una propiedad global, es decir, una propiedad que esta ligada a la longitud del intervalo sobre el cual se está analizando la canción. Para esto podemos analizar la senñal en un intervalo $[a,b]$, donde $(b-a)>>1/f_b$ donde $f_b$ es frecuencia de corte de bandabase de la canción, la cual está alrededor de los $8KHz$.
Una interpretación que podemos dar al tempo como el período de un tren de pulsos tal que al muestrear la canción original, es posible aún percibir el contenido de la canción. Con esto no me refiero a recuperar la señal original como en el caso del teorema de Nyquist, sino que a lograr identificar la melodia o el contenido musical de la canción.
Si denotamos por $\Delta_{\tau}(t)$ un tren de implusos unitarios con período $\tau$, la señal muestreada está dada por
$\Delta_{\tau}(t)*|d\phi(t)|^2.$
Podemos interpretar que el tempo es el valor ${\tau}$ que resuelve un problema de optimización actuando sobre la función anterior. El cerebro es un especialista en resolver problemas de optimización, como la visión bifocal de los ojos, que maximiza la cantidad de información obtenida por ambos ojos a la vez, o el sistema retroalimentado boca-oídos-ojos que minimiza el volumen de la voz necesario para transmitir un mensaje a otra persona. Por esta razón, suena a que este es otro problema en donde una optimización es llevada acabo.
Ahora bien, debido a la propia esctructura interna del oído, resulta más natural analizar esta función en el dominio de la frecuencia, ya que nuestros oídos son receptivos a los cambios en frecuencia y no a los cambios en el tiempo. Puesto que $|\phi'(t)|^2\in L^2(\mathbb{R})$, podemos estudiar su transformada de Fourier
$T(f)=\left( \sum_{n=-\infty}^{\infty} e^{-2\pi i n f \tau}\right)\widehat{|d\phi(t)|^2}$
Esta función es una función en $L^2$, por lo que podemos calcular su norma, la cual daría la cantidad de energía que posee, así que como lo establecimos antes, nuestro problema a minimizar puede ser el de encontrar $\tau_0\neq 0$ tal que
$\left. \frac{d ||T||_2}{d\tau}\right|_{\tau_0}=0$
en donde $\tau_0$ es un candidato al tempo de la canción. En la prática este problema de minimización puede ser resuelto solo mediante métodos numéricos, debido a los factores $e^\tau$ que se hallan en la función $\tau$. La verdad, no soy muy numero-analítico, asi que pequé de conformista y dejé el análisis hasta aca, pero sería una buena idea el tratar de implementar el algoritmo y analizar resultados experimentales.