Estando a menos de un mes de las elecciones presidenciales en Guatemala, quise evaluar los datos existentes sobre las encuestas realizadas.
Un primer reto fue el encontrar los datos de las encuestas, lastimosamente a pesar de la era tecnológica en la que vivimos, estos datos no están facilmente disponibles. Las referencias de los datos se encuentran al final.
Para poder realizar una proyección de los comicios de este 6 de Septiembre de 2015, es posible tratar los datos de las encuestas como una
Cadena de Markov, en donde cada encuesta es un
estado en el espacio de distribución de intensión de voto.
Si suponemos que hay $n$ partidos, la idea es utilizar un tipo de
Modelo Oculto de Markov con una matriz de transición $T=(t_{ij})$ donde $t_{ij}$ es la probabilidad de que un votante que tenía intención de votar por el partido $i$ cambie de parecer y vote por el partido $j$. Acá, la matriz $T$ es desconocida. El objetivo es encontrar la matriz de transición para poder obtener el
estado estable del sistema de Markov.
Para estimar estos datos, se puede definir el espacio de estados como los resultados de las encuestas, en order cronológico. De esta manera se ve la intención de voto como un
sistema dinámico.
Con esto, se tiene que
$$TE_n=E_{n+1}\,,$$
donde $E_n$ es la enésima encuesta considerada. En esta estimación fueron utilizadas 11 encuestas, $E_1,E_2,\dots,E_11$. Con estas encuestas, se obtienen 10 estimadores de la matriz $T$,
$$T_n=\left(E_{n+1}E^t_{n}\right)\left(E_nE^t_n\right)^{-1}\,.$$
Para poder realizar una estimación de la matriz de transiciones a partir de las matrices $T_n$, es posible analizar la
media y
desviación de las componentes de las matrices $T_n$,
$$M=E(T_n)\,,\qquad S^2=E(\left(T_n-T\right)^2)\,,$$
En este cuadro están las diferentes proyecciones considerando las encuestas de internet, las impresas, y todas las encuestas, tomadas en orden aleatorio y en orden cronológico.
Con estos datos, se calculan las medias y desviaciones de las proyecciones, para poder calcular el margen de error del modelo. $LI$ y $LS$ denotan los límites inferior y superior respectivamente de las proyecciones realizadas.
Los datos en verde muestran los candidatos con mayor intensión de voto proyectada, mientras que los datos en amarillo muestran los candidatos con la segunda intensión de voto proyectada. Es de notar que al considerar todos los datos, el porcentaje comprendido en otros resulta ser el segundo lugar.
En todas las proyecciones, salvo las realizadas con datos de internet solamente, se tiene que hay segunda vuelta entre FCN y LIDER, teniendo FCN un amplio margen sobre el segundo lugar, con un error promedio del $2.77\%$.
Considerando los posibles escenarios, es posible que haya una segunda vuelta entre FCN y UNE o entre FCN y FUERZA, siendo la segunda la más probable, sin embargo FCN y LIDER es la combinación esperada.
[Referencias de datos]