Sunday, August 16, 2015

Series de tiempo dan 20% de abstencionismo y 2% de votos blancos/nulos

Siguiendo con el análisis de datos para estas próximas elecciones en Guatemala, es posible dar un estimado de los porcentajes de abstencionismo y de los votos validos que ocurrirán en esta ocasión.

Utilizando un modelo de series de tiempo, es posible modelar los datos de todas las elecciones ocurridas en Guatemala desde 1985 hasta la fecha.  En base a los datos publicados por el Tribunal Supremo Electoral de Guatemala, se puede obtener una proyección del porcentaje de abstencionismo esperado para estas elecciones del 2015.

Siguiendo la metodología desarrollada en este post, se obtiene que el porcentaje esperado de abstencionismo es del $20%$, con una incerteza del $2%$.

Así mismo, es posible estimar el total de votos nulos/en blanco dentro del total de votos válidos. Al realizar esta proyección, se espera que solamente el $2%$ de los votos válidos son en blanco o nulos.

Esto quiere decir, que con un estimado de más de ocho millones $(8200000)$ habitantes empadronados, solamente seis millones y medio $(6560000)$ asistirán a votar, y de estos , ciento treinta mil $(131200)$ serán votos blancos o nulos.


Sunday, August 9, 2015

Elecciones 2015 Guatemala: Modelos de Markov dicen Morales y Baldizón

Estando a menos de un mes de las elecciones presidenciales en Guatemala, quise evaluar los datos existentes sobre las encuestas realizadas. 
Un primer reto fue el encontrar los datos de las encuestas, lastimosamente a pesar de la era tecnológica en la que vivimos, estos datos no están facilmente disponibles. Las referencias de los datos se encuentran al final.

Para poder realizar una proyección de los comicios de este 6 de Septiembre de 2015, es posible tratar los datos de las encuestas como una Cadena de Markov, en donde cada encuesta es un estado en el espacio de distribución de intensión de voto.

Si suponemos que hay $n$ partidos, la idea es utilizar un tipo de Modelo Oculto de Markov con una matriz de transición $T=(t_{ij})$ donde $t_{ij}$ es la probabilidad de que un votante que tenía intención de votar por el partido $i$ cambie de parecer y vote por el partido $j$. Acá, la matriz $T$ es desconocida. El objetivo es encontrar la matriz de transición para poder obtener el estado estable del sistema de Markov.

Para estimar estos datos, se puede definir el espacio de estados como los resultados de las encuestas, en order cronológico. De esta manera se ve la intención de voto como un sistema dinámico.

Con esto, se tiene que 
$$TE_n=E_{n+1}\,,$$
donde $E_n$ es la enésima encuesta considerada. En esta estimación fueron utilizadas 11 encuestas, $E_1,E_2,\dots,E_11$. Con estas encuestas, se obtienen 10 estimadores de la matriz $T$, 

$$T_n=\left(E_{n+1}E^t_{n}\right)\left(E_nE^t_n\right)^{-1}\,.$$

Para poder realizar una estimación de la matriz de transiciones a partir de las matrices $T_n$, es posible analizar la media y desviación de las componentes de las matrices $T_n$, 

$$M=E(T_n)\,,\qquad S^2=E(\left(T_n-T\right)^2)\,,$$

donde las operaciones se hacen componente por componente. Con estos datos, se pueden obtener los intervalos de confianza para los valores de la matriz de transición utilizando el teorema del limite central y la distribución t de student por tener un numero menor de 30 muestras con un $\alpha=5\%$.


En este cuadro están las diferentes proyecciones considerando las encuestas de internet, las impresas, y todas las encuestas, tomadas en orden aleatorio y en orden cronológico.

Con estos datos, se calculan las medias y desviaciones de las proyecciones, para poder calcular el margen de error del modelo. $LI$ y $LS$ denotan los límites inferior y superior respectivamente de las proyecciones realizadas. 

Los datos en verde muestran los candidatos con mayor intensión de voto proyectada, mientras que los datos en amarillo muestran los candidatos con la segunda intensión de voto proyectada. Es de notar que al considerar todos los datos, el porcentaje comprendido en otros resulta ser el segundo lugar. 

En todas las proyecciones, salvo las realizadas con datos de internet solamente, se tiene que hay segunda vuelta entre FCN y LIDER, teniendo FCN un amplio margen sobre el segundo lugar, con un error promedio del $2.77\%$.

Considerando los posibles escenarios, es posible que haya una segunda vuelta entre FCN y UNE o entre FCN y FUERZA, siendo la segunda la más probable, sin embargo FCN y LIDER es la combinación esperada.






[Referencias de datos]