Sunday, August 9, 2015

Elecciones 2015 Guatemala: Modelos de Markov dicen Morales y Baldizón

Estando a menos de un mes de las elecciones presidenciales en Guatemala, quise evaluar los datos existentes sobre las encuestas realizadas. 
Un primer reto fue el encontrar los datos de las encuestas, lastimosamente a pesar de la era tecnológica en la que vivimos, estos datos no están facilmente disponibles. Las referencias de los datos se encuentran al final.

Para poder realizar una proyección de los comicios de este 6 de Septiembre de 2015, es posible tratar los datos de las encuestas como una Cadena de Markov, en donde cada encuesta es un estado en el espacio de distribución de intensión de voto.

Si suponemos que hay $n$ partidos, la idea es utilizar un tipo de Modelo Oculto de Markov con una matriz de transición $T=(t_{ij})$ donde $t_{ij}$ es la probabilidad de que un votante que tenía intención de votar por el partido $i$ cambie de parecer y vote por el partido $j$. Acá, la matriz $T$ es desconocida. El objetivo es encontrar la matriz de transición para poder obtener el estado estable del sistema de Markov.

Para estimar estos datos, se puede definir el espacio de estados como los resultados de las encuestas, en order cronológico. De esta manera se ve la intención de voto como un sistema dinámico.

Con esto, se tiene que 
$$TE_n=E_{n+1}\,,$$
donde $E_n$ es la enésima encuesta considerada. En esta estimación fueron utilizadas 11 encuestas, $E_1,E_2,\dots,E_11$. Con estas encuestas, se obtienen 10 estimadores de la matriz $T$, 

$$T_n=\left(E_{n+1}E^t_{n}\right)\left(E_nE^t_n\right)^{-1}\,.$$

Para poder realizar una estimación de la matriz de transiciones a partir de las matrices $T_n$, es posible analizar la media y desviación de las componentes de las matrices $T_n$, 

$$M=E(T_n)\,,\qquad S^2=E(\left(T_n-T\right)^2)\,,$$

donde las operaciones se hacen componente por componente. Con estos datos, se pueden obtener los intervalos de confianza para los valores de la matriz de transición utilizando el teorema del limite central y la distribución t de student por tener un numero menor de 30 muestras con un $\alpha=5\%$.


En este cuadro están las diferentes proyecciones considerando las encuestas de internet, las impresas, y todas las encuestas, tomadas en orden aleatorio y en orden cronológico.

Con estos datos, se calculan las medias y desviaciones de las proyecciones, para poder calcular el margen de error del modelo. $LI$ y $LS$ denotan los límites inferior y superior respectivamente de las proyecciones realizadas. 

Los datos en verde muestran los candidatos con mayor intensión de voto proyectada, mientras que los datos en amarillo muestran los candidatos con la segunda intensión de voto proyectada. Es de notar que al considerar todos los datos, el porcentaje comprendido en otros resulta ser el segundo lugar. 

En todas las proyecciones, salvo las realizadas con datos de internet solamente, se tiene que hay segunda vuelta entre FCN y LIDER, teniendo FCN un amplio margen sobre el segundo lugar, con un error promedio del $2.77\%$.

Considerando los posibles escenarios, es posible que haya una segunda vuelta entre FCN y UNE o entre FCN y FUERZA, siendo la segunda la más probable, sin embargo FCN y LIDER es la combinación esperada.






[Referencias de datos]



2 comments:

  1. Se deben descontar encuestas que aparecieron en medios de comunicacion dominados por uno o mas de un candidato. No son confiables, es mas pintan lo opuesto.

    ReplyDelete
    Replies
    1. Parte de hacer el análisis es incluir toda la información posible. Para hacer un estudio científico no hay que descartar información sin tener una prueba contundente de que no sea fiable. Una manera de amortiguar posibles efectos de manipulaciones es incluir más datos independientes, que es el objetivo de incluir todas las encuestas de terceros.

      Delete