Classificando as previsões eleitorais de 2016

No início deste mês, no BuzzFeed News, anunciamos que avaliaríamos as previsões das eleições deste ano . Na tarde de segunda-feira, o Conselho de Colportores de Michigan finalmente vitória certificada de Trump . Agora que cada estado foi finalmente chamado - assumindo que Esforço de recontagem de Jill Stein não muda as coisas - nós temos os resultados.



Sim o enquetes estavam erradas . Mas alguns analistas, que normalmente confiam nas pesquisas e muitas vezes as combinam com outros dados para dar chances de quem vai ganhar, estavam menos errados do que outros. Não é preciso muita matemática para determinar isso Previsões FiveThirtyEight de Nate Silver , embora tenham dado melhores chances a Hillary Clinton do que a Trump, eram os menos errados. Ele não só deu a Trump mais do que 1 chance em 4 de vencer a eleição, mas também repetidamente defendeu suas previsões ' otimismo em Trump , por razões que mais tarde provado presciente . Outras previsões de alto perfil deram a Trump chances pequenas de desaparecimento.

Para recapitular, aqui estão as previsões que examinamos - listadas pela probabilidade de Trump derrotar ou empatar Clinton no Colégio Eleitoral:



Esses prognósticos são baseados em como cada um dos 50 estados e o Distrito de Columbia deveriam votar. Podemos ter uma noção melhor - embora ainda imperfeita - do julgamento dos meteorologistas, observando como eles previram as disputas estaduais individuais.

O básico se resume a isto: quais meteorologistas receberam mais ligações certas? Quem chegou mais perto das margens finais entre Clinton e Trump? Quais meteorologistas melhor equilibram confiança e correção? (Por exemplo: eles deram a Clinton 99% de chance de vencer em Michigan ou 80% de chance? E eles estavam certos?)

A abordagem simples para julgar previsões complicadas

A abordagem mais simples é apenas contar o número de estados que cada previsor chamou corretamente. Mas isso perde nuances críticas. Por exemplo, não leva em consideração a diferença entre 51% de chance e 99% de chance. Ainda assim, é um lugar fácil para começar.

Sam Wang, do Consórcio Eleitoral de Princeton, adivinhou mais estados corretamente do que qualquer outra pessoa que examinamos: 46 mais o Distrito de Columbia. FiveThirtyEight de Silver, e quase todas as outras previsões, acertaram 45. (Wang, ao contrário dos outros meteorologistas, achava que Trump venceria a Carolina do Norte.)

Isso destaca um paradoxo: apesar de sua hiperconfiança equivocada de que Clinton tomaria a Casa Branca - dando a ela uma chance de 99% - Wang adivinhou que mais estados estavam certos do que qualquer outro.

Então, por que ele achou que Trump tinha uma chance tão pequena de vencer? Não só as pesquisas estaduais falham , mas a maioria falhou da mesma maneira: subestimando Trump. Isso é chamado de erro correlacionado. Todos os analistas percebem que as pesquisas não são perfeitas; às vezes eles entrevistam as pessoas erradas ou pondere suas respostas incorretamente . Mas parte do trabalho de um previsor é estimar quão provável - e quão extenso - o erro correlacionado pode ser. Muitos previsores considerou essa perspectiva improvável , mas Nate Silver não .

Nesta pós-eleição a culpa é minha , Wang identificou esse erro como o calcanhar de Aquiles de sua previsão. Não estimei corretamente o tamanho do erro correlacionado - por um fator de cinco, escreveu ele. As pesquisas falharam e eu amplifiquei essa falha.

Uma abordagem mais matizada

Pronto para um pouco mais de matemática? Uma métrica chamada Pontuação de Brier é amplamente usado para quantificar a precisão dos analistas - em eleições e além. (É a principal métrica dissemos que usaríamos para avaliar . Nós postamos o dados e código por trás desses cálculos no GitHub .)

As pontuações de Brier levam em consideração apenas duas coisas: Qual a probabilidade de o previsor pensar que algo iria acontecer, e aconteceu? A pontuação de Brier recompensa a confiança quando você está correto, mas penaliza a confiança quando você está errado.

Pontuações menores são melhores. Zero é a melhor pontuação possível - significa que você estava 100% confiante em suas previsões e todas deram certo. A pior pontuação possível é 1 - você estava 100% confiante em suas previsões e todas estavam erradas.

Abaixo estão dois tipos de pontuação Brier para cada previsão. O primeiro é ponderado pelos votos eleitorais de cada estado, de modo que a Pensilvânia (20 votos) conte cinco vezes mais que New Hampshire (4 votos). O segundo conta cada estado igualmente:

Como você pode ver, as previsões de FiveThirtyEight tiveram a melhor pontuação. o New York Times e a PollSavvy - que deu à presidência de Trump as próximas melhores chances depois de FiveThirtyEight - também pontuou relativamente bem no nível estadual. As previsões de pior desempenho foram aquelas do Huffington Post e Daily Kos , ambos dando chances quase certas de vitória de Clinton na Pensilvânia, Wisconsin e Michigan. (Logo após a eleição, o Huffington Post O editor de pesquisas escreveu um artigo explicando como estragamos tudo e o que estamos fazendo para evitar uma repetição .)

No gráfico acima, você notará que todas as previsões tiveram pontuação pior na coluna ponderada do que na não ponderada. Basicamente, isso quer dizer: no geral, os previsores foram piores em prever o resultado em estados mais populosos do que em estados menores. (Nota lateral: mesmo as previsões mais precisas este ano tiveram desempenho pior na pontuação de Brier do que qualquer uma das previsões de alto perfil em 2012 , uma eleição com muito menos surpresas.)

Outra métrica comum, o regra de pontuação logarítmica - o que coloca uma penalidade ainda maior na confiança perdida - produz classificações semelhantes na parte superior e inferior, com algumas mudanças no meio do pacote, e penaliza Daily Kos extra para o seu extrema alta sobre Clinton em Michigan :



Nota: Para contabilizar o arredondamento, as pontuações de log acima consideram todas as chances de 0% como 0,01% (ou 1 em 10.000) de chances.

jennifer aniston está namorando brad pitt

Olhando para as previsões dos meteorologistas ao longo do tempo, você pode ver a previsão de FiveThirtyEight se separar do resto do pacote no início de novembro:



Prevendo o voto

Está claro que as pesquisas sub-representaram o apoio de Trump. Mas qual previsão previu a participação dos votos em nível estadual com mais precisão? Esta é uma pergunta um pouco mais difícil de responder, porque os previsores representaram a margem de vitória esperada de Trump de maneiras ligeiramente diferentes. Podemos agrupar as previsões em dois tipos, com alguma sobreposição:

  • Previsões que permitem o cálculo do esperado de Trump margem de pontos percentuais de vitória sobre Clinton, entre todos os votos. Este grupo contém FiveThirtyEight, PollSavvy, o New York Times , o Consórcio Eleitoral de Princeton e o Huffington Post .

  • Previsões que permitem o cálculo do esperado de Trump parte do voto bipartidário (ou seja, excluindo Johnson, Stein e McMullin). Este grupo contém FiveThirtyEight, PollSavvy, Daily Kos , Kremp / Ardósia e Desart e Holbrook. (PredictWise não fez nenhuma projeção de compartilhamento de votos.)

Para cada previsão de estado presidencial - excluindo DC (que algumas previsões não estimaram) e Utah (onde os meteorologistas adotaram abordagens diferentes para a candidatura de McMullin) - calculamos o erro médio quadrático das margens projetadas dos analistas em relação aos resultados reais. (Alguns estados ainda não relataram totalmente seus votos, mas as margens atuais para cada corrida parecem estar estáveis. Atualizaremos a postagem quando a contagem final chegar.)

Entre o primeiro grupo, FiveThirtyEight pontuou melhor (números menores são melhores):



Entre os segundos, FiveThirtyEight se saiu pior, em parte porque subestimou o apoio de Trump em fortalezas republicanas, como West Virginia e South Dakota, em maior extensão do que, por exemplo, Daily Kos fez:



As disputas pelo Senado

Muitos dos meteorologistas publicaram previsões para as eleições para o Senado deste ano também. A tabela abaixo mostra como eles pontuaram nas 32 corridas que avaliamos. (Não avaliamos a corrida para o Senado da Califórnia, que colocou dois democratas um contra o outro, ou a da Louisiana, que era tecnicamente uma primária.)



Aqui, FiveThirtyEight e o New York Times liderou o pelotão, embora a classificação precisa dependa de como você a pontua. De acordo com as pontuações de Brier, o modelo polls-plus de FiveThirtyEight superou o Vezes . Mas a regra de pontuação logarítmica impôs punição extra suficiente contra as pesquisas - além de - por seu excesso de confiança nas chances de Russ Feingold em Wisconsin - para dar ao Vezes o primeiro lugar.

É isso por este ano.