La prédiction et le modèle

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Deuxième partie de ma lettre consacrée aux prévisions politiques : si les sondages ne sont pas des prédictions, voici ils peuvent être utilisés pour faire des prédictions grâce à la Data Science !

Prédire à partir des sondages

Malgré toutes leurs imperfections, les sondages peuvent donner une image plus ou moins précise de l’état de la course à un instant donné.

Ces résultats, pour imparfaits qu’ils soient, restent des données, un morceau d’information sur le monde, qui peut être alimenter un modèle qui, lui, aura bien pour objectif de prévoir le résultat de l’élection.

C’est comme cela que fonctionne le modèle de Fivethirtyeight évoqué dans la dernière lettre [1].

Schématiquement, il est construit de la façon suivante :

1- Collecter les résultats de tous les sondages

Le modèle collecte d’abord tous les résultats de sondages au fur et à mesure de leur parution.

Chaque sondage n’est pas pris en compte de la même manière : le site tient un registre des « scores » de chaque institut de sondage, fonction notamment de leur capacité à correctement prédire d’anciennes élections (particulièrement lorsque la majorité des autres sondages se sont trompés).

En fonction de ce score et des biais historique, le modèle pondère ou ajuste chacun des sondages.

2- Compléter avec des indicateurs structurels

Les données de sondages ne sont pas les seules à être pertinentes.

De nombreux indicateurs démographiques et socioéconomiques ont également un certain pouvoir prédictif (taux de chômage, revenu moyen, origine géographique des candidats, etc.)

Ils sont donc également collectés aux côtés des sondages afin de capter de l’information supplémentaire et d’accroître la précision du modèle.

3- Passer d’une photo à une prédiction

Plusieurs modèles de régression (une catégorie de modèles prédisant une grandeur continue, comme le % d’intentions de votes) sont entraînés sur des élections historiques, afin de déterminer la contribution de toutes les données disponibles sur le résultat final.

Ces modèles reçoivent ensuite les données de l’élection en cours pour déterminer chacun un résultat probable.

Les résultats de ces modèles sont à leur tour combinés et comparés aux résultats de combinaisons de modèles lors d’élections historiques.

Cette approche dite « ensembliste » est très commune en machine learning : en combinant les prédictions d’un grand nombre de modèles, on tire parti du meilleur de chacun d’eux et le « supermodèle » ainsi créé peut atteindre une meilleure précision que celle du meilleur modèle utilisé.

En fin de course, le modèle fournit, pour chaque État, une prévision du résultat probable de chaque candidat le jour de l’élection.

4- Ajouter l’incertitude

Un résultat en soi n’a qu’un intérêt limité tant que l’on ne tient pas compte de l’incertitude liée aux changements d’avis des votants.

Différents types d’incertitudes sont pris en compte, mais le principal facteur est tout simplement… le temps qui passe.

Plus on est loin du jour de l’élection, plus l’incertitude est grande, car un événement peut toujours survenir jusqu’à l’élection proprement dite : une gaffe, une nouvelle annonce électorale, un débat réussi…

Cette incertitude ne traite pas les candidats également : elle favorise les chances du candidat à la traîne dans les sondages.

L’explication est simple : le candidat favori reste favori si survient un événement positif pour lui, alors que le candidat devancé ne peut devenir favori que si survient un événement positif pour lui.

Plus il y a de place pour des événements disruptifs, plus cela donne donc une chance au challenger de reprendre l’avantage : le statu quo ne fait que maintenir le favori dans sa position de favori.

C’est ainsi qu’au cours du mois de septembre, alors que les intentions de vote pour Trump et Biden étaient relativement constantes, les chances de gagner de Trump se sont effritées, tout simplement parce qu’aucun événement particulier n’est venu chambouler l’élection pendant cette période :

Au cours du mois de septembre, les chances de victoire de Trump sont passées de plus de 30% à 20% alors que les intentions de vote n’ont pratiquement pas changé : le statu quo favorise le candidat en tête, ici Biden, simplement parce que l’incertitude diminue. Pour les mêmes raisons, fin octobre les chances de Biden sont restées stables, voire ont légèrement augmentait, alors qu’il baissait légèrement dans les intentions de vote [2] (captures d’écran du site Fivethirtyeight)

La prédiction finale s’effectue en simulant État par État 40 000 élections, avec un écart aléatoire par rapport à la cible précédemment déterminée en fonction de cette incertitude.

Enfin, la probabilité de victoire d’un candidat est définie comme la proportion de ces 40 000 résultats donnant ce candidat vainqueur.

Quelle est la probabilité que la probabilité soit juste ?

Proposer une probabilité de victoire d’un candidat est un exercice très rassurant.

Parmi mes amis, celui qui avait prédit 90% de chances de victoire pour Trump aura beau jeu de défendre que l’on soit tombé dans les 10% d’erreur en cas de victoire de Biden : finalement, à moins de prédire 100% de chances pour l’un des candidats, on ne peut jamais avoir tort en donnant une probabilité !

Comment peut-on alors déterminer si le chiffre que le modèle appelle « probabilité » a bien le sens que l’on donne communément à une probabilité ?

Autrement dit, comment savoir si les 12% de victoire de Trump prédits par le modèle complexe de Fivethirtyeight sont plus « justes » que les 90% sortis du chapeau de mon ami ?

Le principal moyen de s’en assurer est de comparer les résultats de toutes les prédictions qui ont été réalisées :

Comparaison entre les prévisions de Fivethirtyeight (en abscisse) et les résultats réels (en ordonnée) [3]

Sur les prévisions politiques (graphe de gauche), chaque petit rond bleu [4] indique la proportion de résultats effectivement corrects pour chaque tranche de prévision.

Par exemple, sur toutes les élections étudiées par le site, le modèle a prédit dans un certain nombre de cas qu’un candidat avait 50% de chances de victoire (au milieu du graphe) ; en pratique, cette prédiction s’est effectivement réalisée… 50% du temps.

C’est bel et bien en confrontant ainsi les performances sur de nombreux cas que l’on montre que ces probabilités ont bien du sens.

Alors, fin de l’histoire ?

Pas tout à fait.

Aussi rassurants que soient les résultats ci-dessus, il ne s’agit pas de ce qu’a donné un modèle, mais de ce qu’ont donné de nombreux modèles, chacun avec leurs paramètres, souvent définis spécifiquement pour une élection.

Cela nous dit tout au plus que les data scientists de Fivethirtyeight ont un bon historique, pas que « leur » modèle (ou plutôt, un de leurs modèles) est juste.

En d’autres termes, il est tout à fait possible que les 12% annoncés soient… faux, parce que le modèle a mal été configuré pour cette élection-ci.

Tragiquement, même une fois le résultat de l’élection connu, il sera pourtant impossible de dire si ce pourcentage-là était correct…

Autre élément ennuyant, seul le résultat d’un modèle à la veille de l’élection peut être effectivement confronté au résultat de l’élection. Il n’y a pour ainsi dire aucun moyen de savoir dans quelle mesure le modèle est correct avant !

Un exemple particulièrement frappant remonte au début de l’année, lors des primaires démocrates.

Voici à quoi ressemblait l’évolution des chances de victoire des différents candidats :

Évolution des chances de victoire des différents candidats aux primaires démocrates (Fivethirtyeight)

En l’espace de deux semaines en mars, la probabilité de victoire de Joe Biden est passée d’environ 10% à… pratiquement 100%.

De fait, le modèle était juste en avril : Biden avait accumulé tellement d’avance que sa victoire était inévitable. Mais avait-il alors vraiment seulement 10% de chances de gagner juste avant ?…

Ce type de phénomène, couplé à l’impossibilité de définir proprement ce que signifie une probabilité de victoire à mi-campagne, me laisse penser que la confiance à accorder au modèle avant le dernier jour relève quelque part de la foi…

Mais toutes ces discussions négligent l’éléphant dans la pièce.

Mettons de côté les questions de significativité de ces probabilités.

Voyez-vous pourquoi, de l’aveu même des créateurs de ce modèle, le résultat sera faux de toutes façons ? Tout en espérant qu’il ne le sera pas trop quand même…

Rendez-vous dans quelques jours pour la dernière partie de cette série, où j’évoquerai quelque chose de fondamental en matière de modélisation !

À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] https://fivethirtyeight.com/features/how-fivethirtyeights-2020-presidential-forecast-works-and-whats-different-because-of-covid-19/
[2] En toute rigueur, cela pourrait être également dû à des effets locaux étant donné que l’élection n’est pas directe (il peut y avoir une hausse dans les « swing states » malgré une stabilité ou une baisse au niveau national) ; cela reste très peu probable.
[3] https://projects.fivethirtyeight.com/checking-our-work/

Laisser un commentaire

Abonnez-moi à la newsletter