Le sondage et la prédiction

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

En début d’année, j’ai posé la question suivante à un groupe d’amis :

Quelle est selon vous la probabilité que Donald Trump soit à nouveau président des États-Unis le 31 janvier 2021 ? [1]

C’est peu dire que les avis divergeaient largement : cette probabilité était évaluée entre 20% et 90% selon la personne interrogée…

Plus sérieusement, la prédiction politique est un domaine sur lequel des data scientists se sont penchés depuis au moins une dizaine d’années.

L’un des plus célèbres sites en la matière est Fivethirtyeight, qui se base sur une vaste quantité de sondages et d’indicateurs socio-économiques pour proposer ses prédictions.

Plutôt que de prédire un vainqueur, le site propose une probabilité de victoire de chaque candidat. Ainsi, à une semaine de l’élection du 3 novembre, le site donne actuellement 12% de chances de victoire pour Donald Trump [2].

Prévision du site Fivethirtyeight le 27 octobre 2020

Mais quand on y pense, qu’est-ce que signifie au juste une probabilité de victoire ?

Cela a-t-il vraiment un sens, sachant que chaque élection n’a lieu… qu’une fois ?

Réponse : « Oui, mais… »

Un sondage n’est pas une prévision

Tout d’abord, il ne faut pas confondre sondage et prévision, pour plusieurs raisons.

De l’inexactitude des sondages

Un sondage consiste à estimer les intentions de vote, en interrogeant un échantillon (supposément) représentatif des votants.

Si un sondage indique que 55% des personnes affirment qu’ils voteront pour le candidat A (et 45% pour le candidat B), ce n’est bien sûr pas une probabilité de victoire du candidat A : avec 55% des voix, il remporterait l’élection, pas de question de probabilité ici.

Ce qui nous intéresse, c’est la probabilité que le sondage se trompe – ou plus exactement, qu’il se trompe suffisamment peu pour que la conclusion (le candidat A aura plus de 50% des voix) ne change pas.

C’est pour cela que les sondages indiquent généralement un intervalle de confiance, parfois aussi appelé marge d’erreur – par exemple, 55% +/- 3%.

Mais attention, cet intervalle ne veut pas dire ce que l’on pense qu’il veut dire…

Un résultat de 55% avec une marge d’erreur de 3% ne signifie pas que le vrai pourcentage est compris entre 52% et 58% !

Je suis par exemple retombé sur un article du Monde [3] qui prétend :

« Dans le cas d’un échantillon de 1 000 personnes, si le pourcentage mesuré est de 20 %, la marge d’erreur [selon le tableau] est égale à 2,5. Le vrai pourcentage est donc compris entre 17,5 % et 22,5 % »

C’est faux !

L’intervalle ne donne qu’une probabilité, en général 95%, que le résultat soit effectivement dans cet intervalle.

Est-ce qu’une erreur qui a 5% de chances de se produire mérite d’être soulignée ? Dites-vous que c’est à peu près la chance que vous avez de tirer soit un 2, soit un 12 en lançant deux dés…

Si un sondage annonce un vote de 55% avec une marge d’erreur de 3%, le résultat peut tout de même être au-delà de cette marge d’erreur !

Pire encore, cet intervalle peut être calculé rigoureusement que sous réserve que certaines conditions statistiques soit remplies… ce qui n’est jamais le cas dans les sondages modernes !

Pour des raisons de coût et de rapidité, les sondeurs ciblent certaines catégories précises de population (et non un échantillon aléatoire) et retraitent les résultats avec une méthodologie (secrète) qui leur est propre.

En plus de rendre très douteuses les notions mêmes de marges d’erreur, ces retraitements aux airs de petite cuisine d’arrière-boutique ne sont pas anodins : en 2016 par exemple, la plupart des sondeurs américains ne retraitaient pas les résultats en fonction du niveau d’éducation des répondants [4].

Comme cela avait eu peu de conséquences dans les précédentes élections, les instituts de sondages avaient négligé d’en tenir compte… jusqu’à l’erreur de 2016.

De la nature des questions posées

Même en laissant de côté les problèmes d’exactitude, les sondages ne donnent pas forcément une vision juste : répondre à une question au téléphone et mettre le bulletin correspondant dans l’urne, ce n’est pas la même chose.

Les écarts peuvent avoir de nombreuses sources, telles que :

  • Une personne peut affirmer soutenir un candidat, mais ne pas voter ensuite
  • Une personne peut affirmer soutenir un candidat par pression sociale (même dans un sondage) et en soutenir réellement un autre
  • Une personne peut être influencée par les autres questions posées (qui peuvent mettre l’accent sur les sujets de prédilections de l’un des candidats) au moment de répondre
  • Une personne peut volontairement mentir pour tenter de biaiser le sondage

De la différence entre une photo et une projection

Enfin, l’élément le plus crucial : un sondage, même parfaitement représentatif, n’est qu’une photo de la course à un moment donné.

Pour des raisons de coût et de rapidité, les sondeurs se basent sur une méthode dite « des quotas » : ils ciblent certaines catégories précises de population (et non un échantillon aléatoire) et retraitent les résultats avec une méthodologie (secrète) qui leur est propre.

Ce n’est pas une prévision de la photo du « finish », le jour de l’élection ! [5]

Entretemps, les votants, même persuadés qu’ils voteront pour un candidat donné, peuvent changer d’avis, à cause d’une « surprise » dans la campagne, à la lumière de nouvelles informations ou simplement parce que les raisons qui les avaient poussés à préférer un candidat s’estompent petit à petit dans leur mémoire.

Même l’évolution des sondages peut être trompeuse.

Il est tentant de « projeter » une hausse ou une baisse dans les sondages et de croire que la tendance va se poursuivre.

Hélas, cela ne marche pas plus que de prédire le prix d’une action : l’évolution des sondages sur la période récente ne prédit pas leur évolution future [6].

Alors, les sondages ne servent à rien pour prédire une élection ?

Tout de même pas !

Je vous présenterai dans les tout prochains jours comment les sondages sont utilisés pour construire une véritable prédiction… et les limites de ces prédictions !

À bientôt !

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] L’éventuelle passation de pouvoir avec le vainqueur de l’élection du 3 novembre ayant légalement lieu en janvier
[2] https://projects.fivethirtyeight.com/2020-election-forecast/
[3] https://www.lemonde.fr/politique/article/2011/03/10/sondages-et-si-l-on-prenait-en-compte-les-marges-d-erreur_1490989_823448.html
[4] https://www.nytimes.com/2017/05/31/upshot/a-2016-review-why-key-state-polls-were-wrong-about-trump.html
[5] D’autant que pour ne rien simplifier, il est possible de voter en avance…
[6] https://fivethirtyeight.com/features/the-misunderstanding-of-momentum/

Laisser un commentaire

Abonnez-moi à la newsletter