Le modèle et la réalité

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Troisième et dernière partie de ma petite série consacrée à la prédiction politique : pourquoi le résultat d’un modèle sera toujours faux ?

La carte n’est pas le territoire

Souvenez-vous de la simulation des primaires démocrates que j’avais évoquée dans la lettre précédente :

Oublions les vastes variations qui ont eu lieu jusqu’au mois d’avril.

Début avril, est-ce que Biden avait réellement 100% de chances de victoire aux primaires démocrates ?

Statistiquement oui, réellement, non.

Pensez à tout ce qui aurait pu se passer :

  • Un scandale de premier ordre fait surface et rend sa candidature intenable
  • Un accident (ou une contamination au COVID !) le rend infirme ou décédé
  • Une catastrophe naturelle grave fait dérailler le calendrier électoral

Je peux vous assurer que ces événements, certes individuellement rares mais très nombreux, n’ont pas été intégrés dans le calcul de sa probabilité de victoire.

Comment pourraient-ils l’être ? Il est tout simplement impossible de quantifier proprement le risque qu’ils surviennent ainsi que leurs conséquences, faute d’antécédent historique sur lequel se baser.

Alors, le modèle se base aux seules données disponibles et ne modélise pas le reste.

C’est quelque chose de général qu’il faut absolument garder à l’esprit :

Un modèle ne se base pas sur la réalité

Un modèle se base sur une représentation de la réalité, qui en est forcément une déformation : il peut être extrêmement performant et précis, cela ne veut pas dire que ses conclusions seront pertinentes dans le monde réel.

Les philosophes disent de façon similaire que la carte n’est pas le territoire : nous prenons des décisions sur la base d’une carte mentale, une représentation incomplète et déformée de la réalité transmise par nos sens.

Voici un petit schéma illustratif :

Dans un exercice de modélisation, l’essentiel des efforts se concentre sur la deuxième flèche : faire la meilleure prévision possible à partir des données disponibles.

C’est aussi ce que l’on mesure à l’aide d’indicateurs de performances – tout simplement parce que l’on ne peut pas faire autrement, c’est la seule chose qui peut être évaluée.

Mais cela ne doit pas faire oublier la première flèche, implicite, qui consiste à représenter une certaine réalité à l’aide de données et de paramètres forcément incomplets.

Voici un exemple célèbre.

L’échec du New Coke

Dans les années 80, en perte de vitesse face à son concurrent Pepsi, Coca-Cola conçoit une nouvelle recette pour sa boisson phare. [1]

La mise sur le marché est minutieusement préparée, à l’aide d’études de marché, de sondages de consommateurs et de tests de goût à l’aveugle.

Les conclusions sont claires : les consommateurs préfèrent le goût du New Coke au Coca-Cola classique.

La campagne marketing est prête. Tout le monde attend avec impatience le « New Coke ».

Et… c’est un échec retentissant ! Moins de trois mois plus tard, la recette classique est réintroduite en urgence et le New Coke définitivement arrêté.

Affiches publicitaires pour le New Coke (image : Coca-Cola)

Les consommateurs préféraient bel et bien le goût du New Coke ! Mais ce n’était pas LE Coca-Cola mythique, celui auquel ils étaient habitués et qui était devenu pratiquement un repère…

Chose qui avait été négligée car difficilement quantifiable…

Bref, trop se fier aux données peut faire oublier que la réalité ne se laisse pas toujours mettre en équations !

L’élection américaine n’est pas pliée, même si les sondages sont justes

Alors, Trump a-t-il vraiment 10% de chances (selon Fivethirtyeight à l’heure où j’écris ces lignes) d’être toujours président fin janvier prochain ?

NON !

Et ce, même en supposant que le modèle de Fivethirtyeight est d’une précision absolue !

Sa représentation de la réalité ne tient pas compte de possibilités comme :

  • Une contestation des résultats, des recomptages et un processus judiciaire qui peut remonter jusqu’à la Cour Suprême (ce qui s’est passé en 2000)
  • De l’intimidation d’électeurs aux alentours des bureaux de vote
  • Le décès de l’un ou l’autre des candidats
  • Des « grands électeurs » qui votent pour un autre candidat que celui qu’ils sont censés représenter (l’élection présidentielle américaine étant basée sur un vote indirect)
  • Ou tout simplement de la fraude électorale…

Imaginez le scénario suivant :

Au soir du 3 novembre, de nombreux États décompteront les bulletins déposés le jour-même, puis ceux expédiés par courrier, qui ne seront pas tous arrivés à ce moment-là (le cachet de la poste faisant foi).

Pour des raisons tant démographiques que politiques, dont la crainte du COVID, les électeurs de Biden sont beaucoup plus susceptibles d’avoir voté par courrier.

Il est alors possible que dans certains États-clés particulièrement disputés, les premiers bulletins dépouillés donnent une majorité à Trump, jusqu’à ce que l’ensemble des bulletins soient décomptés.

Imaginons que Trump se saisisse de l’occasion pour proclamer sa victoire sur la foi de ces résultats incomplets et engage un bras de fer juridique pour empêcher les décomptes des bulletins suivants en poussant l’idée qu’ils sont frauduleux.

L’objectif serait de faire traîner le processus et obliger la Cour Suprême (où siègent 6 juges conservateurs sur 9, dont 3 nommés par Trump) à trancher rapidement car il est constitutionnellement nécessaire qu’un vainqueur soit désigné en janvier (c’est le précédent Bush vs. Gore de 2000).

Trump pourrait alors être confirmé président alors que selon la représentation de la réalité utilisée par tous les modèles (un nombre de voix dans chaque État lui donnant une minorité de Grands Électeurs), les résultats le donneraient perdant…

… et ce n’est pas un scénario purement fantasmé, loin de là [2].

Deux choses importantes à ne pas oublier donc :

  • Aussi performant soit un modèle, il se base toujours sur des hypothèses implicites qu’il convient, sinon de questionner, du moins de garder à l’esprit
  • Il est possible de changer le résultat d’un modèle non seulement en modifiant ses hypothèses explicites et ses paramètres, mais aussi en changeant les « règles du jeu »

À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] https://www.coca-colacompany.com/news/the-story-of-one-of-the-most-memorable-marketing-blunders-ever
[2] https://www.theguardian.com/us-news/2020/nov/01/donald-trump-us-election-final-campaign-sprint

Laisser un commentaire

Abonnez-moi à la newsletter