L’alarme à sophismes

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

La pandémie soulève de nombreuses questions, auxquelles même les experts n’ont pas toujours de réponse claire : pourquoi tel pays semble moins touché qu’un autre ? Pourquoi les « vagues » sont-elles si différentes d’une région à l’autre ? Etc.

Pourtant, jamais une telle quantité de chiffres détaillés n’a été aussi aisément accessible. Par exemple, sur ourworldindata.org, vous pouvez trouver l’évolution du nombre de cas, d’hospitalisation ou de décès, jour par jour, pays par pays, en échelle linéaire ou logarithmique, réalignés au début de l’épidémie, lissés sur 7 jours et j’en passe.

Il est tentant pour tout un chacun d’aller y chercher soi-même des réponses, ou tout simplement de l’insight, ces bribes d’informations alléchantes qui apparaissent en cuisinant les données. Hélas, cela peut devenir un exercice dangereux dès lors que l’on remue un peu trop imprudemment la soupe…

Quand les statistiques s’emmêlent

Prenez par exemple ce message, vu récemment :

« En Israël, avant la campagne de vaccination, 75% des hospitalisations liées au COVID-19 concernaient des personnes de plus de 60 ans. Depuis la campagne de vaccination, ce taux est descendu à 50%. Le vaccin, que l’on affirme efficace à plus de 90%, n’a donc en réalité réduit l’hospitalisation que de (75%-50%)/75%, soit 33% ! »

À première vue, le raisonnement paraît logique. Mais personnellement, j’ai acquis une sorte de réflexe. Dès qu’un raisonnement commence à mélanger des ratios statistiques, une petite alarme sonne dans ma tête, mon « alarme à sophismes ».

Croiser les effluves, croiser les statistiques : attention danger !

Socrate est-il un chat ?

Vous avez sûrement entendu ce type de raisonnement nommé syllogisme :

« Tous les hommes sont mortels.
Socrate est un homme.
Donc Socrate est mortel. »

Rien à redire d’un point de vue logique. Mais un syllogisme peut être altéré, perverti pour donner l’apparence d’un raisonnement logique… mais faux : cela devient un sophisme – ou paralogisme si la tromperie est involontaire.

Par exemple :

« Socrate est mortel.
Les chats sont mortels.
Donc Socrate est un chat. »

Vous aurez certainement repéré le paralogisme : l’argumentation est logiquement fausse. Et donc sa conclusion : Socrate n’est pas un chat.

… Vraiment ?

Je vous ai attiré à mon tour dans un sophisme : rien dans le raisonnement précédent ne dit non plus que Socrate n’est pas un chat ! La seule chose exacte est que ce raisonnement ne permet pas d’affirmer logiquement qu’il est un chat (ni qu’il n’en est pas un)… D’ailleurs, le chat de ma tante s’appelle justement Socrate [1].

L’alarme a sonné

Revenons aux cas d’hospitalisation de COVID. Après cette première lecture, l’alarme à paralogisme qui sonne ne dit pas que la conclusion est fausse – ni même que le raisonnement l’est. Elle me rappelle simplement qu’il est très facile de (se) tromper avec des statistiques et que cela vaut la peine de prendre le temps de relire le raisonnement et poser des chiffres avant toute conclusion hâtive.

Dans cet exemple, les cas d’hospitalisation liés au COVID en Israël se répartissaient à 75%/25% entre plus et moins de 65 ans avant la vaccination. Supposons qu’il y ait exactement 100 personnes hospitalisées et que le nombre d’hospitalisations ne dépende que de la vaccination : le nombre d’hospitalisations chez les moins de 65 ans, non ou peu vaccinés, reste à 25. Si les plus de 65 ans représentent désormais 50% des hospitalisations, il y en aura également 25. Le nombre d’hospitalisation sera donc passé de 75 à 25 (et non 50), soit une baisse de 67% – ce qui reste compatible avec un vaccin efficace à 90%, sachant que toutes les personnes de plus de 65 ans ne sont pas vaccinées, ou avec une seule dose.

Mais les pièges statistiques peuvent être bien plus trompeurs !

Quand les statistiques s’en mêlent

Imaginez la situation suivante.

Vous êtes responsable d’une maison de retraite où se trouvent 500 pensionnaires, au début d’une pandémie encore mal connue. Les pensionnaires s’inquiètent : une rumeur dit que les femmes sont plus susceptibles d’être malades que les hommes et nécessitent donc une prise en charge particulière.

Pour en avoir le cœur net, vous regardez les données disponibles :

  • Il y a 250 pensionnaires femmes, dont 21 sont tombées malades (8,4%)
  • Il y a 250 pensionnaires hommes, dont 17 sont tombés malades (6,8%)

L’affaire est entendue : il y a proportionnellement plus de cas chez les femmes, celles-ci sont donc indiscutablement plus à risque. Alors que vous vous apprêtez à donner des instructions en ce sens, l’un des médecins lève un sourcil :

« C’est très étonnant. Sur ce type de maladie, ce sont habituellement les hommes qui sont plus à risque. »

Pourtant, les données sont claires. Vous jetez à nouveau un œil aux données : il y a un second tableau qui sépare les malades par âge.

  • Parmi les 250 pensionnaires de plus de 65 ans, le taux d’infection est de 14% chez les hommes contre 10% chez les femmes

Étrange, les hommes paraissent effectivement plus à risque. Peut-être un simple effet de moyenne avec les pensionnaires de moins de 65 ans ? Que dit le tableau suivant ?

  • Parmi les 250 pensionnaires de moins de 65 ans, le taux d’infection est de 5% chez les hommes, contre 2% chez les femmes

Alors que dans toute la population les femmes sont plus susceptibles d’être malades que les hommes, dans chacune des deux tranches d’âge, ce sont les hommes qui en sont plus susceptibles que les femmes !

Comment est-il possible ? La réponse se trouve dans le détail de la distribution :

  • Les personnes âgées sont (beaucoup) plus susceptibles, que ce soit pour les hommes ou pour les femmes
  • Et il y a plus de femmes âgées que d’hommes âgés

Ce qui apparaît dans les données globales n’est donc pas le résultat d’une plus grande susceptibilité des femmes, mais d’une plus grande proportion de personnes âgées. Pour en avoir le cœur net, voici une distribution qui répond exactement aux données ci-dessus :

Ce phénomène, nommé paradoxe de Simpson, n’est pas si exceptionnel – ou « pathologique » comme disent les mathématiciens, pour rester dans le champ lexical du médical. Il ne nécessite que l’existence de variables « oubliées » (comme l’âge dans l’exemple précédent) et des distributions non homogènes – deux conditions qui n’ont rien de particulièrement rare.

On dit qu’il y a trois types de mensonges : les gros mensonges, les petits mensonges et les statistiques.

Les statistiques ne sont qu’une manière de résumer de nombreuses données avec quelques chiffres. Elles conduisent forcément à une certaine perte d’information. Volontairement ou non, il est facile de (se) tromper avec des statistiques – au point qu’elles peuvent mener à deux conclusions parfaitement opposées selon la façon dont elles sont utilisées !

Il n’est pas possible, ni souhaitable, de vérifier systématiquement calculs ayant permis de construire une statistique. Mais, particulièrement quand elles sont croisées ou utilisées pour prendre des décisions importantes, cela vaut la peine de se souvenir qu’elles peuvent être très trompeuses. Et prendre le temps d’écouter cette petite alarme au moindre doute !

À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] Un autre exemple que j’aime bien :
« Ce qui est rare est cher.
Les studios bon marché à Paris sont rares.
Donc les studios bon marché à Paris sont chers. »
Je vous laisse trouver où est l’erreur dans celui-ci…

Laisser un commentaire

Abonnez-moi à la newsletter