Si tu bayes aux corneilles pendant un cours de stats

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Vous m’excuserez pour la familiarité inhabituelle du titre de cette lettre – il m’était impossible de résister à un aussi mauvais calembour…

C’est effectivement bien de Bayes [1] et de son théorème que j’ai choisi de vous parler aujourd’hui. Une connaissance essentielle lorsque l’on lit ou manipule des statistiques.

Bayes, théorème, statistiques… j’ai déjà perdu votre attention ? Promis, aucun calcul complexe ou démonstration mathématique ici. Je terminerai même cette lettre avec quelque chose qui n’a rien à voir avec les mathématiques !

Qui a peur du grand méchant Bayes ?

Le théorème de Bayes est intimidant. En tout cas, il l’a longtemps été pour moi.

Rien qu’à lire Wikipedia, on s’attend à des mathématiques pointues loin des préoccupations du commun des mortels :

« Le théorème de Bayes est utilisé dans l’inférence statistique pour mettre à jour ou actualiser les estimations d’une probabilité ou d’un paramètre quelconque, à partir des observations et des lois de probabilité de ces observations. Il y a une version discrète et une version continue du théorème. »

Et sa formulation est plutôt déroutante si l’on n’a jamais manipulé de probabilités :

A screenshot of a cell phone

Description automatically generated

Pourtant, on en rencontre des applications pratiques dans de multiples domaines de la vie de tous les jours, y compris dans des domaines vitaux comme la santé.

Pouvez-vous faire confiance à un test de dépistage ?

Prenons un exemple d’actualité. En pleine épidémie, vous vous demandez si vous êtes l’un de ces « porteurs asymptomatiques » qui ont été contaminés un jour sans le savoir. Vous vous rendez dans un centre de dépistage, qui effectue un test sur une prise de sang.

D’après l’étiquette du test, si vous êtes effectivement porteur, il a 90% de chances de le détecter (et 10% d’indiquer par erreur que vous ne l’êtes pas : c’est un faux négatif) [2].

Le résultat du test indique que vous êtes porteur. Quelle est la probabilité que vous le soyez effectivement ?

  • Une chance sur 10
  • Neuf chances sur 10
  • Il faut demander au médecin
  • Je ne sais pas
Le jour où vous verrez un quizz télévisé avec des questions de stats…
réveillez-moi de toute urgence.

Si vous avez répondu la première ou la deuxième réponse, c’est malheureusement une erreur.

Pire encore, si vous avez répondu la troisième réponse, vous aurez vraisemblablement aussi une réponse erronée : même les médecins se trompent souvent face à ce problème [3].

La bonne réponse est bien la quatrième : les informations données ne sont pas suffisantes pour savoir réellement ce qu’il en est (mais on peut y arriver, j’y viens plus bas).

Que s’est-il passé ? Ce que dit l’étiquette, c’est que le test sera positif si vous êtes porteur avec une probabilité de 90%.

Mais la question que vous vous posez, c’est quelle est la probabilité d’être porteur si le test est positif.

Les conditions sont inversées ! Les 90% répondent à la première question, pas à la seconde. Heureusement, la magie du théorème de Bayes est qu’il permet d’inverser ces conditions !

Bayes démystifié

Dans l’équation plus haut, P(B|A) et P(A|B) désignent tout simplement ces probabilités conditionnelles inverses, A et B étant les deux événements (être porteur et avoir un test positif).

Ce que dit le théorème de Bayes, c’est que pour passer de l’un à l’autre, il suffit de le multiplier par le ratio P(A)/P(B), autrement dit des probabilités de chacun des événements indépendants.

Dans l’exemple plus haut :

  • Être porteur (A) a une certaine probabilité dans l’absolu : par exemple on estime que 2% de la population est porteuse, autrement dit que la probabilité de A est de 2%
  • Avoir un test positif (B) est un petit peu plus difficile à calculer, car cela peut se produire dans deux cas différents : quand un porteur est correctement détecté, ou quand un non-porteur est détecté par erreur comme porteur.
    Nous avons donc besoin d’une information supplémentaire sur l’efficacité du test : sa spécificité, autrement dit la probabilité de faussement détecter un non porteur. Imaginons qu’il soit ici de 5%.
    La probabilité de B est alors de 2% x 90% (porteurs correctement détectés) + 98% x 5% (non-porteurs incorrectement détectés), soit 6,7%.
    Conclusion : quand une personne au hasard est testée, il y a 6,7% de chances que le test soit positif, qu’elle soit porteuse ou non.

On connaît P(B|A) : c’est la probabilité que le test soit positif si on est porteur, égale à 90%.

On veut connaître P(A|B), la probabilité d’être porteur si le test est positif : il suffit de multiplier 90% par 2%/6,7%, ce qui donne… 27%.

Pour un test d’apparence plutôt performant (90% de chances de détecter correctement un porteur et 95% de détecter correctement un non porteur), il est étonnant de constater qu’il n’y a en réalité qu’une chance sur quatre que l’on soit porteur alors qu’on a été testé positif !

Bayes au quotidien

Ce résultat paradoxal montre à quel point ignorer Bayes peut conduire à des erreurs dramatiques.

Voici quelques exemples susceptibles d’être rencontrés dans la vie de tous les jours [4] :

  • Si la plupart des amateurs de foot sont des hommes, il ne faut pas en déduire que la plupart des hommes sont des amateurs de foot
  • Si la majorité des criminels ont eu une enfance difficile, il ne faut pas en déduire que la majorité des personnes avec une enfance difficile deviennent criminelles
  • Si l’excès de vitesse est responsable d’un tiers des accidents de la route, il ne faut pas en déduire que faire un excès de vitesse a une chance sur trois de provoquer un accident
  • Si un médecin sur cinq ignore le théorème de Bayes, il ne faut pas en déduire que quelqu’un qui ignore le théorème de Bayes a une chance sur cinq d’être un médecin
  • Si 80% de vos clientes ont acheté un certain produit, il ne faut pas en déduire que la clientèle de ce produit est majoritairement féminine

En revanche Bayes peut vous permettre déterminer les probabilités correctes de chacune de ces « déductions » !


Je vous avais promis une petite digression non mathématique pour finir.

Si malgré mes efforts cette lettre vous a fait bâiller, j’espère au moins que vous n’avez pas… bayé aux corneilles. Malgré la confusion que crée la phonétique (et l’étymologie !), on ne bâille pas devant ces pauvres corneilles lorsque l’on s’ennuie, on se contente de bayer, soit de rester… bouche bée.

Mon calembour n’était tout de même pas si mauvais !

Bayes bayes et à la prochaine !

Erwan


[1] À prononcer « bèiz ». J’avais prévenu que c’était un mauvais calembour.
[2] Ou autrement dit, le test a un rappel (recall) de 90%, parfois également appelé sensibilité dans le contexte médical (merci à Pascal Galland pour avoir signalé que « sensitivity » se traduisait bien par « sensibilité » et non « sensitivité »!)
Si vous vous posez la question dans le cas du COVID-19, la sensibilité des tests courants en conditions réelles pourrait être de l’ordre de 75%… ce qui signifie en pratique qu’un quart des infectés ne seraient pas détectés !
https://www.theguardian.com/world/2020/may/25/doctors-condemn-secrecy-over-false-negative-covid-19-tests
[3] Dans une étude des années 2000 sur un échantillon de 1000 gynécologues, seul un sur 5 a su répondre correctement à ce test basique !
https://www.bbc.com/news/magazine-28166019
[4] Avec des chiffres fictifs (mais crédibles)

Inscrivez-vous gratuitement pour ne rater aucune lettre !

Laisser un commentaire

Abonnez-moi à la newsletter