Questions pour un prénom

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Il y a une dizaine d’années, le cabinet de conseil dans lequel je travaillais a décidé de déménager vers de plus spacieux horizons.

Chacun de nous a reçu un plan des nouveaux locaux indiquant la liste des bureaux et les prénoms de leurs futurs occupants. Pour ma part, j’allais partager bureau, encouragements et nocturnes studieuses avec trois autres consultants, Damien, Simon et Hind.

Hind était un prénom que je n’avais jamais rencontré, ce qui n’est pas si surprenant dans un cabinet présent sur les 5 continents où la mobilité est importante. Le prénom sonnait quelque peu scandinave ; inconsciemment, je m’attendais donc à faire la connaissance d’une suédoise ou norvégienne, probablement grande et blonde tant qu’à être dans les stéréotypes.

La personne que j’ai rencontrée était… une ravissante petite brune marocaine. Qui n’a pas pu s’empêcher d’éclater d’un grand rire lors du partage de ces pensées : Hind est en réalité un prénom arabe très commun [1].

Évidemment, ce n’était que l’une de mes nombreuses gaffes de prénoms, entre entamer un email à « Sacha » par « Chère Madame », ou croire que le « Liam » dont parle une collègue doit être un homme de 50 ans plutôt que son fils de 5 ans [2].

Donnez-moi votre prénom, je vous dirai qui vous êtes

Si l’on se souvient bien de ce type d’erreur, c’est paradoxalement le signe que la plupart du temps, nous ne nous trompons pas.

La quantité d’information contenue dans un prénom est fascinante : avec à peine quelques lettres, nous bâtissons inconsciemment un modèle mental d’une personne, son âge, son sexe, son origine, sa situation économique.

Bien sûr, l’information n’est pas intrinsèque aux lettres du prénom, mais à son usage culturel – on ne donne généralement pas les mêmes prénoms aux filles ou aux garçons, il y a un demi-siècle ou aujourd’hui, dans une famille bourgeoise ou dans une famille ouvrière, etc.

Le sociologue Baptiste Coulmont en donne une illustration particulièrement frappante, en publiant chaque année les résultats du baccalauréat par prénom : une Adèle sur trois a obtenu une mention en 2020 contre pratiquement aucun Jordan… [3]

Alfred, le moustachu sans chapeau

Pourquoi je vous parle de tout cela aujourd’hui ?

Je cherchais une illustration pour parler d’un algorithme de classification que j’aime beaucoup, l’arbre de décision (decision tree).

Si vous avez déjà joué au jeu de société « Qui est-ce ? », un arbre de décision fonctionne sur le même principe : vous posez une question (« ton personnage a-t-il une moustache ? »), en fonction de la réponse vous posez une autre question (« ton personnage a-t-il un chapeau ? »), jusqu’à proposer un résultat final (« ton personnage se prénomme Alfred »)

Un plateau du jeu Qui est-ce ?
Un plateau du jeu Qui est-ce ?

Ce modèle a l’avantage de produire rapidement des résultats simples à interpréter : il suffit de regarder la liste des questions successives qui ont mené à la conclusion.

VVotre banque vous refuse un crédit ? Si elle s’appuie sur un arbre de décision, elle peut alors prouver que c’est la conséquence d’avoir été à découvert trois fois l’an dernier et non d’une discrimination parce que vous portez le nom d’un escroc notoire.

Mais si utiliser un arbre de décision bien conçu est un jeu d’enfant, toute la difficulté consiste à le concevoir intelligemment, en sélectionnant les bonnes questions dans le bon ordre.

C’est là que l’algorithmique entre en jeu.

Comment déterminer les meilleures questions ?

Très schématiquement, un bon algorithme de conception d’arbre de décision fonctionne en sélectionnant les questions les plus efficaces pour différencier les résultats possibles.

Mathématiquement, cela s’exprime à travers un calcul d’entropie statistique, qui est une mesure du « désordre » dans un ensemble de données.

L’algorithme calcule l’entropie de l’ensemble de données initiales, puis cherche la question qui permet de diminuer le plus l’entropie : c’est celle qui apporte le plus d’information.

Le processus est répété pour chaque sous-ensemble, jusqu’à obtenir (si tout se passe bien) des groupes homogènes ou presque.

Homme ou femme ? Réponse en 6 questions

Pour illustrer l’efficacité de ces algorithmes, rien de tel qu’une petite mise en pratique ludique.

Peut-on déterminer si une personne est de sexe masculin ou féminin à partir de son prénom en 6 questions ou moins ?

Grâce aux données de l’INSEE des naissances en France depuis 1900 [4], il est possible de concevoir un arbre de décision bien optimisé.

En autorisant six questions, il donne une réponse correcte plus de 90% du temps, en identifiant des critères de sélection auxquels un humain n’aurait probablement pas spontanément pensé [5].

Voici le résultat – vous pouvez faire le test vous-même et avec vos proches !

(cliquez sur l’image pour l’agrandir)

Bien sûr, aussi perfectionné que soit l’arbre, il ne pourra jamais atteindre une précision de 100%, ne serait-ce qu’à cause des prénoms portés aussi bien par des filles que des garçons. Dominique est le plus connu (environ 2/3 masculin et 1/3 féminin), mais il y a même des prénoms comme Gaby ou Mae pratiquement également répartis chez les deux sexes.

Toutefois, même en tenant compte de cela, le résultat reste impressionnant : à l’exception de la branche tout à droite, les séquences de questions permettent d’aboutir rapidement à des groupes homogènes à plus de 80%.

En fait, en poussant l’exercice plus loin et en permettant d’inclure jusqu’à 10 questions, l’arbre parvient à des groupes tous homogènes à plus de 90% – sauf un :

Si un prénom finit par une voyelle qui n’est ni O, ni A, qui a 2 voyelles ou moins, qui ne contient ni P, ni R, ni G, dont les deux dernières lettres ne sont pas NE et dont la première lettre n’est pas un C… vous atterrissez dans un groupe rare (1,8% de la population) où vous n’avez pas d’autre choix que de tirer à pile ou face.

Homme ou femme ? Réponse en… une seule question ?

Cet arbre nous apprend également où se trouve l’information la plus importante pour déterminer le sexe d’une personne à partir de son prénom.

Il faut regarder sa dernière lettre.

S’il s’agit d’une consonne (ou d’un O), vous avez plus de 90% de chances d’être face à un prénom masculin (et 75% d’être face à un prénom féminin dans le cas contraire)…

… même si ici encore Hind se fera à nouveau un malin plaisir de me contredire…

Si vous tombez par erreur dans une case homogène à plus de 95% dans l’arbre ci-dessus, faites-moi part de votre prénom, je suis curieux !

 À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] Après une recherche intensive, Hind s’avère également être un prénom (rare) islandais. L’honneur est sauf.
[2] Oui, le seul Liam que je connaissais jusque-là était Liam Neeson…
[3] http://coulmont.com/blog/2020/07/08/prenoms-et-mention-edition-2020/
[4] https://www.insee.fr/fr/statistiques/2540004
[5] Avec quelques limites, il ne tient par exemple pas compte des personnes décédées entretemps, ni des personnes portant un prénom très rare (moins de 20 occurrences).

Laisser un commentaire

Abonnez-moi à la newsletter