Une exploration de données très limite limite

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !

Avertissement : Cet article par ailleurs tout à fait sérieux parle d’un jeu de cartes « déconseillé aux moins de 18 ans » pour de bonnes raisons. Vous voilà prévenu(e).


Chère lectrice, chère lecteur,

Il existe des bases de données sur tous les sujets. Pannes de machines, historiques d’achats, listes de mots dans des textes, images de champs agricoles… Tout le monde se rue sur les données les plus sérieuses et les plus sexy pour créer un monde meilleur.

Et puis il y a les autres bases de données. Celles qui ne rendront pas le monde meilleur. Celles que vous avez honte d’aimer.

J’ai eu la chance de mettre la main sur une grande quantité de données provenant du jeu de cartes Limite Limite, dont l’éditeur m’a fort aimablement autorisé à parler ici. Si vous n’en avez jamais entendu parler, il s’agit d’un jeu de cartes au ton transgressif, très populaire chez les adolescents.

Les règles sont simples. Chaque tour, un meneur pioche une carte de la pile de questions. Par exemple, « Une voyante m’a prédit mon futur : X ». Les autres joueurs choisissent parmi les 7 cartes « réponses » qu’ils ont en main celle qui leur paraît la plus appropriée – ou plutôt, inappropriée. Par exemple « Être figurant chez Jacquie et Michel »[1]. Les cartes sélectionnées par ces joueurs sont mélangées ensemble et le meneur choisit la réponse qu’il préfère, la plus drôle ou la plus inattendue ; le joueur qui l’avait proposée marque alors un point.

Beaucoup de cartes tournent autour de la politique ou du sexe, ce qui conduit généralement à des résultats fort peu politiquement corrects.

Il existe une version du jeu pour mobile qui permet d’affronter des amis ou des inconnus. Le déroulement de dizaines de milliers de parties jouées au cours des années a été ainsi consigné dans une large base de données que personne n’avait jamais explorée jusqu’à présent.

Nul regard ne s’est jamais posé sur la base de données des parties de Limite Limite.
On se demande pourquoi.

Sans trop entrer dans les détails techniques, il s’agit d’une base de données semi-structurée dont on peut extraire moyennant quelques efforts, pour chaque round joué :

  • Quelle était la question (parmi les 350 disponibles)
  • Quelles cartes étaient dans la main de chaque joueur (parmi les 550 disponibles)
  • Quelle carte a été sélectionnée par chaque joueur
  • Quelle carte a remporté le round
  • Ainsi que des métadonnées (date de la partie, pseudos des joueurs…)

Comme je suis très curieux j’ai effectué un certain nombre d’analyses qui pourraient servir à améliorer le jeu. Par exemple :

Identifier les cartes réponse les moins populaires

En établissant des statistiques sur le nombre de fois qu’une carte a été jouée lorsqu’elle était dans la main d’un joueur, certaines cartes paraissent nettement moins souvent sélectionnées que d’autres quelle que soit la question.

La carte réponse la moins populaire, « Trouver l’app Limite Limite trop chère » n’est jouée qu’une fois sur 40 (contre 1 fois sur 7 en moyenne étant donné que les joueurs ont 7 cartes en main). Ce qui est plutôt une bonne nouvelle je suppose.

Bien sûr, il se peut que ces cartes soient simplement totalement inadaptées à la majorité des questions tout en étant pertinentes pour une forte minorité de questions, ce qui n’en ferait pas forcément des cartes inintéressantes. Pour en avoir le cœur net, regardons la distribution de ces probabilités de jouer une carte réponse pour chacune des questions.

Il n’y a en tout et pour tout qu’une seule question (sur 350) sur laquelle la carte
« Trouver l’app Limite Limite trop chère » est jouée significativement plus d’une fois sur sept !

Finalement, les cartes réponse les moins intéressantes sont celles pour lesquelles il n’existe que peu de cartes questions « pertinentes » (= face à laquelle la réponse sera choisie plus d’une fois sur 7 face aux 6 autres de la main du joueur).

Heureusement, l’immense majorité des réponses disposent d’au moins 50 cartes questions pertinentes

Il reste tout de même 4 cartes réponses pour lesquelles il existe moins de 10 questions pertinentes, qui gagneraient probablement à être remplacées dans une future version du jeu :

Quid des réponses les plus populaires, celles les plus souvent sélectionnées et pour lesquelles il existe beaucoup de questions pertinentes, me demanderez-vous ? Disons que, sans surprise, il s’agit de cartes un peu trop explicites pour être citées ici – écrivez-moi un mail si vous tenez à les connaître.

Reconstruire la structure des questions et réponses

Passons au cran au-dessus – que se passe-t-il si l’on calcule la probabilité d’association réponse-question pour toutes les combinaisons possibles ?

Eh bien, pour commencer, cela donne un immense tableau de 350 lignes et 550 colonnes complètement illisible. Une image valant bien 192 500 mots comme on dit, voici à quoi cela ressemble :

Probabilités d’association des cartes réponses (en abscisse) aux cartes questions (en ordonnée)
 Plus le point est clair, plus la probabilité est élevée. Oui c’est illisible.

OK, on dirait une œuvre d’art post-moderne. Ou un téléviseur en panne. Quelques colonnes plutôt noires ou plutôt blanches semblent se distinguer, correspondant respectivement aux cartes réponses les moins et les plus populaires évoquées un peu plus haut.

Pour y voir plus clair, rien de tel qu’un outil magique : un clustering par apprentissage non supervisé.

En quelques mots, un algorithme de clustering typique va considérer que chaque carte réponse est un point dont les coordonnées sont les probabilités d’être associée à chacune des cartes question. Il va ensuite regrouper ces points en clusters de façon à minimiser la distance entre les points d’un cluster.

En ordonnant les cartes questions et réponses selon le cluster qui leur a été attribué, l’ordre émerge du chaos :

Le même tableau que plus haut, mais avec les lignes et colonnes soigneusement réordonnées. Le cardigan a remplacé le post-modernisme.

Certes c’est plus esthétique, mais qu’est-ce que cela signifie au juste ?

Prenons par exemple les cartes réponses qui sont regroupées dans le cluster 2. Visiblement, elles sont souvent jouées face à des questions du cluster C, dans une moindre mesure du cluster A, et pratiquement jamais des clusters B et D.

En inspectant les cartes de chaque cluster, on peut reconstruire une sorte de « grammaire » du jeu :

  • Des questions (clusters A et C) qui appellent plutôt des réponses sous forme de phrases avec un verbe (clusters 2 et 4).

Par exemple, à la question « Je dois filer, c’est l’heure de X », la réponse « passer sous le bureau » (cluster 2) est cohérente, mais « un bras d’enfant » (cluster 3) ne fonctionne pas.

  • Des questions (clusters B et D) qui appellent au contraire des réponses sous formes de personnes (clusters 1 et 6) ou objets (cluster 3).

Les questions du cluster B « collent » un peu mieux aux réponses du cluster 1 et celles du D à celles du cluster 3, mais la frontière reste poreuse (et les réponses du cluster 6 collent bien aux deux).

Par exemple, à la question « Scandale à Clermont-Ferrand, un instituteur aurait montré X à ses élèves » (cluster D), les réponses « un bras d’enfant » (cluster 3) ou « Jean-Claude Van Damme » (cluster 6) passent bien, « Paris Hilton » (cluster 1) est syntaxiquement juste mais moins populaire, tandis que « passer sous le bureau (cluster 2) ne fonctionne pas grammaticalement.

  • Et un groupe de réponses (cluster 5) qui fonctionnent relativement bien avec toutes les questions car elles décrivent des actions sous forme nominale (par exemple, « une soirée cochonne »).

Bien sûr, l’exercice pourrait être poussé beaucoup plus loin en étudiant les corrélations et différences sur un plus grand nombre de clusters. Ce qui est plutôt impressionnant ici est qu’aucune information sur le texte des cartes n’a été fournie à l’algorithme, qui a pourtant formé des clusters syntaxiquement cohérents.

Créer un bot

Finalement, n’a-t-on pas tous les outils pour simuler le comportement d’un joueur humain ? Ou mieux, définir des règles à suivre pour un bot qui ferait largement illusion, capable de choisir « intelligemment » la meilleure carte parmi les 7 qu’il a en main face à une question donnée.

Étant donné le nombre limité de cartes questions et réponses (quelques centaines), il n’y aurait même pas besoin de recourir à des algorithmes d’apprentissage sophistiqués. Il suffit d’utiliser le tableau précédent indiquant la probabilité d’association de chaque carte réponse à une carte question donnée selon les décisions enregistrées par des humains. Et tout simplement choisir parmi les 7 cartes disponibles celle qui présente la probabilité la plus élevée pour avoir un résultat tout à fait crédible. Et le plus beau est que l’on peut utiliser le même processus lorsqu’il faut choisir la « carte gagnante » parmi celles soumises par chaque joueur.

Avec quelques centaines de cartes il reste possible de maintenir une table exhaustive de toutes les combinaisons (cela ne représente après tout un tableau « que » de 350*550 valeurs, soit environ 200 000). Si le jeu disposait de milliers ou dizaines de milliers de cartes, une possibilité pour éviter une table énorme serait de clusteriser les cartes comme précédemment et de ne garder que le tableau d’association des clusters (par exemple, si la question est dans le cluster C, privilégier une carte du cluster 2, ou à défaut du 5, ou à défaut du 4, etc.). La perte de « performance » reste minime tout en maintenant un tableau bien plus petit.

C’est la fin de l’article et vous l’avez bien mérité

Avouons-le, tout cela est beaucoup moins intéressant que de trouver les meilleures associations. Curieusement, le podium est occupé par trois questions à la solennité inhabituelle dans ce jeu :

 « A ma mort, mes premiers mots devant Dieu seront X »
« Avant de s’éteindre, ses derniers mots ont été X »
« Quand on m’enterrera, j’aimerais qu’on grave X sur ma tombe »

Plus curieux encore, dans les trois cas, c’est la même carte réponse qui y est associée. Quels sont ces mots que tant de gens envisagent de laisser à la postérité ?

« Merci Jacquie et Michel »

Je savais bien que cette base de données ne rendrait pas le monde meilleur…

À la prochaine !

Erwan


[1] Un site pornographique français, si comme moi (si si c’est vrai !) vous l’ignoriez.

Inscrivez-vous gratuitement pour ne rater aucune lettre !

Cet article a 2 commentaires

  1. Pol

    Ca manque de fonctions de partage sur les réseaux sociaux, ces articles…

    1. Erwan

      Il y avait un bug sur le site, les revoici.

Laisser un commentaire

Abonnez-moi à la newsletter