Démasquer une Intelligence Artificielle

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Après cette petite interruption estivale, je vous retrouve aujourd’hui avec une question classique de science-fiction : comment distinguer une Intelligence Artificielle suffisamment avancée d’un être humain ?

Qui parviendra à démasquer les Replicants (Blade Runner) ou les Cylons (Battlestar Galactica) ?

Dans le septième art, ce thème a surtout été traité sous un angle philosophique. Mais dans cette lettre, point d’émotion (vous commencez à me connaître…), je vous parlerai très concrètement de l’un des derniers modèles d’Intelligence Artificielle, à l’efficacité bluffante – mais pas absolue…

Le test de Turing

Que signifie au juste « distinguer une IA d’un être humain » ?

On doit à Alan Turing, l’un des pères de l’informatique (et par extension de l’Intelligence Artificielle), l’idée en 1950 d’un petit jeu pour déterminer si une machine est capable de penser.

Il part du principe que si une machine est capable d’interagir avec un interrogateur de façon suffisamment crédible pour être confondue avec un être humain, alors cela revient en pratique à considérer qu’elle est effectivement capable de penser [1].

Ce jeu, nommé « jeu de l’imitation » [2] puis passé dans le langage courant sous le nom de « test de Turing », regroupe trois participants : un interrogateur humain et deux joueurs, l’un humain, l’autre machine.

Chacun des participants est dans une pièce séparée et les interactions se limitent à s’envoyer des messages écrits. Le but de l’interrogateur est alors de déterminer, uniquement en posant des questions, lequel des joueurs est un humain et lequel est une machine [3].

Avec le temps, ce test est devenu dans la culture populaire une sorte de Graal de l’Intelligence Artificielle, le signe que les machines ont développé une conscience et « rattrapé » l’être humain… ce qui est une vision très romancée des choses :

  • Le test de Turing reste plutôt une expérience de pensée. Même s’il peut être mis en pratique, son protocole reste ouvert et de nombreux paramètres influencent le résultat : quelle durée autorise-t-on ? Combien d’essais ? À partir de quel taux de réussite ? Avec quels interrogateurs ?…
  • Il ne cherche à tester que la capacité d’une Intelligence Artificielle à imiter un humain, alors que la plupart du temps elle n’est développée que dans un but précis qui n’est pas l’imitation. Une IA peut échouer en étant trop performante, par exemple capable d’effectuer des calculs très longs et complexes

Méfiance donc la prochaine fois que vous entendrez un article prétendre qu’une IA a passé (ou est sur le point de passer) « le » test de Turing…

Pour autant, cela reste une façon intéressante d’approcher certains modèles d’Intelligence Artificielle, ceux dont la fonction est précisément d’écrire du texte imitant aussi fidèlement que possible un être humain.

Et quoi de plus intéressant que de se plonger justement sur un modèle de traitement du langage naturel dernier cri ?

175 milliards de paramètres. Émoi, émoi, émoi...

GPT-3 (abrégé pour « Generative Pre-Trained Transformer ») est la troisième version d’un modèle de traitement du langage naturel basé sur un réseau neuronal proposé par la société OpenAI [4].

Il a été annoncé en mai 2020 et a beaucoup fait parler de lui dans le petit monde de l’Intelligence Artificielle en annonçant se baser sur un record de 175 milliards de paramètres, plus de dix fois la taille du plus gros modèle précédent.

Il n’est pas facile d’expliquer ce qu’est un paramètre de réseau neuronal sans entrer dans des mathématiques complexes. De façon extrêmement simplifiée, on peut rapprocher cela d’une règle unitaire de grammaire, d’orthographe ou de sémantique que le modèle peut « apprendre » à travers les documents qui lui ont été fournis.

Et il en a lu, des documents : des millions de pages web, des centaines de milliers de livres ainsi que toute l’encyclopédie Wikipédia, pour un total de 500 milliards de mots [5]. Si l’idée vous prenait de lire tous ces documents, il vous faudrait y passer plus de 5000 ans sans discontinuer…

Cette approche extrêmement quantitative, consistant à laisser un modèle apprendre de lui-même des règles à suivre à partir d’immenses quantités de données, est caractéristique des modèles modernes d’Intelligence Artificielle : il ne s’agit plus d’enseigner directement des choses aux machines, mais de leur enseigner à apprendre par elles-mêmes.

Il faut avouer que les résultats sont impressionnants (quoiqu’exclusivement en anglais).

Voici quelques exemples d’applications de GPT-3, réalisées par des amateurs dans le court laps de temps depuis son lancement officiel :

  • Un script de stand up comedy entièrement généré par le modèle et qui se défendrait tout à fait sur les planches [6]. Le rire n’est déjà plus le propre de l’homme…
  • Un générateur de conversation avec un personnage historique, respectant le style et les connaissances de ce personnage [7]
  • Un générateur de code Javascript à partir de phrase en langage naturel (comme « un bouton qui ressemble à une pastèque ») [8]. Oui, GPT-3 a même appris la grammaire de plusieurs langages de programmation !
  • Un « traducteur » de documents juridiques en anglais courant [9]
  • Un correcteur orthographique capable d’expliquer les raisons de ses corrections [10]
  • Un diagnostic médical à partir de la description des symptômes [11]
  • Un jeu de rôle qui raconte des histoires s’adaptant aux actions que vous décidez [12]
  • Un philosophe capable de… philosopher sur un thème donné [13]
Un philosophe dopé à l’Intelligence Artificielle. Dans cet exemple, je me suis contenté d’écrire le thème (« Artificial Intelligence »), le reste a été généré automatiquement. (philosopherai.com)

Bien entendu, la plupart de ces exemples restent expérimentaux – hors de question à ce stade de réellement proposer un outil de diagnostic médical, surtout sans humain dans la boucle !

Néanmoins, tant que l’on reste dans un cadre ludique où une potentielle erreur reste sans conséquence, la qualité des résultats est évidente. GPT-3 est non seulement capable de produire des phrases grammaticalement et sémantiquement correctes, mais également d’articuler des raisonnements logiques sur plusieurs phrases.

Alors, a-t-on finalement créé le monstre capable de se faire passer pour un humain ?

Questions pour une machine

Sans aller jusqu’à mettre en place un véritable protocole de test de Turing sur cette IA (dont l’accès se fait encore au compte-goutte – comptez sur moi pour vous en parler si j’obtiens un accès !), quelles questions sont les plus susceptibles de révéler qu’il s’agit d’une machine ?

La tâche n’est pas facile : les exemples précédents montrent aussi à quel point elle est capable de construire des phrases complexes, grammaticalement justes et sémantiquement logiques.

Mais il faut se rappeler comment elle a été construite : en lisant et assimilant des milliards de mots produits pendant des siècles par l’humanité. Les mots restent creux pour la machine, elle a simplement appris à les reconnaître et les combiner très efficacement.

Un ingénieur ayant travaillé chez Google et Facebook s’est amusé à rechercher des questions sur laquelle cette IA est susceptible de se trahir [14]. En voici les principales catégories – et pourquoi elles sont efficaces :

Tester le « bon sens »

GPT-3 est parfaitement capable de répondre à des questions simples de bon sens, comme « qu’est-ce qui peut rendre un chien de mauvaise humeur ? ». Ce qui n’est pas étonnant : il existe très certainement, quelque part, un livre ou une page web donnant précisément cette réponse et que le modèle a mémorisée.

En revanche, il peut être pris en défaut sur des questions qui n’ont vraisemblablement jamais été posées telles quelles et pourtant dont la réponse est évidente pour n’importe quel humain : par exemple, « est-ce qu’un stylo est plus lourd qu’un grille-pain ? ».

Cela étant dit, il a tout de même réussi (par chance ?) à identifier correctement qu’un grille-pain était plus lourd qu’une souris, ou qu’une canette de soda était plus lourde qu’un trombone à papier…

Tester l’absurde

En l’état, le modèle peut avoir du mal à reconnaître des questions syntaxiquement correctes mais dont le sens est absurde, comme « Combien d’arc-en-ciels faut-il pour sauter d’Hawaï à dix-sept ? » ou « Comment sporgler un morgle ? ». Entraîné par défaut à toujours tenter une réponse, il peut ainsi répondre très sérieusement « deux arc-en-ciels » et « il faut utiliser un sporgle ».

Mais les choses vont si vite que certains testeurs ont déjà montré qu’il était possible d’apprendre au modèle à reconnaître les questions absurdes et à y répondre de façon cohérente… [15]

Tester la culture générale

GPT-3 dispose d’une masse de connaissances inégalée. Si l’information existe sur Wikipédia par exemple, elle sera très vraisemblablement capable de la restituer, y compris s’il s’agit d’une connaissance extrêmement spécialisée, tant qu’elle est publique.

Il sera très difficile de le prendre en défaut sur une question de connaissance absurde… à moins de justement considérer qu’être capable de répondre à beaucoup de questions pointues dans des domaines très différents est le signe probable que l’on est face à une Intelligence Artificielle…

Tester les mathématiques

Contrairement à ce que l’on pourrait croire, cette IA se révèle plutôt mauvaise en… mathématiques. Si elle est parfaitement capable d’effectuer des opérations simples (4 + 5 = 9), son apprentissage par imitation la conduit à être mauvaise sur des opérations avec davantage de chiffres… tout simplement parce qu’elle est moins susceptible d’avoir rencontré exactement cette opération.

Les auteurs du modèle eux-mêmes reconnaissent qu’il ne dépasse par 10% de réponses justes sur des additions à 5 chiffres… sans parler d’opérations combinées ou plus complexes [5].

Tester la logique

Si le modèle dispose d’une mémoire gigantesque, elle concerne tous les documents qui lui ont été fournis et qui ont structuré son réseau neuronal. En utilisation pratique, l’architecture est figée et sa mémoire « active » paraît beaucoup plus limitée.

C’est quelque chose qui peut être exploité en lui soumettant une question complexe, nécessitant de mémoriser trop d’objets : par exemple, il répond incorrectement « une chaussure » à la question « si j’ai deux chaussures dans une boîte, ajoute un stylo dans la boîte et retire une chaussure, que me reste-t-il ? ».

Je serais par ailleurs curieux de tester des questions de type « quelle était la réponse à la troisième question que j’ai posée ? » – j’espère vraiment avoir l’occasion de les tester prochainement !

*Toc toc* « Sarah Connor ? – Hm, combien font 72461 + 47745 ? »

Si je vous parle dans cette lettre des limites de l’un des derniers modèles d’Intelligence Artificielle génératrice de texte, au-delà de l’intérêt ludique, c’est pour deux raisons.

D’abord, pour montrer paradoxalement à quel point ces limites ont été repoussées dans ces dernières années, jusqu’où il faut aller pour trouver des failles, alors même que ce modèle n’a pas été conçu pour passer un test de Turing en premier lieu.

Après tout, lui permettre d’effectuer des opérations mathématiques complexes ou lui donner la faculté d’admettre (sciemment ou non) son ignorance serait relativement aisé ; je ne doute pas que ce sera chose faite dans un avenir très proche.

Mais c’est aussi pour démystifier les progrès qui ont été réalisés.

Oui, le niveau de qualité de texte que l’on est capable d’atteindre aujourd’hui est absolument époustouflant.

Pour autant, non, cela ne signifie pas que l’on s’approche d’une véritable intelligence, comparable à celle d’un humain. Ce qui est réalisé aujourd’hui, c’est bien une illusion d’intelligence, bâtie sur la mémorisation et la restitution d’une immense somme de connaissances.

Le jour où je pourrai me contenter d’appuyer sur un bouton pour rédiger mes lettres n’est hélas pas encore arrivé…

À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] Cette affirmation, du domaine de la philosophie, reste controversée. L’expérience de la chambre chinoise en est une tentative de réfutation.
[2] C’est également le titre d’un film consacré à la vie, tragique, d’Alan Turing, qui a directement contribué à précipiter la fin de la Seconde Guerre Mondiale par ses travaux de cryptanalyse, avant d’être persécuté pour son homosexualité puis de se suicider quelques années plus tard. Il n’a été réhabilité qu’en 2013.
[3] https://academic.oup.com/mind/article/LIX/236/433/986238
En toute rigueur, il existe deux versions du test de Turing. Celui que j’évoque, où l’interrogateur doit identifier la machine parmi les deux joueurs, est le plus connu.
Mais Turing évoque également un autre test présenté légèrement différemment. Il consiste en une suite de parties dans lesquelles les deux joueurs sont bien un homme et une femme et l’interrogateur doit déterminer le sexe de chacun des deux interlocuteurs. La réussite se mesure alors en comparant le taux de succès de l’interrogateur lorsque l’un des joueurs est remplacé (à son insu) par une machine.
https://link.springer.com/content/pdf/10.1023/A:1011242120015.pdf
[4] https://openai.com/blog/openai-api/
[5] https://arxiv.org/pdf/2005.14165.pdf
[6] https://arr.am/2020/07/22/why-gpt-3-is-good-for-comedy-or-reddit-eats-larry-page-alive/
[7] https://twitter.com/mckaywrigley/status/1284110063498522624
[8] https://twitter.com/sharifshameem/status/1282676454690451457
[9] https://twitter.com/michaeltefula/status/1285505897108832257
[10] https://twitter.com/danielbigham/status/1289286439872737280
[11] https://twitter.com/QasimMunye/status/1278750809094750211
[12] https://medium.com/@aidungeon/ai-dungeon-dragon-model-upgrade-7e8ea579abfe
La version précédente (dont j’avais parlé dans une précédente lettre), basée sur GPT-2, peut être testée gratuitement ici : https://play.aidungeon.io/main/newGame
[13] https://philosopherai.com
[14] https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
[15] https://twitter.com/nickcammarata/status/1284050958977130497

Laisser un commentaire

Abonnez-moi à la newsletter