Vous reprendrez bien un peu de Machine Learning dans votre Big Data ?

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !

Chère lectrice, cher lecteur,

Lorsque j’ai commencé à m’intéresser à l’Intelligence Artificielle, j’ai tout d’abord été noyé sous une avalanche de termes qui me paraissaient tous synonymes : Machine Learning, Data Science, Big Data… À l’heure de Google et Wikipédia, il aurait dû être simple d’en trouver des définitions précises. Pourtant, plus je cherchais, moins je trouvais de réponse claire. Et pour cause.

J’ai fini par comprendre qu’il n’existe tout simplement pas de consensus général sur ce que recouvre précisément chacun de ces termes. Au point que la communauté elle-même en blague : « Si vous parlez à des investisseurs, dites que vous faites de l’IA. À des ingénieurs, que vous faites du Machine Learning. À des jeunes diplômés, que vous faites de la Data Science » [1].

Sans doute le domaine est-il encore jeune et encore en maturation, ou la hype favorise les buzzwords mal définis, sans doute un peu des deux – quoi qu’il en soit, le résultat est que le sens des mots varie d’un interlocuteur à l’autre. Nous voilà bien avancés…

Le mieux étant l’ennemi du bien, cela ne devrait pas nous empêcher d’essayer d’y voir plus clair. Après avoir passé un temps déraisonnable à lire des auteurs et écouter des speakers de tous horizons parler du sujet, je me propose donc de partager les définitions qui me paraissent les plus consensuelles.

Intelligence Artificielle

L’expression « Intelligence Artificielle » couvre le domaine le plus large, le plus ancien, qui regroupe tous les autres et même plus. A l’heure où l’on entend parler d’IA à tout va avec des images de robots futuristes et autres hologrammes bleus, cela peut paraître surprenant, mais le concept remonte au moins jusqu’aux années 1950.

C’est un terme un peu fourre-tout, où l’on retrouve aussi bien des disciplines comme bien sûr l’informatique, mais aussi la neurobiologie, la robotique voire certains pans de mathématiques et de philosophie. De façon schématique, elle regroupe tout ce qui ressemble de près ou de loin à de l’automatisation de la réflexion, tout comme un robot automatise du travail manuel.

Avec une telle définition, même votre calculatrice de poche peut être considérée comme une forme d’Intelligence Artificielle. Si cela vous fait sourire, dites-vous que la grande majorité de ce que l’on qualifie d’Intelligence Artificielle aujourd’hui n’est en réalité guère plus compliquée d’un point de vue technique – mais suffisamment bien « enrobé » pour donner à l’usager l’illusion d’une intelligence !

Une grande idée à retenir est en effet que la difficulté et l’intérêt de l’IA ne réside pas dans ses aspects techniques ou mathématiques, mais dans son intégration dans un contexte et des applications humaines.

Si ce n’est pas très clair, pas d’inquiétude, je reviendrai régulièrement là-dessus dans de prochaines lettres avec des exemples concrets.

Intelligence Artificielle Généralisée

La « vraie » Intelligence Artificielle, celle des films de science-fiction, capable de s’adapter et de gérer des situations nouvelles comme un humain le ferait, par opposition à l’Intelligence Artificielle d’aujourd’hui qui est essentiellement une forme d’automatisation sous contrôle.

Malgré les progrès importants dans les dernières années, une IAG reste un concept théorique encore très lointain, que les prévisions les plus optimistes estiment faisable d’ici peut-être 50 ans (et les pessimistes qu’elle est hors de portée).

Machine Learning (Apprentissage Automatique)

Au sein de l’Intelligence Artificielle, le Machine Learning s’intéresse aux méthodes d’entraînement d’ordinateurs à partir de données pour leur « apprendre » à prédire un résultat.

Par exemple, en fournissant à un ordinateur un ensemble de 10’000 photos de chats et 10’000 photos sans chat, on peut lui faire « apprendre » à détecter les spécificités d’une photo de chat afin qu’il soit capable de déterminer automatiquement si une photo contient un chat ou non.

Il existe de nombreuses méthodes et algorithmes de Machine Learning, chacun ayant leurs forces et leurs faiblesses, en fonction de la quantité et de la qualité des données disponibles, du niveau de précision recherché, de leur vitesse de calcul (au niveau de l’entraînement initial ou de l’utilisation une fois entraîné) ou encore de la transparence des critères de décision qui ont été utilisés pour aboutir au résultat.

Avec les avancées récentes en matière de création, stockage et puissance de calcul sur les données, ces méthodes donnent souvent des résultats impressionnants ; aujourd’hui l’essentiel des travaux et des efforts dans le domaine de l’IA sont consacrés au Machine Learning – d’où la fréquente assimilation des deux.

Data Science (Science des données)

Une façon moderne de désigner le fait d’extraire des informations pertinentes à partir de grandes quantités de données. Si cela ressemble à une définition de la discipline ancestrale de la statistique, c’est normal. Certains vont même jusqu’à affirmer que la Data Science n’existe pas en tant que telle et qu’un « data scientist » (intitulé de poste inventé vers la fin des années 2000) n’est finalement qu’un terme sexy pour désigner un statisticien sans renvoyer l’image d’un mathématicien austère et poussiéreux [2].

D’autres la désignent comme une discipline nouvelle qui a émergé dans un contexte d’abondance de données à exploiter, à l’intersection de l’informatique, des mathématiques et des applications business :

Dans le fond, la distinction a peu d’importance. Les data scientists utilisent des statistiques et des algorithmes de Machine Learning pour traiter des données pour explorer ou résoudre des problématiques d’entreprise.

Business Intelligence

Les entreprises n’ont pas attendu la Data Science pour utiliser leurs données et prendre de meilleures décisions ; elles ont pour cela mis en place des équipes de Business Intelligence (“BI”).

De l’extérieur, la BI est principalement vue comme le service responsable de produire les tableaux de bord. Ce n’est toutefois que la partie émergée de l’iceberg : l’essentiel de son travail consiste à structurer, combiner et transformer les données brutes issues des systèmes informatiques pour créer les indicateurs utiles pour l’activité. Ensuite seulement vient la partie « visualisation » qui consiste à créer à partir de ces données retravaillées un tableau de bord intuitif et pratique.

Alors que les data scientists vont principalement travailler avec des langages de programmation comme Python ou R, la BI privilégie des outils facilitant la manipulation et la visualisation de données – tableur Excel, requêtes SQL ou logiciels spécifiques de BI comme Tableau ou PowerBI.

Cela étant dit, la BI peut être amenée à utiliser des méthodes de Data Science – et ce sera vraisemblablement de plus en plus souvent vrai à l’avenir.

Big Data

De toutes les expressions, celle-ci m’a paru la plus floue et la plus utilisée dans des contextes marketing et des articles de presse généraliste. Lorsqu’elle n’est pas utilisée pour parler indistinctement d’IA, de Data Science ou d’ingénierie informatique moderne, elle désigne plus particulièrement les techniques d’analyses spécifiques aux très grandes quantités de données.

Au-delà d’un certain volume de données à traiter, la capacité de stockage, la vitesse de lecture des données ou la puissance de calcul nécessaires obligent à adopter des méthodes d’analyse spécifiques, par exemple en traitant des flux continus de données au lieu de bases de données statiques.

Le seuil à partir duquel on considère que l’on travaille sur du Big Data reste très empirique. Pour donner un ordre d’idée, tout ce qui peut tenir sur un disque dur ordinaire reste très en-deçà du Big Data, ce qui suffit à en exclure l’immense majorité des applications courantes de Data Science aujourd’hui à moins de travailler chez Google, Facebook ou consorts.

Voilà, si vous étiez tout aussi confus que moi à mes débuts, j’espère que ces quelques lignes vous auront permis d’y voir un peu plus clair !

À bientôt,

Erwan


[1] Et la chute de la blague, pour les initiés : « Et à vous-même, que vous faites une régression linéaire ».
[2] La citation exacte de Nate Silver, célèbre… data scientist : « Data scientist is a sexed up term for a statistician »

Inscrivez-vous gratuitement pour ne rater aucune lettre !

Laisser un commentaire

Abonnez-moi à la newsletter