Où trouver des données ?

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !

Chère lectrice, cher lecteur,

Comment exploiter des données quand… on n’a pas de données ?

C’est l’objection que j’entends le plus fréquemment dans la bouche de chefs de petites ou moyennes entreprises. Cela m’a surpris la première fois : j’étais mentalement préparé à démystifier la complexité supposée de l’analyse de données, à expliquer comment elle peut apporter des résultats concrets – non, non, c’est cette raison bien plus terre à terre qui paraît insurmontable.

Bonne nouvelle : dans la société actuelle, rien n’est plus abondant que les données. Petit tour d’horizon.

Les plus évidentes : les données internes

C’est évidemment à ces données que l’on pense en premier lieu – et qui laissent croire qu’à moins d’être Facebook ou Google, « on n’a pas de données ».

Et pour cause, elles sont souvent de très grande valeur : elles sont pertinentes (car directement liées à ce que vous faites), contrôlables (car vous décidez comment elles sont organisées et collectées) et exclusives (car vos concurrents n’y ont normalement pas accès).

Toute entreprise, organisation, association ou même individu génère pourtant naturellement des données : informations comptables et financières, fichiers de ventes, logs de connexion au site web, boîtes mail, historique des appels ou de la messagerie du téléphone… L’enjeu est d’abord de réaliser que ce sont de potentielles sources de données et de les stocker sous une forme utilisable.

Je ne m’étendrai pas sur cette partie qui pourrait faire l’objet d’un livre à elle toute seule. S’il n’y avait qu’un conseil à donner dans ce domaine, ce serait de commencer à stocker les données disponibles dès que possible, même de façon imparfaite : stocker des données coûte extrêmement peu cher aujourd’hui et disposer d’un historique aura une immense valeur le jour où vous voudrez les exploiter.

Les plus pratiques : les données publiques

De nombreux organismes gouvernementaux (comme l’INSEE en France) diffusent depuis longtemps des statistiques économiques ou sociétales. Le mouvement de l’Open Data a donné un coup d’accélérateur à la mise à disposition des données sources associées, et plus généralement de toutes les bases de données publiques, sous un format exploitable avec l’idée que cela permettra à des acteurs d’améliorer ou de développer des services bénéfiques à tous. Les règles d’utilisation sont à vérifier au cas par cas, mais elles permettent et même encouragent souvent l’utilisation à des fins commerciales. Le Canada et la France notamment sont particulièrement à la pointe au niveau mondial en termes de mise à disposition de données publiques.

Certaines grandes entreprises proposent également en libre accès de vastes ensembles de données à des fins de communication ou de promotion de leurs propres produits ; c’est notamment le cas de Google, qui tient à maintenir sa position de « grand organisateur de toutes les données du monde ».

Ces bases de données sont souvent de grande qualité, « propres », documentées et prêtes à l’emploi. Même lorsqu’il n’existe pas LA base de données idéale, avec un peu d’astuce et de créativité, il est souvent possible d’en trouver une qui se révèlera tout à fait satisfaisante.

Par exemple, il existe des bases de données extrêmement complètes et détaillées sur le baseball américain. Les raisons sont liées à la nature de ce sport (de nombreux matchs et d’actions quantifiables), à son immense audience de passionnés (des générations de jeunes américains ont collectionné des vignettes avec les joueurs stars) et à ses enjeux financiers. Il est par exemple possible de connaître les dates et lieux de naissance, la taille, le poids, la couleur de peau, l’historique des matchs et la date de décès de milliers de joueurs sur plus d’un siècle. Une source de données inestimable pour des analyses sportives, mais aussi… sociales : des chercheurs astucieux l’ont ainsi utilisée pour évaluer si un droitier vivait plus longtemps qu’un gaucher ! [1]

La principale difficulté consiste finalement à savoir que des données utiles existent quelque part… Quelques pistes pour bien démarrer ses recherches :

Portails open data

De nombreux pays centralisent sur un portail national des bases de données économiques, fiscales, sociales, politiques ou encore géographiques issues des administrations publiques.

  • En France : data.gouv.fr
  • Au Canada : open.canada.ca
  • En Suisse : opendata.swiss
  • En Belgique : data.gov.be

Bibliothèques

Quoi de mieux pour s’y retrouver parmi les bases de données que des bases de données de bases de données, hm ? [2]

  • datasetsearch.research.google.com : Un moteur de recherche de bases de données par Google
  • www.kaggle.com/dataset : Kaggle est un site qui organise des concours pour data scientists. Il a amassé des dizaines de milliers de bases de données, allant de la popularité des films au box-office à la qualité des vins rouges en passant par l’évolution des prix de l’avocat…
  • www.reddit.com/r/datasets : L’immense forum de discussion Reddit a bien sûr sa section consacrée aux bases de données !
  • Bibliothèques Python : Si ce sont les données financières qui vous intéressent (actions, devises, etc.), inutile de réinventer la roue, des bibliothèques comme Data Reader intègrent directement les fonctions nécessaires pour télécharger les données souhaitées depuis une série de portails financiers !
  • www.wikipedia.org : L’encyclopédie en ligne est une base de données – que vous ayez besoin de trouver les hongrois les plus célèbres, la liste des champignons nord-américains ou la capitale de chacun des pays du monde à une date précise, tout cela peut s’extraire moyennant peu d’efforts !

Sites dédiés

Pour des données relativement pointues ou spécifiques à un secteur, certaines entreprises ou syndicats professionnels mettent à disposition des données.

Par exemple, si vous vous intéressez à la consommation et aux prix de l’électricité dans les pays européen, cela vaut la peine de regarder du côté de RTE (le réseau de transport d’électricité français), ENTSO-E (l’association des transporteurs d’électricité européens) ou encore d’EPEX Spot, la bourse européenne de l’électricité. Attention, ce n’est pas toujours gratuit – et lorsque c’est le cas, la qualité n’est pas toujours au rendez-vous…

Les plus oubliées : les données fabriquées

Parfois, les données dont on rêve n’existent tout simplement pas, ou du moins pas sous forme exploitable. Par exemple, les évaluations et commentaires d’un produit spécifique sur le site de la Fnac. Ou la proportion de possesseurs de poissons rouges parmi les lecteurs de votre newsletter consacrée aux chats. Ou la liste des articles publiés dans la presse sur le coronavirus dans les deux derniers mois (préparez un solide disque dur !).

Dans ce cas, pourquoi ne pas créer les données nécessaires ?

S’il s’agit de collecter des informations disponibles sur le web, il est relativement facile de constituer un webcrawler, un petit programme qui va simuler un humain naviguant sur le web, télécharger les différentes pages visitées et en extraire les informations recherchées. J’en parlerai plus en détail dans une prochaine lettre.

S’il s’agit de collecter des informations sur des clients, le sondage reste une piste à ne pas oublier. La méthode présente bien sûr de nombreuses limites : biais de sélection sur les répondants, sondés qui ne disent pas toujours la vérité (consciemment ou inconsciemment), taille de l’échantillon… Néanmoins, en l’absence de meilleures données, un sondage peut orienter dans la bonne direction.

Enfin, une dernière technique particulièrement saugrenue consiste à se demander si le problème que l’on cherche à résoudre nécessite forcément d’exploiter des données, si un être humain n’aurait pas déjà rencontré un problème similaire et si l’on ne pourrait pas contacter cet être humain pour le rencontrer et discuter en personne. Mais une telle solution ne saurait décemment être envisagée qu’en dernier recours, au risque d’obtenir un résultat bien trop simple et pertinent…

À la prochaine !

Erwan


[1] Du moins parmi les hommes, étant donné que les femmes sont absentes de cette base de données ! Les chercheurs ont identifié une plus grande espérance de vie des droitiers, avant que ces conclusions ne soient contestées quelques années plus tard par une autre équipe.
https://www.ncbi.nlm.nih.gov/pubmed/3367996
https://www.ncbi.nlm.nih.gov/pubmed/7936949
Ah, la science…
(anecdote tirée du Data Science Handbook Manual de S. Skiena)
[2] Et oui, cette section est en quelque sorte une base de données de bases de données de bases de données !

Inscrivez-vous gratuitement pour ne rater aucune lettre !

Laisser un commentaire

Abonnez-moi à la newsletter