Parle-t-on trop du coronavirus ?

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Il y a encore quelques mois, pratiquement personne ne connaissait le mot « coronavirus », excepté quelques experts.

Cela a même entraîné d’amusantes théories du complot lorsque certains, pensant que c’était un mot nouveau, l’ont vu mentionné sur la notice d’un gel désinfectant de 2018 [1].

Difficile de leur donner totalement tort pourtant. Google Ngrams, qui analyse la fréquence d’apparition des mots dans les textes parus chaque année, montre que la fréquence de ce mot en français était autour de 0.000005% ces dernières décennies [2].

Autrement dit, une fois sur 20 millions de mots, ce qui en fait probablement environ le 2 millionième mot le plus utilisé de la langue française [3]. À titre de comparaison, un adulte moyen connaît un vocabulaire d’environ 20 000 mots et un dictionnaire grand public type Larousse comporte 60 000 mots…

Alors, quand on a l’habitude d’aller lire l’actualité en ligne et que l’on aperçoit partout ce mot habituellement si rare, difficile de ne pas le remarquer. Et de ne pas avoir l’impression d’être submergé de coronavirus…

Capture d’écran du Monde en ligne il y a quelques jours. Cela rate rarement…

Les médias parlent-ils réellement tant que cela du coronavirus ? Est-ce un effet d’optique, qui fait qu’on remarque particulièrement ce mot rare ? Ou un biais d’affichage – tout le monde étant préoccupé par le coronavirus, les articles correspondants apparaissent régulièrement en une ou dans les articles les plus populaires ?

Pour répondre à une question aussi cruciale, rien de tel que… des données !

J’ai récupéré les titres de tous les articles publiés sur lemonde.fr (le site de presse généraliste française le plus visité) et identifié, mois par mois depuis janvier 2000, le mot non trivial [4] qui apparaissait le plus fréquemment dans tous les articles du mois ainsi que la fréquence correspondante.

Sans plus attendre, je vous laisse remonter le temps et retracer 20 ans de grands événements à partir des titres d’articles…

Alors… non ce n’est pas qu’une impression. Près d’un article sur trois publié en mars par Le Monde au mois de mars contenait le mot « coronavirus ». Du jamais vu, de très loin.

Pour bien mesurer l’énormité de ce chiffre, il faut savoir que de nombreux articles font partie de rubriques thématiques (critiques de spectacles, disparitions, chroniques sportives…). Par ailleurs, je n’ai inclus que les articles qui comportaient le mot « coronavirus » : ceux qui parlent de COVID-19, de confinement ou de pandémie n’apparaissent pas si le titre ne contient pas « coronavirus ». En les incluant, ce sont près de 50% des articles qui mentionnaient l’un de ces mots en mars…

Évolution de l’apparition du mot « coronavirus » en 2020
(ou d’un mot voisin lorsque « coronavirus n’apparaît pas)

J’ai regardé tous les titres d’articles mois par mois depuis 1945. Après mars et avril 2020, qui contiennent respectivement 30% et 25% d’articles contenant le mot « coronavirus », le mot qui est apparu le plus souvent un mois donné est « législatives » en mars 1993 et « référendum » en septembre 1992 (Maastricht), qui atteignaient respectivement 15% et 13% de tous les articles – à peine la moitié du coronavirus.

De façon amusante, le deuxième mot le plus fréquent en mars et avril 2020 est « confinement » : avec respectivement 6% et 8% d’apparition, même ce deuxième mot devance la quasi-totalité des mots les plus fréquents apparus jusqu’ici…

Bref, ce n’est pas qu’une impression : on mentionne effectivement beaucoup le coronavirus en ce moment, même par rapport à d’autres grands événements passés et sans aucune mesure avec les précédentes épidémies (grippe aviaire, Ebola). Et ce n’est pas terminé…

Quoi qu’il en soit, s’il y a bien une chose que le coronavirus a réussi, c’est de faire une entrée fracassante dans le panthéon des mots les plus courants de la langue française !

Erwan


[1] https://www.lemonde.fr/les-decodeurs/article/2020/02/28/non-cette-bouteille-de-desinfectant-ne-prouve-pas-que-le-coronavirus-de-2019-etait-deja-connu_6031177_4355770.html
[2] https://books.google.com/ngrams/graph?content=coronavirus&year_start=1960&year_end=2010&corpus=19&smoothing=3&share=&direct_url=t1%3B%2Ccoronavirus%3B%2Cc0
[3] Il existe une correspondance empirique entre fréquence et rang d’un mot dans un texte, nommée loi de Zipf. Pour toute la langue française, le produit (fréquence x rang) est de l’ordre de 0,1.
[4] J’ai bien entendu exclu les mots peu significatifs tels que « le », « et », « est », etc. ainsi que ceux qui reviennent en toutes circonstances tels que « France », « Paris », « gouvernement », etc. Détail amusant : l’un de ces mots qui revient le plus fréquemment est… « contre » (loin devant « pour »).

Inscrivez-vous gratuitement pour ne rater aucune lettre !

Cet article a 2 commentaires

  1. Clément Denis

    C’est super intéressant, y aurait-il moyen d’avoir les données brutes et/ou le prolongement du graphique avant 2000 ?

    1. Erwan

      Bonjour,

      Je n’ai pas prolongé le graphique avant 2000 car il était déjà très long !

      J’ai les données brutes depuis 1945 (mois + mots les plus fréquents + ratios). Il restera toutefois du travail de nettoyage manuel pour arriver à un résultat similaire : les stopwords les plus évidents (le, et, etc.) ont été retirés automatiquement, mais il reste des mots que j’ai choisi de retirer manuellement car peu significatifs (France, français, président, gouvernement…) ; il faudra donc également refaire un revue manuelle avant 2000, c’est ce qui prend du temps.

      Je vous les envoie à l’adresse que vous avez utilisée pour ce commentaire ?

Laisser un commentaire

Abonnez-moi à la newsletter