De la segmentation marketing au clustering

Cet article est issu de la newsletter IA Comprise et reproduit ici par commodité. Recevez toutes les lettres dans votre boîte mail au fur et à mesure de leur publication en laissant votre adresse dans le cadre à droite !


Chère lectrice, cher lecteur,

Je vous propose aujourd’hui une lettre dédiée aux nombreux lecteurs qui sont dans le monde du marketing : comment la data science réinvente la technique ancestrale de la segmentation ?

La segmentation en quelques lignes

Prenez tous vos clients, identifiez les caractéristiques pertinentes à votre activité (âge, sexe, localisation, etc.) et classez-les en segments :

  • Les femmes de moins de 25 ans
  • Les cadres vivant à Paris
  • Les enseignants célibataires

Reste ensuite aux équipes marketing d’adapter la communication, voire les produits lorsque cela est possible, pour répondre au mieux aux préoccupations et aux besoins de chaque segment de clients.

Segmenter adroitement

Construire une bonne segmentation n’a rien d’évident : il faut retenir des segments définis selon des axes pertinents, découpés intelligemment et en nombre limité.

Selon quels axes ?

Pour que la segmentation ait un intérêt, il faut tout d’abord identifier les axes les plus susceptibles de différencier les clients potentiels.

Vous êtes une boutique de vêtements ? L’âge et le sexe du client sont vraisemblablement des axes de segmentation importants : vous ne ciblerez certainement pas de la même manière les acheteurs de slips enfants ou de lingerie féminine [1]…

Vous êtes une agence immobilière ? L’âge et le sexe auront vraisemblablement une importance limitée par rapport à la localisation et à la richesse des clients.

Avec quelles bornes ?

Le choix des axes en soi n’est pas suffisant : il faut également les découper intelligemment.

Est-il pertinent de segmenter les âges en deux, trois, dix catégories ? De choisir 18 ans, 25 ans, 50 ans comme limites ? Faut-il répartir les localisations entre urbain et rural ? Nord et Sud ? France, Allemagne, Italie, autre pays ?

Combien de segments ?

Exploiter un segment demande du temps, des efforts et de l’argent : il faut en comprendre les spécificités et construire une stratégie adaptée.

Une bonne segmentation est donc un équilibre entre les ventes supplémentaires générées par la différenciation des approches et l’énergie supplémentaire à déployer pour cibler chaque segment.

Or, le nombre de segments potentiels grimpe rapidement : avec à peine 3 axes (par exemple âge, catégorie socio-professionnelle et localisation) chacun divisés en 4 groupes, on se retrouve déjà avec 4^3 combinaisons, soit 64 segments différents à gérer… beaucoup trop dans la plupart des situations [2].

Vous l’aurez compris, trouver la segmentation optimale tient plus de l’art que de la science exacte…

L’expérience, la connaissance de l’activité et l’intuition des marketeurs prennent alors une importance capitale, les meilleurs s’arrachant à prix d’or.

Le clustering entre en scène

Qu’est-ce que la data science vient changer à tout cela ?

S’il est facile de segmenter toujours plus finement (après tout, on peut imaginer descendre jusqu’au niveau de chaque individu unique !), délimiter ou regrouper des segments en un nombre limité de catégories cohérentes est une autre paire de manches.

Intuitivement, on aimerait obtenir :

  • Des groupes à peu près équilibrés en taille, afin d’éviter d’investir des efforts dédiés spécifiquement à un tout petit nombre de clients
  • Des groupes aussi bien séparés les uns des autres que possible, afin que chaque groupe soit aussi homogène que possible

Et c’est précisément quelque chose que l’on peut optimiser mathématiquement grâce au clustering !

Comment fonctionne le clustering ?

Il existe plusieurs algorithmes de clustering, chacun avec leurs spécificités.

Le plus utilisé s’appelle K-means (ou K-moyennes en français) et fonctionne de la façon suivante.

  1. Chaque client est défini comme un point, avec des coordonnées selon les axes choisis (âge, sexe, montant d’achat…) [3]
  2. Des points virtuels, nommés centroïdes, sont placés avec des coordonnées au hasard. Ils deviendront progressivement les centres des clusters
  3. Tous les clients sont étiquetés selon le centroïde le plus proche
  4. Chaque centroïde est ensuite déplacé au centre de tous les points qui lui ont été associés
  5. Les étapes 3 et 4 sont répétées jusqu’à ce que les centroïdes ne bougent pratiquement plus (convergence)
Fonctionnement d’un clustering K-means, représenté en deux dimensions. Les centroïdes sont d’abord placés au hasard (a), puis déplacés au centre de tous les points qui leur étaient les plus proches (b-c). L’étape est répétée plusieurs fois jusqu’à convergence (d-e-f) [4]

À l’issue de ce traitement, tous les clients sont rassemblés en un nombre limité de segments (qu’il convient alors plutôt d’appeler clusters) relativement homogènes.

Quels sont les avantages de cette approche ?

D’abord, elle permet de choisir à l’avance le nombre de clusters, en cohérence avec les ressources disponibles pour les cibler séparément.

Ensuite, elle trouve automatiquement les « meilleures » bornes à appliquer aux axes, plutôt que de tâtonner en les définissant arbitrairement (pourquoi délimiter les segments d’âge à 25 ans, plutôt que 23 ou 26 par exemple ?).

Mieux encore, le clustering permet de « tracer » des limites complètement ouvertes, épousant au mieux les contours du groupe !

Imaginons que l’ensemble de points de l’image précédente représente un ensemble de clients, répartis selon deux axes : leur âge et leurs revenus.

La segmentation (à gauche) oblige à « tirer des lignes droites » au niveau des seuils choisis : cela crée des segments quasi vides (case haut-gauche et bas-gauche) ou hétérogènes (milieu-droit).

Le clustering crée en revanche une séparation qui se « faufile » entre les points, créant trois ensembles optimisés dont les limites ne sont pas des seuils uniques.

Dans l’image ci-dessus, l’âge limite du cluster bleu varie en fonction du niveau de revenu : c’est quelque chose qu’il aurait été difficile de déceler avec une approche manuelle.

Surtout, cet exemple reste très simple : avec davantage de clients et de paramètres à considérer, l’intérêt du clustering est décuplé !

Marketing is not dead

Est-ce le début de la fin pour les marketeurs, condamnés à être remplacés par des algorithmes capables de déceler des liens et de construire des segments mieux que ne le fera jamais un être humain ?

Vous vous doutez que la question est rhétorique… Le clustering ne résout pas tout, loin de là.

Sur les trois critères mentionnés en début de lettre, il fait mieux que l’humain sur deux d’entre eux (délimiter les segments et contraindre leur nombre), mais le choix des axes de segmentation reste crucial.

Il n’y a aucune intelligence métier dans l’algorithme de clustering, il ignore totalement le lien entre les clusters définis et l’activité.

Un axe de segmentation peut avoir un fort pouvoir de séparation pour de mauvaises raisons.

Par exemple, un cluster basé sur le code postal pourra laisser croire qu’un Corrézien doit être ciblé différemment qu’un Parisien, alors que ce n’est qu’un reflet déformé d’une différence moyenne de revenu.

Par ailleurs, un cluster reste plus difficile à interpréter qu’un segment.

« Les femmes de plus de 45 ans qui regardent la télé plus de 2h par jour », c’est facilement compréhensible.

Un « cluster 1 » composé à 80% de femmes, plutôt âgées (sauf si c’est un homme) et qui regardent la télévision au moins 1h à 3h (selon leur âge), c’est moins clair… même s’il forme un ensemble plus homogène et réceptif à un ciblage commun que le segment simple précédent.

Comme tous les outils d’Intelligence Artificielle, le clustering ne remplacera certainement pas l’intelligence d’un bon marketeur…

… mais il apporte tout de même une sacrée longueur d’avance à ceux qui savent l’utiliser et consacrer leur intelligence là où elle compte vraiment !

À la prochaine,

Erwan


Inscrivez-vous gratuitement pour ne rater aucune lettre !


[1] Sans oublier qu’un client peut acheter pour lui-même ou pour quelqu’un d’autre (enfant, partenaire…)
[2] À moins d’être sur un marché pointu où une seule vente justifie les efforts investis. Prenez par exemple une entreprise qui répond à des appels d’offres en centaines de millions d’euros : à cette échelle, il devient pertinent de développer une stratégie marketing différente pour chaque appel d’offre.
[3] Ces coordonnées sont habituellement normalisées selon chaque axe, autrement dit réétalées sur des échelles comparables, afin de ne pas biaiser le résultat en faveur d’un paramètre.
[4] Image illustrative tirée d’une publication qui n’a rien à voir avec le marketing… les outils de Data Science sont universels ! (Automatic Survey-Invariant Classification of Variable Stars. Benavente, Patricio & Protopapas, Pavlos & Pichara, Karim ; The Astrophysical Journal)

Laisser un commentaire

Abonnez-moi à la newsletter