Machine learning et modèles prédictifs au service du marketing : deux cas d’usage concrets
Pourquoi le machine learning transforme le marketing
Le marketing génère des volumes de données considérables – comportements clients, historiques de souscription, performances médias, données externes. Ces données recèlent des patterns que l’oeil humain ne peut détecter, mais que les algorithmes de machine learning peuvent exploiter pour prédire des comportements futurs avec une précision inédite.
Deux cas d’usage très différents illustrent concrètement ce potentiel : un opérateur télécoms qui cherche à sécuriser ses souscriptions face aux risques de fragilité économique et de fraude, et un constructeur automobile qui veut anticiper ses volumes de leads pour optimiser son média planning.
Cas d’usage 1 – Opérateur télécoms : scorer le risque à la souscription
Le contexte et l’enjeu financier
Un abonnement mobile avec engagement de 24 mois représente un engagement financier significatif pour l’opérateur. En cas de défaillance d’un souscripteur fragile économiquement, la perte sèche peut atteindre 192 euros. Pour un fraudeur, elle grimpe jusqu’à 422 euros en incluant la valeur du mobile subventionné.
L’opérateur avait mis en place des contre-mesures – orientation vers des canaux sécurisés, demande de garanties – mais leur application reposait sur l’appréciation subjective des conseillers de la cellule risques et fraudes. Résultat : des variations importantes selon les équipes et les périodes, et environ 30 % de souscripteurs entrant en plan de relance pour impayés, dont 3 % imputables à la fragilité économique et 1 % à la fraude.
L’objectif : diviser ce taux par deux, tout en préservant les volumes de vente.
La solution : deux scores prédictifs
Axys Consultants a développé deux modèles distincts :
- Un score de fragilité économique – pour identifier les souscripteurs à risque d’impayés
- Un score de fraude – pour détecter les souscripteurs potentiellement malveillants
Ces scores sont calculés automatiquement à chaque nouvelle souscription et déclenchent des contre-mesures calibrées selon le niveau de risque – les plus contraignantes étant réservées aux scores les plus élevés, pour ne pas pénaliser les bons souscripteurs ni freiner le business.
Les bénéfices obtenus
Trois bénéfices principaux ont été mesurés :
- Réduction des impayés – moins de souscripteurs fragiles ou frauduleux entrant dans la base
- Fluidification des souscriptions – les clients considérés comme sûrs bénéficient d’un parcours simplifié, améliorant l’image de l’opérateur
- Amélioration de la valeur client – une base assainie génère mécaniquement une lifetime value plus élevée
Cas d’usage 2 – Constructeur automobile : prédire les volumes de leads
Le contexte
Axys Consultants accompagne depuis plusieurs années ce constructeur sur l’ensemble de sa stratégie data driven. Après avoir consolidé un historique de données riche sur trois ans, l’ambition était de passer d’une analyse comparative – « comment se compare-t-on à l’année dernière ? » – à une analyse prédictive : anticiper les volumes de leads en fonction des paramètres externes pour optimiser le média planning en conséquence.
La solution
Un modèle prédictif a été développé, alimenté par :
- Les données de plans médias nationaux et locaux
- Les données social media (followers, engagement, publications)
- Les données de performance des campagnes (Google Analytics 4)
- Des données open data liées au contexte Covid – le volume de cas par région – pour modéliser l’impact des confinements sur les prises de rendez-vous en concession
L’objectif : permettre aux équipes marketing de simuler différents scénarios pour répondre à une question concrète – « je suis en retard sur mes volumes de leads, comment ajuster mon média planning pour rattraper ce retard ? »
L’interface utilisateur : un facteur clé
Pour que le modèle soit réellement utilisé, il a été intégré dans une interface simple permettant de tester différentes hypothèses sans passer par des fichiers Excel complexes. C’est cette facilité d’usage qui conditionne l’adoption réelle.
La démarche en 4 étapes
Axys Consultants applique une méthodologie structurée et éprouvée sur ce type de projet.
Étape 1 – Cadrage
C’est l’étape la plus critique. Il s’agit de définir précisément ce qu’on veut prédire, les indicateurs métiers cibles, et les données disponibles. Sans ce cadrage rigoureux, le modèle risque de répondre à la mauvaise question ou de produire des résultats non exploitables opérationnellement.
Étape 2 – Préparation du dataset
À la manière d’un chimiste, il s’agit de trouver le bon dosage entre les données disponibles. Concrètement, cela implique :
- Le feature engineering – créer de nouvelles variables à partir des données existantes (par exemple, extraire le nom de domaine d’une adresse mail pour en déduire le type de fournisseur)
- L’enrichissement par open data – données INSEE à la maille IRIS (quartier), données macro-économiques régionales
- Le nettoyage des données – traitement des valeurs manquantes, transformation des variables qualitatives en variables quantitatives
- La sélection des variables – éliminer les variables trop corrélées entre elles et réduire le volume par des tests statistiques (khi-deux, ANOVA)
Dans le cas de l’opérateur télécoms, cette étape a permis de passer de 176 à 41 variables tout en maintenant des performances quasi-équivalentes – un gain considérable en temps de calcul et en robustesse du modèle.
Étape 3 – Entraînement du modèle
Plusieurs algorithmes sont testés en Python pour identifier le plus adapté. Pour le score de fragilité économique – un problème de classification binaire (fragile / non fragile) – c’est l’algorithme Random Forest qui a été retenu, pour sa robustesse et son explicabilité : il permet de quantifier l’importance de chaque variable dans la prédiction, ce qui est essentiel pour que les équipes métiers comprennent et fassent confiance au modèle.
Un point de vigilance majeur à cette étape est le sur-apprentissage : un modèle qui capture trop précisément les spécificités du jeu d’entraînement et perd sa capacité à généraliser sur de nouvelles données. Des techniques comme le découpage train/test et la validation croisée permettent de s’en prémunir.
La fraude pose un défi spécifique : les cas avérés sont peu nombreux, ce qui crée un dataset déséquilibré. Pour y remédier, Axys Consultants a combiné deux approches complémentaires – des méthodes de sur/sous-échantillonnage pour rééquilibrer le dataset d’entraînement, et un système d’alertes par clustering pour détecter les profils suspects qui ressemblent aux fraudeurs connus sans être formellement identifiés.
Étape 4 – Industrialisation
Le code Python est optimisé, packagé et intégré dans un workflow Alteryx – choisi pour sa prise en main accessible aux utilisateurs métiers (interface glisser-déposer), sa capacité à intégrer des modèles prédictifs via API, et sa tarification raisonnable.
Un clic sur un bouton suffit pour générer en moins de deux minutes les scores de l’ensemble des souscripteurs de la journée. C’est cette simplicité opérationnelle qui garantit l’adoption par les équipes.
Les 4 facteurs clés de succès
1. Bien définir ce qu’on veut prédire
Avant toute chose, il faut circonscrire précisément le périmètre de prédiction. Dans le cas des scores de risque, cela implique de définir méthodiquement ce qu’est un « bon payeur », un « fragile », un « fraudeur » – et d’exclure les cas ambigus (erreurs techniques de prélèvement SEPA, souscripteurs actifs depuis moins de 3 mois…). Ces définitions métiers conditionnent directement la qualité du modèle.
2. Valider la qualité et la pertinence de l’historique de données
Un modèle est aussi bon que les données sur lesquelles il s’entraîne. Il faut a minima deux ans d’historique pour s’affranchir des variations saisonnières. Il faut aussi anticiper les biais : des données hétérogènes selon les partenaires dans le cas automobile ont généré des imprécisions qui ont nécessité un réentraînement du modèle.
3. Travailler de façon itérative
Le machine learning n’est pas un projet en cascade. C’est un processus d’amélioration continue : premiers résultats, identification des écarts, analyse des causes, ajustements, nouveau test. Dans le cas télécoms, le dataset initial a été volontairement simplifié pour des raisons opérationnelles, compensé par un enrichissement plus fin en données open data à la maille IRIS.
4. Intégrer le modèle dans les processus métiers existants
Le meilleur modèle ne sert à rien s’il n’est pas utilisé. Cela implique une intégration fluide dans les workflows quotidiens, une formation des utilisateurs clés, et une gouvernance régulière – avec des points de vérification trimestriels et un réentraînement semestriel pour maintenir la pertinence du modèle dans le temps.
Le score reste avant tout un outil d’aide à la décision – pas un arbitre. Il oriente l’analyse des équipes, il ne la remplace pas.
Un point de vigilance : la conformité RGPD
Dans le cas de l’opérateur télécoms, le traitement des données personnelles s’appuie sur la notion d’intérêt légitime : l’évaluation du risque est inhérente au processus de souscription, comme pour une demande de crédit. Le consentement est collecté au moment de la souscription, avec une information claire sur les types de données traitées et leurs finalités. Les bonnes pratiques : être explicite sans jargon juridique, ce qui favorise des taux d’acceptation plus élevés.
Axys Consultants : votre partenaire pour vos projets de machine learning marketing
Axys Consultants accompagne les directions marketing et data dans la conception, le développement et l’industrialisation de modèles prédictifs – du cadrage stratégique à la mise en production, en s’appuyant sur son Lab d’intelligence artificielle pour développer des solutions sur mesure.
Vous souhaitez explorer vos cas d’usage en machine learning ?