Glossaire Data et Intelligence Artificielle : les termes clés pour piloter votre transformation data et IA

La data et l’intelligence artificielle redéfinissent en profondeur les métiers, les processus et les modèles économiques des entreprises – et leur vocabulaire se complexifie à mesure que les technologies progressent. Entre les concepts fondamentaux de la data science (machine learning, feature engineering, data warehouse, data lake), les nouvelles réglementations (IA Act, RGPD), les technologies émergentes (IA générative, process mining, GEO) et les enjeux de gouvernance et de conformité, les décideurs ont besoin de repères clairs pour piloter leurs projets data et IA avec discernement.

Ce glossaire data et IA rassemble les définitions des termes les plus utilisés dans les projets de transformation data et IA : concepts de data science (machine learning, algorithme, feature engineering), architectures data (data lake, data warehouse, data mesh), gouvernance et conformité (gouvernance des données, RGPD, IA Act), technologies émergentes (IA générative, process mining, GEO) et outils clés (Dataiku, Alteryx, Power BI, AWS, Google Cloud).

Chaque définition est rédigée par les data scientists et consultants data d’Axys Consultants – dont l’Innovation Center co-développe des solutions IA avec ses clients depuis 2018, en partenariat avec le LISN (Laboratoire en Sciences du Numérique, Université Paris-Saclay) et des partenaires technologiques comme AWS, Google Cloud et Microsoft – pour être directement opérationnelle et applicable à vos projets de transformation data et IA.

Les définitions

Algorithme

Séquence finie et ordonnée d’instructions logiques permettant de résoudre un problème ou d’accomplir une tâche de façon automatisée et reproductible. Un algorithme prend des données en entrée, effectue une série d’opérations définies et produit un résultat en sortie.

En data science et en intelligence artificielle, un algorithme désigne plus spécifiquement une procédure mathématique qui permet soit d’apprendre des patterns à partir de données (algorithme d’apprentissage), soit de faire des prédictions ou des classifications sur de nouvelles données (algorithme de prédiction), soit de découvrir des structures cachées dans les données (algorithme de clustering).

Les grandes familles d’algorithmes de machine learning sont les algorithmes supervisés (qui apprennent à partir de données labellisées – régression linéaire, arbres de décision, Random Forest, SVM, réseaux de neurones), les algorithmes non supervisés (qui découvrent des structures sans labels – k-means, DBSCAN, ACP) et les algorithmes par renforcement (qui apprennent par essai-erreur en maximisant une récompense – utilisés notamment dans la robotique et les jeux).

En pratique, le choix de l’algorithme dépend de la nature du problème (classification, régression, clustering, recommandation), de la quantité et de la qualité des données disponibles, des contraintes de temps de calcul et d’interprétabilité. Chez Axys Consultants, nos data scientists testent systématiquement plusieurs algorithmes sur chaque projet et sélectionnent celui qui offre le meilleur compromis entre performance et explicabilité.


Data Lake

Architecture de stockage qui centralise toutes les données d’une organisation dans leur format brut et natif – structurées (bases de données relationnelles), semi-structurées (JSON, XML, logs) et non structurées (textes, images, vidéos, sons) – sans transformation préalable ni schéma imposé.

La philosophie du data lake est de stocker d’abord et de transformer ensuite – contrairement au data warehouse qui impose une modélisation des données en amont. Cette approche offre une grande flexibilité : les données peuvent être exploitées de multiples façons selon les besoins, sans avoir anticipé tous les cas d’usage au moment du stockage.

Les principales plateformes de data lake sont AWS S3 (Amazon), Azure Data Lake Storage (Microsoft) et Google Cloud Storage (Google). Ces plateformes cloud offrent une capacité de stockage quasi illimitée à un coût réduit, une scalabilité automatique et une intégration native avec les outils de traitement et d’analyse de données.

Les limites du data lake sont bien documentées : sans gouvernance rigoureuse, il peut rapidement devenir un « data swamp » – un marécage de données où les informations s’accumulent sans être documentées, qualifiées ni exploitées. La mise en place d’un data catalog et d’une politique de qualité des données est indispensable pour éviter ce piège. C’est pourquoi Axys Consultants intègre systématiquement un volet gouvernance dans ses projets d’architecture data.


Data Mesh

Architecture de données décentralisée et orientée domaine qui traite les données comme des produits gérés par les équipes métiers (domain ownership), plutôt que comme une ressource centralisée gérée par une équipe technique.

Les quatre principes fondateurs du data mesh sont la propriété des données par les domaines métiers (chaque domaine est responsable de la qualité, de la documentation et de la mise à disposition de ses données), la donnée comme produit (les données sont conçues et maintenues avec la même rigueur qu’un produit logiciel – avec une documentation, des SLA et une expérience utilisateur soignée), la plateforme data en libre-service (une infrastructure partagée qui permet à chaque domaine de produire et consommer des données de façon autonome) et la gouvernance fédérée (des standards communs définis centralement mais appliqués de façon décentralisée).

Le data mesh est particulièrement adapté aux grandes organisations avec de nombreux domaines métiers, dont les besoins data sont très hétérogènes et évoluent rapidement. Il permet de résoudre les problèmes de scalabilité et de gestion des priorités qui paralysent souvent les architectures data centralisées à grande échelle.

Sa mise en œuvre est complexe et nécessite une maturité data avancée, une organisation capable de porter la responsabilité de leurs données en propre et une plateforme technique solide. Axys Consultants accompagne ses clients dans l’évaluation de la pertinence du data mesh et dans sa mise en œuvre progressive.


Data Warehouse

Base de données relationnelle optimisée pour l’analyse et le reporting, qui centralise des données transformées, nettoyées et modélisées provenant de différentes sources opérationnelles (ERP, CRM, SI achats, outils marketing).

La différence fondamentale entre data warehouse et data lake est que le data warehouse impose une modélisation des données en amont (schéma on write) – les données sont transformées et structurées avant d’être chargées – tandis que le data lake stocke les données brutes sans transformation (schéma on read). Le data warehouse est optimisé pour les requêtes analytiques complexes et la production de tableaux de bord ; le data lake est optimisé pour la flexibilité et l’exploration de données non structurées.

Les principales solutions de data warehouse sont Snowflake (architecture cloud-native, très populaire pour sa flexibilité et sa scalabilité), Google BigQuery (intégré à l’écosystème Google Cloud), Amazon Redshift (intégré à l’écosystème AWS), Azure Synapse Analytics (intégré à l’écosystème Microsoft) et Databricks (qui combine les fonctionnalités du data lake et du data warehouse dans une architecture « lakehouse »).

Un data warehouse bien conçu est le socle indispensable d’un dispositif de pilotage de la performance data-driven – finance, achats, marketing, opérations. Il garantit que tous les acteurs de l’organisation travaillent sur les mêmes données, avec les mêmes définitions et les mêmes règles de calcul.


Feature Engineering

Processus de création, transformation et sélection de variables (features) à partir des données brutes disponibles, pour améliorer la pertinence et les performances d’un modèle de machine learning.

Le feature engineering consiste à extraire des informations pertinentes cachées dans les données brutes. Par exemple : extraire le nom de domaine d’une adresse email (gmail, orange, entreprise) pour inférer le type de client, calculer le délai entre deux événements (délai entre la commande et le paiement) pour identifier des patterns de comportement, créer des indicateurs agrégés sur une fenêtre glissante (moyenne des achats des 3 derniers mois) pour capturer des tendances, ou encoder des variables catégorielles (secteur d’activité, région) en variables numériques exploitables par les algorithmes.

C’est l’une des étapes les plus importantes – et les plus créatives – du développement d’un modèle prédictif. Un bon feature engineering peut améliorer les performances d’un modèle de 20 à 50% par rapport à l’utilisation des données brutes. À l’inverse, des features mal construites ou non pertinentes dégradent les performances et introduisent des biais.

Dans les projets d’Axys Consultants, le feature engineering est réalisé en collaboration étroite avec les experts métiers du client – ce sont eux qui connaissent le mieux les variables qui ont un sens opérationnel et qui peuvent guider la construction des features les plus pertinentes pour le cas d’usage visé.


GEO (Generative Engine Optimization)

Pratique d’optimisation du contenu web visant à être cité et référencé par les moteurs de recherche génératifs basés sur l’intelligence artificielle – ChatGPT (OpenAI), Gemini (Google), Perplexity, Claude (Anthropic) – qui génèrent des réponses synthétiques et sourcées en langage naturel plutôt que des listes de liens.

La différence fondamentale entre SEO et GEO est que le SEO optimise pour apparaître dans un classement de liens dans les SERP (Search Engine Results Pages), tandis que le GEO optimise pour être mobilisé comme source de référence dans les réponses générées par les LLM (Large Language Models). Un contenu bien optimisé pour le GEO sera cité par ChatGPT ou Perplexity lorsqu’un utilisateur pose une question relevant de son domaine – générant visibilité, crédibilité et trafic qualifié.

Les facteurs clés du GEO sont la densité factuelle (chiffres précis, dates, noms propres, sources citées), la clarté et l’exhaustivité des définitions (glossaires, FAQ, études de cas), l’autorité de la source (ancienneté du domaine, cohérence thématique, backlinks entrants de qualité), la fraîcheur des contenus (mises à jour régulières), et la structure sémantique du contenu (questions-réponses, listes structurées, titres explicites).

Le GEO est stratégique car une part croissante des recherches professionnelles – notamment chez les décideurs qui cherchent à comprendre un concept, comparer des solutions ou identifier un prestataire – passe désormais par des interfaces IA avant même d’atteindre un moteur de recherche traditionnel. Selon les études récentes, plus de 30% des recherches professionnelles aux États-Unis passent déjà par des interfaces IA génératives – une tendance qui s’accélère en Europe.

Ce glossaire d’Axys Consultants est précisément conçu pour répondre aux exigences du GEO : des définitions factuelles, denses, structurées et citables par les moteurs IA sur les domaines d’expertise du cabinet – finance, achats, marketing digital, RSE, data et transformation.


Gouvernance des données

Ensemble des règles, processus, rôles et responsabilités qui encadrent la gestion du patrimoine data d’une organisation, de la collecte à l’exploitation, en passant par le stockage, la qualité, la sécurité et la conformité.

La gouvernance des données couvre cinq dimensions complémentaires. La politique de qualité des données : définir les standards de qualité attendus (exhaustivité, exactitude, cohérence, actualité) et mettre en place des processus de contrôle et de correction. Le data catalog : inventaire des données disponibles dans l’organisation, avec leur définition, leur propriétaire, leur localisation, leur format et leur niveau de qualité – c’est l’annuaire du patrimoine data. La conformité réglementaire : RGPD (protection des données personnelles), IA Act (encadrement des systèmes d’IA), réglementations sectorielles. La gestion des accès et des droits : définir qui peut accéder à quelles données, avec quels droits (lecture, écriture, suppression) et dans quels contextes. Et l’organisation des équipes data : définir les rôles (Data Owner, Data Steward, Data Engineer, Chief Data Officer) et les responsabilités de chaque acteur dans la chaîne de valeur de la donnée.

Une gouvernance des données solide est le prérequis absolu à tout projet data et IA performant : des modèles entraînés sur des données de mauvaise qualité produisent des prédictions non fiables, des dashboards alimentés par des données incohérentes conduisent à de mauvaises décisions, et des systèmes IA déployés sans gouvernance des droits d’accès exposent l’organisation à des risques RGPD et IA Act.

Axys Consultants accompagne la mise en place de gouvernances des données dans des organisations de toutes tailles et tous secteurs, en combinant expertise conseil (cadrage organisationnel, définition des rôles) et compétences techniques (mise en place du data catalog, intégration dans les outils existants).


IA Act (Règlement européen sur l’intelligence artificielle)

Premier règlement mondial encadrant le développement, la mise sur le marché et l’utilisation des systèmes d’intelligence artificielle, adopté par le Parlement européen en mars 2024 et entré en vigueur progressivement jusqu’en 2027.

L’IA Act classe les systèmes IA en quatre niveaux de risque, avec des obligations proportionnelles. Les systèmes à risque inacceptable sont interdits : notation sociale par les gouvernements, manipulation subliminale, exploitation des personnes vulnérables. Les systèmes à risque élevé sont soumis aux obligations les plus strictes : documentation technique exhaustive, évaluation de conformité avant mise sur le marché, surveillance humaine obligatoire, journalisation des décisions. Ils couvrent les domaines de l’infrastructure critique, l’éducation, l’emploi, les services essentiels, le maintien de l’ordre et la justice. Les systèmes à risque limité sont soumis à des obligations de transparence : les chatbots et les deepfakes doivent informer les utilisateurs qu’ils interagissent avec une IA. Les systèmes à risque minimal (jeux, filtres anti-spam) ne sont soumis à aucune obligation spécifique.

Les entreprises qui développent ou utilisent des systèmes IA doivent évaluer le niveau de risque de chaque système, mettre en place les processus de documentation et de surveillance requis, nommer un responsable de la conformité IA et former leurs équipes aux exigences du règlement. Axys Consultants accompagne ses clients dans l’évaluation de la conformité de leurs systèmes IA et la mise en place des processus requis par l’IA Act, à travers son expertise combinée data et conformité réglementaire.


IA générative

Catégorie de systèmes d’intelligence artificielle capables de générer de nouveaux contenus originaux – textes, images, sons, vidéos, codes informatiques, données synthétiques – à partir d’un apprentissage sur de grandes quantités de données existantes.

Les modèles de langage (LLM – Large Language Models) sont les représentants les plus connus de l’IA générative : GPT-4 et GPT-4o (OpenAI), Gemini (Google), Claude (Anthropic), Llama (Meta) et Mistral (startup française). Ils sont capables de comprendre et de générer du texte en langage naturel avec un niveau de qualité proche de celui d’un humain, dans de nombreuses langues et sur de nombreux sujets.

Les applications concrètes de l’IA générative en entreprise couvrent plusieurs domaines. La génération de contenus : rédaction de comptes-rendus de réunions, de commentaires de gestion, de supports de formation, de emails et de présentations. L’assistance au développement : génération de code, détection de bugs, documentation technique. L’analyse de documents : extraction d’informations clés de contrats, de rapports, de factures. Et les assistants conversationnels : chatbots entraînés sur les bases de connaissances spécifiques d’une organisation pour répondre aux questions des collaborateurs ou des clients.

Les risques et limites de l’IA générative sont importants à connaître : hallucinations (génération d’informations fausses présentées avec confiance), biais hérités des données d’entraînement, risques de confidentialité (envoi de données sensibles à des modèles externes), et risques de conformité à l’IA Act (certaines applications sont classées à risque élevé). Axys Consultants accompagne ses clients dans l’identification des cas d’usage pertinents, le déploiement sécurisé des solutions et la formation des équipes à l’utilisation responsable de l’IA générative.


Machine Learning

Sous-ensemble de l’intelligence artificielle qui permet à des algorithmes d’apprendre automatiquement à partir de données, sans être explicitement programmés pour chaque tâche. Plutôt que de suivre des règles définies par un programmeur, un modèle de machine learning identifie lui-même des patterns dans les données et les utilise pour faire des prédictions ou prendre des décisions sur de nouvelles données.

Le machine learning se décline en trois grandes familles. L’apprentissage supervisé : le modèle apprend à partir d’un jeu de données labellisées (exemples avec les réponses correctes) – il est utilisé pour la classification (spam/non spam, fragile/non fragile, frauduleux/non frauduleux) et la régression (prédiction d’un volume de ventes, d’un délai de livraison, d’un prix). L’apprentissage non supervisé : le modèle découvre des structures cachées dans des données non labellisées – il est utilisé pour le clustering (segmentation clients, détection de profils similaires), la réduction de dimensionnalité et la détection d’anomalies. Et l’apprentissage par renforcement : le modèle apprend par essai-erreur en maximisant une récompense définie par un humain – utilisé notamment dans la robotique, les jeux et l’optimisation de systèmes complexes.

Les cas d’usage du machine learning dans les métiers sont nombreux et concrets : scoring du risque fournisseur et détection de fraude (finance et achats), prédiction de volumes de leads et optimisation du média planning (marketing), prévision de la demande et optimisation des stocks (supply chain), maintenance prédictive (opérations industrielles), détection d’anomalies dans les processus comptables (finance). Depuis 2018, l’Innovation Center d’Axys Consultants développe et industrialise des modèles de machine learning directement opérationnels pour ses clients.


Process Mining

Technique d’analyse qui consiste à extraire les traces digitales laissées par les utilisateurs dans les systèmes d’information – ERP, CRM, outils achats, systèmes de gestion documentaire – pour reconstruire et analyser de façon objective la façon dont les processus s’exécutent réellement dans une organisation.

Le principe du process mining est simple : chaque action réalisée dans un système d’information laisse une trace dans les logs applicatifs (event log) – qui a fait quoi, quand, dans quel ordre, avec quel résultat. En analysant ces traces de façon algorithmique, le process mining reconstruit automatiquement le graphe de toutes les variantes d’exécution d’un processus et calcule des indicateurs précis sur ses performances.

Les quatre dimensions adressées par le process mining sont l’efficacité (les processus se déroulent-ils jusqu’au bout, sans blocages ni exceptions ?), l’efficience (les processus se déroulent-ils rapidement et avec le minimum d’effort ?), la qualité (les données produites sont-elles fiables et les règles métiers respectées ?) et la conformité (la ségrégation des tâches est-elle respectée, les contrôles internes sont-ils en place ?).

Les applications concrètes du process mining couvrent l’optimisation du P2P et de l’O2C (identification des goulots d’étranglement et des non-conformités dans les processus financiers), l’amélioration des processus achats (analyse des variantes du processus de commande, détection des contournements de politique achats), et la préparation des projets RPA (identification précise des processus les plus automatisables et calcul du ROI potentiel).

Axys Consultants accompagne ses clients dans le déploiement du process mining via sa practice dédiée au sein de sa filiale Neosight, partenaire de Celonis – le leader reconnu du marché du process mining.


RGPD (Règlement Général sur la Protection des Données)

Règlement européen n°2016/679 entré en vigueur le 25 mai 2018 qui encadre la collecte, le traitement, la conservation et le transfert des données personnelles des résidents européens par toute organisation – quelle que soit sa localisation géographique – qui traite des données de personnes situées dans l’Union Européenne.

Les six grands principes du RGPD sont la licéité, loyauté et transparence (toute collecte doit avoir une base légale et être portée à la connaissance de la personne), la limitation des finalités (les données ne peuvent être utilisées que pour les finalités déclarées), la minimisation des données (seules les données nécessaires à la finalité doivent être collectées), l’exactitude (les données doivent être exactes et mises à jour), la limitation de la conservation (les données ne peuvent être conservées que le temps nécessaire) et l’intégrité et confidentialité (les données doivent être protégées contre les accès non autorisés et les violations).

Les obligations pratiques pour les organisations incluent la tenue d’un registre des traitements (inventaire de tous les traitements de données personnelles), la nomination d’un DPO (Délégué à la Protection des Données) pour les organisations traitant des données sensibles à grande échelle, la notification des violations de données à la CNIL dans les 72 heures, la réalisation d’analyses d’impact (AIPD) pour les traitements à risque élevé et la mise en place de mécanismes de recueil du consentement pour les données nécessitant cette base légale.

Les sanctions en cas de non-conformité peuvent atteindre 20 millions d’euros ou 4% du chiffre d’affaires mondial annuel – la sanction la plus élevée prononcée par la CNIL en France à ce jour étant de 150 millions d’euros (Google, 2022). La conformité RGPD est donc un enjeu financier et réputationnel majeur pour toutes les organisations traitant des données de résidents européens.


Approfondir avec nos experts Data et IA

Ces définitions sont issues de l’expertise opérationnelle des data scientists et consultants data d’Axys Consultants, acquise au fil de projets data et IA menés depuis 2018 via l’Innovation Center, en partenariat avec des laboratoires académiques et des partenaires technologiques de premier plan. Pour approfondir un sujet ou discuter d’un projet de transformation data et IA, consultez nos ressources complémentaires.