La gouvernance des données : Qu’entend-on par gouvernance des données et quelle est son utilité ?
Comme nous l’avons tous constaté, les temps changent et une « nouvelle norme » se développe. Avec ces changements, nous nous sommes rendu compte que les entreprises se devaient de savoir où se trouvaient leurs données et comment elles étaient utilisées.
Cette prise de conscience de la part des entreprises s’est soldée par « nous ne savons que très peu de choses sur les données de notre organisation ». Ces données inconnues recèlent une mine d’informations sur les processus, les modèles économiques, la sécurité, la confidentialité et la dynamique humaine d’une organisation. C’est ce que nous allons vous présenter, dans le cadre de notre série d’articles dédiée à la gouvernance des données.
Seulement 24% des entreprises sont pilotées par la data
Plus de 90% des entreprises ont adopté une démarche data ou considère qu’une telle démarche est essentielle à leur croissance. Les principales initiatives mises en place lors de ces démarches visent à définir une organisation et des équipes de data science / analyse engineer…, écrire une charte de gouvernance, construire un datalake, réaliser des transformations digitales, produire des indicateurs de performance et automatiser les processus.
Mais sur ces 90%, seulement 24% des entreprises considèrent être pilotées par la data. Les principaux écueils rencontrés sont :
- le délai de mise en œuvre et un retour sur investissement long des solutions data,
- un sous-emploi des data scientists,
- un faible pourcentage (moins de 10%) des employés en mesure de proposer, produire et interpréter les analyses de données (versus 25% dans les entreprises les plus matures et 50% dans les entreprises en pointe).
Sur la base de ces constats, la gouvernance des données poursuit 2 grands objectifs :
- La mise à disposition et le partage de données de qualité et contextualisées. Cet objectif repose sur une organisation, des processus et des règles… mais aussi sur des outils.
- La définition d’une organisation dans laquelle les équipes de data science / engineer… sont vouées à la réalisation des solutions complexes et à plus forte valeur ajoutée, et la grande majorité des employés utilisent et développent des solutions analytiques à des fins de performance opérationnelle.
Distinction entre la qualité de la donnée et l’utilité de cette donnée
Par le biais de ces 2 objectifs, nous distinguons donc la gouvernance de la qualité / disponibilité de la donnée ; de la gouvernance de l’utilisation de la donnée.
Si la Data est donc aujourd’hui un enjeu pour une très large majorité d’entreprise, nombre d’entre elles se pose la question de comment entreprendre une démarche data, définir une stratégie et une gouvernance des données. En effet, l’absence de gouvernance des données allonge les délais et limite considérablement les entreprises à surmonter les difficultés rencontrées : accès aux données (données silotées), définition et contexte non partagé, qualité, sécurité, format inexploitable…
Les freins peuvent aussi être liés à des compétences et expertises ou une culture data insuffisante ou à l’utilisation d’outils inadaptés ne permettant pas une valorisation du patrimoine des données.
Références
Etude Alteryx sur les organisations data (2021)
La gouvernance : Comment se lancer ?
Comment démarrer/relancer une démarche data et initialiser une gouvernance des données ?
Il est important au démarrage de bien expliciter l’ambition data, la démarche générale, en mobilisant les directions métiers avec un sponsoring de la direction générale. Cette démarche, dans une logique data-driven, se doit d’être progressive et pilotée par des usages métiers avec 2 étapes :
1- le recensement de cas d’usage
2- la sélection et l’instruction de cas d’usages Pilotes
L’initialisation d’une démarche data nécessitera aussi d’acculturer les parties prenantes à la donnée, son cycle de vie. La sensibilisation vise aussi à aider les acteurs métier à se projeter et à identifier des opportunités autour de la donnée via des formations dites de sensibilisation ou des ateliers pédagogiques. Pour créer de l’engagement et faire remonter des idées du terrain, des ateliers d’ideation type Hackaton pourront également être organisés.
Le recensement de cas d’usage et le choix des Pilotes
Le recensement des cas d’usage (finance, RH, production, etc…), sera également réalisé, sous forme d’ateliers de travail, avec les acteurs dépositaires de chaque cas d’usage.
Le recensement doit viser à couvrir les grands process de l’entreprise pour disposer d’un panorama des données gérées et identifier les problématiques qui se posent. Le bon niveau de couverture des cas d’usage facilitera ensuite l’étape de mise en priorité et de sélection des Pilotes.
La sélection de cas d’usages Pilote est une étape importante de la démarche car les enseignements qui en seront tirés et les recommandations auront pour objectifs d’avoir une portée générale et d’être applicable au niveau de l’entreprise.
Les critères de sélection des Pilotes seront définis avec les directions métiers mais certains sont incontournables : la valeur de la donnée dans le processus métier, l’étendue de l’utilisation des données ou l’urgence à traiter un sujet par exemple… L’objectif va être d’identifier les données clés, celles qui posent des difficultés en termes d’accès, de vérification, de partage ou de valorisation.
Pour répondre à cet objectif, un diagnostic est à réaliser sous 3 angles : processus, données, architecture et IT et nécessite de bien structurer le processus de collecte des informations pour :
- analyser le processus existant et d’identifier les problématiques rencontrés
- identifier les flux d’information circulant aux différentes étapes, comprendre le cycle de vie de la donnée, identifier les acteurs impliqués dans la création, mise à jour, vérification et exploitation des données.
- recenser les applicatifs supportant les processus et gérant les données
Quels enseignements peut-on tirer d’une instruction sur des Pilotes ?
Généralement, en l’absence de gouvernance des données, on observe des problèmes d’efficience en raison de process de production ou de consommation des données non optimisés. Parmi nos observations sur des Pilotes réalisés, citons :
- Sur un processus métier RH – l’onboarding des collaborateurs – ou le nom-prénom était ressaisi à plus de 20 reprises par les différentes parties prenantes
- Sur un processus métier visant à réaliser des études d’impact environnemental ou les temps d’accès et de contrôles étaient quadruplés du fait d’une difficulté à identifier les sources de données, et de l’absence d’outils de collecte et vérification automatisée.
Nos retours d’expérience sur des démarches réalisés à partir de Pilotes nous amène à poser dans nos plans d’amélioration des Pilotes des règles et des principes autour des Golden Data ou données de référence lesquelles doivent nécessairement faire l’objet :
– d’un dictionnaire de données pour définir, caractériser ces données et identifier les référents métiers en charge de ces données. Pour soutenir cet effort, des outils de gouvernance de la donnée, avec des fonctionnalités de dictionnaire et de linéage des données pourront être recommandés.
– d’une gouvernance métier formelle en attribuant ou formalisant les rôles et responsabilités autour de la donnée tout au long de son cycle de vie.
Des règles et principes doivent être posés pour proscrire la ressaisie de données, les tâches réalisées en doublons, mettre en place la ségrégation de tâches et éviter qu’une seule et unique personne soit à la production, au contrôle et à la validation, améliorer la gestion des données avec l’utilisation de métadonnées pour une meilleure performance des solutions moteur de recherche.
Les plans d’améliorations des cas d’usage Pilotes vont également consister à proposer des outils adaptés pour :
- Faciliter le stockage des données ;
- Gérer les ruptures entre les applicatifs métiers/SI par des API ou une plateforme EAI gérant les flux entre applications ;
- Automatiser les process de collecte et d’exploitation des données, gérer la traçabilité via des solutions de data platform ou des solutions de DataViz pour améliorer le partage et les restitutions ;
- Gérer et monitorer la qualité (intégrité, complétude, etc…) des données
La gouvernance : Comment pérenniser la démarche ?
Après voir diagnostiqué et proposé des plans d’améliorations sur la donnée et ses différentes composantes pour des cas d’usage Pilote, l’enjeu va être de conforter ces enseignements et ces recommandations et de les adapter pour les transposer à l’échelle de l’entreprise.
Pour conforter ces enseignements et ces recommandations réalisés sur les cas d’usage Pilotes, nous préconisons d’exploiter et d’analyser les informations de l’ensemble des cas d’usage recensés au démarrage de la démarche.
Cette étape permettra d’avoir une vue d’ensemble des besoins sur les données et contribuera à définir le niveau d’effort et d’investissement en termes d’organisation ou d’architecture du SI.
L’organisation autour des données doit en effet distinguer 2 niveaux : un premier niveau transverse, qui est en charge d’animer la gouvernance, de porter la vision stratégique des besoins métiers d’une entreprise (gouvernance centralisée) ou d’une business unit (gouvernance décentralisée) et de transmettre les lignes directrices aux acteurs en charge de la gestion des données métiers de référence ou golden data.
Cette organisation transverse pourra s’appuyer sur un comité de coordination regroupant les responsables données de business units ou sur un Data Manager. C’est cette organisation qui sera en charge d’étudier et de piloter le déploiement de nouveaux cas d’usages autour de la donnée.
Au 2ème niveau, on retrouvera une organisation propre à chaque Golden Data ou à chaque donnée de référence (donnée Finance, RH, Client, industrie, etc…) avec pour chaque Golden Data des acteurs en charge de fixer les règles, définir les règles d’utilisation (Data Officer), des responsables du contenu et de la qualité des données (data owner), des acteurs en charge de monitorer la qualité des données (data steward), d’accompagner les métiers sur l’analyse des données et le reporting (data analyst).
L’analyse des besoins sur l’ensemble des cas d’usage va également être nécessaire pour avoir une réflexion d’ensemble sur l’architecture devant porter la donnée et permettre d’engager une réflexion sur les outils à mettre en place :
- DataLake pour enregistrer et stocker toutes les données brutes que ce soient des données structurées ou non structurées et être utilisées, le cas échéant, à des fins d’analyse
- Master Data Management pour organiser l’ensemble de la gestion des données de référence en fonction des Golden Data à gérer,
- Gouvernance des données pour cartographier les données, définir / caractériser les données, assurer le linéage des données,
- EAI (Entreprise Integration Application) pour gérer les flux inter-applicatifs.
- Data Platform : pour gérer l’analyse et le traitement de données et éviter l’utilisation de l’excel
Un autre enjeu va consister à inscrire cette démarche dans la durée, pour améliorer la gouvernance et ses différentes composantes au travers de :
- la poursuite du déploiement des cas d’usage ;
- l’identification et le recensement de nouveaux cas d’usages ;
- l’acculturation
L’acculturation et la sensibilisation de l’ensemble des acteurs à la data sont en effet une composante clé de cette démarche pour toute entreprise souhaitant être « data driven ». Si dans la première étape de la démarche, l’objectif était de communiquer et de donner du sens, les étapes suivantes vont consister à former chaque collaborateur, quelque-soit son métier et d’identifier des relais en charge de promouvoir l’intérêt de la donnée.
Car, aujourd’hui, la data est réservée à quelques happy few (les équipes data) tandis que la très grande majorité des équipes fonctionnelles est face à des montagnes de données avec le simple tableur Excel.
Pour y remédier, nous préconisons :
- La mise en place de Centres d’Excellence (COE), services dédiés à l’acculturation, la formation et l’accompagnement des utilisateurs fonctionnels dans leur exploitation de la donnée,
- Le déploiement de plateformes data user friendly qui permettent une exploitation de la donnée par le plus grand nombre, sans avoir à connaitre Python ou à avoir un PhD en data science.
Ces préconisations nécessitent un fort sponsorship des directions générales et un rééquilibrage des investissements. Après avoir passé des années à investir sur des projets data porteurs de fortes valeurs ajoutées, il est nécessaire d’activer le levier de l’effet volume et de valoriser la data au niveau de chaque salarié, en les dotant de bonnes pratiques et d’outils adéquats facilitant et automatisant leurs analyses. C’est d’ailleurs la démarche adoptée par une grande banque française qui a décidé d’équiper chacun de ces collaborateurs en charge du réglementaire d’un outil data qui remplace et automatise les processus effectués jusqu’alors sur Excel.