Data mesh gouvernance fédérée

Gouvernance fédérée : le pilier organisationnel du data mesh

12/12/2023
Big Data

Qu’importe la technologie, pourvu qu’on ait les piliers : data mesh, logical data fabric et data platform. Ces trois briques permettent d'accélérer la mise en œuvre de la gouvernance fédérée des données et des produits de données. Reste à attribuer les rôles et à définir les règles supérieures de gouvernance. 

Gouvernance fédérée : une responsabilité partagée

La notion de fédération est une organisation autour des données, capable de les fédérer toutes. Parce qu’elle provient de multiples sources, la donnée doit être fédérée par la mise en place d'une organisation (gouvernance) et de systèmes (brique/framework) permettant ou facilitant son implémentation dans l'entreprise. Nous l’avons vu dans notre article précédent traitant de la logical data fabric.
D’un point de vue organisationnel, la fédération consiste à pousser la logique data mesh jusqu’au bout, en confiant aux propriétaires de données la responsabilité de la production d’une part mais également et surtout la responsabilité de sa qualité d’autre part. Les métiers disposent donc d’une grande liberté dans la manipulation de leurs données et se voient attribuer la mission fondamentale de veiller à ce que la donnée soit exploitable, par tous, pour tout. 
Pour réaliser au mieux cette mission, il est évident qu’à l’échelon supérieur, des règles de gouvernance commune doivent être édictées. C’est le fonctionnement classique d’une gouvernance fédérale appliquée au data mesh en entreprise. Elle apporte à l’organisation une vision à la fois fonctionnelle et technique, par la traçabilité de l’information, qui manquait jusqu’ici à l’exploitation du patrimoine data. C’est aussi à travers elle que l’on gagne en réactivité et en agilité puisque l’on respecte l’organisation naturelle de l’entreprise, tout en apportant un regard nouveau sur la donnée, qui n’est plus un sous-produit de l’IT mais bien un produit à part entière. 

Les principes fondamentaux de la gouvernance fédérée des données

Deux aspects fondamentaux permettent de mettre en œuvre la gouvernance fédérée des données et des produits de données : d’un côté, l’organisation technique prépare, modélise et expose les données et les métadatas puis offre une vision globale de l’écosystème. De l’autre, l’organisation humaine repose sur le déroulement d’un projet à part entière qui nécessite un sponsoring fort de la part des métiers, de la direction et du département IT, indépendant de l’outillage adopté.
Le pilotage des informations exige une organisation orientée data au sein de la structure afin de définir les bons processus. Il s’agit de se demander ce qu’il y a à faire au sein de l’entreprise et quelle en sera l’audience autour de 3 thématiques à dérouler : 
-    Le savoir : quels sont les processus business en œuvre ? À partir de quelle connaissance consolidée de l’entreprise travailler ? Avec quel langage commun, partagé dans toute l’entreprise (glossary / sémantique) ?
-    Les personnes : qui sponsorise ? Avec quelle organisation ? Sur quelles compétences s’appuyer ? 
-    La gouvernance proprement dite : elle concerne la qualité et la consistance de la donnée, le data lineage (c’est-à-dire le référentiel des flux de données et de leur métadatas), la sécurité (les politiques d’accès à la donnée), la confidentialité et plus globalement la conformité. Ce sont autant de sujets qu’il y aura d’interlocuteurs et d’acteurs. 
Les solutions techniques permettant la mise en œuvre du data mesh ne poussent pas la subtilité jusqu’à accompagner les entreprises dans la définition des rôles et des règles de gestion. Cela reste un processus, que l’on affinera au fil du gain de maturité de l’entreprise et de l’évolution de son écosystème de données

La gouvernance fédérée et la répartition des rôles

On comprend alors qu’il devient nécessaire d’interroger et d’impliquer les métiers afin de déterminer concrètement les acteurs capables de participer à la définition du langage commun, des règles de gestion et des processus (notamment de validation), en corrélation avec les outils mis en place. Plusieurs acteurs ont un rôle à jouer, l’essentiel étant de ne pas faire reposer toute la responsabilité de la qualité de la donnée sur les épaules de la DSI, au risque d’aller rapidement dans le mur. 
C’est un travail d’équipe, composée des plus appétents pour la question. Pool de Data scientists, place du Data security officer dans l’organisation, accès des ingénieurs data à l’information, implication en continu des data stewarts auprès du data office, pivot de l’édifice, tout reste à déterminer. 
En premier lieu, il importe de définir les jeux de données sur lesquels le travail de mise en qualité sera effectué. Après des années à relever l’importance d’une data qualitative, les entreprises ont pourtant encore des difficultés à savoir par quel bout prendre le sujet. L’expérience montre que la qualité n’est pas toujours au rendez-vous. Or, si les outils peuvent intervenir (et sont d’une grande aide) pour résoudre les problèmes de doublons ou d’harmonisation selon les normes, ils ne peuvent rien quant à la validation de la donnée in fine. C’est une mission dont seul l’humain peut se charger, à commencer par la mise en place de scoring de data quality pour faire progresser les pratiques. Selon les organisations, on pourra par exemple confier cette tâche au data stewart (qui dispose de la connaissance métier du domaine concerné), sous le contrôle du propriétaire de la donnée qui en contrôlera l’adéquation au cas d’usage. 

S’il est relativement aisé d’implémenter dans l’entreprise les briques techniques permettant la mise en place d'une organisation de type data mesh, la création de sa gouvernance fédérée requiert l’évaluation de son niveau de maturité, la maîtrise de son organisation IT, la connaissance des besoins des référents fonctionnels, ainsi que l’analyse de l’architecture de données et des solutions d’archivage, entre autres. 
On veillera ensuite à procéder périmètre par périmètre, ne serait-ce que pour garantir une qualité de donnée suffisante pour produire des modèles valables puis des produits de données opérationnels. Le procédé conduira l’entreprise à interroger la pertinence de son stock de données, notamment les plus anciennes, conservées coûteusement (à plus d’un titre) sans garantie d’exploitation. Ce sera peut-être alors le premier pas vers sa capacité à mettre en balance l’utilisation des assets informationnels et les objectifs environnementaux, grande question s’il en est. 

Cet article fait partie d'une série consacrée au Data Mesh. Pour être tenu(e) au courant de nos nouveaux articles et de notre actualité, abonnez-vous à notre newsletter

copy-link