Nog (lang) niet altijd wordt het werkelijke belang van data governance onderkend. Terwijl solide governance niet alleen vereist is voor de effectiviteit van je dataplatform en dataoplossingen, maar ook voor de slagingskans van (generatieve) AI-toepassingen. Data governance is een parallelle discipline die tegelijk met andere data-initiatieven moet lopen, legt onze Technology Officer Data Jesse Gorter uit. Ook doet hij de rol van Purview, Fabric en Fabric Copilot uit de doeken.
De afgelopen jaren hebben we tal van organisaties geholpen om naar de cloud te gaan. Deze stap ging vaak gepaard met het opzetten van een dataplatform, zo vertelde ik in mijn vorige artikel. Naarmate de cloudtransitie vorderde, verschoof de aandacht meer en meer naar onderwerpen als data governance.
Het dataplatform staat in de cloud én er is een bloeiende community van self-service analytics-gebruikers. Data governance is dan de logische next step, lijken veel organisaties te denken. Dus gaan ze bijvoorbeeld aan de slag om rollen als data steward en master data-specialist in te richten.
Door strenger wordende wet- en regelgeving (denk aan AVG, KYC, etc.) is het belangrijker dan ooit om transparant te zijn. Hoe is de data tot stand gekomen? Wat staat erin? En wie raadpleegt de gegevens?
De big data-trend met als credo ‘alles ontsluiten en later kijken we wel wat we ermee gaan doen’ ligt achter ons. Daar is de tijd van small & wide data voor in de plaats gekomen. Oftewel: ontsluit alleen wat je echt nodig hebt (=small), via een volledig transparant en inzichtelijk proces waarin data lineage de hoofdrol speelt (=wide).
Laat je dat even bezinken, dan wekt het misschien verbazing dat data governance een néxt step lijkt te zijn op het pad naar datavolwassenheid. Had je het niet al van meet af aan moeten meenemen?
Het grote euvel bij zo’n vroegtijdige aanpak: data governance is een verschrikkelijk grote discipline. Een discipline die bovendien nooit (helemaal) af is en die altijd maar blijft groeien binnen je organisatie.
‘Tackel’ je eerst data governance en ga je dan pas, om maar wat te noemen, een dataplatform opzetten met een data mesh-aanpak? Dat werkt niet.
Data governance moet je niet zien als een stap binnen een routekaart, maar als een parallelle discipline. Die discipline loopt evenwijdig aan programma’s zoals:
Data governance moet namelijk evolueren op basis van deze programma’s. Oftewel: de regels, processen en verantwoordelijkheden bewegen mee met de groeiende en veranderende behoeften van gebruikers en met alle wijzigingen op technologisch vlak. Deze parallelle aanpak heeft nog een bijkomend voordeel. Mensen accepteren governance-praktijken sneller als die geleidelijk worden ingevoerd én afgestemd zijn op de actuele behoeften en workflows.
Microsoft Purview ondersteunt je bij alle data management-processen. Met het platform kun je bijvoorbeeld naadloos je Azure-assets scannen op data, gegevens classificeren op gevoeligheid en data koppelen aan je business glossary. Zo ben je in staat termen op te stellen die daadwerkelijk wat betekenen voor je business en ze te koppelen aan feitelijke data. En dus kun je makkelijker nazoeken of bepaalde entiteiten bestaan in de relevante datasets.
Wat nog te vaak ontbreekt: data-eigenaarschap als rol en als discipline. Een mooie stimulans voor het inrichten van data-eigenaarschap is het opzetten van een datacatalogus. In Purview krijg je zo namelijk goed zicht op welke datasets nog geen eigenaar hebben. Is er wel een eigenaar, dan zie je heel intuïtief aan wie je toegang kunt vragen.
De nieuwe portal van Purview biedt mogelijkheden voor meerdere datamanagementzaken, zoals het opstellen van datadomeinen, dataproducten en datakwaliteitsregels. Je ziet meteen wat de status van je datakwaliteit is en kunt in een handomdraai acties uitvoeren.
De integratie van Purview met Microsoft Fabric wordt ook steeds beter. In Purview kun je bijvoorbeeld sensitivity labels creëren en toekennen aan data. Deze labels worden ook toegepast in je bestanden. Komt je Excel toch buiten je organisatie terecht? Dan moet de persoon in kwestie inloggen voordat hij het bestand kan inzien.
In de toekomst, zo verwachten we, gaat Fabric Copilot ook je Purview-metadata scannen. De assistent zal je data dan op veel diepere en slimmere wijze begrijpen. Fabric Copilot kun je straks in Teams aanspreken om vragen te stellen over de datasets die je hiervoor beschikbaar hebt gesteld. Het mooie? Copilot zal automatisch veiligheidsregels zoals sensitivity labels en row-level security (RLS) toepassen in de chat.
Wil je zelf een generatieve AI-chatbot programmeren? Dan ligt het voor de hand om de metadata uit Purview mee te nemen. Het afdwingen van dit soort policies zul je namelijk zelf moeten doen. In een later artikel vertellen we daar meer over.
Data Technology Officer Jesse Gorter helpt organisaties om meer waarde uit hun data te halen met behulp van Microsoft Fabric en Databricks. Een datagedreven cultuur is volgens hem vaak de grootste uitdaging. Wat de trends en ontwikkelingen op het gebied van data & analytics in Azure zijn? Jesse praat je graag bij.
Met een dataplatform van Rubicon heb je een geïntegreerde oplossing voor ál je analysedoeleinden. Business reporting, self-service BI en AI worden vanuit één platform geleverd. Wij kijken nuchter en onafhankelijk naar de beste wijze om je dataplatform te realiseren. En zorgen altijd voor een modern en vooral toekomstbestendig platform, dat naadloos past bij de databehoeften van jouw organisatie. Neem contact met ons op voor meer informatie.