Datagedreven werken
In een mum van tijd van de tekentafel naar een volledig ingericht, beveiligd en schaalbaar data analyse-platform? Dat hebben wij gerealiseerd voor een overheidsorganisatie. In deze blogreeks nemen we je mee in de aanpak van Rubicon en gaan we in op de technische en organisatorische aspecten van zo’n project.
Datagedreven werken blijkt vaak een multidisciplinaire opgave, ook op IT-vlak. Denk hierbij aan opslag voor ruwe en bewerkte data, een database, experimentele en analyse omgevingen, data-visualisatietools en test-, acceptatie- en productieomgevingen.
Bovendien moeten al deze onderdelen en omgevingen naadloos op elkaar aansluiten en met elkaar in verbinding staan. Data-analisten en data scientists kunnen zo in een veilige omgeving met de beschikbare data experimenteren, business vragen beantwoorden en de antwoorden op deze vragen op verschillende manieren aan de organisatie beschikbaar stellen.
Een omgeving die al deze elementen omvat en waarin data-analisten en data scientists hun werkzaamheden kunnen verrichten, is een datalab. Microsoft Azure biedt die mogelijkheid en brengt de benodigdheden op één plek in de cloud onder en stemt ze op elkaar af. Via een beveiligd portaal kan worden ingelogd op de datalab omgeving en kun je direct aan de slag.
Tot ongeveer vijf jaar geleden maakten de meeste organisaties gebruik van on-premise oplossingen. Bijvoorbeeld door een eigen server of rekencluster in beheer te nemen. Met de opkomst van onder andere Microsoft Azure is een overstap naar cloud oplossingen gaande. Cloud oplossingen hebben een groot aantal voordelen ten opzichte van on-premise oplossingen. Zo hoef je geen grote investering in de aanschaf, beheer en het onderhoud van hardware te doen. En met Azure ben je verzekerd van de meest up-to-date hardware. Je kunt de benodigde rekenkracht direct op- en afschalen afhankelijk van wat nodig is op dat moment. Geen verspilling van energie en resources dus. Security en privacygevoelige data zijn ook geen belemmeringen om Azure te gebruiken. Met behulp van de ingebouwde securitymogelijkheden kan aan AVG- en BIO-bepalingen worden voldaan.
In hoofdlijnen bevat een datalab-omgeving een dataopslag, een data-analyse en data-visualisatie onderdeel. Azure biedt voor elk onderdeel meerdere mogelijkheden, bestaande uit de meest gangbare tools en state of the art-technologie die in de sector beschikbaar is. Voor data-analyse doeleinden kan je bijvoorbeeld kiezen voor een virtuele Windows of Linux machine, Power BI, Databricks, Azure Machine Learning Studio of een combinatie hiervan. Azure biedt ook mogelijkheden om dashboards en modellen relatief gemakkelijk naar productie te brengen. In de komende blogs daarover meer.
De keuze voor het kostenmodel is sterk afhankelijk van het gebruik van de resources, zoals de hoeveelheid beschikbare en opgeslagen data, benodigde rekenkracht en het aantal manuren dat de resources worden gebruikt. Microsoft Azure heeft twee verschillende kostenmodellen, een jaarlijks abonnement of een pay-per-use model. In de praktijk blijkt het pay-per-use kostenmodel voor de meeste scenario’s een geschikte oplossing waarbij je met een kostenanalysedashboard tot op dag- en resource-niveau inzicht hebt in de gemaakte kosten en deze kan aanpassen en beheren.
Een onderdeel van het datalab is Databricks, een platform voor gegevensanalyse. Wat is het en wat heb je eraan? In ons volgende blog hierover meer.