Versnel innovatie met een datalab in Azure
Kost het jouw organisatie ook veel tijd en moeite om data analisten en data scientists samen te laten werken, elkaars code te reviewen en aan versiebeheer te doen? Met Databricks is dat verleden tijd.
In deze blogreeks laten we zien hoe we een datalab omgeving voor één van onze klanten hebben ingericht en lichten we de verschillende onderdelen toe (lees hier ons eerste blog over datagedreven werken). In dit blog gaan we in op Azure Databricks en de manier waarop het onder andere samenwerking faciliteert in een data science, data engineering of machine learning project.
Databricks maakt het werk van de data analisten en data scientists in veel opzichten gemakkelijker. Het bevordert de samenwerking in een project en tussen verschillende projecten en faciliteert de daar bijkomende technische vereisten op één plek, naar onze mening hét grootste voordeel van gebruik van Databricks. Verschillende projectleden kunnen bijvoorbeeld simultaan in dezelfde notebook samenwerken en code schrijven. Deze functionaliteit kan ook voor code review worden gebruikt, een vaak voorkomend fenomeen in data science projecten. Verder zijn Databricks notebooks met een 30 dagen revisiehistorie uitgerust, waardoor elke aangebrachte wijziging door individuele gebruikers wordt bijgehouden. Databricks maakt versiebeheer ook erg gemakkelijk door integratie van Git met Databricks Repos. Deze voorbeelden laten zien dat Databricks dé tool is om data science, data engineering en machine learning projecten efficiënter en effectiever te laten verlopen.
Databricks verhoudt zich ook heel goed tot de rest van het Azure ecosysteem en kan moeiteloos op andere Azure resources en onderdelen worden aangesloten om samen een volledig data-analyse ecosysteem te vormen. Vanuit Databricks kan je bijvoorbeeld connectie maken met een Blob Storage of een SQL-database om ruwe data op te halen en opgeschoonde data naar de SQL-database weg te schrijven. Databricks kan ook met Azure Machine Learning Studio (Azure ML Studio) worden gecombineerd. Zo kan je bijvoorbeeld de benodigde datatransformaties of pipelines voor een machine learning model in Databricks schrijven en vervolgens deze Databricks notebooks in Azure ML Studio gebruiken om een model te trainen en evalueren.
Wij zijn erg onder de indruk van Databricks. Ben je ook enthousiast geworden over Databricks en wil je er meer over weten? Neem gerust contact met ons op en we vertellen je er graag alles over.