Blogs
& video

Azure Databricks: een must voor het werk van data analisten en data scientists

Versnel innovatie met een datalab in Azure

Kost het jouw organisatie ook veel tijd en moeite om data analisten en data scientists samen te laten werken, elkaars code te reviewen en aan versiebeheer te doen? Met Databricks is dat verleden tijd.

In deze blogreeks laten we zien hoe we een datalab omgeving voor één van onze klanten hebben ingericht en lichten we de verschillende onderdelen toe (lees hier ons eerste blog over datagedreven werken). In dit blog gaan we in op Azure Databricks en de manier waarop het onder andere samenwerking faciliteert in een data science, data engineering of machine learning project.

De voordelen

  • Databricks is een webplatform waarin data analisten en data scientists door middel van notebooks complete data pipelines kunnen maken en beheren. Databricks is in 2015 door de makers van Apache Spark opgericht en maakt gebruik van Spark. Om preciezer te zijn: Databricks is Spark met een gebruiksvriendelijke Graphical User Interface (GUI). Dit maakt Databricks uitermate geschikt voor analyse van grote datasets en deep learning doeleinden. Maar een kleinere dataset en een minder geavanceerde analyse komen ook goed tot hun recht in Databricks. 
  • Nog een voordeel is dat je à la minute de benodigde rekenkracht kan op- of afschalen, afhankelijk van wat nodig is. Daardoor kunnen resources en kosten worden bespaard. 
  • Eén van de leukste eigenschappen van Databricks is dat met verschillende talen in één notebook kan worden gewerkt. In een Databricks notebook kan je de code in Python, R, Scala en SQL of een combinatie hiervan schrijven. Dit komt goed van pas in een team waarin de leden verschillende achtergronden hebben of niet allemaal dezelfde codetaal beheersen.

Dé tool voor data science, data engineering en machine learning projecten

Databricks maakt het werk van de data analisten en data scientists in veel opzichten gemakkelijker. Het bevordert de samenwerking in een project en tussen verschillende projecten en faciliteert de daar bijkomende technische vereisten op één plek, naar onze mening hét grootste voordeel van gebruik van Databricks. Verschillende projectleden kunnen bijvoorbeeld simultaan in dezelfde notebook samenwerken en code schrijven. Deze functionaliteit kan ook voor code review worden gebruikt, een vaak voorkomend fenomeen in data science projecten. Verder zijn Databricks notebooks met een 30 dagen revisiehistorie uitgerust, waardoor elke aangebrachte wijziging door individuele gebruikers wordt bijgehouden. Databricks maakt versiebeheer ook erg gemakkelijk door integratie van Git met Databricks Repos. Deze voorbeelden laten zien dat Databricks dé tool is om data science, data engineering en machine learning projecten efficiënter en effectiever te laten verlopen. 

Moeiteloze aansluiting op Azure resources en onderdelen

Databricks verhoudt zich ook heel goed tot de rest van het Azure ecosysteem en kan moeiteloos op andere Azure resources en onderdelen worden aangesloten om samen een volledig data-analyse ecosysteem te vormen. Vanuit Databricks kan je bijvoorbeeld connectie maken met een Blob Storage of een SQL-database om ruwe data op te halen en opgeschoonde data naar de SQL-database weg te schrijven. Databricks kan ook met Azure Machine Learning Studio (Azure ML Studio) worden gecombineerd. Zo kan je bijvoorbeeld de benodigde datatransformaties of pipelines voor een machine learning model in Databricks schrijven en vervolgens deze Databricks notebooks in Azure ML Studio gebruiken om een model te trainen en evalueren. 

Wij zijn erg onder de indruk van Databricks. Ben je ook enthousiast geworden over Databricks en wil je er meer over weten? Neem gerust contact met ons op en we vertellen je er graag alles over.