Dummydata maken? Zo doe je dat!

In de huidige tijd, waar data-gestuurde besluitvorming en analyse steeds belangrijker wordt, speelt de kwaliteit van de beschikbare data een belangrijke rol. Er kan echter een moment komen in datagericht onderzoek of analyse waarop je gegevens nodig hebt, maar geen toegang hebt tot echte datasets. De redenen hiervoor kunnen variëren, zoals strikte privacyregelgeving of het gebrek aan beschikbare data in een specifiek onderzoeksgebied. Dit creëert een noodzaak om een geloofwaardige en realistische dummy dataset te creëren. Het genereren van zo’n omvangrijke dummy dataset kan uitdagend, tijdrovend en soms zelfs onhaalbaar lijken.

De oplossing: deskundige kennis en techniek

Hoewel de uitdaging aanzienlijk is, bestaat er een oplossing: het gebruik van een programmeertaal zoals Python. Maar Python is wel slechts een hulpmiddel, de kennis en expertise van een datawetenschapper is noodzakelijk om er correct mee te kunnen werken. Als datawetenschapper maak ik gebruik van Python, een krachtige en veelzijdige programmeertaal die wordt geprezen binnen de datawetenschap, om geavanceerde hulpmiddelen aan te wenden voor het genereren van gegevens. Met mijn expertise en het gebruik van Python kan ik complexe dummy datasets creëren die duizenden of zelfs miljoenen rijen bevatten. Deze datasets kunnen uitsteken gebruikt worden voor simulaties en analyses van waarheidsgetrouwe waarden. Ze zijn dan ook cruciaal voor het ontwikkelen van analyses, het testen van algoritmen en het simuleren van diverse scenario’s.

Een voorbeeld in de praktijk:

Een duidelijk voorbeeld van dit proces is te zien in een opdracht waarbij een uitgebreide dummy dataset gegenereerd moest worden voor een Proof of Concept (POC) voor een dashboard dat we ontwikkelden voor een zorgpartner. Voor het verhaal dat we wilden vertellen moest er een dummy dataset gecreëerd worden die verschillende dimensies en kenmerken bevatte:

De dataset moest het aantal dementie patiënten in vijf fictieve zorginstellingen binnen zeven gemeenten weergeven, gesplitst in drie type zorg, namelijk licht, midden en zwaar.
De dataset moest een periode van twee jaar beslaan en een opwaartse trend tonen om de evolutie van het aantal dementiepatiënten te reflecteren.
We wilden maandelijkse fluctuaties in de gegevens introduceren om de realiteit van variaties te simuleren.
Het gebruik van zorgdomotica en het effect ervan op de benodigde uren zorg per patiënt moest toegevoegd worden.
De hoeveelheid inzet van zorgdomotica moest verschillen per instelling en per patiënt, en ook hier moest een maandelijkse variatie toegevoegd worden.
De benodigde uren zorg per instelling, per gemeente, per maand moesten worden uitgezet tegen het beschikbare aantal uren zorg. Ook hier moest er weer een fluctuatie over de maanden ingebouwd worden voor de beschikbare uren zorg.
Als laatst moesten er in de dataset twee specifieke patiënten ingebouwd worden die een bepaald zorgverloop hadden.

Elke gemeente en instelling heeft zijn unieke situatie die we wilden weerspiegelen in de dataset. Hier komen mijn kennis en ervaring met Python en mijn begrip van datawetenschap echt tot hun recht. Door de mogelijkheden van Python te benutten en een op maat gemaakt script te maken was het mogelijk om de variabelen in kaart te brengen en de dummy dataset te genereren. Python’s veelzijdigheid in gegevensverwerking stelde mij in staat om wiskundige berekeningen uit te voeren en de gegevens volgens onze specificaties te genereren. Deze uitgebreide dataset kon vervolgens simpel opgeslagen worden als een Excel bestand en naadloos geïmplementeerd worden in Power BI.

In het geval van deze zorgaanbieder was het creëren van het script een op zichzelf staande taak, beginnend vanaf nul. Dit is een proces dat aanzienlijk veel tijd kan kosten, vooral als de dataset complex en uitgebreid is. Voor dit specifieke project bedroeg de totale doorlooptijd ongeveer 36 uur. Hierbij moet worden opgemerkt dat de tijd die daadwerkelijk werd besteed aan het werken aan de dataset, dus exclusief vergaderingen en andere overlegmomenten, tussen de 25 en 30 uur lag.

Het is belangrijk op te merken dat, hoewel de initiële creatie van een script tijdrovend kan zijn, eenmaal gemaakte scripts aangepast en hergebruikt kunnen worden voor toekomstige projecten. Dit betekent dat de tijd die nodig is voor het genereren van dummy datasets in volgende projecten aanzienlijk verminderd kan worden. Dit hergebruik van scripts is een van de grote voordelen van het werken met programmeertalen zoals Python voor datageneratie, waardoor tijdbesparingen mogelijk zijn bij opeenvolgende projecten.

De impact: wat betekent dit voor andere projecten?

Dit betekent dat, ongeacht de complexiteit van de datavereisten, er door het gebruik van programmeertalen zoals Python een dataset gecreëerd kan worden. Deze dataset kan specifiek worden afgestemd op de behoeften van een project, zelfs als er geen echte data beschikbaar is. Het maakt niet uit hoe complex de vereiste dataset is, of hoeveel variabelen er moeten worden opgenomen, er kan een geschikte dummy dataset worden gegenereerd. Deze aanpak biedt flexibiliteit om een breed scala aan kolommen en variaties te integreren, en om bestaande variabelen efficiënt uit te breiden zonder een substantiële tijdsinvestering. Het maakt het ook mogelijk om snel en eenvoudig nieuwe datasets te genereren met minimale aanpassingen aan de initiële configuratie, mochten de wensen veranderen. De dummy dataset kan gemakkelijk worden opgeslagen in een Excel-bestand, wat het makkelijk maakt om te gebruiken in andere tools zoals Power BI.