Berichten

Flirten met data

Ruim een jaar geleden zijn we begonnen met het schrijven van artikelen voor deze blog. Voor ons een manier om met iedereen te delen wat ons bezig houdt en waar we tegenaan lopen. Een groot aantal artikelen in deze blog gaan dan ook over het bepalen wat nodig is om resultaat te verbeteren (resultaatgerichte bedrijfsvoering) en over het visualiseren van data (effectief rapporteren).

Een onmisbaar ingrediënt in het “bereiden” van beide aandachtsgebieden is de beschikbaarheid van data. Sterker nog: niet zomaar data, maar goede data. Maar wat is eigenlijk goede data?

Er zijn vele manieren om te kijken naar dit onderwerp. Veel voorkomende dimensies zijn:

  • Geldigheid
  • Nauwkeurigheid
  • Consistentie
  • Integriteit
  • Tijdigheid
  • Volledigheid

Het omgaan met en bewaken van deze dimensies is een omvangrijk vakgebied op zich (data kwaliteit), waar ik wellicht in toekomstige artikelen nog op terug kom.

Vandaag wil ik wat langer stil staan bij de eerste kennismaking met nieuwe data. Of je nu een data visualisatie gaat maken of op zoek bent naar mogelijke verbanden, er is altijd dat moment dat je voor de eerste keer wordt voorgesteld aan je data.

Meestal gaat zo’n eerste kennismaking gepaard met de nodige gezonde spanning. Je ziet allerlei mogelijkheden en je kunt bijna niet wachten om met de data aan de slag te gaan. Maar voordat je inhoudelijk met de data aan de slag gaat is het verstandig om deze data eerst beter te leren kennen. Als de hoeveelheid data beperkt is duurt deze kennismaking niet al te lang, maar hoe meer data hoe lastiger het wordt om deze te doorgronden.

Nu zijn er vele softwareproducten op de markt die je kunnen helpen bij deze eerste kennismaking, alleen heb je meestal een prijzige cursus nodig om ze te kunnen gebruiken. Ook de investering voor de software zelf is meestal niet rendabel als je deze niet dagelijks gebruikt.

Gelukkig zijn er ook verschillende open en gratis initiatieven op dit gebied. Een goed voorbeeld hiervan is de DataWrangler van de Stanford universiteit. Na het bekijken van de demo kun je zelf al direct aan de slag met je eigen data. Alleen lijkt het er op dat er niet heel actief meer aan deze tool wordt gewerkt. Ook is de tool alleen online te gebruiken, waardoor het voor gevoelige data niet te gebruiken is.

Er is echter ook een heel goed alternatief: Google Refine. In tegenstelling tot wat ik gewend ben van de meeste Google tools kun je Google Refine downloaden en installeren op je eigen machine. Met behulp van de Google Refine wiki kun je direct aan de slag. Google Refine omvat een groot aantal hulpmiddelen om de data te leren kennen, maar ook om deze op te schonen. Alle stappen die je zet in een data bestand kun je opslaan als een soort macro en bijvoorbeeld toepassen op een vergelijkbaar ander bestand.

Ik raad iedereen aan om Google Refine eens uit te proberen, want het maakt de kennismaking met data een stuk eenvoudiger.