Big Data is als zeewater

Je hoeft maar een tijdschrift over ICT of marketing open te slaan en de artikelen over Big Data springen je tegemoet. Maar wat wordt er eigenlijk bedoeld met Big Data? en wat is er precies nieuw aan?

De meeste definities die ik kan vinden gaan niet verder dan dat het om veel data gaat, waarbij “veel” meestal meerdere terabytes of petabytes omvat. Ter illustratie: één petabyte is hetzelfde als 80 miljoen archiefkastladen vol met geschreven tekst of 13,3 jaar aan video van HD kwaliteit.

Daarnaast gaat het meestal ook om ongestructureerde data, zoals: artikelen, geluid en video. Dit in tegenstelling tot gestructureerde data zoals deze in de meeste gevallen in de databases van onze ERP systemen zit.

Het lijkt er bijna op dat bij Big Data het alleen maar gaat over de (grote hoeveelheid) data die er is, maar niet over de vraag die we willen beantwoorden. Duidelijke overeenkomst met de initiële aanpak van datawarehouses rond de eeuwwisseling: zodra je het datawarehouse hebt kun je al je antwoorden er in terug vinden.

Het probleem in beide gevallen is dat de vraag belangrijke context bevat die het antwoord nodig heeft. Met andere woorden: zonder vraag geen goed antwoord. Ook doordat partijen als Google en Facebook met Big Data geweldige resultaten behalen betekent natuurlijk niet dat het ook één-op-één toe te passen is binnen andere organisaties. Zij hadden namelijk eerst een uitdaging (lees: vraag) waar zij een oplossing voor moesten hebben. Voor hen was Big Data het antwoord.

Nu blijft Big Data voor mij een vaag begrip, maar Bill Inmon schreef begin deze maand een mooi artikel op de site BeyeNetwork met de titel: “Why Big Data is like seawater”. Hij stelt dat voor zowel Big Data als zeewater geldt: er is heel veel van en zonder het te zuiveren niet “drinkbaar”. Het zuiveren van data, zo stelt Inmon, is vooral het eenduidig maken en in context plaatsen.

Hij illustreer dit met het volgende voorbeeld: Twee mannen staan op straat en zien een dame passeren. De ene man zegt tegen de ander: “Zij is heet”. Wat wordt hier nu gezegd? Het kan zijn dat de man aangeeft dat hij de dame zeer aantrekkelijk vindt. Maar het kan ook zijn dat de dame langsloopt op een broeierige en warme dag en aan het zweten is. Ook kan de dame zojuist een parkeerbon hebben ontvangen en is ze daarom boos.

Wat wel blijkt is dat zonder context de betekenis van de uitspraak “Zij is heet” niet bepaald kan worden. Maar als Big Data bij jouw organisatie, net als bij Google en Facebook, wel voldoende context bevat dan moet je het zeker niet nalaten. Houd wel rekening met het advies van Inmon:

  • Drinken van zeewater? PAS OP!
  • Analyseren van teksten uit Big Data? PAS OP!