Berichten

Oxygen support Tableau

Met ons Oxygen platform kunnen we gegevens lezen uit een groot aantal applicaties en systemen. Andersom kunnen applicaties en systemen ook gegevens lezen uit Oxygen. De Oxygen data is beschikbaar via een standaard API, waardoor vrijwel alle applicaties wel bij de data kunnen.

Doordat we steeds meer klanten krijgen die voor hun interactie analyse gebruik maken van Tableau hebben we specifiek voor die organisaties een Web Data Connector ontwikkeld boven op de bestaande API. Hierdoor kunnen gebruikers direct vanuit Tableau hun Oxygen data bekijken en analyseren.

Vanuit Tableau direct toegang tot Oxygen

Met Oxygen WDC in drie klikken toegang tot al uw data

 

 

 

Onze innovatie is top, nu de datavisualisatie nog

Afgelopen zaterdag is het me eindelijk gelukt: na 3 jaar blessureleed eindelijk weer 10km kunnen hardlopen. Het heeft de nodige moeite gekost, maar zoals ik in mei al schreef is een combinatie van structureel meten en goede ondersteuning net als in het bedrijfsleven een randvoorwaarde voor succes.

Het gevolg was natuurlijk wel dat ik zondag rustig aan gedaan heb. En een rustige zondag begint bij mij meestal met het doornemen van de verschillende tijdschriften die gedurende de week op de mat zijn gevallen. Natuurlijk kan ik het dan ook niet nalaten om te letten op de gebruikte datavisualisaties.

Deze week trok een artikel uit het blad Management Team mijn aandacht. De titel was Onze innovatie is top en beschrijft het goede innovatieklimaat in Nederland. Onderdeel van dit artikel zijn twee korte achtergrondverhalen, welke alleen voorkomen in de gedrukte versie.

Het eerste achtergrondverhaal, Alle 9 top, gaat over de negen topsectoren en de financiering van dit initiatief. Blijkbaar zal het bedrijfsleven 1,8 miljard voor zijn rekening nemen en de overheid 1 miljard. Vervolgens staan onder aan het verhaal de grafieken uit afbeelding 1.

We zien hierin de verdeling van de financiering naar topsector. Niet alleen de keuze voor een zogenaamde donut-chart is ongelukkig (taartgrafiek met een gat), maar ook de kleuren van verschillende sectoren lijken te veel op elkaar (bijv. tuinbouw, life sciences & health en high tech systemen en materialen). Door het gebruik van sterk gelijkende kleuren moet je soms meerdere keren heen en weer gaan tussen de grafiek en de legenda om zeker te stellen welke sector het betreft. Verder valt op dat de grafiek van het bedrijfsleven veel groter is afgebeeld dan die van de overheid. Nameten leert dat de diameter van de linker grafiek (bedrijfsleven) 2 keer zo groot is als die van de rechter (overheid). Blijkbaar hebben de makers hiermee de verhouding tussen 1,8 miljard en 1 miljard willen illustreren. Jammer genoeg voegt het weinig toe. Sterker nog, het maakt het alleen maar lastiger om de overheidsinvesteringen per sector te vergelijken.

Op de eerste plaats ben ik op zoek gegaan naar de bron van deze gegevens, want deze staat helaas niet vermeld in het artikel. Na wat zoeken in Google kwam ik de gegevens tegen op een pagina van de rijksoverheid. Op basis hiervan heb ik het alternatief gemaakt zoals te zien in afbeelding 2.

Wat direct opvalt is de post overig bij de overheid. Deze was niet aanwezig in donut-chart. Ook zul je merken dat je met deze datavisualisatie veel minder tijd nodig hebt om de informatie te verwerken.

Op de volgende pagina in het tijdschrift staat het tweede achtergrondverhaal met als titel Hotspot Eindhoven. De relatie tussen de tekst en de grafiek lijkt me niet erg sterk: de tekst gaat exclusief over Eindhoven, waar de grafiek over de vijf grootste r&d investeerders van Nederland gaat. Wellicht dat het hebben van twee bedrijven uit Eindhoven in de top 5 van Nederland de relatie is, maar erg sterk is het niet.

Het positieve van deze grafiek is dat er een bronvermelding bij staat. Helaas kan ik verder geen enkel positief punt noemen van deze grafiek. Het 3D effect maakt het zeer moeilijk om de getallen te lezen. Dus ook in dit geval ben ik aan de slag gegaan om een alternatief te maken, waarvan je hieronder het resultaat kunt vinden.

Zien jullie het enorme inhoudelijke verschil? Volgens de gegevens uit het Technisch Weekblad daalt de investering van Philips in r&d vanaf 2008, maar in de grafiek van het MT stijgt hij. Ook bij ASML zou volgens deze gegevens de investering vanaf 2008 blijven dalen, waar de grafiek in het MT vanaf 2009 een stijging “suggereert”.

Het is bekend dat het 3D effect de leesbaarheid negatief beïnvloed, maar dat de trend zo ernstig vervormt wordt kan ik me niet voorstellen. Wellicht dat ik de verkeerde brongegevens heb gebruikt, of zijn de getallen in het MT door elkaar gehaald?

Gebruik dus een effectieve datavisualisatie, maar belangrijker nog: gebruik de juiste gegevens.

 

Dag vakantie, hallo verkiezingen!

Welkom terug! Net als de meeste van jullie hebben ook wij in de maand augustus van onze vakantie genoten.

Na de vakantie weer in het ritme komen valt mij altijd zwaar, vooral als ‘s-morgens vroeg de wekker om aandacht schreeuwt. Als de wekker de enige was die om aandacht verlegen zat…

Na een paar weken doorgebracht te hebben in Spanje was ik helemaal vergeten dat we weer snel naar de stembus mogen. Maar “gelukkig” hoef je de TV maar aan te zetten of een krant open te slaan: je ontkomt er niet aan. Ook een rustige wandeling door de stad is niet meer mogelijk, want op iedere hoek staat wel iemand die zijn of haar politieke voorkeur aan je uitdeelt.

En natuurlijk horen bij verkiezingen ook de peilingen. Iedere grote naam in onderzoeksland doet verplicht mee. Gevolg: een lawine aan getallen en bijbehorende analyses, die als het een beetje mee zit elkaar natuurlijk tegen spreken.

Zo zag ik gisteren op www.telegraaf.nl de onderstaande grafiek verschijnen. Natuurlijk niet handig dat er gekozen is voor een 3D staafgrafiek, maar hoe ondersteunt deze grafiek het bijbehorende artikel?

In het artikel staat geschreven dat de PvdA (volgens de peilingen) de laatste weken steeds dichter bij het zetelaantal van de SP komt. Hoe zie ik dat in deze grafiek? Buiten de typische moeilijkheden met een 3D staafgrafiek (zie Trellis chart: klein maar fijn) is er nog iets anders wat vragen bij mij oproept: waar kan ik zien dat het verschil kleiner is geworden in de loop van de tijd?

Bij de vier onderzoeken staat in de legenda gelukkig wel vermeld wanneer deze zijn uitgevoerd. Alleen staan ze zowel in de grafiek als legenda niet in chronologische volgorde. In de volgende grafiek heb ik de gegevens daarin geplaatst.

Nu is te zien dat het verschil kleiner lijkt te zijn geworden, sterker nog: de PvdA lijkt de SP te hebben ingehaald. Echter, niet alleen het tijdstip verschilt per grafiek. Iedere grafiek is ook nog eens gebaseerd op een ander onderzoek. Nu weet ik niet veel van dit soort onderzoek, maar ik ben er vrij zeker van dat deze vier onderzoekers allen hun eigen specifieke aanpak hebben. Dus wat vergelijken we eigenlijk? Op de website www.peilloos.nl heb ik ook de eerdere resultaten van de gebruikte onderzoekers gevonden. Hieronder per onderzoeker de peilingen vanaf 1 juli 2012 van de PvdA en de SP.

Het blijven natuurlijk peilingen met alle beperkingen van dien, maar door zoveel mogelijk zaken gelijk te houden (ceteris paribus) zijn we op zijn minst in staat om de ontwikkeling in de tijd te zien. Deze laatste grafieken ondersteunen de strekking van het artikel in ieder geval een stuk beter dan het 3D origineel. Met deze laatste grafieken is het direct duidelijk dat het verschil in aantal zetels tussen de PvdA en de SP de laatste weken kleiner is geworden.

 

Pas op… kwantipulatie

Het blijft me opvallen dat we met enige regelmaat bezoekers aan deze blog ontvangen die de website gevonden hebben dankzij het combineren van zoektermen als misleiden, bedriegen en grafiek. Ik moet toegeven dat ook ik regelmatig op zoek ben naar foute voorbeelden. Ze werken namelijk goed om uit te leggen wat er allemaal fout kan gaan bij incorrect gebruik van grafieken.

Wekelijks scan ik een grote hoeveelheid artikelen om te zien of er iets tussen zit wat ik kan gebruiken. Zo kwam ik laatst een artikel tegen op snarketing 2.0: “How to Quantipulate using graphics”. Het voorbeeld op zich (verkeerd gebruiken van een staafdiagram) is niet spectaculair, maar de gebruikte term quantipulate of kwantipulatie sprak mij direct aan. Eindelijk een term om foute grafieken mee aan te duiden. Vrij vertaald betekent kwantipulatie:

De kunst van het toepassen van oncontroleerbare statistieken om mensen te overtuigen van je gelijk

Direct heb ik verder gezocht op de term Quantipulate, maar zonder veel resultaat. Blijkbaar wordt de term (nog) niet veel gebruikt. Toch kwam ik via een andere weg wel een recent artikel tegen op de website van Business Insider welke goed past bij de term kwantipulatie.

De titel van het artikel is: “Waarom alcohol schadelijker kan zijn dan heroïne”. Deze stelling wordt ondersteund met de onderstaande grafiek.

Het is wel duidelijk dat alcohol het hoogste scoort op de “schadelijk”-schaal (Overall harm score). Alleen is er ook een grote hoeveelheid informatie verstopt in deze gestapelde staafgrafiek.

Zo zijn 16 verschillende categorieën in één gestapelde staafgrafiek wat te veel van het goede. Ook de kleuren van verschillende categorieën lijken te veel op elkaar. Zeker als in een staaf een bepaalde categorie (bijna) niet voorkomt kost het veel moeite om de exacte categorie te herkennen. Wat is bijvoorbeeld de drug met de hoogste “drug-specific impairment of mental functioning (CW 5-7)“?

Ook lijken de drugs gesorteerd van hoog naar laag op basis van de Overall harm score. Alleen waarom staat Khat dan voor Anabolic steroids? Er valt dus genoeg aan te merken op deze visualisatie. Maar het is nog erger: we zien namelijk alleen maar gegevens die de suggestieve titel van het artikel ondersteunen.

In zijn blog Junk Charts geeft Kaiser Fung aan dat er blijkbaar een hiërarchie zit in de getoonde categorieën. De bron voor het artikel was een paper van David Nutt. Deze had niet alleen de bovenstaande grafiek gemaakt, want zijn paper bevat ook de onderstaande grafiek:

Deze grafiek laat een genuanceerder beeld zien: alcohol is wel schadelijker dan heroïne als je de schade van de gebruiker en de omgeving optelt. Echter, als je deze los van elkaar ziet blijkt dat voor de gebruiker heroïne veel schadelijker is. Daarnaast kunnen deze gegevens ook beter gevisualiseerd worden. Vandaar dat ik in de volgende grafiek een eerste aanzet geef om het eenvoudiger te maken om de schade per drug goed met elkaar te kunnen vergelijken (opgesplitst naar schade aan de omgeving en aan de gebruiker). Met beter kleurgebruik en een andere sortering zou deze nog duidelijker worden, maar deze heb ik gelijk gehouden aan het origineel zodat de verbinding tussen alle grafieken blijft bestaan.

Duidelijk een geval van kwantipulatie. Niet zozeer door David Nutt, maar wel door Business Insider. Deze heeft alleen de gegevens gebruikt die een sensationele kop ondersteunen, waardoor je bijna gelooft dat alcohol schadelijker dan heroïne is.

 

De "trend" is negatief… PANIEK!

Al lees je geen kranten en kijk je niet naar het nieuws, het is bijna onmogelijk om niet op de hoogte te zijn van de economische tegenwind. Als je wel regelmatig een krant leest of naar de radio luistert wordt je overspoeld door berichten als:

Deze voorbeelden hebben niet alleen gemeen dat ze gaan over economische tegenwind, maar ook nog iets anders. In alle gevallen worden hier conclusies getrokken (het gaat minder) door twee waarden met elkaar te vergelijken: de huidige maand met één eerdere maand (vorige maand of zelfde maand vorig jaar).

In het bedrijfsleven doen we precies hetzelfde. Zo bevat menig management dashboard of rapport een samenvatting als in afbeelding 1. De meesten hebben alleen oog voor de KPI’s met de grootste afwijking, want die zijn toch het belangrijkst? Dus ook hier reageren we (meestal heftig) op het verschil tussen slechts twee resultaten.

Het vreemde is dat ieder proces naast speciale variatie ook natuurlijke variatie kent. Speciale variatie is de afwijking die een signaal geeft (gaat het echt beter of slechter). Natuurlijke variatie ontstaat doordat ieder proces of meetinstrument enige vorm van variatie kent die we “normaal” noemen. Neem bijvoorbeeld de omzet van een winkel. Als we kijken naar de verkoopcijfers per maand moeten we rekening houden met zaken als: hoeveel dagen in de betreffende maand was de winkel open, hoeveel feestdagen zijn er geweest, was het een zonnige maand, etc, etc. Al deze zaken hebben invloed op de verkoopcijfers, maar als we de huidige maand vergelijken met de vorige maand dan worden deze vaak niet meegenomen. We horen alleen: “Verkopen detailhandel in de lift!”.

Echter, voordat we conclusies kunnen trekken moeten we onderscheid maken tussen ruis (natuurlijke variatie) en het echte signaal (speciale variatie). Een geweldig hulpmiddel om deze echte signalen te kunnen herkennen is de zogenaamde Control chart. Deze hebben we al eerder kort beschreven in het artikel Vertrouwen in uw management dashboard is goed, maar controle is beter.

In zijn boek Understanding variation geeft Donald Wheeler met voorbeelden aan hoe je Control Charts moet gebruiken om de echte signalen te zien. Met zijn aanpak wordt je niet langer afgeleid door de ruis. Jammer genoeg is “Understanding variation” in Nederland bijna niet te krijgen. Kijk dus goed rond of je ergens het boek kunt vinden, want het is van onschatbare waarde en blinkt uit in eenvoud. Ik heb gelukkig vorige week een exemplaar kunnen bemachtigen op Marktplaats en het in een paar uurtjes kunnen lezen.

Hiermee is niet gezegd dat de krantenkoppen van het begin van dit artikel niet juist kunnen zijn, maar doordat ze uitgaan van een signaal inclusief ruis weten we het niet. Negeer dus de ruis en concentreer op de signalen.

 

Resultaatgericht hardlopen

Na ruim 2 jaar kwakkelen was het afgelopen weekend eindelijk zover: Ik heb eindelijk weer 5 km kunnen hardlopen in een acceptabele tijd van net geen 29 minuten. Het was nog niet de afstand of snelheid die ik voorheen liep, maar ik heb wel het gevoel dat ik eindelijk weer op de goede weg ben.

Door veelal blessures vanwege overbelasting kon ik de afgelopen twee jaar maar geen trainingsschema volgen om weer 3 keer in de week te lopen. Meestal kwamen de blessures vooral doordat ik sneller wil dan dat mijn knieën aankunnen. De extra kilo’s van de afgelopen 2 jaar helpen ook niet, sterker nog: ze maken het alleen maar erger.

Toch is het nu eindelijk weer gelukt, zodat ik nu weer verder kan werken aan een langere afstand. Maar wat is er nu anders dan de afgelopen periode? Waarom is het nu wel gelukt? Want de omstandigheden zijn er niet beter op geworden (extra kilo’s).

Op de eerste plaats heb ik hulp ingeroepen van experts. Deze experts, de trainers van REactive, hebben mij geweldig geholpen door een doordacht schema op te stellen. Zij hebben gezorgd dat ik niet te hard van stapel liep en rustig de training-intensiteit heb opgebouwd.

Maar er was meer voor nodig. En dit heeft alles te maken met de management dashboards die ik ook in mijn dagelijkse werk tegen kom. Ik ben op verschillende gebieden gegevens gaan verzamelen, van het aantal stappen dat ik per dag zet en mijn hardslag tijdens het trainen tot het aantal broodjes dat ik dagelijks eet. Het bijhouden van dit soort gegevens wordt ook wel genoemd: Quantified self.

Al deze gegevens gaven mij inzicht in de (soms negatieve) bijdragen van mijn gedrag. Maar het structureel meten en feedback krijgen doen meer dan alleen vertellen wat wel en niet werkt. Voor iemand die graag resultaatgericht bezig is motiveert de directe feedback ook enorm. Of zoals Ben Tiggelaar in zijn column schrijft: Maar meten is niet alleen weten. Meten is ook voelen.

Nu kan het zijn dat de conclusie hier is dat we alles dan maar moeten gaan meten. Maar dit gaat mij véél te ver. Zowel in de column van Ben als in een reactie daarop blijkt wel dat het meten van resultaten ook zijn keerzijde kent. Vooral als deze gebruikt worden om de resultaten van een individu te meten (of controleren) slaan we volgens mij door.

Voor het verbeteren van mijn loopresultaten heb ik gegevens over mij als persoon verzameld. Het doel hiervan is om te leren over gedrag om processen te kunnen verbeteren. Als het zou gaan om mij als individu te controleren vervallen alle voordelen. Gebruik dus alleen gegevens en management dashboards om processen te verbeteren, niet om individuen te controleren. Stacey Barr geeft in haar artikel Should you measure individual people’s performance? het nodige om over na te denken.

 

Trellis chart: klein maar fijn

Het gebruik van 3D effecten in grafieken is over het algemeen een slecht idee. Het “mooie” uiterlijk weegt nooit op tegen de slechte leesbaarheid van bijvoorbeeld een 3D staafgrafiek. Met andere woorden: geen 3D effecten gebruiken.

Er zijn ook staafgrafieken waarbij 3D niet alleen het uiterlijk verandert, maar waar de derde dimensie gebruikt wordt om extra gegevens te tonen in de grafiek. Een voorbeeld hiervan zijn de zogenaamde Manhattan (staaf)grafieken(zie afbeelding boven).

In de bovenstaande afbeelding zie je dat op de derde dimensie (z-as) de verschillende producten zijn geplaatst. Alleen hebben we ook hier weer te maken met slechte leesbaarheid, helemaal als staven (bijna) helemaal wegvallen (zie product B in periode 7).

Toch is het voor management dashboards van belang om meerdere gezichtspunten tegelijkertijd inzichtelijk te maken. Hierdoor ontstaat de mogelijkheid om de situatie in één overzicht te analyseren zonder te navigeren of “bladeren”.

De eerste stap om meerdere gezichtspunten tegelijkertijd inzichtelijk te kunnen maken is het kiezen voor een effectieve presentatievorm. Aangezien het hier gaat om de ontwikkeling van een meetwaarde over tijd ligt een lijngrafiek het meest voor de hand. De gegevens zijn in afbeelding 2 zonder veel moeite eenvoudig af te lezen en te analyseren.

In dit geval is de keuze van een andere presentatievorm al een enorme verbetering. Maar wat als we ook de verkoopregio als gezichtspunt willen toevoegen aan de grafiek? Bij slechts 2 verkoopregio’s (Noord en Zuid) verdubbelt het aantal lijnen in onze lijngrafiek. Dit heeft direct een negatieve invloed op de leesbaarheid en maakt analyse zeer lastig (afb. 3). Terugvallen op de Manhattan staafgrafiek is ook hier geen optie, want die was met 3 gezichtspunten al niet leesbaar.

Voor situaties waarbij meer dan 3 gezichtspunten tegelijkertijd geanalyseerd moeten worden gebruiken wij de zogenaamde Trellis Chart of Small Multiple. Beide termen worden door elkaar gebruikt en komen op hetzelfde neer: een kruistabel met in iedere cel een grafiek in plaats van alleen een getal. Iedere grafiek in een Trellis Chart gebruikt dezelfde schaalverdeling om het vergelijken en analyseren van alle gezichtspunten mogelijk te maken. In afbeelding 4 staan alle eerder genoemde gezichtspunten afgebeeld met behulp van een Trellis Chart. Zie je het verschil?

Big Data is als zeewater

Je hoeft maar een tijdschrift over ICT of marketing open te slaan en de artikelen over Big Data springen je tegemoet. Maar wat wordt er eigenlijk bedoeld met Big Data? en wat is er precies nieuw aan?

De meeste definities die ik kan vinden gaan niet verder dan dat het om veel data gaat, waarbij “veel” meestal meerdere terabytes of petabytes omvat. Ter illustratie: één petabyte is hetzelfde als 80 miljoen archiefkastladen vol met geschreven tekst of 13,3 jaar aan video van HD kwaliteit.

Daarnaast gaat het meestal ook om ongestructureerde data, zoals: artikelen, geluid en video. Dit in tegenstelling tot gestructureerde data zoals deze in de meeste gevallen in de databases van onze ERP systemen zit.

Het lijkt er bijna op dat bij Big Data het alleen maar gaat over de (grote hoeveelheid) data die er is, maar niet over de vraag die we willen beantwoorden. Duidelijke overeenkomst met de initiële aanpak van datawarehouses rond de eeuwwisseling: zodra je het datawarehouse hebt kun je al je antwoorden er in terug vinden.

Het probleem in beide gevallen is dat de vraag belangrijke context bevat die het antwoord nodig heeft. Met andere woorden: zonder vraag geen goed antwoord. Ook doordat partijen als Google en Facebook met Big Data geweldige resultaten behalen betekent natuurlijk niet dat het ook één-op-één toe te passen is binnen andere organisaties. Zij hadden namelijk eerst een uitdaging (lees: vraag) waar zij een oplossing voor moesten hebben. Voor hen was Big Data het antwoord.

Nu blijft Big Data voor mij een vaag begrip, maar Bill Inmon schreef begin deze maand een mooi artikel op de site BeyeNetwork met de titel: “Why Big Data is like seawater”. Hij stelt dat voor zowel Big Data als zeewater geldt: er is heel veel van en zonder het te zuiveren niet “drinkbaar”. Het zuiveren van data, zo stelt Inmon, is vooral het eenduidig maken en in context plaatsen.

Hij illustreer dit met het volgende voorbeeld: Twee mannen staan op straat en zien een dame passeren. De ene man zegt tegen de ander: “Zij is heet”. Wat wordt hier nu gezegd? Het kan zijn dat de man aangeeft dat hij de dame zeer aantrekkelijk vindt. Maar het kan ook zijn dat de dame langsloopt op een broeierige en warme dag en aan het zweten is. Ook kan de dame zojuist een parkeerbon hebben ontvangen en is ze daarom boos.

Wat wel blijkt is dat zonder context de betekenis van de uitspraak “Zij is heet” niet bepaald kan worden. Maar als Big Data bij jouw organisatie, net als bij Google en Facebook, wel voldoende context bevat dan moet je het zeker niet nalaten. Houd wel rekening met het advies van Inmon:

  • Drinken van zeewater? PAS OP!
  • Analyseren van teksten uit Big Data? PAS OP!

 

Gezocht: misleidende grafiek

In haar blog voor Forbes geeft Naomi Robbins wekelijks praktische tips op het gebied van effectief rapporteren. Zo schreef zij begin maart een aardig artikel over het vinden van misleidende en bedrieglijke grafieken.

Blijkbaar wordt er veel gezocht op termen als: misleiden en bedriegen in combinatie met grafiek. Ook wij krijgen regelmatig bezoekers op deze website die in Google deze zoektermen hebben gebruikt (met name de Engelse vertalingen als misleading, deceptive en charts). Nu is het lastig om te bepalen wat deze personen precies willen met voorbeelden van grafieken die misleiden en/of bedriegen. Ik ga er gemakshalve vanuit dat zij willen leren van hoe het niet moet. Ze zijn dus (hopelijk) op zoek naar tips om hun grafieken beter en effectief te maken.

Nu zijn er de laatste jaren ontelbare publicaties verschenen over dit onderwerp. Van bijvoorbeeld auteurs als: Edward Tufte, Stephen Few, Donna Wong, Alberto Cairo, etc. Echter, William Cleveland schreef al in 1968 zijn “The Elements of Graphing Data”, de basis van het gelijknamige boek uit 1994. Cleveland vertelt in zijn boek over de criteria waaraan een goede grafiek moet voldoen. Zijn filosofie is: “minimaliseer de mentale gymnastiek die de lezer moet uitvoeren om de grafiek te doorgronden”.

In het paper “Good Graphs: Graphical Perception and Data Visualization” vat Nina Zumel de belangrijkste eigenschappen van een goede grafiek samen met de volgende punten:

  • Maak belangrijke verschillen groot genoeg om waar te nemen (zie afbeelding 2)
  • Voorkom grote spreiding van de waarden binnen één grafiek (zie afbeelding 3)
  • Als je een verschil wilt analyseren, laat het verschil dan zien (zie Directe duidelijkheid)
  • Als je geïnteresseerd bent in het relatieve verschil (bijv. groei%), toon dan het relatieve verschil (zie Logische schalen)

Verschil tussen de twee staven is te klein om goed waar te nemen (links), maar door iedere balk te omkaderen met een gelijk kader (rechts) wordt het verschil duidelijk

Door de grote spreiding (hier: piek voor 1.500) is het niet goed mogelijk om het patroon na 1.500 goed te zien

Daarnaast moeten we niet afgeleid worden bij het lezen en interpreteren van de grafiek door zogenaamde chartjunk. Om chartjunk te voorkomen wil ik afsluiten met: “de grafiek is pas af als er niets meer af kan”.

Cum hoc ergo propter hoc

Een mooie latijnse volzin voor een fenomeen dat (helaas) veelvuldig voorkomt. Letterlijk staat deze zin voor “met dit, dus vanwege dit”. Het doelt op de denkfout die we vaak maken als twee gebeurtenissen of eigenschappen gezamenlijk voorkomen. We gaan er dan al snel vanuit dat de één de ander veroorzaakt heeft. Het volgende voorbeeld is wat extreem gekozen, maar geeft wel de kern van het probleem weer:
“hoe groter de schoenmaat van een kind des te beter het handschrift”.
Dus: “grote voeten zorgen voor een beter handschrift”.

Het feit dat beide gebeurtenissen of eigenschappen (vaak) gezamenlijk voorkomen noemen we correlatie. De oorzaak-gevolg relatie tussen beide noemen we een causaal verband. In de beschreven denkfout bestaat er wel een correlatie tussen beide gebeurtenissen of eigenschappen (ze komen gezamenlijk voor), maar mogen we niet zomaar aannemen dat er ook een causaal verband bestaat.

Hoe is deze denkfout te voorkomen?
Het beste kun je dit doen door drie andere mogelijke verklaringen uit te sluiten. Dit zijn:

  • Een derde gebeurtenis of eigenschap veroorzaakt de correlatie;
    In het voorbeeld van het handschrift en de schoenmaat van een kind gaat het inderdaad om iets anders dat deze correlatie veroorzaakt. Beide eigenschappen zijn een gevolg van de groei van het kind.
  • De richting van het causale verband is omgekeerd;
    Ook dit is het beste uit te leggen met een voorbeeld.
    “Gebruikers van light-producten hebben vaker te maken met overgewicht dan gemiddeld”.
    Dus: “van light-producten wordt je dik”.
    In dit geval zal het causale verband zeer waarschijnlijk omgekeerd zijn (mensen die kampen met overgewicht nuttigen meer light-producten).
  • De correlatie is gebaseerd op toeval;
    Onderstaande grafieken uit de Business Week van deze maand zijn mooie voorbeelden van correlaties die duidelijk gebaseerd zijn op toeval.

Als afsluiter nog een voorbeeld van een correlatie gebaseerd op toeval. Tijdens onze training “effectief rapporteren” gebruik ik regelmatig dit gesprek tussen Homer Simpson en zijn dochter Lisa als voorbeeld:

Homer: Geen beer te zien. De “Beerpolitie” werkt blijkbaar wel heel goed!
Lisa: Dat is een speculatieve redenering, papa.
Homer: Dank je, liefje.
Lisa: Met die logica zou ik kunnen beweren dat deze rots hier de tijgers weghoudt.
Homer: O, hoe werkt dat dan?
Lisa: Het werkt niet.
Homer: Uh-huh.
Lisa: Het is maar een domme rots. Maar ik zie nergens tijgers, jij wel?
Homer: Lisa, ik wil die rots van jou kopen.

Deze uitzending is tevens hier terug te zien. Het gesprek tussen Homer en Lisa kun je zien vanaf 4:20 minuten.