Cum hoc ergo propter hoc

Een mooie latijnse volzin voor een fenomeen dat (helaas) veelvuldig voorkomt. Letterlijk staat deze zin voor “met dit, dus vanwege dit”. Het doelt op de denkfout die we vaak maken als twee gebeurtenissen of eigenschappen gezamenlijk voorkomen. We gaan er dan al snel vanuit dat de één de ander veroorzaakt heeft. Het volgende voorbeeld is wat extreem gekozen, maar geeft wel de kern van het probleem weer:
“hoe groter de schoenmaat van een kind des te beter het handschrift”.
Dus: “grote voeten zorgen voor een beter handschrift”.

Het feit dat beide gebeurtenissen of eigenschappen (vaak) gezamenlijk voorkomen noemen we correlatie. De oorzaak-gevolg relatie tussen beide noemen we een causaal verband. In de beschreven denkfout bestaat er wel een correlatie tussen beide gebeurtenissen of eigenschappen (ze komen gezamenlijk voor), maar mogen we niet zomaar aannemen dat er ook een causaal verband bestaat.

Hoe is deze denkfout te voorkomen?
Het beste kun je dit doen door drie andere mogelijke verklaringen uit te sluiten. Dit zijn:

  • Een derde gebeurtenis of eigenschap veroorzaakt de correlatie;
    In het voorbeeld van het handschrift en de schoenmaat van een kind gaat het inderdaad om iets anders dat deze correlatie veroorzaakt. Beide eigenschappen zijn een gevolg van de groei van het kind.
  • De richting van het causale verband is omgekeerd;
    Ook dit is het beste uit te leggen met een voorbeeld.
    “Gebruikers van light-producten hebben vaker te maken met overgewicht dan gemiddeld”.
    Dus: “van light-producten wordt je dik”.
    In dit geval zal het causale verband zeer waarschijnlijk omgekeerd zijn (mensen die kampen met overgewicht nuttigen meer light-producten).
  • De correlatie is gebaseerd op toeval;
    Onderstaande grafieken uit de Business Week van deze maand zijn mooie voorbeelden van correlaties die duidelijk gebaseerd zijn op toeval.

Als afsluiter nog een voorbeeld van een correlatie gebaseerd op toeval. Tijdens onze training “effectief rapporteren” gebruik ik regelmatig dit gesprek tussen Homer Simpson en zijn dochter Lisa als voorbeeld:

Homer: Geen beer te zien. De “Beerpolitie” werkt blijkbaar wel heel goed!
Lisa: Dat is een speculatieve redenering, papa.
Homer: Dank je, liefje.
Lisa: Met die logica zou ik kunnen beweren dat deze rots hier de tijgers weghoudt.
Homer: O, hoe werkt dat dan?
Lisa: Het werkt niet.
Homer: Uh-huh.
Lisa: Het is maar een domme rots. Maar ik zie nergens tijgers, jij wel?
Homer: Lisa, ik wil die rots van jou kopen.

Deze uitzending is tevens hier terug te zien. Het gesprek tussen Homer en Lisa kun je zien vanaf 4:20 minuten.

Few is more…

Het rapporteren van resultaten wordt steeds eenvoudiger door de snelle ontwikkelingen in rapportage en dashboard software. Waar je voorheen als “schrijver” van een rapport of dashboard nog moest worstelen met complexe database-talen en ondoorgrondelijke statistische pakketten kun je nu in een handomdraai je gegevens in Excel laden en de meest uiteenlopende visualisaties maken. Ook zijn er steeds meer gespecialiseerde softwarepakketten waarmee een beetje handige “schrijver” de meest indrukwekkende overzichten maakt. Goede voorbeelden hiervan zijn Tableau en Spotfire.

Toch krijg ik niet de indruk dat de “lezers” van al dit moois hiermee geholpen zijn. Het ene naar het andere intimiderende rapport wordt over ze uitgestrooid. Net als het schrijven van een boek, tijdschrift of krant is ook het “schrijven” van een rapport of document een vak. Het gaat in beide gevallen om het effectief communiceren van een boodschap. Dit is iets anders dan het lezen van je eigen aantekeningen.

De meeste van de eerder genoemde ontwikkelingen zijn dus geweldig voor het zelfstandig kunnen uitvoeren van een analyse, maar voor het opstellen van leesbare rapporten en dashboards is meer nodig. Dit gaat dan niet om meer software of andere technische hulpmiddelen, maar om de juiste aanpak en kennis van effectief communiceren.

Er is gelukkig ook verbetering zichtbaar op het gebied van aanpak en kennis van effectief communiceren. Het werk van personen als Edward Tufte en Stephen Few wordt steeds bekender, zowel bij de “schrijvers” als de “lezers”. Ook las ik net op LinkedIn het geweldige nieuws dat Stephen Few naar Nederland komt om een 3-daagse workshop te verzorgen (21, 22 en 23 mei). Mocht je in de gelegenheid zijn, aarzel dan niet en schrijf je in. Ik ben er zeker bij.

Kun je er in mei niet bij zijn, maar wil je wel weten hoe je het inzicht in je organisatie vergroot?
In één dagdeel nemen we de belangrijkste onderwerpen met je door en bekijken we samen waar je huidige rapportage verbeterd kan worden. De prijs van deze Nova Silva training? Die bepaal je helemaal zelf, achteraf.

 

No-go area

Met enige regelmaat kom ik in applicaties, rapporten en op websites de zogenaamde “area chart” of vlakdiagram tegen. Gelukkig niet al te vaak in een 3D opmaak, want daar wordt geen enkele grafiek beter van. Maar ook zonder 3D opmaak heeft dit type diagram een aantal misleidende eigenschappen waardoor informatie niet (goed) overkomt.

Op de eerste plaats kan het voorkomen dat de verschillende vlakken (series) elkaar overlappen, waardoor alleen het vlak met de grootste waarde zichtbaar is. Een voorbeeld hiervan is te zien in afbeelding 1, waar in april de waarde van de blauwe serie groter is dan die van de groene serie. In deze gevallen is het beter om een lijndiagram te kiezen, want die heeft dit nadeel niet

afb. 1 – overlappende vlakken

 

 

Meestal wordt het vlakdiagram gebruikt door de series te stapelen en zo te laten zien hoe de verdeling is tussen de verschillende series.

Afbeelding 2 is hiervan een voorbeeld. Zo op het eerste gezicht lijkt er niet heel veel mis met dit diagram. Maar schijn bedriegt, zoals ook Dr. Drang beschrijft in zijn blog artikel “I hate stacked area charts”.

In afbeelding 2 lijkt in mei een piek in de omzet te zitten voor alle producten, of is dit alleen voor product paars? Verder lijkt blauw van april tot en met juni een lagere omzet te vertonen, of toch niet? Neemt de omzet van product groen in augustus plotseling toe?

afb. 2 – gestapeld vlakdiagram

afb. 3 – tabel

Om een antwoord te geven op deze vragen staat in afbeelding 3 de tabel met de gebruikte gegevens. Daar is duidelijk te zien dat de piek in mei alleen door paars wordt veroorzaakt. Ook is te zien dat product blauw in alle maanden dezelfde omzet laat zien. En de omzet in product groen neemt in augustus wel toe, maar dat is blijkbaar onderdeel van een 2-maandelijks patroon. Als we de volgorde van de vlakken aanpassen zien we dit ook duidelijk in het vlakdiagram (afbeelding 4).

afb. 4 – andere volgorde

Wat veroorzaakt nu deze verwarring in afbeelding 2?
De verwarring komt voornamelijk doordat de series van product blauw en groen niet beginnen met een vlakke basis, maar afhankelijk zijn van de onderliggende series. Daarnaast lijkt het blauwe vlak smaller te worden tussen april en juni doordat we de neiging hebben naar de breedte van het vlak te kijken (pijl B in afbeelding 5), in plaats van naar de afstand op het meetpunt (pijl A in afbeelding 5).

afb. 5 – andere volgorde

Een vlakdiagram is dus geen goede keuze, maar wat dan wel?
Een veel gebruikt alternatief is een gestapelde kolomdiagram (“stacked bar chart”). Deze heeft geen last van smaller wordende gebieden tussen meetpunten, maar wel van startpunten op verschillende hoogtes. Een manier om dit op te lossen is om alle punten binnen een serie op dezelfde hoogte te laten beginnen (zie afbeelding 6). Hiermee verlies je dan wel de som van de drie producten.

afb. 6 – kolomdiagram

De beste oplossing voor dit soort gegevens is toch weer het oude vertrouwde lijndiagram (afbeelding 7). Dit maakt het mogelijk om alle series nauwkeurig te tonen en als het nodig is kan ook het totaal eenvoudig worden bijgevoegd.

afb. 7 – lijndiagram

 

 

 

Kleurrijke armoede

Kleur is een belangrijk hulpmiddel bij het presenteren van informatie. Maar ook hier geldt: overdaad schaadt! Het is helaas eerder regel dan uitzondering dat bijna de hele regenboog aan kleuren gebruikt wordt in rapporten. En bij dashboards maken we het vaak nog bonter.

Voor het effectief inzetten van kleur is het goed om een aantal voorbereidingen te treffen.

Om te beginnen kiezen we een kleurpalet. Een hulpmiddel hierbij is een zogenaamd kleurenwiel (afbeelding 1). Hierbij gelden de kleuren rond het rode spectrum als warme kleuren, zoals rood, oranje, geel en bruin. De koele kleuren concentreren zich rond de blauwe kleur: blauw, groen, en grijs.

Vlakken met warme kleuren lijken groter dan vlakken met koude kleuren, dus komt een vlak met de kleur rood veel sterker over dan hetzelfde vlak in de kleur blauw. Kies daarom zowel een paar warme als koude kleuren en gebruik de warme kleuren voor de punten die er uit moeten springen. Meestal is het voldoende om 3 tot 7 kleuren te kiezen.

Vervolgens kies je per kleur 3 tot 5 verschillende sterktes (van donker naar licht). Dit geeft vervolgens genoeg combinatiemogelijkheden om de informatie af te beelden. Dit betekent echter niet dat je alle kleuren uit je palet ook moet gebruiken.

Probeer zo min mogelijk kleuren te gebruiken en waar mogelijk binnen één grafiek of tabel gebruik te maken van de verschillende sterktes binnen een kleur. Vermijdt ook het gebruik van verschillende kleuren voor dezelfde gegevens, zoals te zien in afbeelding 3.

afb. 3 – veel kleuren

afb. 4 – één kleur

afb. 5 – afwijkende sterkte

Beter is het om in dit geval voor alle staven dezelfde kleur te gebruiken (afbeelding 4). Mocht het nodig zijn om op een bepaald punt de nadruk te leggen dan kan dat door dezelfde kleur te gebruiken met een afwijkende sterkte (afbeelding 5) of een kleur van de andere kant van het kleurenwiel (afbeelding 6).

afb. 6 – afwijkende kleur

Tenslotte is bij het kiezen van de juiste kleuren van belang rekening te houden met zo’n 10% van de mannelijke bevolking. Deze groep kan niet het volledige kleurenspectrum onderscheiden. Bij vrouwen komt dit bij minder dan 0,5% voor. Mensen met deze afwijking, in de volksmond vaak kleurenblind genoemd, hebben met name moeite met het onderscheiden van de kleuren rood en groen. Probeer dus combinaties van deze twee kleuren te voorkomen. Een aardig hulpmiddel hierbij is het Color Oracle van de Oregon State University. Hiermee kun je zien hoe kleuren gezien worden door personen met “kleurenblindheid”.