Pas op… kwantipulatie

Het blijft me opvallen dat we met enige regelmaat bezoekers aan deze blog ontvangen die de website gevonden hebben dankzij het combineren van zoektermen als misleiden, bedriegen en grafiek. Ik moet toegeven dat ook ik regelmatig op zoek ben naar foute voorbeelden. Ze werken namelijk goed om uit te leggen wat er allemaal fout kan gaan bij incorrect gebruik van grafieken.

Wekelijks scan ik een grote hoeveelheid artikelen om te zien of er iets tussen zit wat ik kan gebruiken. Zo kwam ik laatst een artikel tegen op snarketing 2.0: “How to Quantipulate using graphics”. Het voorbeeld op zich (verkeerd gebruiken van een staafdiagram) is niet spectaculair, maar de gebruikte term quantipulate of kwantipulatie sprak mij direct aan. Eindelijk een term om foute grafieken mee aan te duiden. Vrij vertaald betekent kwantipulatie:

De kunst van het toepassen van oncontroleerbare statistieken om mensen te overtuigen van je gelijk

Direct heb ik verder gezocht op de term Quantipulate, maar zonder veel resultaat. Blijkbaar wordt de term (nog) niet veel gebruikt. Toch kwam ik via een andere weg wel een recent artikel tegen op de website van Business Insider welke goed past bij de term kwantipulatie.

De titel van het artikel is: “Waarom alcohol schadelijker kan zijn dan heroïne”. Deze stelling wordt ondersteund met de onderstaande grafiek.

Het is wel duidelijk dat alcohol het hoogste scoort op de “schadelijk”-schaal (Overall harm score). Alleen is er ook een grote hoeveelheid informatie verstopt in deze gestapelde staafgrafiek.

Zo zijn 16 verschillende categorieën in één gestapelde staafgrafiek wat te veel van het goede. Ook de kleuren van verschillende categorieën lijken te veel op elkaar. Zeker als in een staaf een bepaalde categorie (bijna) niet voorkomt kost het veel moeite om de exacte categorie te herkennen. Wat is bijvoorbeeld de drug met de hoogste “drug-specific impairment of mental functioning (CW 5-7)“?

Ook lijken de drugs gesorteerd van hoog naar laag op basis van de Overall harm score. Alleen waarom staat Khat dan voor Anabolic steroids? Er valt dus genoeg aan te merken op deze visualisatie. Maar het is nog erger: we zien namelijk alleen maar gegevens die de suggestieve titel van het artikel ondersteunen.

In zijn blog Junk Charts geeft Kaiser Fung aan dat er blijkbaar een hiërarchie zit in de getoonde categorieën. De bron voor het artikel was een paper van David Nutt. Deze had niet alleen de bovenstaande grafiek gemaakt, want zijn paper bevat ook de onderstaande grafiek:

Deze grafiek laat een genuanceerder beeld zien: alcohol is wel schadelijker dan heroïne als je de schade van de gebruiker en de omgeving optelt. Echter, als je deze los van elkaar ziet blijkt dat voor de gebruiker heroïne veel schadelijker is. Daarnaast kunnen deze gegevens ook beter gevisualiseerd worden. Vandaar dat ik in de volgende grafiek een eerste aanzet geef om het eenvoudiger te maken om de schade per drug goed met elkaar te kunnen vergelijken (opgesplitst naar schade aan de omgeving en aan de gebruiker). Met beter kleurgebruik en een andere sortering zou deze nog duidelijker worden, maar deze heb ik gelijk gehouden aan het origineel zodat de verbinding tussen alle grafieken blijft bestaan.

Duidelijk een geval van kwantipulatie. Niet zozeer door David Nutt, maar wel door Business Insider. Deze heeft alleen de gegevens gebruikt die een sensationele kop ondersteunen, waardoor je bijna gelooft dat alcohol schadelijker dan heroïne is.

 

Data visualisatie is kunst

Ontwerp is een belangrijk onderdeel van data visualisatie. Vandaar dat wij het in deze blog hier vaak over hebben. Echter, als je veel bezig bent met data visualisatie merk je snel genoeg dat het veel meer is dan alleen ontwerpen. Daarnaast gebruiken we vaak maar een deel van het data visualisatie gebied.

Afgelopen vrijdag kreeg ik de kans om deel te nemen aan Andy Kirk’s ééndaagse training “Introduction to Data Visualisation”. Hierin bespreekt Andy data visualisatie vanuit een groot aantal verschillende gezichtspunten.

Zo ging hij uitvoerig in op de doelstelling(en) van een data visualisatie. Deze kan uiteenlopen van zaken als communiceren en informeren tot vermaken en inspireren, en alles daar tussen. In grote lijnen is de doelstelling te vatten in de volgende onderdelen:

Bij Uitleggen gaat het vooral om het overbrengen van informatie aan anderen. Bij Verkennen ligt de nadruk meer op het ondersteunen en onderzoeken van een redenering. Zowel Uitleggen als Verkennen zijn belangrijke onderdelen van ons dagelijks werk: het ontwikkelen van management dashboards. Het is dan ook niet verwonderlijk dat wij zoveel gebruik maken van het werk van Stephen Few, want zijn boeken sluiten naadloos aan bij deze onderdelen: Show me the numbers (Uitleggen) en Now you SEE it (Verkennen).

Er is echter nog een derde onderdeel: Exposeren. Dit is een onderdeel waar wij vrij weinig mee te maken hebben, maar ook Exposeren is een belangrijke doelstelling van data visualisatie. Bij Exposeren zijn de gegevens meer de basis van een expressie. Exposeren kenmerkt zich door termen als: plezier, vermaken, aandacht vragen, kunst, etc. Het gaat veel meer over een beroep doen op gevoel en emotie.

Een goed voorbeeld hiervan is het werk van Chris Jordan. Hij gebruikt gegevens in zijn kunstwerken om te onderstrepen hoe ernstig het gesteld is met onze omgeving. Zo zijn veel van zijn werken gemaakt met grote aantallen plastic of blikjes. Een van zijn drijfveren om op deze manier gegevens te visualiseren is om ons gevoel te betrekken. In de onderstaande TEDtalk vertelt hij over een paar van zijn stukken:

Al is Exposeren vrijwel niet van toepassing op management dashboards, het is altijd goed om te leren van het werk van anderen. Al was het alleen maar voor inspiratie. Dat willen we toch allemaal?

 

De taartgrafiek: William’s laatste uitvinding

Ook ik was van de partij bij de workshop van Stephen Few in Mei. Een terugkerend fenomeen gedurende deze workshop was het bekritiseren van de taartgrafiek. We hebben hier al eerder over geschreven. Waarom is de taartgrafiek eigenlijk zo populair? Tijdens mijn zoektocht naar het antwoord kwam ik een artikel tegen van Ian Spence over de geschiedenis van de taartgrafiek.

Duidelijk is dat de Schot William Playfair in 1801 de eerste taartgrafiek gemaakt heeft. Dit heeft hij gedaan nadat hij de staafgrafiek en de lijngrafiek een aantal jaar eerder al had uitgevonden. Hij mag dan ook met recht als een van de grondleggers van modern rapporteren gezien worden. Maar was deze dag in 1801 dan een slechte dag van William? Hij kende namelijk al het alternatief voor de taartgrafiek (zijn eigen staafgrafiek), maar besloot toch de taartgrafiek toe te passen.

In zijn boek waar hij de taartgrafiek voor het eerst gebruikt geeft hij het volgende aan over het gebruik van grafieken: “making an appeal to the eye when proportion and magnitude are concerned, is the best and readiest method of conveying a distinct idea.” Vrij vertaald: Als je slechts wil vergelijken op grootte en proportie dan kun je dat het beste doen met grafieken die aantrekkelijk zijn voor het oog. Zijn invulling hiervan was:

De grafiek werkt als volgt:
Elke cirkel is een land. De grootte van de cirkel staat voor het landoppervlak, de lijn links van de cirkel de populatie, de lijn rechts de inkomsten etc. Maar waar is nu de taartgrafiek? Dat is het tweede bolletje, namelijk Turkije:

De verdeling van heel Turkije is opgedeeld in Europees, Afrikaans en Aziatisch Turkije. Het gebruik van de eerste taartgrafiek was dan ook een vernieuwing in een “grafiek” die we nu een infographic zouden noemen. En hiervoor gelden nu eenmaal andere regels, alhoewel Michel daar nog niet helemaal uit is…

William was zich heel bewust van de beperkingen van dit grafiektype, hij heeft ze namelijk later nog maar tweemaal gebruikt. Meneer Few heeft dus helemaal gelijk dat een taartgrafiek niet efficiënt is en dus niet thuis hoort in zakelijke gegevensoverdracht, maar met William ben ik het eens dat ook een aantrekkelijke vorm van groot belang is.

Tenslotte komen we dan bij de belangrijkste les van de workshop: Besef goed welk verhaal de grafiek moet vertellen… en wees voorzichtig in het gebruik van de taartgrafiek!

Few’s diagram-selectie-matrix

Eind Mei heb ik deelgenomen aan de driedaagse workshop van Stephen Few in Utrecht. Zoals eerder gemeld in deze blog was het een feest van herkenning.

De pauzes tijdens de workshop zijn natuurlijk een mooie kans om je eigen vragen en ontwerpen voor te leggen aan Stephen Few. Maar met ongeveer 50 andere deelnemers met vergelijkbare plannen kun je voorstellen dat Stephen het tijdens deze pauzes nogal druk had.

Vandaar dat ik tijdens de eerste ochtend van de workshop hem direct heb uitgenodigd voor een diner. Tot mijn verbazing leek ook hem dat een goed idee. Afgesproken voor de volgende dag, en zo geschiede.

Navraag leerde mij dat Stephen wel van sushi houdt, dus samen op weg gegaan naar een lekker sushi restaurant in Utrecht. Tijdens het eten hebben we uitvoerig kunnen spreken over zijn werk en hoe wij dit toepassen in het onze.

Tijdens zijn training gebruikt hij een plaatje van een smartphone (iPhone) met op het scherm een aantal bullet graphs. Hij gaf tijdens de training aan dat het slechts een mockup was. Ik kon het natuurlijk niet nalaten hem een afbeelding van een echt iPhone dashboard met bullet graphs te laten zien. Direct gevolgd door een korte demonstratie van Oxygen op de iPhone.

Ook hebben we gesproken over zijn “chart selection matrix” welke hij gebruikt in zijn training. Deze matrix is gebaseerd op zijn eerste boek en geeft beknopt weer welk type grafiek het beste werkt voor de verschillende relatietypes. Een handig hulpmiddel voor iedereen die een management dashboard of rapport moet maken.

Natuurlijk is de matrix in het Engels, maar voor mijn relaties zou ik hem graag ook in het Nederlands beschikbaar hebben. Dat was geen enkel probleem: Stephen zou mij de originele bestanden sturen zodat ik deze kon vertalen. Inmiddels is de diagram-selectie-matrix vertaald naar het Nederlands en kun je deze hier downloaden. Na het invullen van het formulier ontvang je een email met de download link.