Berichten

9.5 Tips for Great Data Visualisation

This article was originally posted on the measure-up blog of Stacey Barr.

Enrico Bertini explains in his recipe that studying plays an important role in becoming a Data Visualization expert. However, he also emphasizes it is just the beginning. This was probably the reason why Ben de Jong approached me a year ago to help him improve data visualizations at the bank he works for.

Ben was already familiar with the works of people like Stephen Few, Alberto Cairo and Andy Kirk. He clearly wasn’t looking for additional theoretical background. He was looking for someone with hands-on experience that could help him and the bank to the next level. And so we started to work together to improve the data visualizations of “his” bank.

Part of the assignment was to share our knowledge and experience with as many people as possible within the bank. We realized it would be difficult to get a broad audience interested if it would require a lot of their time. Furthermore, we wanted the session to be practical and not just an introduction. After attending our session, everyone should be able to directly apply the basics to their own work.

This is how we came up with our one-hour session called: 9.5 tips for great data visualizations. We conducted dozens of these sessions to confront people with the most common mistakes, illustrated by their own visualizations.

A couple of weeks ago Stacey was in The Netherlands, and I mentioned our “9.5 tips” sessions to her. Before I knew it she convinced me to write this blog post to share it with an even broader audience.

Tip 1. Start with WHY

In general, a visualization is the answer to a question. But how do you formulate an answer if you don’t know the question?

Therefore, you always start designing by an answering this fundamental WHY question. Although the question is easy, the answer (almost) never is.

This also implies you know your audience and take them into account.

Tip 2. Don’t make me think

Most visualizations require a lot of thought. Not because the audience is reflecting on the actions they need to take, but because they find it hard to understand the visualization itself. To avoid this, we need to apply three basic rules:

Tip 3. Cutting corners

When we use bar charts we “ask” our audience to compare area sizes. This can only be done right if these bars start at 0. Unfortunately, it is very common to have them start at other values, because otherwise “the differences are not clear enough”. If this is the case, choose an other chart type, because a bar chart scale should ALWAYS start at 0.

by ‘cutting’ the scale the difference here looks way bigger

the actual difference is only 22%

Tip 4. Apples to Oranges

When we have two measures with completely different scales it is difficult to combine them into one single chart. A common solution is to apply a secondary y-scale, so each of the measures has its own scale. Unfortunately, this practice introduces a lot of confusion. Sometimes even to the point that the visualization suggests there is some form of correlation between the measures, without any being really there. The solution is straightforward: split the two measures into two separate charts.

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

Tip 5. Show your true colors

Color plays an important role in our visual perception and attention, so apply it with care. A number of ground rules concerning color usage are:

  • Use a neutral color as your base color (like white);
  • Make sure objects with the same color are related or mean the same;
  • Only use limited strong colors (like saturated red) for emphasizing important data;
  • Use a neutral color (like light gray) for all contextual/context elements (scales, tick marks, reference lines, etc.)

Probably the most popular color scheme is Red, Amber & Green (RAG). This color scheme is also responsible for a lot of clutter and distraction on visualizations. Please bear in mind that some people can’t distinguish red from green (color blindness), so maybe it is better to use an other color for green (like blue). Also ask yourself the question: do we really need to show the green color? Limit yourself to coloring exceptions only.

Tip 6. Less is more

Sometimes I get the impression that visualization designers experience white space as their enemy. As long as they have space left they keep adding stuff. But if you have answered your WHY question, there is no reason to add more. It is even the other way around: the visualization is done when you are done with removing components.

Tip 7. Trending topic

It is very common (unfortunately) to simplify trends over time into one single indicator/arrow: we have gone up or down compared to the result in the previous period. These point-to-point comparisons are terrible, as Stacey explains in her workshops and book. A popular alternative to this single indicator is displaying all historic context, cluttering the visualization. A good alternative is to make use of Tufte’s sparklines: they give enough historic context without cluttering your visualization.

Tip 8. Avoid chart junk

In your data visualization it should be DATA FIRST: let the data tell its story. Everything else is considered chart junk (as introduced by Edward Tufte), and should be minimized. Making the visualization look “nice” is mostly adding more junk and compromising your goal: to inform.

Tip 9. Save the pies for dessert

In most cases when someone uses a pie chart there are (far) better alternatives at hand. This is why Stephen Few saves all pies for dessert. We have had no need for them either, but should you insist on using one, apply the rules from Donna Wong:

  • Never more than 4 slices;
  • Use one single color (hue);
  • Start at 12 o’clock and order the slices descending.

Tip 9.5 Sketch & experiment

This last tip is not concerning the visualization itself, but more on your design approach. This is why we have valued it with half a tip.
There are two important enemies to effective data visualization: software tools & actual data. When you start with software you run the risk to get distracted by the functions and features of the software. Actual data demands a lot of attention because of unclear definitions or questionable quality. Both make you loose the focus on the WHY and your visualization. This is why we use pencil and paper to start sketching the visualization. Make use of the Five Design Sheet methodology to design your visualizations.

Visualisatie voor iedereen

Voor iedereen die geïnteresseerd is in het verbeteren van data visualisaties was 2012 al een geweldig jaar. In mei was er de mogelijkheid om de driedaagse training van Stephen Few bij te wonen en in juli was Andy Kirk in Amsterdam voor een training. Voor iedereen die deze twee trainingen gemist heeft: komend jaar is er vast weer een mogelijkheid om één van deze trainingen in Nederland bij te wonen.

Vorige week schreef ik over een andere grote naam in de wereld van data visualisaties: Alberto Cairo. Ook hij geeft regelmatig data visualisatie trainingen, alleen heb ik nog niet de mogelijkheid gehad om een training van Alberto bij te wonen. Na het schrijven van mijn artikel vorige week ben ik maar op zoek gegaan naar zijn trainingsschema. Zo te zien is ook hij van plan om een training/presentatie in Nederland te verzorgen, alleen is dat pas in maart 2013.

Natuurlijk zal ik proberen er bij te zijn, maar maart is nog zo ver weg. Vandaar dat ik blij verrast was met Alberto’s blog artikel van vrijdag jl.

Hij verzorgt een 6-weekse workshop vanaf eind deze maand bij mij thuis! Niet alleen bij mij thuis, maar ook bij jou als je dat wilt. De workshop is namelijk in de vorm van een zogenaamde Massive Open Online Course of MOOC.

Het is al geweldig dat we allemaal kunnen deelnemen vanuit onze luie stoel, maar het wordt nog beter: de workshop is GRATIS!

Dit is een geweldige kans om eens en voor altijd af te rekenen met die verschrikkelijke dashboards en rapporten met slechte visualisaties die we overal maar tegen komen. Dus als je iets te maken hebt met data visualisatie: mis deze kans niet en schrijf je nu in! In de onderstaande video vertelt Alberto je meer over de workshop.

Pas op… kwantipulatie

Het blijft me opvallen dat we met enige regelmaat bezoekers aan deze blog ontvangen die de website gevonden hebben dankzij het combineren van zoektermen als misleiden, bedriegen en grafiek. Ik moet toegeven dat ook ik regelmatig op zoek ben naar foute voorbeelden. Ze werken namelijk goed om uit te leggen wat er allemaal fout kan gaan bij incorrect gebruik van grafieken.

Wekelijks scan ik een grote hoeveelheid artikelen om te zien of er iets tussen zit wat ik kan gebruiken. Zo kwam ik laatst een artikel tegen op snarketing 2.0: “How to Quantipulate using graphics”. Het voorbeeld op zich (verkeerd gebruiken van een staafdiagram) is niet spectaculair, maar de gebruikte term quantipulate of kwantipulatie sprak mij direct aan. Eindelijk een term om foute grafieken mee aan te duiden. Vrij vertaald betekent kwantipulatie:

De kunst van het toepassen van oncontroleerbare statistieken om mensen te overtuigen van je gelijk

Direct heb ik verder gezocht op de term Quantipulate, maar zonder veel resultaat. Blijkbaar wordt de term (nog) niet veel gebruikt. Toch kwam ik via een andere weg wel een recent artikel tegen op de website van Business Insider welke goed past bij de term kwantipulatie.

De titel van het artikel is: “Waarom alcohol schadelijker kan zijn dan heroïne”. Deze stelling wordt ondersteund met de onderstaande grafiek.

Het is wel duidelijk dat alcohol het hoogste scoort op de “schadelijk”-schaal (Overall harm score). Alleen is er ook een grote hoeveelheid informatie verstopt in deze gestapelde staafgrafiek.

Zo zijn 16 verschillende categorieën in één gestapelde staafgrafiek wat te veel van het goede. Ook de kleuren van verschillende categorieën lijken te veel op elkaar. Zeker als in een staaf een bepaalde categorie (bijna) niet voorkomt kost het veel moeite om de exacte categorie te herkennen. Wat is bijvoorbeeld de drug met de hoogste “drug-specific impairment of mental functioning (CW 5-7)“?

Ook lijken de drugs gesorteerd van hoog naar laag op basis van de Overall harm score. Alleen waarom staat Khat dan voor Anabolic steroids? Er valt dus genoeg aan te merken op deze visualisatie. Maar het is nog erger: we zien namelijk alleen maar gegevens die de suggestieve titel van het artikel ondersteunen.

In zijn blog Junk Charts geeft Kaiser Fung aan dat er blijkbaar een hiërarchie zit in de getoonde categorieën. De bron voor het artikel was een paper van David Nutt. Deze had niet alleen de bovenstaande grafiek gemaakt, want zijn paper bevat ook de onderstaande grafiek:

Deze grafiek laat een genuanceerder beeld zien: alcohol is wel schadelijker dan heroïne als je de schade van de gebruiker en de omgeving optelt. Echter, als je deze los van elkaar ziet blijkt dat voor de gebruiker heroïne veel schadelijker is. Daarnaast kunnen deze gegevens ook beter gevisualiseerd worden. Vandaar dat ik in de volgende grafiek een eerste aanzet geef om het eenvoudiger te maken om de schade per drug goed met elkaar te kunnen vergelijken (opgesplitst naar schade aan de omgeving en aan de gebruiker). Met beter kleurgebruik en een andere sortering zou deze nog duidelijker worden, maar deze heb ik gelijk gehouden aan het origineel zodat de verbinding tussen alle grafieken blijft bestaan.

Duidelijk een geval van kwantipulatie. Niet zozeer door David Nutt, maar wel door Business Insider. Deze heeft alleen de gegevens gebruikt die een sensationele kop ondersteunen, waardoor je bijna gelooft dat alcohol schadelijker dan heroïne is.

 

Data visualisatie is kunst

Ontwerp is een belangrijk onderdeel van data visualisatie. Vandaar dat wij het in deze blog hier vaak over hebben. Echter, als je veel bezig bent met data visualisatie merk je snel genoeg dat het veel meer is dan alleen ontwerpen. Daarnaast gebruiken we vaak maar een deel van het data visualisatie gebied.

Afgelopen vrijdag kreeg ik de kans om deel te nemen aan Andy Kirk’s ééndaagse training “Introduction to Data Visualisation”. Hierin bespreekt Andy data visualisatie vanuit een groot aantal verschillende gezichtspunten.

Zo ging hij uitvoerig in op de doelstelling(en) van een data visualisatie. Deze kan uiteenlopen van zaken als communiceren en informeren tot vermaken en inspireren, en alles daar tussen. In grote lijnen is de doelstelling te vatten in de volgende onderdelen:

Bij Uitleggen gaat het vooral om het overbrengen van informatie aan anderen. Bij Verkennen ligt de nadruk meer op het ondersteunen en onderzoeken van een redenering. Zowel Uitleggen als Verkennen zijn belangrijke onderdelen van ons dagelijks werk: het ontwikkelen van management dashboards. Het is dan ook niet verwonderlijk dat wij zoveel gebruik maken van het werk van Stephen Few, want zijn boeken sluiten naadloos aan bij deze onderdelen: Show me the numbers (Uitleggen) en Now you SEE it (Verkennen).

Er is echter nog een derde onderdeel: Exposeren. Dit is een onderdeel waar wij vrij weinig mee te maken hebben, maar ook Exposeren is een belangrijke doelstelling van data visualisatie. Bij Exposeren zijn de gegevens meer de basis van een expressie. Exposeren kenmerkt zich door termen als: plezier, vermaken, aandacht vragen, kunst, etc. Het gaat veel meer over een beroep doen op gevoel en emotie.

Een goed voorbeeld hiervan is het werk van Chris Jordan. Hij gebruikt gegevens in zijn kunstwerken om te onderstrepen hoe ernstig het gesteld is met onze omgeving. Zo zijn veel van zijn werken gemaakt met grote aantallen plastic of blikjes. Een van zijn drijfveren om op deze manier gegevens te visualiseren is om ons gevoel te betrekken. In de onderstaande TEDtalk vertelt hij over een paar van zijn stukken:

Al is Exposeren vrijwel niet van toepassing op management dashboards, het is altijd goed om te leren van het werk van anderen. Al was het alleen maar voor inspiratie. Dat willen we toch allemaal?

 

Data visualisatie: geschikt / ongeschikt

Op internet is het aanbod van informatie over data visualisatie overweldigend. Daarnaast wordt er ook genoeg over geschreven in boeken en tijdschriften.

Twee weken geleden schreef ik bijvoorbeeld over de Nederlandstalige blogs. Natuurlijk is het aanbod in het Engels vele malen groter, al was het alleen al dat de auteurs hiermee een veel groter publiek kunnen aanspreken. Echter, de omvang van het aanbod maakt het niet alleen maar beter. Zo zijn er helaas ook voorbeelden van websites die ons op het verkeerde been proberen te zetten.

Zo struikelde ik laatst over de website everythingxcelsius.com. Het is een blog over het gebruik van de dashboard software Xcelsius van SAP. De voorbeelden geven weer dat deze zelfbenoemde dashboard goeroes geen idee hebben waar ze mee bezig zijn. Jammer genoeg is deze site geen uitzondering en zijn management dashboards met vooral veel spiegeltjes en kraaltjes de norm voor veel mensen.

Ik ben er van overtuigd dat je in vrijwel alle beschikbare dashboard software (dus ook Xcelsius) goede management dashboards kunt maken. In het ene pakket is het wellicht eenvoudiger en sneller dan in het andere, maar de software zelf is nooit een excuus om het niet goed te doen. Wat ik betreur is dat sommige gebruikersgroepen zich vervolgens blindstaren op de beschikbare functionaliteit in een bepaald pakket. Het gaat dan niet meer om effectief rapporteren, maar om zo veel mogelijk toeters en bellen te gebruiken. Of zoals Amanda Cox van de New York Times het pakkend zegt: “We’re so busy thinking about if we can do things we forget to consider whether we should

Gelukkig zijn er ook meer dan voldoende goede websites te vinden. Een website die ik elke week lees is die van Andy Kirk: visualising data. Hij geeft een goed overzicht wat er speelt op het gebied van data visualisatie. Zo maakt hij regelmatig overzichten van de artikelen die hem zijn opgevallen in een bepaalde maand. Ook geeft hij in zijn sectie Resources een uitgebreid overzicht van data visualisatie software en boeken. Deze website is zeker de moeite waard om eens te bekijken.

Verder verzorgt Andy regelmatig zijn training Introduction to Data Visualisation. Komende maand ook in Nederland. Op vrijdag 13 juli komt hij naar Amsterdam. Er zijn nog wat plaatsen beschikbaar, dus als je kunt: mis het niet!

Ik ben zeker van de partij, dus hopelijk tot dan.