9.5 Tips for Great Data Visualisation

This article was originally posted on the measure-up blog of Stacey Barr.

Enrico Bertini explains in his recipe that studying plays an important role in becoming a Data Visualization expert. However, he also emphasizes it is just the beginning. This was probably the reason why Ben de Jong approached me a year ago to help him improve data visualizations at the bank he works for.

Ben was already familiar with the works of people like Stephen Few, Alberto Cairo and Andy Kirk. He clearly wasn’t looking for additional theoretical background. He was looking for someone with hands-on experience that could help him and the bank to the next level. And so we started to work together to improve the data visualizations of “his” bank.

Part of the assignment was to share our knowledge and experience with as many people as possible within the bank. We realized it would be difficult to get a broad audience interested if it would require a lot of their time. Furthermore, we wanted the session to be practical and not just an introduction. After attending our session, everyone should be able to directly apply the basics to their own work.

This is how we came up with our one-hour session called: 9.5 tips for great data visualizations. We conducted dozens of these sessions to confront people with the most common mistakes, illustrated by their own visualizations.

A couple of weeks ago Stacey was in The Netherlands, and I mentioned our “9.5 tips” sessions to her. Before I knew it she convinced me to write this blog post to share it with an even broader audience.

Tip 1. Start with WHY

In general, a visualization is the answer to a question. But how do you formulate an answer if you don’t know the question?

Therefore, you always start designing by an answering this fundamental WHY question. Although the question is easy, the answer (almost) never is.

This also implies you know your audience and take them into account.

Tip 2. Don’t make me think

Most visualizations require a lot of thought. Not because the audience is reflecting on the actions they need to take, but because they find it hard to understand the visualization itself. To avoid this, we need to apply three basic rules:

Tip 3. Cutting corners

When we use bar charts we “ask” our audience to compare area sizes. This can only be done right if these bars start at 0. Unfortunately, it is very common to have them start at other values, because otherwise “the differences are not clear enough”. If this is the case, choose an other chart type, because a bar chart scale should ALWAYS start at 0.

by ‘cutting’ the scale the difference here looks way bigger

the actual difference is only 22%

Tip 4. Apples to Oranges

When we have two measures with completely different scales it is difficult to combine them into one single chart. A common solution is to apply a secondary y-scale, so each of the measures has its own scale. Unfortunately, this practice introduces a lot of confusion. Sometimes even to the point that the visualization suggests there is some form of correlation between the measures, without any being really there. The solution is straightforward: split the two measures into two separate charts.

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

Tip 5. Show your true colors

Color plays an important role in our visual perception and attention, so apply it with care. A number of ground rules concerning color usage are:

  • Use a neutral color as your base color (like white);
  • Make sure objects with the same color are related or mean the same;
  • Only use limited strong colors (like saturated red) for emphasizing important data;
  • Use a neutral color (like light gray) for all contextual/context elements (scales, tick marks, reference lines, etc.)

Probably the most popular color scheme is Red, Amber & Green (RAG). This color scheme is also responsible for a lot of clutter and distraction on visualizations. Please bear in mind that some people can’t distinguish red from green (color blindness), so maybe it is better to use an other color for green (like blue). Also ask yourself the question: do we really need to show the green color? Limit yourself to coloring exceptions only.

Tip 6. Less is more

Sometimes I get the impression that visualization designers experience white space as their enemy. As long as they have space left they keep adding stuff. But if you have answered your WHY question, there is no reason to add more. It is even the other way around: the visualization is done when you are done with removing components.

Tip 7. Trending topic

It is very common (unfortunately) to simplify trends over time into one single indicator/arrow: we have gone up or down compared to the result in the previous period. These point-to-point comparisons are terrible, as Stacey explains in her workshops and book. A popular alternative to this single indicator is displaying all historic context, cluttering the visualization. A good alternative is to make use of Tufte’s sparklines: they give enough historic context without cluttering your visualization.

Tip 8. Avoid chart junk

In your data visualization it should be DATA FIRST: let the data tell its story. Everything else is considered chart junk (as introduced by Edward Tufte), and should be minimized. Making the visualization look “nice” is mostly adding more junk and compromising your goal: to inform.

Tip 9. Save the pies for dessert

In most cases when someone uses a pie chart there are (far) better alternatives at hand. This is why Stephen Few saves all pies for dessert. We have had no need for them either, but should you insist on using one, apply the rules from Donna Wong:

  • Never more than 4 slices;
  • Use one single color (hue);
  • Start at 12 o’clock and order the slices descending.

Tip 9.5 Sketch & experiment

This last tip is not concerning the visualization itself, but more on your design approach. This is why we have valued it with half a tip.
There are two important enemies to effective data visualization: software tools & actual data. When you start with software you run the risk to get distracted by the functions and features of the software. Actual data demands a lot of attention because of unclear definitions or questionable quality. Both make you loose the focus on the WHY and your visualization. This is why we use pencil and paper to start sketching the visualization. Make use of the Five Design Sheet methodology to design your visualizations.

Gezocht: misleidende grafiek

In haar blog voor Forbes geeft Naomi Robbins wekelijks praktische tips op het gebied van effectief rapporteren. Zo schreef zij begin maart een aardig artikel over het vinden van misleidende en bedrieglijke grafieken.

Blijkbaar wordt er veel gezocht op termen als: misleiden en bedriegen in combinatie met grafiek. Ook wij krijgen regelmatig bezoekers op deze website die in Google deze zoektermen hebben gebruikt (met name de Engelse vertalingen als misleading, deceptive en charts). Nu is het lastig om te bepalen wat deze personen precies willen met voorbeelden van grafieken die misleiden en/of bedriegen. Ik ga er gemakshalve vanuit dat zij willen leren van hoe het niet moet. Ze zijn dus (hopelijk) op zoek naar tips om hun grafieken beter en effectief te maken.

Nu zijn er de laatste jaren ontelbare publicaties verschenen over dit onderwerp. Van bijvoorbeeld auteurs als: Edward Tufte, Stephen Few, Donna Wong, Alberto Cairo, etc. Echter, William Cleveland schreef al in 1968 zijn “The Elements of Graphing Data”, de basis van het gelijknamige boek uit 1994. Cleveland vertelt in zijn boek over de criteria waaraan een goede grafiek moet voldoen. Zijn filosofie is: “minimaliseer de mentale gymnastiek die de lezer moet uitvoeren om de grafiek te doorgronden”.

In het paper “Good Graphs: Graphical Perception and Data Visualization” vat Nina Zumel de belangrijkste eigenschappen van een goede grafiek samen met de volgende punten:

  • Maak belangrijke verschillen groot genoeg om waar te nemen (zie afbeelding 2)
  • Voorkom grote spreiding van de waarden binnen één grafiek (zie afbeelding 3)
  • Als je een verschil wilt analyseren, laat het verschil dan zien (zie Directe duidelijkheid)
  • Als je geïnteresseerd bent in het relatieve verschil (bijv. groei%), toon dan het relatieve verschil (zie Logische schalen)

Verschil tussen de twee staven is te klein om goed waar te nemen (links), maar door iedere balk te omkaderen met een gelijk kader (rechts) wordt het verschil duidelijk

Door de grote spreiding (hier: piek voor 1.500) is het niet goed mogelijk om het patroon na 1.500 goed te zien

Daarnaast moeten we niet afgeleid worden bij het lezen en interpreteren van de grafiek door zogenaamde chartjunk. Om chartjunk te voorkomen wil ik afsluiten met: “de grafiek is pas af als er niets meer af kan”.

Directe duidelijkheid

Er zijn ontelbare aandachtspunten van belang bij het effectief visualiseren van informatie. Sommige belangrijker dan andere, maar de meeste gaan over vorm. Met andere woorden: hoe je gegevens afbeeld (keuze van tabel/grafiek soort, kleur, labels, etc.). Nu is er een aandachtspunt (of valkuil) die niet gaat over vorm, maar die ik wel regelmatig tegen kom. Deze valkuil gaat over de inhoud, dus welke gegevens je afbeeld. Het gaat hierbij om indirecte meetwaarden.

Wat is een indirecte meetwaarde?
Bij een indirecte meetwaarde moet de lezer van een visualisatie het gegeven zelf afleiden, omdat het niet direct getoond wordt. Hierdoor is het zwaarder voor de lezer om het beoogde gegeven te “zien”, dus een ineffectieve visualisatie.

Meestal kom ik deze valkuil tegen in visualisaties waarin werkelijke resultaten vergeleken worden met een doelstelling of prognose. De onderstaande afbeelding is een goed voorbeeld van zo’n visualisatie. De vraag die we willen beantwoorden is: “hebben we een goed jaar gehad / hoe hebben we het gedaan t.o.v. onze doelstelling ?”.(click op de afbeelding voor een vergroting)

Als het doel van deze visualisatie is om te laten zien hoe het resultaat zich verhoudt tot de doelstelling, dan moet de lezer deze zelf afleiden door het verschil van de twee series te bepalen. Dat lijkt op het eerste gezicht wellicht niet al te veel gevraagd, maar als we vervolgens het verschil laten zien in plaats van de twee series worden een aantal zaken duidelijk die eerder verborgen bleven.

In de eerste grafiek was al goed te zien dat het resultaat onder de doelstelling zou uitkomen, maar in de tweede grafiek is duidelijk dat de afwijking van de doelstelling ernstiger is. Door het afbeelden van de indirecte meetwaarde lijkt het resultaat veel minder sterk.

Conclusie: bepaal goed welke vraag de visualisatie moet beantwoorden en gebruik altijd directe meetwaarden.

Computable: don’t make me think!

Met veel plezier lees ik wekelijks het laatste Nederlandse ICT nieuws in de Computable. Het stelt me in staat om snel een overzicht te krijgen wat er speelt en welke ontwikkelingen er zijn. Het leest prettig en heeft inhoudelijk goede artikelen, dus een aanrader voor iedereen die werkzaam is binnen de ICT.

Dat wil niet zeggen dat er geen ruimte voor verbetering is. Net als het online voorbeeld van Antoine vorige week is de Computable helaas een inspiratiebron voor verwarrende en onduidelijke data visualisaties.

Data visualisaties hebben tot doel het communiceren van gegevens zodat het publiek deze eenvoudig kan begrijpen en doorgronden, of zoals Steve Krug dat pakkend beschrijft in zijn boek “Don’t make me think!”.

In dit artikel wil ik niet alleen voorbeelden geven waar deze grafieken verbeterd kunnen worden, maar ook proberen om de verbetering tot stand te brengen. Vandaar dat dit artikel als open brief aan de redactie van Computable is gestuurd.

Beste redactie van weekblad Computable,

Om te beginnen wil ik jullie bedanken voor een geweldig weekblad dat ik wekelijks met veel plezier lees.

Naast het genieten van uw weekblad moet ik u bekennen dat er zeker ook zaken zijn waar ik mij wekelijks aan stoor. Wat zeker meer aandacht verdient zijn de grafieken die jullie veelvuldig gebruiken in de rechter bovenhoek van veel pagina’s. Om te illustreren waar ik op doel heb ik twee willekeurige voorbeelden bijgevoegd.

afbeelding 1 – bron: Computable 01-07-2011

Het eerste voorbeeld (afbeelding 1) is er één die wekelijks terugkomt: de Banometer. U geeft in dit onderdeel aan hoe de ICT arbeidsmarkt zich heeft ontwikkeld in de afgelopen weken.

U maakt hier gebruik van een staafdiagram, waarbij de hoogte van de staaf wordt bepaald door het aantal vacatures (van een bepaalde functie in een week). De lengteverschillen van de staven geven aan hoe de verschillende resultaten zich tot elkaar verhouden. Dit laatste wordt helaas gedeeltelijk teniet gedaan door het laten “verspringen” van de y-as (van 150 naar 1000). Verder is de schaalverdeling voor en na het verspringen niet hetzelfde: voor het verspringen in stappen van 50, maar na het verspringen in stappen van 100.

Als ik vervolgens de tekst bij de grafiek lees, dan lijkt de boodschap te zijn: in het algemeen (Online ict-functies) is er krimp, maar bij de projectmanagers is er groei in het aantal vacatures gedurende de afgelopen weken.

In uw grafiek staan alleen de absolute aantallen vacatures per week afgebeeld, waardoor de lezer de groei/krimp (waar het blijkbaar om gaat) zelf moet afleiden. Dit afleiden is op zich al lastig, maar door het “verspringen” van de y-as en het gebruik van meerdere schaalverdelingen wordt het vrijwel onmogelijk. Als de omvang van de groei/krimp de boodschap is, gebruik deze dan ook in de grafiek.

In afbeelding 2 heb ik dezelfde gegevens gebruikt, maar nu de groei/krimp afgebeeld. Het is direct duidelijk dat de vacatures voor Projectmanagers harder gegroeid zijn dan de vacatures On-line ict-functies.

afbeelding 2 – alternatief voor afb 1






afbeelding 3 – Computable 21-10-2011

In het tweede voorbeeld (afbeelding 3) zit de valkuil vooral in het afwijkende gebruik van de x-as.

In eerste instantie viel mij niets bijzonders op, maar toen ik wat beter naar de x-as keek viel op dat de “afstand” tussen de verschillende resultaten niet gelijk is. In de huidige grafiek lijkt de stijging met name sterk is in de eerste 3 perioden, waarna hij wat afvlakt. Als je echter alle maanden in de grafiek plaatst en de verschillende resultaten met elkaar verbindt, krijg je afbeelding 4.

Dan wordt duidelijk dat met name het resultaat in mei 2011 de stijging laat afzwakken, maar dat de stijging daarna weer toeneemt.

Dit waren slechts twee willekeurige voorbeelden, maar Ik hoop dat deze u helpen met het verbeteren van uw data visualisaties. Mocht u meer informatie over dit onderwerp willen hebben, dan zijn de boeken van Edward Tufte, Stephen Few en Dona Wong een goede start. Mocht u nog vragen of opmerkingen hebben, aarzel niet om contact met mij op te nemen.

Met vriendelijke groet,

Michel Dekker

afbeelding 4 – alternatief voor afb 3