Berichten

9.5 Tips for Great Data Visualisation

This article was originally posted on the measure-up blog of Stacey Barr.

Enrico Bertini explains in his recipe that studying plays an important role in becoming a Data Visualization expert. However, he also emphasizes it is just the beginning. This was probably the reason why Ben de Jong approached me a year ago to help him improve data visualizations at the bank he works for.

Ben was already familiar with the works of people like Stephen Few, Alberto Cairo and Andy Kirk. He clearly wasn’t looking for additional theoretical background. He was looking for someone with hands-on experience that could help him and the bank to the next level. And so we started to work together to improve the data visualizations of “his” bank.

Part of the assignment was to share our knowledge and experience with as many people as possible within the bank. We realized it would be difficult to get a broad audience interested if it would require a lot of their time. Furthermore, we wanted the session to be practical and not just an introduction. After attending our session, everyone should be able to directly apply the basics to their own work.

This is how we came up with our one-hour session called: 9.5 tips for great data visualizations. We conducted dozens of these sessions to confront people with the most common mistakes, illustrated by their own visualizations.

A couple of weeks ago Stacey was in The Netherlands, and I mentioned our “9.5 tips” sessions to her. Before I knew it she convinced me to write this blog post to share it with an even broader audience.

Tip 1. Start with WHY

In general, a visualization is the answer to a question. But how do you formulate an answer if you don’t know the question?

Therefore, you always start designing by an answering this fundamental WHY question. Although the question is easy, the answer (almost) never is.

This also implies you know your audience and take them into account.

Tip 2. Don’t make me think

Most visualizations require a lot of thought. Not because the audience is reflecting on the actions they need to take, but because they find it hard to understand the visualization itself. To avoid this, we need to apply three basic rules:

Tip 3. Cutting corners

When we use bar charts we “ask” our audience to compare area sizes. This can only be done right if these bars start at 0. Unfortunately, it is very common to have them start at other values, because otherwise “the differences are not clear enough”. If this is the case, choose an other chart type, because a bar chart scale should ALWAYS start at 0.

by ‘cutting’ the scale the difference here looks way bigger

the actual difference is only 22%

Tip 4. Apples to Oranges

When we have two measures with completely different scales it is difficult to combine them into one single chart. A common solution is to apply a secondary y-scale, so each of the measures has its own scale. Unfortunately, this practice introduces a lot of confusion. Sometimes even to the point that the visualization suggests there is some form of correlation between the measures, without any being really there. The solution is straightforward: split the two measures into two separate charts.

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

by applying two (independent) y-axis the message is determined by the different scaling. All three examples here are exactly the same data

Tip 5. Show your true colors

Color plays an important role in our visual perception and attention, so apply it with care. A number of ground rules concerning color usage are:

  • Use a neutral color as your base color (like white);
  • Make sure objects with the same color are related or mean the same;
  • Only use limited strong colors (like saturated red) for emphasizing important data;
  • Use a neutral color (like light gray) for all contextual/context elements (scales, tick marks, reference lines, etc.)

Probably the most popular color scheme is Red, Amber & Green (RAG). This color scheme is also responsible for a lot of clutter and distraction on visualizations. Please bear in mind that some people can’t distinguish red from green (color blindness), so maybe it is better to use an other color for green (like blue). Also ask yourself the question: do we really need to show the green color? Limit yourself to coloring exceptions only.

Tip 6. Less is more

Sometimes I get the impression that visualization designers experience white space as their enemy. As long as they have space left they keep adding stuff. But if you have answered your WHY question, there is no reason to add more. It is even the other way around: the visualization is done when you are done with removing components.

Tip 7. Trending topic

It is very common (unfortunately) to simplify trends over time into one single indicator/arrow: we have gone up or down compared to the result in the previous period. These point-to-point comparisons are terrible, as Stacey explains in her workshops and book. A popular alternative to this single indicator is displaying all historic context, cluttering the visualization. A good alternative is to make use of Tufte’s sparklines: they give enough historic context without cluttering your visualization.

Tip 8. Avoid chart junk

In your data visualization it should be DATA FIRST: let the data tell its story. Everything else is considered chart junk (as introduced by Edward Tufte), and should be minimized. Making the visualization look “nice” is mostly adding more junk and compromising your goal: to inform.

Tip 9. Save the pies for dessert

In most cases when someone uses a pie chart there are (far) better alternatives at hand. This is why Stephen Few saves all pies for dessert. We have had no need for them either, but should you insist on using one, apply the rules from Donna Wong:

  • Never more than 4 slices;
  • Use one single color (hue);
  • Start at 12 o’clock and order the slices descending.

Tip 9.5 Sketch & experiment

This last tip is not concerning the visualization itself, but more on your design approach. This is why we have valued it with half a tip.
There are two important enemies to effective data visualization: software tools & actual data. When you start with software you run the risk to get distracted by the functions and features of the software. Actual data demands a lot of attention because of unclear definitions or questionable quality. Both make you loose the focus on the WHY and your visualization. This is why we use pencil and paper to start sketching the visualization. Make use of the Five Design Sheet methodology to design your visualizations.

Taart als toetje

Wellicht de bekendste uitspraak van Stephen Few is “Save the pies for dessert”. Het is wel duidelijk dat hij geen fan is van de taartgrafiek, sterker nog: hij adviseert deze niet te gebruiken.

Toch is de taartgrafiek (of cirkeldiagram) een van de populairste grafiektypen die we kennen. Bij het zoeken naar afbeeldingen van management dashboards in Google komt de taartgrafiek dan ook zeer vaak voor. Verder zijn we ook zeer gehecht aan de taartgrafiek. De taartgrafiek is tijdens onze workshop effectief rapporteren een belangrijke aanleiding voor uitvoerige discussies. Op zich is dat ook niet vreemd, want de taartgrafiek geeft als beste een deel-geheel relatie weer. Sterker nog: we hebben allemaal op school geleerd hoe we een taart, koekje of pizza moeten verdelen.

Vanwege deze populariteit en de kracht van het weergeven van een deel-geheel relatie zijn er ook genoeg experts in gegevensvisualisatie die wel gebruik maken van de taartgrafiek. Zo beschrijven onder andere Nathan Yau, Dona Wong en Jorge Camoes hoe je dit grafiektype het beste kunt gebruiken. Samengevat komt hun advies op het volgende neer:

  • Gebruik nooit 3D:
    zoals geldt voor alle grafiektypen maakt het 3D effect het zeer moeilijk om de waarden te vergelijken;
  • Vermijdt het gebruik van een legenda:
    door het gebruik van een legenda moet de gebruiker telkens heen en weer gaan tussen de grafiek en de legenda;
  • Maximaal 5 taartpunten:
    bij meer dat 5 wordt de grafiek niet meer goed leesbaar;
  • Sorteer de taartpunten:
    sorteer de taartpunten van groot naar klein en begin altijd bovenaan (12:00 uur) met het grootste taartpunt;
  • Gebruik geen taartgrafiek als je meerdere taartgrafieken met elkaar moet vergelijken:
    het vergelijken van de punten binnen één grafiek is vaak al lastig, maar tussen verschillende grafieken bijna ondoenlijk;

Bij Nova Silva volgen wij zoveel mogelijk de adviezen van Stephen Few. Zo vermijden wij in zowel onze Oxygen implementaties als management dashboard ontwerpen het gebruik van taartgrafieken.

 

Gezocht: misleidende grafiek

In haar blog voor Forbes geeft Naomi Robbins wekelijks praktische tips op het gebied van effectief rapporteren. Zo schreef zij begin maart een aardig artikel over het vinden van misleidende en bedrieglijke grafieken.

Blijkbaar wordt er veel gezocht op termen als: misleiden en bedriegen in combinatie met grafiek. Ook wij krijgen regelmatig bezoekers op deze website die in Google deze zoektermen hebben gebruikt (met name de Engelse vertalingen als misleading, deceptive en charts). Nu is het lastig om te bepalen wat deze personen precies willen met voorbeelden van grafieken die misleiden en/of bedriegen. Ik ga er gemakshalve vanuit dat zij willen leren van hoe het niet moet. Ze zijn dus (hopelijk) op zoek naar tips om hun grafieken beter en effectief te maken.

Nu zijn er de laatste jaren ontelbare publicaties verschenen over dit onderwerp. Van bijvoorbeeld auteurs als: Edward Tufte, Stephen Few, Donna Wong, Alberto Cairo, etc. Echter, William Cleveland schreef al in 1968 zijn “The Elements of Graphing Data”, de basis van het gelijknamige boek uit 1994. Cleveland vertelt in zijn boek over de criteria waaraan een goede grafiek moet voldoen. Zijn filosofie is: “minimaliseer de mentale gymnastiek die de lezer moet uitvoeren om de grafiek te doorgronden”.

In het paper “Good Graphs: Graphical Perception and Data Visualization” vat Nina Zumel de belangrijkste eigenschappen van een goede grafiek samen met de volgende punten:

  • Maak belangrijke verschillen groot genoeg om waar te nemen (zie afbeelding 2)
  • Voorkom grote spreiding van de waarden binnen één grafiek (zie afbeelding 3)
  • Als je een verschil wilt analyseren, laat het verschil dan zien (zie Directe duidelijkheid)
  • Als je geïnteresseerd bent in het relatieve verschil (bijv. groei%), toon dan het relatieve verschil (zie Logische schalen)

Verschil tussen de twee staven is te klein om goed waar te nemen (links), maar door iedere balk te omkaderen met een gelijk kader (rechts) wordt het verschil duidelijk

Door de grote spreiding (hier: piek voor 1.500) is het niet goed mogelijk om het patroon na 1.500 goed te zien

Daarnaast moeten we niet afgeleid worden bij het lezen en interpreteren van de grafiek door zogenaamde chartjunk. Om chartjunk te voorkomen wil ik afsluiten met: “de grafiek is pas af als er niets meer af kan”.

Logische schalen

In de tijd dat ik op de middelbare school zat (vanaf 1984) hadden we allemaal rekenmachines om complexe berekeningen te kunnen uitvoeren tijdens de wiskunde en natuurkunde lessen. Ergens tijdens mijn verblijf op het voortgezet onderwijs heeft mijn vader mij laten zien hoe zij dat in “hun tijd” deden. Er waren toen nog geen rekenmachines (laat staan computers), maar ook zij moesten berekeningen uitvoeren met sinus, cosinus, tangens, worteltrekken, etc.

Tot ongeveer 1980 gebruikten scholieren (maar ook technici, natuurkundigen, ingenieurs, etc) de rekenliniaal . Deze liniaal is gebaseerd op logaritmen en wordt ook wel logaritmische liniaal genoemd.

Met het verdwijnen van de rekenliniaal is ook de parate kennis van logaritmen afgenomen. Zo moest ik laatst opzoeken wat logaritmen ook alweer zijn en hoe ze te gebruiken. Toch kom ik ze nog vaak tegen, ook als schaalverdeling in grafieken.

Echter, weinig mensen begrijpen goed wat de gevolgen zijn van het gebruik van een logaritmische schaalverdeling. Daarom is het beter om deze niet te gebruiken. Toch zijn er ook voordelen aan het gebruiken van een logaritmische schaalverdeling.

Zo is een logaritmische schaalverdeling beter in staat om (percentuele) veranderingen in beeld te brengen (in tegenstelling tot een lineaire schaalverdeling). Vandaar dat de prijsontwikkeling van aandelen vaak in een grafiek met een logaritmische schaal wordt afgebeeld. Hierna volgt een voorbeeld om dat te verduidelijken.

Wat was het verschil ook alweer tussen een lineaire en een logaritmische verdeling?

Bij een lineaire verdeling is het absolute verschil tussen twee waarden altijd dezelfde afstand op een as. Dus de afstand op de as tussen de waarden 15 en 25 (verschil=10) is gelijk aan de afstand tussen de waarden 2.950 en 2.960.

Bij een logaritmische verdeling is een gelijke afstand op een as niet het absolute verschil, maar het relatieve verschil (percentuele verschil). Dus de afstand op de as tussen de waarden 20 en 23 (verschil=15%) is gelijk aan de afstand tussen de waarden 1.000 en 1.150.

De onderstaande afbeelding laat de ontwikkeling van een denkbeeldig aandeel zien dat 15% per periode stijgt (met een lineaire schaalverdeling). Het aandeel begint in periode 1 met een prijs van 10 en eindigt in periode 50 met een prijs van 9.423.

Op het eerste gezicht lijkt het er op dat de prijs steeds sneller stijgt. In absolute waarden is dit ook het geval, maar toch is de stijging constant 15%. Als we deze zelfde gegevens nu afbeelden in een grafiek met een logaritmische schaal zien we duidelijk een constante stijging.

Toch blijft het oppassen met de logaritmische schaalverdeling: alleen gebruiken voor een publiek dat logaritmen en de gevolgen goed begrijpt!

 

Kleurrijke armoede

Kleur is een belangrijk hulpmiddel bij het presenteren van informatie. Maar ook hier geldt: overdaad schaadt! Het is helaas eerder regel dan uitzondering dat bijna de hele regenboog aan kleuren gebruikt wordt in rapporten. En bij dashboards maken we het vaak nog bonter.

Voor het effectief inzetten van kleur is het goed om een aantal voorbereidingen te treffen.

Om te beginnen kiezen we een kleurpalet. Een hulpmiddel hierbij is een zogenaamd kleurenwiel (afbeelding 1). Hierbij gelden de kleuren rond het rode spectrum als warme kleuren, zoals rood, oranje, geel en bruin. De koele kleuren concentreren zich rond de blauwe kleur: blauw, groen, en grijs.

Vlakken met warme kleuren lijken groter dan vlakken met koude kleuren, dus komt een vlak met de kleur rood veel sterker over dan hetzelfde vlak in de kleur blauw. Kies daarom zowel een paar warme als koude kleuren en gebruik de warme kleuren voor de punten die er uit moeten springen. Meestal is het voldoende om 3 tot 7 kleuren te kiezen.

Vervolgens kies je per kleur 3 tot 5 verschillende sterktes (van donker naar licht). Dit geeft vervolgens genoeg combinatiemogelijkheden om de informatie af te beelden. Dit betekent echter niet dat je alle kleuren uit je palet ook moet gebruiken.

Probeer zo min mogelijk kleuren te gebruiken en waar mogelijk binnen één grafiek of tabel gebruik te maken van de verschillende sterktes binnen een kleur. Vermijdt ook het gebruik van verschillende kleuren voor dezelfde gegevens, zoals te zien in afbeelding 3.

afb. 3 – veel kleuren

afb. 4 – één kleur

afb. 5 – afwijkende sterkte

Beter is het om in dit geval voor alle staven dezelfde kleur te gebruiken (afbeelding 4). Mocht het nodig zijn om op een bepaald punt de nadruk te leggen dan kan dat door dezelfde kleur te gebruiken met een afwijkende sterkte (afbeelding 5) of een kleur van de andere kant van het kleurenwiel (afbeelding 6).

afb. 6 – afwijkende kleur

Tenslotte is bij het kiezen van de juiste kleuren van belang rekening te houden met zo’n 10% van de mannelijke bevolking. Deze groep kan niet het volledige kleurenspectrum onderscheiden. Bij vrouwen komt dit bij minder dan 0,5% voor. Mensen met deze afwijking, in de volksmond vaak kleurenblind genoemd, hebben met name moeite met het onderscheiden van de kleuren rood en groen. Probeer dus combinaties van deze twee kleuren te voorkomen. Een aardig hulpmiddel hierbij is het Color Oracle van de Oregon State University. Hiermee kun je zien hoe kleuren gezien worden door personen met “kleurenblindheid”.

 

De tabel: minimalisme = maximaal resultaat

Als we spreken over rapporten, dashboards, gegevens visualisatie, etc. dan gaat de aandacht al snel naar grafieken. We gaan gemakshalve wel voorbij aan de belangrijkste en meest gebruikte visualisatie vorm: de tabel.

De tabel is dan wel de meest gebruikte vorm, maar tegelijkertijd ook de minst gewaardeerde. In de meeste gevallen wordt de voorkeur gegeven aan grafieken, want dat vinden we in veel gevallen beter staan (of zoals een collega laatst aangaf: grafieken zijn sexy, tabellen niet). En als het gaat om indruk te maken dan werkt een grafiek in de meeste gevallen beter. Dona Wong vat het pakkend samen met:”A chart is more memorable than a table of numbers

Maar het gaat (gelukkig) niet altijd alleen om indruk maken. Communiceren met gegevens betekent vaak ook deze (detail) gegevens beschikbaar stellen in het rapport zonder te veel afleiding.

De goede eigenschappen van tabellen en van grafieken vullen elkaar geweldig aan, maar meestal is een grafiek niet direct een goed alternatief voor een tabel (en vice versa).

In welke gevallen kunnen we beter een tabel gebruiken in plaats van een grafiek?

  • Als de lezer individuele waarden moet kunnen opzoeken;
  • Individuele waarden met elkaar vergeleken moeten worden;
  • Precisie een vereiste is;
  • Meerdere (verschillende) eenheden van een gegeven nodig zijn.

Ook bij de opmaak krijgen de grafieken vaak de meeste aandacht. Bovendien zijn de meeste rapportage hulpmiddelen (van Excel tot meer geavanceerde rapportage software) standaard niet zo behulpzaam om goed leesbare tabellen op te leveren. Door deze beperkte aandacht en verkeerde standaard instellingen komt het meer dan eens voor dat een tabel er als volgt uitziet:

Door het raster wordt de tabel moeilijk leesbaar en is het vergelijken van de verschillende getallen lastig. Verder is hier ook geen duidelijk onderscheid tussen kwantitatieve informatie (de getallen) en categorische informatie (de context zoals de kolom titels), wat de leesbaarheid niet ten goede komt. Met het weglaten van de zware lijnen en het toevoegen van witruimte wordt dezelfde tabel plotseling veel duidelijker.

Wat geldt voor ieder rapport is ook van toepassing op de tabel: het is pas af als er niets meer af kan. Of zoals Tufte aangeeft: “Above all else show the data”

 

Computable: don’t make me think!

Met veel plezier lees ik wekelijks het laatste Nederlandse ICT nieuws in de Computable. Het stelt me in staat om snel een overzicht te krijgen wat er speelt en welke ontwikkelingen er zijn. Het leest prettig en heeft inhoudelijk goede artikelen, dus een aanrader voor iedereen die werkzaam is binnen de ICT.

Dat wil niet zeggen dat er geen ruimte voor verbetering is. Net als het online voorbeeld van Antoine vorige week is de Computable helaas een inspiratiebron voor verwarrende en onduidelijke data visualisaties.

Data visualisaties hebben tot doel het communiceren van gegevens zodat het publiek deze eenvoudig kan begrijpen en doorgronden, of zoals Steve Krug dat pakkend beschrijft in zijn boek “Don’t make me think!”.

In dit artikel wil ik niet alleen voorbeelden geven waar deze grafieken verbeterd kunnen worden, maar ook proberen om de verbetering tot stand te brengen. Vandaar dat dit artikel als open brief aan de redactie van Computable is gestuurd.

Beste redactie van weekblad Computable,

Om te beginnen wil ik jullie bedanken voor een geweldig weekblad dat ik wekelijks met veel plezier lees.

Naast het genieten van uw weekblad moet ik u bekennen dat er zeker ook zaken zijn waar ik mij wekelijks aan stoor. Wat zeker meer aandacht verdient zijn de grafieken die jullie veelvuldig gebruiken in de rechter bovenhoek van veel pagina’s. Om te illustreren waar ik op doel heb ik twee willekeurige voorbeelden bijgevoegd.

afbeelding 1 – bron: Computable 01-07-2011

Het eerste voorbeeld (afbeelding 1) is er één die wekelijks terugkomt: de Banometer. U geeft in dit onderdeel aan hoe de ICT arbeidsmarkt zich heeft ontwikkeld in de afgelopen weken.

U maakt hier gebruik van een staafdiagram, waarbij de hoogte van de staaf wordt bepaald door het aantal vacatures (van een bepaalde functie in een week). De lengteverschillen van de staven geven aan hoe de verschillende resultaten zich tot elkaar verhouden. Dit laatste wordt helaas gedeeltelijk teniet gedaan door het laten “verspringen” van de y-as (van 150 naar 1000). Verder is de schaalverdeling voor en na het verspringen niet hetzelfde: voor het verspringen in stappen van 50, maar na het verspringen in stappen van 100.

Als ik vervolgens de tekst bij de grafiek lees, dan lijkt de boodschap te zijn: in het algemeen (Online ict-functies) is er krimp, maar bij de projectmanagers is er groei in het aantal vacatures gedurende de afgelopen weken.

In uw grafiek staan alleen de absolute aantallen vacatures per week afgebeeld, waardoor de lezer de groei/krimp (waar het blijkbaar om gaat) zelf moet afleiden. Dit afleiden is op zich al lastig, maar door het “verspringen” van de y-as en het gebruik van meerdere schaalverdelingen wordt het vrijwel onmogelijk. Als de omvang van de groei/krimp de boodschap is, gebruik deze dan ook in de grafiek.

In afbeelding 2 heb ik dezelfde gegevens gebruikt, maar nu de groei/krimp afgebeeld. Het is direct duidelijk dat de vacatures voor Projectmanagers harder gegroeid zijn dan de vacatures On-line ict-functies.

afbeelding 2 – alternatief voor afb 1

 

 

 

 

 

afbeelding 3 – Computable 21-10-2011

In het tweede voorbeeld (afbeelding 3) zit de valkuil vooral in het afwijkende gebruik van de x-as.

In eerste instantie viel mij niets bijzonders op, maar toen ik wat beter naar de x-as keek viel op dat de “afstand” tussen de verschillende resultaten niet gelijk is. In de huidige grafiek lijkt de stijging met name sterk is in de eerste 3 perioden, waarna hij wat afvlakt. Als je echter alle maanden in de grafiek plaatst en de verschillende resultaten met elkaar verbindt, krijg je afbeelding 4.

Dan wordt duidelijk dat met name het resultaat in mei 2011 de stijging laat afzwakken, maar dat de stijging daarna weer toeneemt.

Dit waren slechts twee willekeurige voorbeelden, maar Ik hoop dat deze u helpen met het verbeteren van uw data visualisaties. Mocht u meer informatie over dit onderwerp willen hebben, dan zijn de boeken van Edward Tufte, Stephen Few en Dona Wong een goede start. Mocht u nog vragen of opmerkingen hebben, aarzel niet om contact met mij op te nemen.

Met vriendelijke groet,

Michel Dekker

afbeelding 4 – alternatief voor afb 3

 

 

 

 

 

 

Leestip: Guide to Information Graphics

In het ontwerpen en implementeren van rapporten en dashboards maken wij veelvuldig gebruik van de ideeën van Stephen Few. Alleen zijn boeken zijn niet in een formaat dat je ze als naslagwerk dagelijks in je tas stopt (als je ze nog niet digitaal op je iPad hebt). Gelukkig heeft Dona Wong vorig jaar een compact naslagwerk uitgebracht dat een overzicht geeft van alle do’s en dont’s betreft het presenteren en weergeven van gegevens.

Dona Wong was bijna 10 jaar als Graphics Director bij The Wall Street Journal verantwoordelijk voor het effectief presenteren van gegevens. Verder is het wel aardig om te melden dat haar scriptiebegeleider aan Yale niemand minder dan Edward Tufte was.

Few gaat in zijn boeken verder in op de details, maar dit boek scoort veel beter in de categorie: even nakijken hoe ik dit het beste kan doen. Zelf heb ik het altijd bij me om waar nodig nog even na te kijken wat de voor- en nadelen zijn van een bepaalde visualisatie. Naast advies over visualisaties gaat Wong ook in op het gebruik van lettertypes en fonts.

Verder gaat Wong in hoofdstuk 4 in op “lastige situaties”. Dit zijn die typische situaties waar iedereen regelmatig tegenaan loopt bij het maken van visualisaties: missende gegevens(punten), grote getallen met kleine veranderingen, vergelijkbare schalen en kleuren met zwarte inkt.

Wil je ook je informatievisualisatie verbeteren? Zorg dat je dit geweldige boek in je tas hebt zitten. Liever deze kennis en ervaring gelijk toepassen op je eigen situatie: neem contact op met mij (michel.dekker@novasilva.com) voor een workshop Effectief Rapporteren.