Alleen het juiste jargon gebruiken

Ooit schreef de Amerikaanse schrijver Mark Twain: there are lies, big lies and statistics. Dit gaat ook op voor Big Data. Met andere woorden: je kunt door de hier beschreven analysetechnieken op een bepaalde manier te gebruiken alles aantonen, beweren en onderbouwen. Of juist ondermijnen. Hiervoor is alleen het juiste jargon nodig. En voldoende kennis om de andere partijen zand in de ogen te strooien. Dit is een beeld dat maar al te goed bekend is bij sceptici. Statistische technieken kun je zo gebruiken dat op voorhand al bekend is dat het gewenste antwoord eruit komt.

Alleen de informatie laten spreken

Hiertegenover staat de mening van de integere professional die beweert dat hij niets op voorhand vastlegt. Deze laat zich niet beïnvloeden en laat alleen de informatie spreken. Wie niet verder kijkt ziet een ‘welles-nietes’ situatie ontstaan. In een dergelijke situatie beslis je niet op kennis maar slechts op een mening, of soms zelfs op basis van je emotie. En juist hier moeten we doorpakken. We verdiepen de discussie en proberen een zo objectief mogelijk antwoord te geven op de vraag ‘Zin of onzin?’.

Vijftal vragen over kwaliteit

De vraag ‘Zin en onzin’ kun je vanuit diverse oogpunten bekijken. Is het zinvol? En wat is de kwaliteit? Je komt dan tot een vijftal vragen:

  1. Klopt de gebruikte informatie (ofwel: kwaliteit van de data)?
  2. Zijn de gebruikte methodes zodanig correct toegepast? Geven ze ook inderdaad de resultaten die gevraagd worden (ofwel: kwaliteit van het testen)?
  3. Klopt de beschrijving van de methodes met wat je van dergelijke methodes verwachten mag (ofwel: kwaliteit van het ontwerp)?
  4. Zijn de resultaten van de analyses gewenst, bruikbaar en nuttig vanuit het perspectief van de gebruiker (ofwel: kwaliteit van het bedrijfsplan)?
  5. Kun je de resultaten open en eerlijk presenteren (ofwel: de presentatie van Big Data)?

De eerste vier vragen vallen onder de ‘Zin en onzin’-vraag van deze blog. De laatste vraag gaat meer over ethische kwesties en presentaties. Ook deze vraag bespreken we hier. Je kunt ook zien dat de eerste vier vragen op een of andere manier aan het begrip kwaliteit gerelateerd zijn. In die zin gaan we de vier ‘zinvragen’ beantwoorden vanuit het gezichtspunt van de kwaliteit.

De ballon opblazen en lekprikken

Een ander vaak vergeten onderdeel van de ‘zin en onzin’-vraag is de manier waarop je de uitkomsten van onderzoek aan Big Data kan presenteren. Het komt voor dat mensen veel moeite doen om ‘onzin’ te presenteren als ‘zin’ en omgekeerd. We leggen uit hoe je deze ballon kan opblazen maar ook hoe eenvoudig je die weer lek kan prikken.

Presentatie van Big Data

Presenteren van de resultaten van Big Data analyses kan op veel verschillende manieren. Niemand heeft er problemen mee zolang de resultaten in de lijn zijn met de verwachtingen of die zelfs overstijgen. Het komt echter veel vaker voor dat de resultaten minder rooskleurig zijn dan verwacht. Omdat de keiharde leugenaar meestal heel hard door de mand valt kiest die voor de techniek van het ‘kleuren van de resultaten’. In dat geval haalt hij een heel arsenaal aan trucs tevoorschijn om de minder goede resultaten toch als goed te presenteren. Voorbeelden hiervan zijn.

1. Niet zeggen

Dit is inhoudelijk niets zeggen over minder goede resultaten. Vaak volstaan opmerkingen als:

  • deze resultaten zijn nog niet beschikbaar
  • aan deze resultaten wordt nog gewerkt
  • deze resultaten laten minimale veranderingen zien

Het publiek vergeet ze wanneer je ze vooraan presenteert en daarna door gaat met wel beschikbare resultaten.

2. Anders zeggen

Dit is het verhaal van ‘het glas is half vol of half leeg’. In beide gevallen zit er nog evenveel water in het glas. Afhankelijk van de gewenste situatie kies je de gewenste formulering.

3. Niets zeggen

Dit betreft het volledig weglaten en doodzwijgen van bepaalde resultaten, zowel direct als indirect. Een goed startpunt voor deze aanpak ligt in de keuze van de titel van de presentatie door daar het probleem niet te noemen, zoals:

  • omzet door te kiezen voor ‘Ontwikkeling van marktaandeel’
  • winst door te kiezen voor ‘Marktaandeel en omzet sinds de reorganisatie’

Door het kritieke resultaat geen onderdeel te maken van de presentatie kan elke vraag of opmerking daarover als ‘niet ter zake doend’ worden afgedaan.

4. Half zeggen

Dit is het weglaten van informatie die de eigen resultaten in perspectief stelt, zoals:

  • onze omzet is constant gebleven zonder te vermelden dat die van de concurrenten wel is toegenomen
  • onze omzet is het afgelopen jaar gestegen zonder te zeggen dat er marktaandeel verloren is gegaan
  • ons marktaandeel is toegenomen zonder te zeggen dat de winst verdampt is
  • binnen de bedrijfstak zijn wij het enige bedrijf waarvan de winstmarge is toegenomen zonder te zeggen dat dit ten koste van het marktaandeel is gegaan.

In dit soort gevallen geldt dat een goed luisteraar aan een half woord genoeg heeft. Die kan probleemloos de truc opsporen en aan het licht brengen.

Maar ook figuren lenen zich uitstekend voor het manipuleren van het publiek van een presentatie. Afhankelijke van de situatie is het vaak wenselijk om een toename of afname te minimaliseren dan wel te maximaliseren.

5. Wegpoetsen

Dit is noodzakelijk om een min of meer constant verloop te creëren. In feite is er sprake van een sterk toenemend of afnemend patroon. Bijvoorbeeld door de toename weer te geven in plaats van de absolute waarde.

6. Opblazen

Dit wordt gedaan wanneer het belangrijk is om een zeker verloop sterk vergroot te tonen. Denk hier aan een verlaging van de kosten of een toename van de omzet, of bijvoorbeeld de lengte van een veer.

Ook tabellen kun je zodanig bewerken dat de resultaten er beter uitzien dan ze feitelijk zijn. Door bijvoorbeeld over te gaan van absolute naar relatieve getallen kan je de omvang van een afname maskeren.

Natuurlijk is deze lijst niet compleet. Maar zodra een van de genoemde trucs langskomt, dan is de goede luisteraar of goede lezer gewaarschuwd. Ook bij presentaties geldt ‘waar rook is, is vuur’…

De uitkomst in een zekere richting

Eén van de grootste gevaren bij het gebruik van gegevens, informatie en Big Data is vooringenomenheid. Je neemt op voorhand aan te weten dat je de uitkomst in een zekere richting kan vinden. Door op voorhand naar een bepaalde oplossing te zoeken wordt elk alternatief vergeten. Voor een strikt technisch probleem kan een dergelijke blindheid lastig zijn, soms zelfs kostbaar. Treedt dit probleem op bij het analyseren van gegevens die met gezondheid en welzijn te maken hebben, dan kan dit zelfs maatschappelijke onrust veroorzaken. Dit geldt met name als het om de gezondheid van kinderen gaat zoals in de volgende twee voorbeelden:

  • Sellafield is een plaats in Engeland waar de Britse fabriek ligt voor het verwerken en opwerken van nucleair afval. Het gaat om gebruikte brandstofstaven van kerncentrales. Uit onderzoek bleek al snel dat de incidentie van (kinder)leukemie in Sellafield veel hoger was dan in andere plaatsen. In de vergelijking zijn evenveel inwoners en is er een gelijke bevolkingsopbouw. De vinger wees al snel naar de opwerkingsfabriek. Het was alleen onmogelijk om daar een oorzaak aan te wijzen. In de pers circuleerde daarom het bericht dat de regering de zaak in de doofpot wilde stoppen. Totdat aan het eind van de vorige eeuw uit onderzoek bleek dat de hogere incidentie van leukemie alles te maken had met verhuizen op jonge leeftijd naar een onbekende omgeving. Een probleem dat zich ook in andere delen van het Verenigd Koninkrijk voordeed zonder kerncentrale is de nabije omgeving. Gecorrigeerd voor dit effect bleek Sellafield net zo (on)gezond als de rest van het land.
  • Bunnik kwam eind vorige eeuw in het nieuws omdat daar sprake was van een hogere incidentie van kinderleukemie. De oorzaak was volgens velen de hoogspanningsleiding die dwars door het dorp liep. Nader onderzoek liet zien dat de incidentie van kinderleukemie in Bunnik ruim twee keer hoger was als in andere dorpen in Nederland met een (ongeveer) gelijk aantal inwoners. Toch bleek ook hier een belangrijk gegeven vergeten. Vergeleken met de andere dorpen woonden er in Bunnik drie keer zoveel kinderen, zodat er in principe ook drie keer zoveel gevallen van kinderleukemie mogen voorkomen.

Beide voorbeelden laten zien dat gebruik van een deel van de beschikbare informatie vrijwel altijd leidt tot foute conclusies. Dit betekent niet dat andere routes betere conclusies kunnen opleveren. Bijvoorbeeld verzamel zoveel mogelijk informatie en ga dan op zoek naar een patroon. Ook dan kan het misgaan. Als de hoeveelheid gegevens maar groot genoeg is en er is voldoende spreiding in de uitkomsten aanwezig dan is elk gewenst patroon te onderbouwen met (een deel van) de metingen.

Voorzorgsmaatregelen

Ethisch juist handelen en eerlijk naar de resultaten kijken is de enige manier om betrouwbare uitkomsten te krijgen. Je moet dergelijke voorzorgsmaatregelen nemen. Anders zal Big Data al snel de bijnaam krijgen dat het een techniek is die iedereen de resultaten geeft die gewenst of gevraagd zijn. Meer lezen over de ethiek van Big Data.

Reageer op dit artikel van Daan van Beek

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Een selectie van onze klanten

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met big data (de zin & onzin) of andere zaken waar je slimmer van wordt.

Daan van Beek, Eindbaas Passionned Group

DAAN VAN BEEK MSc

Eindbaas Passionned Group

neem contact met mij op

Fact sheet

Organisaties geholpen
1859
Trainingen & workshops
1860
Deelnemers opgeleid
1861
Beoordeling klanten
8,9
Consultants & docenten
1862
Kantoren
3
Jaar ervaring
14