Is meten wel weten? Waarom je niet zomaar op data moet afgaan

Als je bekend bent met de AVG, ben je vast bekend met de term informatiekwaliteit. Je denkt bij die term waarschijnlijk aan zaken als ‘het werken met actuele persoonsgegevens’ en ‘mensen de mogelijkheid bieden om te corrigeren’. Maar informatiekwaliteit gaat om veel meer dan het aanpassen van je adres bij een verhuizing. Wat mij betreft krijgt dit onderwerp veel te weinig aandacht. Want we verzamelen die informatie niet alleen, we sturen er ook op. En hoe objectief sturen op data ook lijkt te zijn, het loopt toch regelmatig verkeerd af.

De AVG en het belang van juiste informatie

Om maar te beginnen met de AVG. In artikel 5 staat parafraserend gezegd: gegevens moeten voor rechtmatige doeleinden verzameld worden. De informatie voor die doeleinden moet toereikend en noodzakelijk zijn, én zij moet juist/kloppend zijn. Het artikel bevat de belangrijkste beginselen (zoals doelmatigheid en juistheid van gegevens) van de verordening. Dat maakt het een goede vindplek voor de vaak aangehaalde ‘geest van de wet’. Als je deze beginselen volgt zal je voor een groot deel handelen zoals de wetgevers het bedoelden.

Die ‘juistheid’ is belangrijk. Waarom? Als je stuurt op niet kloppende gegevens bereik je je doelstellingen niet. Of je komt op basis van onjuiste informatie tot de verkeerde inzichten. Als je niet bewust hebt nagedacht over de kwaliteit van je data, heb je dat laatste misschien niet altijd direct door. Er zitten dus wezenlijke risico’s aan het werken met verkeerde informatie, dat maakt informatiekwaliteit tot een kernbegrip in de AVG . Het belang van een juiste dataset is overigens ook een cruciaal thema in die andere verordening die momenteel in ontwikkeling is (over Artificial Intelligence). Deze gaat daarin nog wat verder en verplicht allerlei zaken rondom databeheer, technische documentatie en nauwkeurigheid (zie hoofdstuk 2 van de concept-verordening).

De cijfermaatschappij en de (on)zin van data

Europese verordeningen komen natuurlijk niet zomaar tot stand. Als het goed is zijn zij het product van een democratisch proces en geven zij de dominante denkbeelden weer over de zin en onzin van (persoons-)data. Er is natuurlijk een rijke theorie rondom de aard en de ontstaansgeschiedenis van maatschappelijke ideeën over data. Hieronder volgt mijn duiding, enorm kort door de bocht.

Als mens hebben we altijd geprobeerd de wereld om ons heen te begrijpen. Kennis en ‘weten’ zijn centrale begrippen in de filosofie en wetenschap. De wetenschappen hebben de afgelopen eeuwen een ontwikkeling doorgemaakt via het rationalisme en empirisme, naar het positivisme.

Oftewel:

We gingen eerst denken dat we de wereld konden duiden met verstand.
Daarna dachten we dingen te kunnen bewijzen of voor waar aan te kunnen tonen, door te vertrouwen op onze ervaringen en waarnemingen (en dat blijft zo, bijvoorbeeld met experimenten).
Dat leidde tot het geloof dat alleen dat wat je kunt bewijzen (aan de hand van cijfers) ware zinvolle kennis is.

Natuurlijk speelde deze ontwikkeling zich initieel af in de wetenschap, maar het heeft ook de maatschappij in bredere zin gekleurd.

In de publieke sector is dit te zien aan de belangrijke rol van een instituut als het Centraal Bureau voor Statistiek en in de retoriek die politici gebruiken voor het maken van beleid. Kijk maar eens naar de plaats die data en cijfers innemen in de vorming en uitleg van het coronabeleid. Door cijfers bij te houden kun je namelijk aantonen dat je beleid effect heeft gehad. Effectiviteit en meetbare resultaten als criteria voor beleid zijn natuurlijk ook niet gek – beleid heeft namelijk grote impact op mensenlevens.

Als je wel eens met of in de overheid hebt gewerkt, herken je vast deze drang naar cijfers. Het beestje is bekend onder verschillende namen zoals de containerbegrippen big data, datagedreven of informatiegestuurd. Enkele symptomen van deze ontwikkeling zijn de eeuwige vraag naar dashboards (zie coronadashboard) en de opmars van data-analisten binnen alle lagen van bestuur. Datahonger binnen de publieke sector is logischerwijs groeiende. Een kritische afweging over hoe zinvol of kwalitatief de data is, ontbreekt in mijn ogen soms nog.

Statistische beperkingen

Anders dan bestuurders of andere geïnteresseerden in dit soort meta-informatie (informatie over informatie) zijn statistici, onderzoekers, datascientists en wetenschappers zich vaak wel bewust van de beperkingen van statistiek en het belang van informatiekwaliteit. Datasets moeten natuurlijk verzameld worden voordat zij kunnen worden geïnterpreteerd. Bovendien zijn cijfers vaak een versimpeld attribuut dat symbool staat voor een grotere / andere eigenschap; zij geven niet de werkelijke abstracte situatie weer, maar een meetbaar onderdeel ervan (‘proxy’). Dat maakt statistiek een versimpelde weergave van de werkelijkheid, gebaseerd op het verleden. Toch worden deze gegevens gebruikt om voorspellingen over de toekomst te doen, om beleid te motiveren en om bestuurlijke keuzes te onderbouwen (bijvoorbeeld in het constateren van toeslagenfraude).

De armoedigheid van slechte informatie

Neem het ogenschijnlijk simpele voorbeeld armoede. Wat armoede is, is allereerst een filosofische vraag (klik hier voor een mooie interpretatie van Jamaicaanse filosoof Bob Marley). Hoe arm iemand zich voelt is natuurlijk nooit in een cijfer te vangen. Toch is er landelijk en gemeentelijk beleid dat erop is gericht dit fenomeen te bestrijden. Nu zijn er natuurlijk een aantal logische variabelen die een indicatie kunnen geven: salaris, wel of niet gebruiken van een voedselbank, het bestaan van schulden, noodzaak voor maatschappelijke ondersteuning, omvang van (geldelijke) bezittingen, gevoel van armoede en ga zo maar door. Dit soort indicaties zijn in verschillende mate geschikt om cijfermatig mee te werken. De keuzes voor de inzet van een of meerdere van deze variabelen zijn soms wettelijk ingegeven. En soms zijn ze gebaseerd op logica, soms op beschikbaarheid, soms op werkbaarheid en soms op politieke motieven. In ieder geval geven ze altijd maar een deel weer van de werkelijkheid.

Wees kritisch op je data

Volgens de AVG moet je je als verantwoordelijke altijd af blijven vragen of je wel het juiste postadres hebt en of bijvoorbeeld iemand met een bepaald inkomen behoort tot een categorie van arme huishoudens. Maar het gaat verder dan dat. Je zou je ook altijd moeten blijven afvragen of inkomen wel de juiste variabele is om te gebruiken voor je verwerkingsdoeleinden. Als het geen compleet beeld geeft, draagt het dan bij aan je doeleinde? Oftewel: is het dan wel juist, kloppend en toereikend? Meet je wel wat je wil meten?

Ik ben helemaal voor gebruik van gegevens in onze samenleving om belangrijke keuzes te onderbouwen. Maar wat mij betreft is het kennen van de limitatie van data een essentieel onderdeel van informatiekwaliteit en daarmee dus een verplichting. Je kunt niet spreken van juistheid van data als er geen transparantie is over de concessies die er zijn gedaan om de data meetbaar en bruikbaar te maken. Een kritische blik naar je eigen data en vooral openheid over de beperkingen ervan blijft hard nodig.