Vuile data leiden tot willekeur bij politie

Het Criminaliteits Anticipatie Systeem (CAS) werkt met datasets uit bestanden van de Nationale Politie – aangiftes van burgers en criminaliteitscijfers – en van het Centraal Bureau voor Statistiek – onder andere het aantal uitkeringen per wijk, leeftijden, geslacht en gezinssamenstellingen.

Data voor gerichte inzet

Daarnaast worden in CAS gegevens geanalyseerd zoals de aanwezigheid van cafés en uitvalswegen in bepaalde gebieden. Op basis van deze gecombineerde data doet de politie voorspellingen over de locaties en periodes met een verhoogde kans op criminaliteit, zoals woninginbraken en straatroof. Dit wordt gevisualiseerd met heat maps en lijndiagrammen.

De landelijke inzet van deze vorm van predictive policing door de Nationale Politie staat niet op zichzelf, maar maakt deel uit van een serie ontwikkelingen die door technologische, politieke en culturele factoren in gang zijn gezet.

Techniek en politieke keuze

Een belangrijke technologische factor voor predictive policing is dat er steeds meer data beschikbaar zijn – via internet, sociale media en mobiele telefonie – die de overheid iets over ons gedrag vertellen. Door ontwikkelingen als het internet der dingen wordt die berg data allengs groter en toegankelijker. Ook andere technologische hulpmiddelen als ‘smart objects’ – bodycams, geluidssensoren – maken het voor de politie gemakkelijker om criminaliteit te voorspellen en om gerichter capaciteit in te zetten.

De landelijke uitrol van predictive policing hangt ook samen met de politieke keuze om bepaalde vormen van criminaliteit in een vroegtijdig stadium aan te pakken. Dit gaat gepaard met een groot geloof in de samenleving in technieken die menselijk gedrag voorspellen en tijdig kunnen bijsturen. Maar werkt het ook?

De bestaande, schaarse evaluaties naar de resultaten van predictive policing laten wisselende resultaten zien. Zo blijkt dat het gebruik van CAS geen aantoonbaar positief effect heeft op het aantal woninginbraken in het bijzonder en de landelijke ontwikkeling van criminaliteit in het algemeen.

Probleem van vuile data

Daarnaast is er ook nog de keerzijde van predictive policing, namelijk het risico dat opsporingsautoriteiten zich blijven richten op dezelfde buurten en typen criminaliteit, het zogeheten risico van selffulfilling prophecy. Ook kan het gebruik van data en algoritmen om criminaliteit te voorspellen leiden tot bureaucratisering, discriminatie van minderheden, en tot het identificeren van risicogroepen op basis van bepaalde kenmerken en categorieën, het zogenoemde social sorting.

Dit alles hoeft niet intentioneel te gebeuren, maar kan verscholen liggen in de datasets die worden gebruikt om voorspellingen over criminaliteit te doen. Als data onjuist of onrechtmatig verkregen zijn, leiden ze per definitie tot problematische voorspellingen. Stel dat de Nationale Politie verouderde data meeneemt in haar analyses over het aantal uitkeringen en gezinssamenstellingen van een wijk, dan bestaat de kans dat de resultaten iets zeggen over het verleden – en niet over het heden.

Om verschillende redenen kunnen data als ‘vuil’ – en dus als problematisch als grondslag voor later overheidsoptreden – worden aangemerkt. Wij beperken ons hier tot data afkomstig van politieoptreden, die óf onrechtmatig (in strijd met het geldend recht) zijn verkregen óf onjuist zijn. Dit noemen wij het probleem van ‘vuile data’.

Filters tegen vervuiling

Vuile data kunnen aan de voorkant worden gefilterd door een privacyfunctionaris of beleidsmedewerker van de Nationale Politie, uit eigen initiatief of doordat een burger op wie bepaalde data betrekking hebben aan de bel trekt. In de praktijk kan hiervan weinig worden verwacht. Zo blijkt dat burgers vaak niet weten wie hun gegevens verwerkt, dat zij rechten hebben, en hoe zij deze kunnen uitoefenen.

Het filteren van vuile data uit voorspellende data-analyses kan ook achteraf gebeuren, nadat de vuile data zijn betrokken bij het genereren van een voorspelling. In het geval van CAS zijn er twee mogelijkheden om achteraf vuile data te identificeren en te verwijderen.

In de eerste plaats via de strafrechter. Maar dan moet de verdediging de rechter er wel van overtuigen dat controle op vuile data zowel gewenst als relevant is. Probleem is dat de gemiddelde strafrechter niet welwillend staat tegenover het identificeren van eventueel laakbaar overheidsoptreden. Vaak vindt hij de veroordeling van de schuldige dader belangrijker dan de wijze waarop het onderzoek is verricht.

Bovendien is het voor de verdediging zonder over de datasets te beschikken vrijwel onmogelijk te concretiseren waarom de gebruikte data mogelijk vuil zijn.

Geen sluitend mechanisme

In de tweede plaats kunnen vuile data achteraf buiten het strafproces om worden gefilterd. Zo moet bij geautomatiseerde profilering in principe aan de ‘betrokkene’ informatie worden verschaft over de logica van de besluitvorming.

Logica lijkt echter hier over iets anders te gaan dan de rechtmatigheid en juistheid van de data zelf. Op basis van bijvoorbeeld onrechtmatig verkregen data door de Nationale Politie kan best een logisch besluitvormingsproces worden vormgegeven.

Bovendien hoeft wanneer het om de opsporing van strafbare feiten gaat slechts in zeer beperkte mate met de verdachte of andere betrokkenen informatie te worden gedeeld, waardoor de mogelijkheid uiterst beperkt is om de kwaliteit van de data aan te vechten.

Van een sluitend en transparant mechanisme om vuile data in de gebruikte datasets van CAS te identificeren en te verwijderen, is met andere woorden ook hier geen sprake.

Controle over overheid essentieel

Op tal van terreinen waar de overheid een verantwoordelijkheid voor beleid en uitvoering draagt, worden steeds meer digitale applicaties ingezet om de kans op criminaliteit of ander risicovol gedrag te voorspellen. CAS en SyRI, het opsporingssysteem voor uitkeringsfraude, zijn bekende voorbeelden hiervan. Maar denk ook aan de algoritmische systemen van de Belastingdienst bij de opsporing van fraude met toeslagen.

Voorspellende analyses bieden nieuwe kansen voor het voorkomen en opsporen van criminaliteit, maar leiden ook tot risico’s voor de rechten en vrijheden van burgers en het gevaar van willekeur. Onderzoek naar hoe de regulering van voorspellende analyses optimaal kan worden gewaarborgd, is om die reden van fundamenteel belang. Veiligheid houdt namelijk ook in dat de burger wordt beschermd tegen de overheid, tegen de mogelijke willekeur van de machtsuitoefening door de politie en Belastingdienst bijvoorbeeld.

Willen voorspellende systemen zoals CAS of SyRI zich tot volwaardige en integere opsporingsmethoden voor de overheid ontwikkelen, dan is een basisvoorwaarde hiervoor dat de gebruikte data ‘schoon’ zijn en ook dat de zuiverheid van de data kan worden gecontroleerd. In de praktijk blijken de filters aan zowel de voor- als achterkant onvoldoende geschikt om een effectieve bescherming tegen vuile data te kunnen bieden.

Dat laatste is essentieel, zeker als het gaat om gegevens die een hoog risico voor de rechten en vrijheden van personen met zich mee brengen. Het filteren van vuile data op een overzichtelijke, transparante en zo waterdicht mogelijke manier is daarom een onderwerp dat meer aandacht behoeft.

Marc Schuilenburg en Abhijit Das doceren aan de afdeling Strafrecht en Criminologie van de Vrije Universiteit Amsterdam. Deze bijdrage is een ingekorte en bewerkte versie van hun artikel in het tijdschrift Beleid en Maatschappij.

Foto: Markus Spiske via Unsplash

Reacties op dit artikel (1)

Hans van der Schaaf. schreef:

9 oktober 2020 om 15:22

Ik denk dat hier meer aan ‘wishfull thinking’ dan aan valide wetenschappelijk onderzoek gedacht moet worden. Deed lang geleden zelf onderzoek naar de incidentie en prevalentie van onveilige situaties. Het voornaamste resultaat uit het eerste onderzoek was echter dat de politiezorg met twee typen van onveiligheid heeft te maken die ieder een eigen aanpak veronderstellen. De eerste groep is die van ‘overlastproblemen’. Dit zijn situaties die slachtoffers overkomen en waarbij de dader een onbekende is. Inbraken en verkeersongelukken zijn hier mooie voorbeelden. De tweede groep bestaat uit ‘regelingsproblemen’. Daar zijn slachtoffer en dader deel van hetzelfde relatiesysteem. De wijk, de buurt, het gezin, school, etc.. Het kan hier over van alles gaan.

We mogen er van uitgaan dat het artikel hier het uitsluitend over de eerste groep heeft. En er is natuurlijk niets mis mee om ‘algoritmen’, is Grieks voor ‘berekeningen’ op deze data los te laten. Maar een ‘patroon’ is nog geen ‘samenhang’, laat staan een ‘voorspelling’. Het gebrek van de benadering zit hem dus in de zwakke ‘methodologie’. Dus zeker niet alleen in de kwaliteit van de gebruikte data. Het feit dat men beschreven methode al langer gebruikt zonder dat dit tot significante verbeteringen heeft geleid zegt naar mijn mening genoeg.