ANALYSE XL Sociologen, laat de analyse van big data niet aan bèta’s over

Big data kunnen een licht werpen op klassieke en nieuwe sociologische vraagstukken. Te goede redenen om het onderzoek over te laten aan computerwetenschappers en aanverwanten, betoogt Rense Corten. Waarom leren we sociologiestudenten niet programmeren?

‘Big data’ zijn al lang niet meer ‘the next big thing’. Zowel in het publieke debat als in wetenschappelijk onderzoek is de term inmiddels gemeengoed geworden, en is het besef doorgedrongen dat de ongeëvenaarde stortvloed aan (veelal digitale) gegevens die we ‘big data’ noemen een grote impact heeft op de maatschappij. Ook aan de (Nederlandse) sociologie gaat deze ontwikkeling niet voorbij.

Hoewel de term ‘big data’ veel gebruikt wordt, is er momenteel geen eenduidige en algemeen geaccepteerde definitie voorhanden. Wel hebben we een aantal kenmerken die big data-studies onderscheiden van sociologisch onderzoek zoals we dat gewend zijn.

Ten eerste zijn ze grootschalig, in de zin dat het aantal observaties meestal veel groter is dan tot dan toe gebruikelijk bij onderzoek naar soortgelijke onderwerpen, en in sommige gevallen gaat het zelfs om datasets die een hele samenleving beslaan. Ten tweede gaat het tegelijkertijd vaak ook om zeer gedetailleerde data op het individuele niveau, waarbij vooral belangrijk is dat individuele gedragingen of kenmerken doorlopend in plaats van steekproefsgewijs worden gemeten (‘always on’).

Ten derde gaat het in veel gevallen om spontaan gedrag, dat niet door de onderzoeker aangespoord is met bijvoorbeeld vragenlijsten. In die zin gaat het vaak ook om data die niet reactief zijn, in de zin dat onderzochte individuen hun gedrag niet veranderen als gevolg van het onderzoek (in deze context wordt ook wel gesproken van ‘gevonden’ of ‘toevallige’ data).

Ten vierde is dergelijk onderzoek vaak opvallend goedkoop (hoewel soms verre van gratis), in ieder geval in vergelijking met meer ‘traditionele’ benaderingen van soortgelijke onderwerpen. Zo kan men met behulp van sociale-medianetwerken onderzoeken op een schaal die met vragenlijstonderzoek onbetaalbaar zou zijn, of met behulp van mobiele telefoons de welvaartsverdeling van een land in kaart brengen met een nauwkeurigheid die vergelijkbaar is met die van (veel duurder) vragenlijstonderzoek.

Tot slot gaat het om dataverzamelingen die relatief snel zijn, met name in vergelijking met conventioneel vragenlijstonderzoek.

Wat kunnen we nu met deze nieuwe vormen van data in sociologisch onderzoek? Ten eerste kunnen we proberen ‘oude’, bestaande vragen op nieuwe manieren te beantwoorden. Big data kunnen dan nieuwe, en soms zelfs baanbrekende antwoorden bieden. Ten tweede roepen nieuwe vormen van data ook nieuwe vragen op. Hierbij gaat het, gezien de aard van de data, vaak om vragen rondom de opkomst van het internet, digitalisering en meer in het algemeen de impact van technologie op sociale processen.

Bestaat het ‘small world effect’ echt?

Het zogenoemde ‘small world effect’ (kleine-wereldeffect) verwijst naar de voor velen uit het dagelijks leven herkenbare ervaring dat sociale afstanden tussen mensen vaak verrassend kort zijn. Dit effect werd voor het eerst beschreven in het werk van Robert Milgram, die met behulp van een vindingrijke op kettingbrieven gebaseerde methode liet zien dat respondenten in zijn onderzoekspopulatie op zijn hoogst zes ‘handdrukken’ van elkaar verwijderd waren, een resultaat dat vervolgens zijn eigen leven is gaan leiden als de bewering dat iedereen op de wereld maximaal zes stappen van elkaar verwijderd zou zijn.

Het probleem is echter dat dit met ‘conventionele’ methoden van dataverzameling voor sociale netwerken lastig is. De opkomst van sociale media heeft dit echter veranderd. Als bron van informatie over sociale netwerken hebben sociale-mediadata een aantal belangrijke voordelen ten opzichte van de ‘conventionele’ databronnen.

Ten eerste hebben sociale-mediadata met sociometrische datasets gemeen dat alle relaties tussen gebruikers in kaart gebracht worden, wat het mogelijk maakt lengtes van netwerkpaden te meten, maar anders dan met conventionele datasets kan dit voor hele grote groepen, soms zelfs voor complete samenlevingen.

Ten tweede worden sociale relaties gemeten zonder tussenkomst van een onderzoeker: gebruikers leggen spontaan hun vriendschappen vast, en in die zin maken sociale media het mogelijk direct gedrag te observeren, zonder gebruik te hoeven maken van vragenlijsten, met alle nadelen van dien.

Ten derde hebben sociale-mediadata potentieel een zeer hoge resolutie; in principe is het mogelijk alle veranderingen in sociale interacties in detail door de tijd te volgen. Tot slot is dataverzameling via sociale media, in vergelijking met vragenlijstonderzoek, bijzonder goedkoop en snel.

Het voorbeeld van Hyves

Als voorbeeld van een toets van de kleine-wereldhypothese kunnen we kijken naar data van het sociale-mediaplatform Hyves, dat tussen 2004 en 2013 in Nederland actief was als netwerkplatform en in die tijd een aanzienlijke populariteit verwierf: op het hoogtepunt in 2010 had Hyves ruim tien miljoen leden, meer dan driekwart van de Nederlandse bevolking.

Ik analyseerde in 2012 een compleet (geanonimiseerd) ‘snapshot’ van het vriendschapsnetwerk tussen de leden. Uit die analyse blijkt dat Hyves destijds inderdaad een ‘kleine wereld’ was: niet alleen was het netwerk relatief geclusterd, maar daarnaast bleek negentig procent van alle paren in het netwerk maximaal zeven netwerkstappen van elkaar verwijderd te zijn. Hiermee voldoet het Hyves-netwerk aan beide kenmerken van een ‘kleine wereld’. Soortgelijke resultaten zijn gevonden voor Facebook en andere sociale-medianetwerken.

Nieuwe vragen: Project X en gele hesjes

De nieuwe big data maken het soms ook mogelijk nieuwe vragen te stellen, die vóór de beschikbaarheid van deze datavormen niet aan de orde waren. Door de aard van de data gaat het hierbij vaak om vragen gerelateerd aan de opkomst van het internet of onlinegedrag. Een vraag die (op het moment van schrijven) bijvoorbeeld erg in de aandacht staat bij zowel sociale wetenschappers als beleidsmakers en media gaat over de rol van sociale media in het publieke debat, en dat met name de vraag of sociale media fungeren als ‘echokamers’ waarin gebruikers vooral in aanraking komen met uitingen die hun eigen mening reflecteren.

Een gerelateerde vraag gaat over de rol van sociale media in massamobilisatie. Gebeurtenissen als de Arabische Lente tussen 2010 en 2012, de ‘Project X’-rellen in Haren in 2012, of, meer recent, de protesten door ‘Gele Hesjes’ in met name Frankrijk, doen vermoeden dat de opkomst van sociale media het eenvoudiger hebben gemaakt om grote groepen mensen te mobiliseren voor protesten, wat mogelijk weer impact zou kunnen hebben op de stabiliteit van samenlevingen.

Een hiermee verweven vraag die in het publieke debat veel stof doet opwaaien gaat over verspreiding van ‘nepnieuws’ via sociale media, en de invloed daarvan op de publieke opinie en politieke processen.

Vertrouwen op het dark web

Een meer fundamentele vraag die we in eigen onderzoek hebben bekeken gaat over het ontstaan van orde in anonieme online gemeenschappen. De opkomst van het internet maakt niet alleen economisch verkeer zonder fysiek contact veel makkelijker (ook voor particulieren onderling, zoals op eBay), maar maakt het ook mogelijk dat zulk verkeer plaatsvindt tussen volslagen vreemden.

Op het Dark Web, dat deel van het internet dat alleen toegankelijk is door middel van software dat internetverkeer geheel anonimiseert, zijn bijvoorbeeld online marktplaatsen ontstaan waar illegale producten, vooral drugs, verhandeld worden door individuen wiens identiteit niet of nauwelijks te achterhalen is: niet alleen is hun internetverkeer versleuteld, maar ook betalingen verlopen buiten het reguliere bancaire systeem om door het gebruik van BitCoin of andere cryptovaluta.

Het is duidelijk dat hier een vertrouwensprobleem bestaat tussen koper en verkoper: de koper moet erop vertrouwen dat de verkoper na betaling de middelen met de beloofde kwaliteit levert, maar heeft geen mogelijkheden om persoonlijk verhaal te halen mocht dat niet gebeuren.

Desondanks bloeien deze marktplaatsen. Een mechanisme dat vaak verantwoordelijk wordt gehouden voor het creëren van vertrouwen in legale online marktplaatsen zoals eBay is het gebruik van reputatiesystemen, die de gebruikers in staat stellen hun interactiepartners in het openbaar te beoordelen via gestandaardiseerde scores (bijvoorbeeld de alomtegenwoordige ‘vijf sterren’) of geschreven recensies.

Een open vraag over dit soort systemen is of zij even effectief zijn in de anonieme context van het Dark Web, waar geen wet of overheid bestaat om in het uiterste geval goed gedrag af te dwingen. Met collega’s onderzocht ik deze kwestie aan de hand van duizenden transacties van Silk Road, een van de eerste grote online drugsmarktplaatsen. We vinden inderdaad dat verkopers met betere reputatiescores niet alleen sneller, maar ook voor hogere prijzen verkopen, wat impliceert dat het vertrouwensprobleem bij hen inderdaad kleiner is.

Hiermee laten we zien dat mechanismen die voor sociale orde zorgen in door wetten en instituties gereguleerde maatschappijen óók functioneren in de minimalistische, wetteloze en daarmee bijna hobbesiaanse wereld van het Dark Web. Noemenswaardig zijn ook studies naar de impact van de opkomst van online datingplatforms op homogamie, naar discriminatie in de deeleconomie of naar samenwerkingsprocessen in de totstandkoming van Wikipedia.

Twitter is geen afspiegeling van de samenleving

Uiteraard zijn big data of nieuwe digitale data niet zonder problemen. Ten eerste zijn dit soort data, omdat ze typisch niet verzameld zijn met het oogmerk van wetenschappelijk onderzoek, vaak incompleet, in de zin dat ze niet altijd de informatie bevatten waarmee de theoretische constructen uit de onderzoeksvraag op een valide manier geoperationaliseerd kunnen worden.

Ten tweede zijn digitale data, zoals sociale-mediadata, vaak niet representatief voor de doelpopulatie. Een goed voorbeeld hiervan is Twitter, dat vanwege de relatieve toegankelijkheid van de data veel gebruikt wordt voor onderzoek maar duidelijk geen afspiegeling vormt voor de volwassen populatie van westerse samenlevingen.

Een gerelateerd probleem is dat databronnen vaak tijdgebonden zijn, in de zin dat de populatie die een systeem (zoals een sociale-mediaplatform) gebruikt of de wijze waarop deze een systeem gebruikt kan veranderen over de tijd. Zo kan een verandering in de publieke opinie als gemeten via sociale media veroorzaakt worden door een daadwerkelijke verandering van de publieke opinie onder de bevolking, maar ook door een verschuiving in het deel van de bevolking dat de betreffende dienst gebruikt.

Ten vierde zijn data afkomstig uit digitale systemen soms ‘algoritmisch vervuild’, in de zin dat er buiten het zicht van de onderzoeker processen in het systeem ingebouwd zijn die het gedrag van gebruikers beïnvloeden. Een bekend voorbeeld hiervan zijn de algoritmes die gebruikers potentiële ‘vrienden’ suggereren op platformen als Facebook en LinkedIn.

Ten vijfde kunnen big data ruis bevatten die door de omvang van de data niet eenvoudig te detecteren is maar wel tot misleidende conclusies kan leiden. Een berucht voorbeeld is de sentimentanalyse van semafoonberichten na de aanslagen van 11 september 2001. Waar de oorspronkelijke analyse een sterke toename in ‘woede’ liet zien, bleek uit een heranalyse dat deze toename geheel voor rekening kwam van één apparaat dat berichten verstuurde die niets met de aanslagen te maken hadden.

Tot slot zijn big data, hoewel die doorlopend op grote schaal verzameld worden, vaak niet beschikbaar voor wetenschappelijk onderzoek. In veel gevallen worden deze data verzameld door private partijen zoals sociale-mediaplatformen (Facebook) wiens verdienmodel gebaseerd is op het bezit van data over gebruikers, of die om andere redenen zeer terughoudend zijn met het delen van data. Dit geldt in veel gevallen ook voor data verzameld voor publieke doeleinden.

Kapers op de kust?

Sociale wetenschappers zijn vaak bedreven in het inschatten van representativiteit, het opschonen van data en omgang met meetfouten. Toch wordt een belangrijk deel van het hedendaagse big data-onderzoek, óók waar het sociaalwetenschappelijke onderwerpen betreft, gedaan door onderzoekers een achtergrond in bètawetenschappen, zoals natuurkunde of informatica (of meer recentelijk onder de modieuze noemer ‘data science’).

Deze onderzoekers profiteren daarbij van hun sterkere technische vaardigheden bij het verzamelen en analyseren van big data en mogelijk ook van ruimere financiering en meer prestige bij het grote publiek.

Hoewel de bijdragen vanuit deze vakgebieden zeer waardevol en soms zelfs baanbrekend zijn, is de dominantie van bètawetenschappers – of eigenlijk: het gebrek aan betrokkenheid van sociale wetenschappers – ook in een aantal opzichten problematisch. Ten eerste kennen, zoals al opgemerkt, big data tal van problemen waarvoor kennis van sociaalwetenschappelijke onderzoeksmethoden zeer bruikbaar is.

Ten tweede ontberen onderzoekers met een bèta-achtergrond doorgaans kennis van sociologisch onderzoek en vooral theorie, wat er toe leidt dat velen opnieuw het wiel uitvinden.  Ten derde lopen de sociale wetenschappen als discipline het risico aan relevantie te verliezen als zij het aan andere disciplines overlaten te profiteren van de mogelijkheden die nieuwe digitale data bieden. Dit geldt misschien in het bijzonder voor de sociologie, aangezien big data zich bij uitstek lenen voor het beantwoorden van sociologische vragen.

Ook uit een andere hoek kunnen sociale wetenschappers ‘concurrentie’ verwachten als het gaat om het bestuderen van sociale processen met big data. Namelijk vanuit de ICT-sector zelf, die een belangrijk deel van de relevante data produceert. Een bedrijf als Facebook heeft bijvoorbeeld een eigen data science-afdeling, die niet alleen vrijuit de beschikking heeft over wat waarschijnlijk de grootste sociologische dataset ter wereld is, maar ook over de bijbehorende hardwarefaciliteiten, en daarbij ook de middelen heeft om experts aan te trekken tegen salarissen die universiteiten nooit zouden kunnen bieden.

Facebook-team hanteert andere regels dan academische onderzoekers

Hoewel bijvoorbeeld het Facebook-team regelmatig publiceert, ook in wetenschappelijke tijdschriften, is het onderzoek dat deze bedrijven doen niet gebonden aan dezelfde regels omtrent transparantie, onderzoeksethiek en het delen van data die gelden voor academische onderzoekers, zoals pijnlijk geïllustreerd door de controverse rondom het onderzoek waarin Facebook zonder voorafgaande toestemming emoties van gebruikers manipuleerde.

Dit leidt tot wat ik de ‘big-dataparadox’ in de sociale wetenschappen zou willen noemen: hoewel meer sociaalwetenschappelijk relevante data worden verzameld dan ooit, hebben commerciële partijen vandaag de dag een betere uitgangspositie voor het bestuderen van de samenleving dan (academische) sociale wetenschappers. Omdat deze partijen niet de verplichting of de noodzaak kennen de daarbij geproduceerde kennis te publiceren, is de verwachting reëel dat veel van deze kennis niet in het publieke domein terecht zal komen.

Sociologen laten kansen liggen

Al met al is de situatie dus zorgelijk: niet alleen laten sociologen grote kansen liggen voor het doen van vernieuwend onderzoek met nieuwe digitale data, ze dreigen daarin ook te worden voorbijgestreefd door zowel collega-wetenschappers uit andere disciplines als door private partijen. Wat moet er gebeuren om in deze situatie verandering aan te brengen? Ik besluit met een paar suggesties.

Ten eerste moeten sociologen de aansluiting vinden met onderzoekers uit andere disciplines die zich bezighouden met nieuwe digitale data, waarbij complementariteit van kennis en methoden voorop moet staan. Hoewel er het nodige aan te merken is op het concept ‘data science’, bieden de initiatieven die momenteel onder deze noemer aan veel universiteiten zijn of worden opgezet goede kansen om dergelijke samenwerkingen op te zetten, en sociale wetenschappers zouden er goed aan doen zich nadrukkelijk met deze initiatieven te bemoeien.

Ten tweede zou ook onder sociale wetenschappers enige ‘geletterdheid’ op het gebied van big data gewenst zijn, en idealiter begint dit in de curricula van sociaalwetenschappelijke universitaire opleidingen. Hierbij kan, op het bachelorniveau, gedacht worden aan inhoudelijke kennis van de mogelijkheden én beperkingen van nieuwe digitale data en op het (research)masterniveau aan zaken als basale programmeervaardigheden (omdat veel software voor analyse van big data, gezien de snelle ontwikkelingen, niet binnen de gangbare statistiekpakketten beschikbaar is), kennis van relationele databases en tekstanalyse.

Tot slot is meer aandacht nodig voor onderzoeksdesigns die niet afhankelijk zijn van de medewerking van platformbedrijven als Facebook voor het verzamelen van data. Enerzijds helpt dit wetenschappers de problemen te omzeilen die ontstaan bij samenwerking met dergelijke partijen (zie boven), en anderzijds kan zulk onafhankelijk onderzoek tegenwicht bieden aan onderzoek dat – soms met ondoorzichtige belangen – gedaan wordt door private partijen.

Bovenal vraagt de beschikbaarheid van nieuwe vormen van digitale data om creativiteit van sociale wetenschappers in het stellen van nieuwe vragen en het onderzoeken van oude vragen op nieuwe manieren, om de mogelijkheden die deze nieuwe data bieden ten volle te benutten.

Rense Corten is universitair hoofddocent bij de afdeling Sociologie van de Universiteit Utrecht.

Deze bijdrage is een bewerking van het overzichtsartikel ‘Big data in sociologisch onderzoek’, dat onlangs verscheen in het Tijdschrift Sociologie. Dat artikel is gebaseerd op de gelijknamige lezing uitgesproken bij gelegenheid van het Actualiteitencollege 2018, georganiseerd door de Nederlandse Sociologische Vereniging in Den Haag op 29 november 2018.

Foto: Visual Tag Mx (Pexels.com)