Internetdata worden steeds vaker gebruikt om inzicht te krijgen in de wereld. Creëren we daarmee een nieuwe werkelijkheid?
Dit artikel is exclusief voor abonnees
De eerste keer dat mijn whatsapp – een applicatie om via een smartphone snel berichtjes te kunnen sturen naar vrienden – om een update vroeg, was ik achterdochtig. Ik tikte ‘ja’, en kreeg een scherm dat mij vroeg om volledige toegang tot mijn netwerkcommunicatie, locatie en nog veel meer. Ik sloot het programma af, wist immers niet wat dit precies zou behelzen. Wat zou er gebeuren met mijn persoonlijke gegevens? Niet veel later voerde whatsapp de druk op: de update bleek niet zozeer een mogelijkheid, maar een verplichting. Zonder updates zou de app verloren gaan. Nu stemde ik maar toe – zoals velen tegenwoordig toestemmen, zonder te weten wat daarvan eigenlijk de gevolgen kunnen zijn.
De schok die door de wereld trok, toen The Guardian onthulde dat de Amerikaanse veiligheidsdienst NSA toegang heeft tot bepaalde gegevens van ons privé-internetverkeer, is begrijpelijk. Maar waarom was het een verrassing? We weten dat tal van organisaties ons internetgedrag monitoren, opslaan en analyseren. Iedereen die gebruik maakt van sociale media als Facebook, of ooit online een vliegticket of kledingstuk heeft besteld, weet hoe gegevens door bedrijven worden gebruikt voor gerichte marketing. We leven in de tijd van ‘big data’, waarin het mogelijk is om onvoorstelbaar grote datasets op te slaan en automatisch door te vlooien op correlaties of patronen met (zelflerende) algoritmen. Het kan geen verrassing zijn dat al die informatie niet alleen voor bedrijven (en wetenschap), maar ook voor inlichtingsdiensten interessant is, zeker gezien de veiligheidsobsessie die in het eerste decennium van deze eeuw is ontstaan, en evenmin is het verbazend dat grote internetbedrijven als Google, Facebook of Microsoft hieraan meewerken.
Maar soms wordt door een gebeurtenis opeens zichtbaar, wat onderhuids allang duidelijk was. Niemand kan echt verrast zijn – hooguit door de omvang – maar dat maakt de schok er niet minder om. Tegelijkertijd voegen we ons meestal zonder al te veel problemen naar de nieuwe mores. Hoe kan dat? Wat is er eigenlijk gebeurd?
Er is de laatste maanden al veel over die schok geschreven, en meestal over de ethische, politieke of juridische gevolgen. Bijvoorbeeld over het einde van privacy. Maar hoe belangrijk dergelijke signaleringen ook zijn, ze beschrijven eerder de gevolgen van deze nieuwe tijd dan dat ze écht de fundamentele verandering beschrijven. Door de enorme rekencapaciteit en opslagmogelijkheden gaan we de door algoritmen gegenereerde correlaties in een virtuele wereld van data zien als een getrouwe afspiegeling van de werkelijkheid – en meer dan dat: we schrijven aan deze patronen een voorspellende waarde toe. Als A vaak met B optreedt, dan moeten letten op hoe vaak B voorkomt, om te voorspellen dat A zal optreden. Als er een relatie is tussen het bezoek aan bepaalde sites, aankopen en mijn leeftijd, dan val ik in een profiel met een grote kans op bepaalde voorkeuren of gedragingen. Bijvoorbeeld interesse in vliegreizen, maar ook de mogelijkheid van criminele of terroristische activiteiten. Maar wat ‘zegt’ dit nu eigenlijk over onze kennis over de werkelijkheid? Dat is in eerste instantie geen politieke of ethische vraag, maar een kentheoretische. Dat neemt overigens niet weg dat de antwoorden op die vraag allerlei politieke, culturele of morele gevolgen hebben. Daarover later meer.
Descartes
Kentheorie of epistemologie is de filosofische discipline die oorsprong en reikwijdte van onze kennis onderzoekt. Aan welke condities moet een uitspraak voldoen, opdat we kunnen spreken van betrouwbare kennis? Als we de kentheoretische grondslagen van dit nieuwe tijdperk onderzoeken, kunnen we uiteraard niet heen om die van het vorige. Wat dat betreft springt er één naam uit: René Descartes (1596-1650). Als geen ander heeft hij de conditie van betrouwbare kennis op scherp gesteld. Die luidt, paradoxaal, twijfelen tot op het bot, totdat je op een punt stuit dat tegen elke twijfel bestand is. Zijn beroemde uitspraak ‘Ik denk, dus ik ben’ is zo’n punt. Stel je voor, aldus Descartes, dat je aan alles twijfelt. Bijvoorbeeld aan zintuiglijke waarnemingen. Die kunnen je immers bedriegen. Steek bijvoorbeeld maar eens een stok in het water. Hij lijkt dan krom – maar dat is-ie niet. En twijfel ook eens, ook al is het lastig, aan wiskundige stellingen (misschien is 1+1 wel 3), of aan je eigen bestaan (misschien droom je wel, terwijl je denkt wakker te zijn)… Kortom: twijfel aan alles wat je weet of ziet… Dan nog is er in ieder geval altijd nog iets dat twijfelt, of denkt. Ergo: het denken, de rede, is onbetwijfelbaar. En dus het fundament voor betrouwbare kennis.
Parallel aan deze voorname rol van denken en twijfel, vereist ook wetenschap een gezonde scepsis ten aanzien van alle aannames. Totdat we op iets onbetwijfelbaars stuiten: een wetmatigheid – of op zijn minst een hele sterke hypothese. Van daar kunnen we onze wereld weer opnieuw opbouwen, zoals vanuit de gravitatiewetten van Newton het ondermaanse en zelfs het gehele universum opnieuw kon worden bekeken. Een dergelijke strengheid volgt de logica van de deductie: een uitspraak is slechts geldig als ze logisch volgt uit een onbetwijfelbaar uitgangspunt. Een uitspraak dat de auto nat is, aangezien het regent, kan slechts aanspraak maken op geldigheid omdat ze te deduceren valt van de algemene en onbetwijfelbare stelling dat alles buiten nat wordt als het regent.
Nu hebben vele filosofen en wetenschappers aangevoerd dat een dergelijke strenge logica in de praktijk onhaalbaar is. Bijvoorbeeld omdat niets zeker is – zelfs de solide newtoniaanse mechanica bleek bijvoorbeeld niet volledig – maar dat neemt niets weg van het belangrijkste punt van Descartes. Namelijk dat we weten waarom: de uitgangspunten of hypotheses zijn door de scepsis ontdaan van alle twijfelachtige ballast – ze zijn inzichtelijk en rationeel. Of in cartesiaanse termen: helder en welonderscheiden. Zelfs als een hypothese wordt verworpen, gebeurt dat op inzichtelijke gronden. Sterker nog, wetenschapsfilosoof Karl Popper ziet in de principiële mogelijkheid om een hypothese te verwerpen, de belangrijkste bron van vooruitgang in onze kennis en theorievorming.
Daartoe moeten we wél eerst een hypothese hebben – en precies dat geldt niet per se voor big data. Zelflerende algoritmes werken namelijk niet met hypotheses, wetten of theorieën, ze leggen correlaties. Het gaat niet langer om waarom er een verband is, maar dat het er is. De gravitatiewet van Newton is bijvoorbeeld de theorie of hypothese die massa verbindt met versnelling. Maar een door algoritmen gevonden correlatie tussen A en B heeft een dergelijk ‘waarom’ niet nodig, om toch nuttig te zijn. Google slaagde er enkele jaren geleden in om zeer nauwkeurig het verloop van een griepgolf in de VS te voorspellen. Daartoe bekeek een programma 50 miljoen zoektermen die het meest door Amerikanen werden ingetypt, en vergeleek die lijst met gegevens over de verspreiding van de seizoensgriep tussen 2003 en 2008. Op deze manier werd een correlatie gelegd tussen een handvol zoektermen en griep, waartoe 405 miljoen wiskundige modellen werden uitgeprobeerd. Let wel: daartoe was geen begrip nodig van de zoektermen, noch kennis over de besmettelijkheid of ziekteverloop van het specifieke virus. Het was louter toegepaste mathematica.
Deze verschuiving van hypothese naar correlatie is een aardverschuiving, betogen Viktor Mayer-Schönberger, hoogleraar aan het Oxford Internet Institute en Kenneth Cukier, de big data-journalist van The Economist in De big data revolutie – hoe de data-explosie al onze vragen gaat beantwoorden. Volgens hen wacht ons een geheel nieuw paradigma, een andere manier van kennen en begrijpen. Statistische overeenkomsten zijn volgens hen per definitie minder zeker dan de deductieve zekerheden van Descartes. Sterker nog: vaak weten we niet eens waarom er een overeenkomst is. Maar door de enorme hoeveelheid van informatieverwerking zijn er verbluffende resultaten. Cukier en Mayer-Schönberger beschrijven op vele terreinen – wetenschap, veiligheid, marketing – de enorme impact van big data, en concluderen dat we middenin een historische omwenteling zitten. Opnieuw, volgens hen, is God dood. Net zoals Friedrich Nietzsche in De Vrolijke Wetenschap op dramatische wijze beschrijft hoe onze wereldbeeld op zijn kop wordt gezet als er geen God meer is, zo zal ook de langzame verschuiving van hypothese naar correlatie – van waarom naar dat – onze kijk op de werkelijkheid drastisch veranderen.
Brains
Zijn statistische verbanden echte kennis? Er zijn vele sceptici, en de grootste van hen is ongetwijfeld taalwetenschapper Noam Chomsky. Tijdens een symposium getiteld Brains, Minds and Machines, georganiseerd door het MIT, opende de linguïst de aanval op big data als onderzoeksmethode binnen de wetenschap. Correlaties leren ons niets over de wereld of de menselijke cognitie, aldus Chomsky. Ze leggen statistische verbanden, meer niet. Vergelijk het met een schaakprogramma dat weliswaar wint van een grootmeester, omdat het een bepaalde getalswaarde toekent aan mogelijke zetten, maar niets van het spel begrijpt.
Deze kritiek werd eerder al verwoord door Chris Anderson, hoofdredacteur van het technologie- en wetenschapstijdschrift Wired in een invloedrijk artikel uit 2008 met de omineuze kop The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. ‘Vergeet elke theorie of hypothese over menselijk gedrag, van taalwetenschap tot sociologie. Vergeet psychologie. Waarom zouden we willen weten waarom mensen doen wat ze doen? Het belangrijkste is dát ze het doen’. Maar is dat nog nadenken, is dat nog kennisvermeerdering? – Aldus Anderson.
Hoe erg is dat? Critici verwijten Chomsky dat hij onvoldoende op de hoogte is van de cutting edge technieken en toepassingen van big data onderzoek in wetenschap. Maar dat is niet zijn belangrijkste punt. Ook Chomsky erkent dat big data een belangrijk hulpmiddel kan zijn, zeker in wetenschappelijke disciplines waar het analyseren van onvoorstelbaar veel informatie waardevol is, zoals genetische biologie of quantummechanica. Maar dat neemt niet weg dat er een kentheoretisch probleem ligt. Hoe kan je bijvoorbeeld kritiek hebben op een correlatie, als het ‘waarom’ van dat verband niet relevant is? Een hypothese of theorie impliceert de mogelijkheid van kritiek of weerlegging. Maar een correlatie wordt min of meer gepresenteerd als een feit, en hoe kan je kritiek hebben op een feit? Chomsky vreest voor een vervlakking, die het (cartesiaanse) fundament van wetenschap aantast. Namelijk het authentieke weten zelf.
Een ander mogelijk probleem is dat zowel binnen als buiten de wetenschap het belang van big data snel toeneemt (in de big data-industrie gaan inmiddels vele miljarden om). En dan dreigt het méér te worden dan een hulpmiddel, zoals ook Mayer-Schönberger en Cukier aangeven in De big data revolutie. Zij zijn beslist supporters, maar claimen dat zonder goed inzicht in wat er nu precies verandert, grote gevaren dreigen. Ze waarschuwen zelfs voor een ‘dictatorschap van gegevens’: de sterke neiging van mensen om te geloven dat de problemen van de wereld kunnen worden opgelost met big data. Het gaat hen dus niet om de waarde van big data, die staat buiten kijf, maar om de manier waarop het wordt toegepast, ook en vooral buiten wetenschap. Een tragisch voorbeeld van dit geloof in geautomatiseerde systemen is de zaak van de Russische asielzoeker Dolmatov, die ten onrechte als ‘verwijderbaar’ in het computersysteem van de Immigratie- en Naturalisatie Dienst stond, en uiteindelijk zelfmoord pleegde. Dit is in den beginne een kentheoretisch probleem: door het naïeve – of onverschillige – vertrouwen in een geautomatiseerd systeem, verdwijnt de volgens Descartes belangrijkste voorwaarde voor betrouwbare kennis: kritische reflectie. Het waarom deed er niet toe.
Chomsky, Mayer-Schöberger en Cukier zien door de mogelijkheden van big data een verschuiving van ‘weten waarom we weten’ naar een management van informatie – een ordenings- en beheersingssysteem op basis van correlatie. Het beheersbaar houden is belangrijker dan het waarom, omdat we geloven dat het kan. Dit is een cruciale, epistemologische verschuiving van kennis die ons dieper inzicht biedt in de wereld en onszelf, tot kennis als een beheersingstechniek. Cru gesteld: dat ik door een aantal factoren – arm, allochtoon, man – pas in een risicoprofiel, is van groter belang dan de achterliggende oorzaken te onderzoeken van criminaliteit. Aan de hand van dit profiel kan Justitie zelfs preventief of ‘voorspellend’ handelen. Een mogelijkheid die de Rotterdamse socioloog Willem Schinkel prepressie noemt. Schöberger en Cukier noteren een voorbeeld uit de VS: paroolcommissies in meer dan de helft van de Amerikaanse deelstaten laten voorspellingen op basis van gegevensanalyse meewegen of iemand voorwaardelijk in vrijheid kan worden gesteld of in de gevangenis moet blijven. Nu is het niets nieuws dat Justitie speurt of surveilleert op basis van profielen, maar in combinatie met het geloof in de voorspellende waarde van big data, is er een gevaar. Een kans – bijvoorbeeld op crimineel gedrag – wordt een stigma. De achttiende-eeuwse filosoof David Hume stelt dat het geloof dat resultaten uit het verleden een garantie bieden voor de toekomst bijzonder hardnekkig is. We hebben niet door dat dit vaak meer zegt over hoe we de wereld zien, of willen zien, dan over hoe die wereld daadwerkelijk is. Kentheorie is mede dankzij Hume een oefening in bescheidenheid, in het inzien van onze feilbaarheid en de grenzen van ons kenvermogen. Hoe verhoudt zich dat tot big data?
We raken hier aan de politieke, morele of culturele veranderingen als gevolg van deze kentheoretische verschuiving. De sceptische methode van Descartes heeft niet alleen een enorme invloed gehad op kentheorie, maar op de gehele westerse cultuur. Sinds Descartes zien we het belang van het onafhankelijke denken. Dat denken is volgens Descartes immers het onbetwijfelbare uitgangspunt, maar daartoe moet het zich niet laat beïnvloeden door belangen, emoties, wensen of vooroordelen. De scepsis van Descartes staat voor een kritische distantie tussen het denkende individu en de omstandigheden waarin het zich verkeert. Omstandigheden zijn immers altijd betwijfelbaar. Hetzelfde geldt voor tradities en gewoontes: een bepaalde opvatting is niet méér waar, omdat ze al heel lang geldt. Daarom dat bij Descartes de emancipatie van het individu begint, de mogelijkheid van zelfreflectie en – zoals Immanuel Kant later zegt – zelfbeschikking en vrijheid. Kant gaat zelfs zo ver om te stellen dat morele oordelen geheel los moeten kunnen staan van belangen of omstandigheden. Ethiek heeft een waarde in zichzelf, en staat niet in dienst van iets anders. We kunnen bijvoorbeeld de klokkenluider, wiens morele overtuiging boven de belangen van zijn bedrijf of dienst uitstijgt, rustig een erfenis noemen van deze Verlichte traditie van kritische reflectie. Het is dan ook tekenend voor een nieuwe tijd dat klokkenluiders als Edward Snowden of Bradley Manning door velen worden gezien als verraders, en hun juridische positie wordt bedreigd door nieuwe wetgeving.
Maar de belangrijkste vraag luidt: maakt het ons nog iets uit? Ik geef zelf zonder veel nadenken een app toestemming om gebruik te maken van mijn persoonlijke gegevens. Dat is ongelooflijk: vroeger zou ik me hebben afgevraagd wat er met deze informatie gebeurt. Nu doe ik het achteloos. In een halfjaar tijd is mijn idee volledig veranderd. Misschien luidt de mores van deze tijd dat een aantal waarden dat in het cartesiaanse tijdperk zo belangrijk was, nu niet meer zo zwaar wegen. Vrijheid van denken en geweten, maar ook van autonomie, zelfbeschikking of privacy. Daarvoor in de plaats komen waarden als beheersbaarheid, risicomanagement, efficiency, snelheid.
Cultuurpessimisme
Het is te gemakkelijk om deze verschuiving meteen te bedelven onder cultuurpessimisme. Daarvoor zijn de voordelen van big data simpelweg te groot. En zelfs bij meer gevoelige casussen is het nog maar de vraag of het nu goed of slecht is. Neem het voorbeeld van een vriendin van mij, dat niet direct heeft te maken met grootscheepse data-analyse, maar wél met management met behulp van een geautomatiseerd systeem. Zij is moeder van twee kinderen, en heeft door een uiterst ongelukkige samenloop van omstandigheden twee aantekeningen in het zogeheten Electronisch Kinddosier. Nu is zij een uitstekende moeder, maar toch verschijnt er, bij elk bezoek aan een consultatiebureau, schoolarts of een andere medische instantie die valt onder Jeugdgezondheidszorg, automatisch een signaal op het scherm. Het protocol daarbij luidt: onderzoek het kind op kenmerken die kunnen wijzen op kindermishandeling. Blauwe plekken, schrammen of iets dergelijks. Ondanks haar herhaaldelijke protesten wordt die automatische signalering niet uitgezet, of kan niet worden uitgezet. Bovendien: past haar kritiek nog wel bij deze tijd? Wat is nog de waarde van een uitspraak als: ‘maar ik heb niets gedaan?’. Weegt het vroegtijdig opsporen van kindermishandeling niet zwaarder dan de mogelijkheid dat enkele individuele gevallen die ten onrechte worden ingedeeld in een verdacht profiel? Bovendien: waarnaar verwijst een woord als ‘verdacht’? Misschien moeten we die zekerheidschecks opvatten als uitsluiting van het ergste, op basis van risicomanagement. Mijn vriendin ervaart dat overigens niet zo. Oud geluid in een nieuwe tijd.
Michel Foucault noemt de kunst van controle en beheersbaarheid gouvernmentalité. Een macht die niet werkt met geboden of verboden, maar met sturing en management. ‘Voorspellend optreden’ om criminaliteit te voorkomen is een voorbeeld: niet straffen, maar sturen. Je kunt dit uitbreiden naar beleid op het gebied van gezondheid, opvoeding, onderwijs et cetera. Hoewel Foucault de term introduceerde aan het einde van de jaren zeventig, lijkt ze perfect toepasbaar op big data. Door de enorme hoeveelheid aan informatie en de rekenkracht om snel verbanden te leggen, lijkt zo’n sturing eenvoudiger dan ooit. De reden waarom in de VS verzekeringsmaatschappijen volop experimenteren met het automatisch vaststellen van ‘risico-indicatoren’ bij cliënten, om aan de hand daarvan de hoogte van premies te bepalen. Een voordeel: snel kunnen vaststellen en bijsturen van gezondheidsrisico’s. Een nadeel: de mogelijke stigmatisering van een bepaalde leefstijl, zonder nog te zoeken naar de oorzaken ervan. Management boven kennis.
Essentieel voor Foucault is dat die beheersing of controle niet alleen door de staat of overheid wordt uitgeoefend. Controle en sturing vindt plaats op allerlei niveau’s: scholen, ziekenhuizen, psychiatrische instellingen, bedrijven… En ook op het niveau van het individu, dat zichzelf controleert. Denk aan een app, die de dagelijkse inname van calorieën in de gaten houdt, waarop bijvoorbeeld een verzekeraar kan inspelen als het getal een statistisch gemiddelde overstijgt. We internaliseringen een bepaalde mentaliteit. Zoals het delen van gegevens, ook intieme, via sociale media. Nu wereldwijd dagelijks drie miljard statusupdates of ‘vind ik leuks’ op Facebook verschijnen, en meer dan 400 miljoen tweets op Twitter, maken we het mogelijk dat systemen rigoureus ons dagelijkse leven reconstrueren en mogelijk bijsturen. We doen dat met een zekere gedachteloosheid, die misschien onvermijdelijk is. Maar die wel heel ver af staat van het cartesiaanse ‘ik denk, dus ik ben’.