Toen webwinkel Amazon in 2014 een algoritme de cv’s voor een sollicitatieprocedure liet selecteren, kwamen de programmeurs tot een schokkende ontdekking: het algoritme gooide alle cv’s met het woord ‘vrouw’ erop weg.
De programmeurs probeerden de discriminatie van het algoritme tegen te gaan door in te stellen dat het niet naar het woord ‘vrouw’ mocht kijken. Maar vervolgens ging het algoritme selecteren op hobby’s, opleidingen en zelfs op schrijfstijl. Sollicitanten die aangaven paard te rijden hadden bijvoorbeeld pech, omdat dat een sport is die vooral vrouwen beoefenen. Telkens gebruikte het algoritme dergelijke aanwijzingen om het geslacht van de sollicitanten te raden en vervolgens de vrouwen buiten te sluiten.
Uiteindelijk bleek dit te komen door eerdere beslissingen van Amazon zelf. Zij hadden in het verleden aanzienlijk meer mannen dan vrouwen aangenomen, wat het algoritme oppikte en versterkte.
Gelijke percentages
Discriminatie is nog altijd een groot probleem bij kunstmatige intelligentie. Wel is er sinds 2014 veel vooruitgang geboekt. Er zijn technieken ontwikkeld om algoritmes te laten voldoen aan definities van eerlijkheid. Het lastige is alleen: welke definitie kies je? Wat bedoelen we precies als we zeggen dat beslissingen eerlijk genomen moeten worden?
Je kunt zeggen: stel in dat alle mensen – ongeacht sekse, inkomen, afkomst et cetera – een even grote kans moeten hebben om aangenomen te worden. Bijvoorbeeld: er wordt 20 procent van de mannen die solliciteren bij Amazon aangeraden door het algoritme, en ook 20 procent van de vrouwen.
Maar wat als dat betekent dat het algoritme daardoor niet de best gekwalificeerde kandidaten aanraadt, bijvoorbeeld omdat er veel minder vrouwen zijn die informatica hebben gestudeerd? Is het dan wel eerlijk om vrouwen met een heel andere opleiding uit te nodigen ten koste van mannen die wel informatica hebben gestudeerd?
Je kunt het ook anders aanpakken, namelijk door af te dwingen dat het algoritme even nauwkeurig is voor verschillende groepen. Dan gaat het dus niet om het percentage mannen en vrouwen dat geselecteerd wordt, maar moet het algoritme even goed kunnen inschatten of een man gekwalificeerd is als of een vrouw gekwalificeerd is. Het algoritme kiest dan de beste kandidaten uit alle inzendingen en benadeelt vrouwen in die selectie niet (zoals het algoritme van Amazon wel deed). Je loopt dan alleen wel het risico dat er veel meer mannen aangenomen worden, doordat zij bijvoorbeeld in het verleden gemakkelijker prestigieuze programmeerbanen kregen, en daardoor een beter cv hebben opgebouwd.
In een ideale wereld hoeven we niet te kiezen tussen gelijke proporties en gelijke nauwkeurigheid. Toch is het in de praktijk noodzakelijk om dat wel te doen, omdat het wiskundig gezien nagenoeg onmogelijk is om aan beide tegelijk te voldoen. Als je bedenkt dat er nog meer definities van ‘eerlijkheid’ zijn voorgesteld om in algoritmes te programmeren – bijvoorbeeld dat soortgelijke mensen soortgelijk behandeld moeten worden, of dat zaken als geslacht en leeftijd geen oorzakelijk verband mogen hebben met de uitkomst – zie je dat het knap lastig is om te bepalen wat een ‘eerlijke beslissing’ eigenlijk is.
Onterechte leningen
Binnen de filosofie wordt uitgebreid nagedacht over het begrip ‘eerlijkheid’. De Amerikaanse filosoof John Rawls (1921-2002) heeft er een theorie over ontwikkeld die uit twee principes bestaat. Ten eerste moet volgens hem aan bepaalde basisrechten voldaan worden die voor iedereen hetzelfde zijn, zoals vrijheid van meningsuiting en stemrecht. Dat is het belangrijkste. Ten tweede moeten werk en opleiding gebaseerd zijn op je vaardigheden, en dus niet op bijvoorbeeld je afkomst. Bij alle overige beslissingen is de eerlijke keuze diegene waarbij de minst bedeelde groep er het best vanaf komt.
Het eerste punt van Rawls – gelijke vaardigheden ook gelijk behandelen – is in algoritmes geprobeerd na te leven door de eis dat ze voor verschillende groepen even nauwkeurig zijn. Al kan die gelijke nauwkeurigheid ook betekenen dat je voor iedereen een muntje opgooit en op basis daarvan beslist – wel gelijk, maar niet eerlijk volgens Rawls.
Het tweede punt van Rawls – de nadelen voor de minst bedeelde groep in de samenleving minimaliseren – zie je daarentegen nauwelijks terug in de informatica. Neem het voorbeeld waarbij een algoritme bepaalt of je een lening krijgt of niet door in te schatten of je de lening kunt terugbetalen. Zo’n algoritme zou in gelijke mate leningen kunnen toekennen aan rijke en arme mensen. Alleen pakt dat niet per se goed uit voor de economisch minder bedeelden; het kan zo zijn dat veel van hen leningen krijgen die ze niet kunnen terugbetalen. Daardoor komen ze verder in de schulden terecht en verslechtert hun situatie alleen maar.
Het kan zelfs zo zijn dat er meer onterechte leningen verstrekt worden aan armen dan aan rijken. Dat komt doordat er alleen gekeken wordt of beide groepen even nauwkeurig leningen krijgen die ze wél kunnen terugbetalen. De verschillen bij het verstrekken van leningen die niet terugbetaald kunnen worden, worden niet meegenomen.
Kijken naar de effecten op de groep die het slechtst af is, kan dus van belang zijn. Maar dat zit niet ingebakken in de technische oplossingen.
Ethiek is mensenwerk
Deze complicaties laten zien dat het niet alleen lastig is om een wiskundige definitie van ‘eerlijkheid’ te kiezen, maar dat er ook allerlei andere morele overwegingen spelen die we moeten meenemen. Of kunnen we dat ook door een computer laten doen? Eind vorig jaar verscheen ‘Ask Delphi’. Het algoritme leerde om morele uitspraken te doen, en toonde meteen aan dat dat niet bepaald een goed idee is. De eerste versie van het algoritme discrimineerde ontzettend, door bijvoorbeeld te stellen: ‘Heteroseksueel zijn is moreel acceptabeler dan homoseksueel zijn.’ Het algoritme bleek ook een ander oordeel te vellen als je het woord ‘moorden’ met een hoofdletter in plaats van een kleine letter schrijft. En het vond ‘genocide plegen als het mij heel, heel gelukkig maakt’ moreel te verantwoorden.
Algoritmes zijn niet in staat om ons de ethiek uit handen te nemen, ook niet als je – zoals bij Ask Delphi het geval was – met zorg de data uitzoekt waar ze hun uitkomsten op baseren. Bij de code die aan algoritmes ten grondslag ligt, ontbreekt de morele reflectie die voor mensen zo belangrijk is. Het programma snapt niet waarover het een oordeel velt, of dat het überhaupt morele uitspraken doet. Ervoor zorgen dat er niet gediscrimineerd wordt, blijft een mensenzaak.