In de economische wetenschap worden vragen beantwoord met behulp van modellen. Voor ieder type vraag bestaat een eigen klasse van modellen. Het type vraag bepaalt de eisen waaraan het model moet voldoen en geeft daarbij aan hoe de modellen gemaakt dienen te worden. Dit artikel behandelt de vraag die gesteld wordt om tot begrip te komen: de ‘hoezo-vraag’. Om duidelijk te maken welke modellen hoezo-vragen impliceren zal dit type vraag vergeleken worden met ‘waarom-vragen’ en ‘hoeveel- vragen’. Het antwoord op een waarom-vraag is een verklaring. Het antwoord op een hoeveel-vraag is een meetresultaat.
De hoezo-vraag wordt dus besproken aan de hand van een vergelijking tussen drie typen modellen: 1) modellen die een verklaring geven (beantwoording van een waarom-vraag);2) modellen die begrip geven (beantwoording van een hoezo-vraag) en 3) modellen die een meetresultaat geven (beantwoording van een hoeveel-vraag). Duidelijk zal worden dat een ‘white-box’-model antwoord geeft op een waarom-vraag en een ‘black-box’-model op een hoeveel-vraag.
Omdat modellen gemaakt worden om specifieke vragen te beantwoorden, is de wijze waarop hun validiteit wordt getoetst nauw verbonden met het type vraag dat ze trachten te beantwoorden. Barlas (1996) definieert validiteit als de ‘bruikbaarheid met betrekking tot een bepaald doel’. Volgens Barlas is voor de validatie vanblack-boxmodellen alleen het outputgedrag van belang, en hoeft geen rekening te worden gehouden met de geldigheid van de individuele modelvergelijkingen. White-boxmodellen daarentegen geven de causale structuur van het te onderzoeken systeem weer. Outputvaliditeit is daarom niet voldoende, de validiteit van de interne structuur van het model is minstens zo belangrijk. Een white-boxmodel moet niet alleen het gedrag van een reëel systeem kunnen reproduceren of voorspellen, maar ook verklaren hoe dit gedrag wordt gegenereerd.
Barlas onderscheidt drie stadia van modelvalidatie: ‘directe structuurtesten’, ‘structuur- georiënteerde gedragstesten’ en ‘gedragspatronentesten’. Directe structuurtesten evalueren de validiteit van de modelstructuur rechtstreeks door iedere modelvergelijking apart empirisch te toetsen. De structuurgeoriënteerde gedragstesten evalueren de validiteit van de structuur op indirecte wijze door het toepassen van bepaalde gedragstesten op de gedragspatronen die door het model worden voortgebracht. Deze testen, zoals de Turing- test, vinden plaats door middel van een simulatie. Het toetsen van het voorspellende vermogen van een model is een voorbeeld van een gedragspatronentest. Voor de validatie van white-boxmodellen zijn alle drie de stadia even belangrijk; voor black-boxmodellen is alleen het laatste stadium van belang.
Hoewel Barlas benadrukt dat structuurgeoriënteerde gedragstesten bedoeld zijn om de validiteit van de modelstructuur valideren, laat de wijze waarop hij het begrip structuur hier gebruikt zien dat hij een bredere opvatting van structuur heeft dan alleen een accurate beschrijving van de systeemrelaties. Structuurgeoriënteerde gedragstesten zijn ook adequaat voor het valideren van modulair ontworpen modellen. Hier refereert het begrip ‘structuur’ aan de wijze waarop de modulen zijn geassembleerd. Deze modulaire modellen kunnen – in lijn met de benaming van de twee andere soorten modellen – ‘gray-box’-modellen genoemd worden. Ze worden gevalideerd met structuurgeoriënteerde gedragstesten en gedragspatronentesten.
In dit artikel zal worden aangetoond dat gray-boxmodellen de meest geschikte antwoorden op hoezo-vragen zijn. Hiertoe zal eerst getoond worden dat een verklaring van een economisch fenomeen onvermijdelijk leidt tot een omvangrijk maar onbegrijpelijk model. Daarna wordt het onderzoeksprogramma van Robert Lucas besproken. Volgens dit programma vereist het begrijpen van een economisch fenomeen dat het model voor een Turingtest slaagt en een algemeenevenwichtssysteem representeert. Economische algemeenevenwichtssystemen zijn uitermate complex. Uit ontwikkelingen in de computerwetenschap blijkt dat voor het begrijpen van complexe systemen gray-boxmodellen het meest adequaat zijn. In de conclusie zal ik de opvatting van De Regt en Dieks (2005) bespreken en met een aanpassing daarop komen, toegespitst op het begrijpen van economische fenomenen.
Verklaring
De traditionele opvatting van een verklaring is dat een fenomeen verklaard wordt als het afgeleid kan worden uit één of meerdere wetten. Een wet is een algemene empirische regelmaat, een patroon dat geen uitzonderingen kent, zich niet beperkt tot specifieke objecten en altijd en overal geldt. Woodward (2000) laat echter zien dat, in plaats van deze universele wetten, invariante relaties gebruikt worden om fenomenen te verklaren en dat deze invariante relaties altijd gerelateerd zijn aan een specifiek domein van veranderingen waarvoor deze relaties invariant zijn.
Er kunnen twee soorten veranderingen worden onderscheiden. Ten eerste zijn er veranderingen in achtergrondcondities, dat wil zeggen veranderingen van variabelen die niet voorkomen in de beschrijving van de betreffende relatie. Ten tweede zijn er veranderingen in de variabelen die wel in de beschrijving voorkomen. Volgens Woodward zijn alleen interventies, dat wil zeggen veranderingen die causaal verbonden zijn met de factoren die voorkomen in de beschrijving, van belang. Er zijn echter ook achtergrond-condities die causaal verbonden zijn met deze factoren, en veranderingen daarin kunnen de invariantie teniet doen. Een relatie is alleen invariant voor specifieke achtergrondcondities.
Woodward beschouwt dus invariantie aan de hand van interventie, en ziet interventie als een geïdealiseerde experimentele manipulatie. Variabele achtergrondcondities worden nauwelijks besproken. Voor economen is het echter ook van belang te weten voor welke veranderingen van achtergrondcondities de relatie invariant blijft. Met steeds wisselende achtergrondcondities willen ze graag weten of de relaties waarop ze hun beleidsadviezen baseren ook morgen nog gelden.
Het onderliggende diepere probleem is dat men een economisch fenomeen niet kan isoleren van andere potentiële invloeden. Economische fenomenen worden beïnvloed door een groot aantal factoren die niet geneutraliseerd kunnen worden door een ceteris- paribusomgeving – een laboratorium. Beschouw om dit te verduidelijken het volgende probleem: y is een variabele wiens gedrag bepaald is door een functie F van onafhankelijke causale factoren, x1, x2, … : y = F(x1, x2, …). De wijze waarop de factoren xi y kunnen beïnvloeden kan weergegeven worden door de volgende vergelijking:
y = F1 x1 + F2 x2 + …
geeft een verandering in grootte aan. De term Fi geeft aan hoeveel y proportioneel zal veranderen als gevolg van een verandering in de grootte van factor xi.
Stel dat we proberen een invariante relatie te vinden die gebruikt zou kunnen worden om het gedrag van y te verklaren. In principe zijn er oneindig veel factoren x1, x2, … die het gedrag van y kunnen beïnvloeden, maar we hopen een relatief eenvoudige invariante relatie tussen y en een klein aantal verklarende factoren xi te vinden. In een laboratorium zouden we een geselecteerde verzameling factoren kunnen isoleren van andere invloeden. Met andere woorden: we induceren ceteris-paribuscondities, xn+1 = xn+2 = … = 0, zodanig dat we een eenvoudigere relatie kunnen onderzoeken:
yCP = F1 x1 + … + Fn xn
Bovendien kunnen in een experiment de factoren x1, …, xn op een systematische wijze gevarieerd worden zodanig dat we kennis krijgen over de Fi’s om zo de relatie tussen yen de factoren x1, …, xn te bepalen. Als F1, …, Fn invariant zijn voor de (systematische) veranderingen in x1, …, xn dan is de gevonden relatie invariant.
Veel economische fenomenen kunnen echter niet op deze wijze onderzocht worden. Vaak moeten economen met ‘passieve waarnemingen’ tot kennis over invariantie komen. Om deze strategie te verduidelijken maken we een onderscheid tussen twee soorten invloeden, namelijk ‘potentiële invloed’ en ‘feitelijke invloed’. Als Fi significant verschilt van nul dan heeft factor xi potentiële invloed. De combinatie Fi xi geeft de grootte van de feitelijke invloed van een factor xi op y aan.
Door middel van passieve waarneming zien we dat een beperkt aantal factoren een niet- verwaarloosbare feitelijke invloed op y hebben:
yPO = F1 x1 + … + Fn xn
Dus de relatie y = F(x1, x2, …) verklaart het feitelijk waargenomen gedrag van y, mits de feitelijke invloeden van de niet gespecificeerde factoren verwaarloosbaar klein zijn ten opzichte van de feitelijke invloeden van de gespecificeerde factoren x1, … xn.
Het probleem hierbij is echter dat het niet mogelijk is om te identificeren waarom de feitelijke invloed, zeg xn+1, verwaarloosbaar klein is, Fn+1 xn+1 0. Met alleen passieve waar- nemingen kunnen we niet zien of de potentiële invloed van xn+1 erg klein is, Fn+1 0, of dat de feitelijke variatie van deze factor over de te beschouwen periode te klein is, xn+1 0. Een model zou alle potentiële factoren moeten bevatten, dat zijn dus alle waargenomen (feitelijke) invloeden, maar ook de potentiële invloeden die (tot nu toe) niet waargenomen zijn omdat ze te weinig varieerden om hun invloed zichtbaar te maken.
Om te zorgen dat de relevante potentiële invloeden, ook al zijn ze niet waargenomen, toch opgenomen worden in een model is de strategie om economische modellen zo omvangrijk mogelijk te maken waarbij de selectie van de in het model op te nemen factoren gebaseerd is op een economische theorie. Om fenomenen buiten het laboratorium te verklaren moeten white-boxmodellen echter ook de achtergrondcondities representeren; ze moeten niet alleen de causale structuur van het te verklaren fenomeen beschrijven, maar ook die van zijn omgeving.
Deze strategie heeft als gevolg dat modellen die bijvoorbeeld de conjunctuurbeweging van een land moeten kunnen verklaren algauw honderden vergelijkingen bevatten. Zulke enorme modellen waarvan de bouwers alleen dat gedeelte overzien waaraan zij hebben bijgedragen en waarvan het algeheel dynamisch gedrag alleen gezien kan worden door middel van simulaties, geven geen begrip van de werkingen van het economisch systeem dat ze weergeven. Ze kunnen alleen beleid gerelateerde vragen beantwoorden, de zogeheten ‘wat-als’-vragen.
Het onderzoeksprogramma van Robert Lucas voor algemeenevenwichtsmodellen
Simulaties uitgevoerd in de jaren vijftig op het omvangrijke en complexe model van de Amerikaanse economie om haar dynamische eigenschappen te onderzoeken lieten zien dat deze eigenschappen overeenkwamen met de eigenschappen die men in de data van de Amerikaanse economie aantrof. Dit resultaat werd als een overtuigende toets van de validiteit van het model beschouwd. Voor de invloedrijke econoom Robert Lucas (1977) betekende dat een nieuwe standaard voor het begrijpen van de conjunctuurbeweging: ‘Men laat zien dat men conjunctuurbewegingen begrijpt door een model te bouwen in de meest letterlijke betekenis: een kunstmatige economie die zich zodanig in de tijd gedraagt dat zij het gedrag van een werkelijke economie zo goed mogelijk imiteert.’ Daarbij interpreteerde hij de bovenstaande simulatietesten als een Turingtest: ‘kan een econoom onderscheid maken tussen een verzameling economische tijdreeksen gegenereerd door een computer geprogrammeerd om de modelvergelijkingen te volgen en de analoge tijdreeksen gegenereerd door een werkelijke economie’. Een Turingtest kan als volgt omschreven worden: uitslagen gebaseerd op de output van het kwantitatieve model en op metingen van het reële systeem worden gepresenteerd aan een team van experts. Als zij niet in staat zijn onderscheid te maken tussen de output van het model en de output van het systeem, dan is het model gevalideerd (zie Sage & Rouse 1999: 1037-1076).
Het grote voordeel van Turings benadering van kunstmatige intelligentie is dat ze wetenschappers bevrijdt van het bouwen van replica’s van het complexe menselijke brein om intelligente machines te maken. Op dezelfde wijze bevrijdt de Turingtest economen om white-boxmodellen te maken, dat wil zeggen: ‘gedetailleerde, kwantitatief accurate replica’s van de werkelijke economie’ (Lucas, 1977: 12). Zoals eerder is gezegd: white-boxmodellen van economische systemen zijn onvermijdelijk erg complex en omvangrijk. De Turingtest legitimeert, volgens Lucas, het werken met zeer eenvoudige (en daarom onrealistische) modellen. Lucas streefde niet naar ‘accuraat beschrijvende weergaven van de werkelijkheid’. Volgens hem hoeven de modelassumpties geen beweringen over de wereld te zijn:
‘Een theorie is geen verzameling beweringen over het gedrag van de bestaande economie maar eerder een expliciete verzameling instructies om een parallel of analoog systeem – een mechanische imitatie economie – te bouwen. Een “goed” model zal, zo gezien, niet “realistischer” zijn dan een zwak model, maar zal betere imitaties geven. Natuurlijk hangt wat men bedoelt met een “betere imitatie” af van de specifieke vragen waarvoor men antwoorden wil.’ (Lucas, 1980: 697)
Het vermogen van modellen om feitelijk gedrag te imiteren, getoetst door middel van een Turingtest, is echter niet voldoende om ze te gebruiken voor het evalueren van verschillende beleidsvoorstellen. Evaluatie van beleidsvoorstellen vereist invariantie van de modelstructuur onder beleidswijzigingen. Het achterliggende idee, bekend als de Lucas-kritiek, is dat het economische model dat ten grondslag ligt van economisch beleid voornamelijk bestaat uit gedragsvergelijkingen. De waarden van de parameters van deze vergelijkingen verkregen door econometrische schattingsmethoden geven het gedrag en beslissingen weer van optimaliserende
rationele agenten in de afgelopen periode. Er zou volgens Lucas ten onrechte van worden uitgegaan dat deze parameterwaarden stabiel blijven voor veranderende beleidsmaatregelen. Bij een voorziene beleidswijziging zullen rationele agenten hun beslissingen en gedrag daaraan aanpassen, met als gevolg dat de gedragsvergelijkingen niet meer gelden voor de volgende periode. Volgens Lucas zijn algemeen-evenwichtssystemen wel invariant.
Het ‘algemeen-evenwichtsprogramma’ van Lucas werd het meest succesvol uitgevoerd door Kydland en Prescott (1996) met hun zogeheten computational experiments. Het doel daarvan is om een kwantitatief antwoord te vinden op een specifieke vraag. In de eerste plaats is hiervoor een algemeen-evenwichtstheorie nodig. Een theorie is echter geen samenstel van beweringen over een werkelijke economie, maar, net als bij Lucas, een expliciete verzameling van instructies om een model te bouwen waarmee de vraag beantwoord kan worden. Het model wordt vervolgens gevalideerd met behulp van een Turingtest: sommige economische vragen hebben een gekend antwoord, het model zou ongeveer deze antwoorden moeten geven zodat we vertrouwen kunnen hebben in de antwoorden die het geeft voor vragen met nog onbekende antwoorden (waarvoor het eigenlijk gemaakt is). Een Turingtest heeft namelijk geen zin als je vragen stelt waarop je zelf het antwoord niet weet. Om te oordelen dat een bepaalde computer intelligent is zou deze ongeveer correcte antwoorden moe- ten geven op vragen waarop je ongeveer het correcte antwoord al weet. Om economische modellen te toetsen als ‘bruikbare imitaties van de werkelijkheid’ moeten ze onderworpen worden aan schokken waar- van ‘we tamelijk zeker zijn over hoe werkelijke economieën, of delen daarvan, zou- den reageren. Over hoe meer dimensies het model het antwoord van werkelijk economieën op eenvoudige vragen nabootst, hoe meer we haar antwoord vertrouwen op moeilijkere vragen’ (Lucas, 1980: 696-697).
Kydland en Prescott noemen deze vorm van validatie geen Turingtest maar ‘kalibratie’. Data worden dus gebruikt om het model zo te kalibreren dat het de wereld nabootst in een beperkt maar duidelijk gespecificeerd aantal dimensies. Deze interpretatie van kalibratie is vrijwel gelijk aan die van Franklin (1997). Volgens Franklin is kalibratie ‘het gebruik van een surrogaat signaal om een instrument te standaardiseren. Indien een apparaat bekende fenomenen reproduceert, dan zijn we gerechtigd meer te geloven dat het apparaat juist werkt en dat de experimentele resultaten geproduceerd door dit apparaat betrouwbaar zijn’.
Gray-boxmodellen
In systeemengineering is gray-box modelleren beter bekend als ‘modulair ontwerp’:
‘Modulair design vereenvoudigt uiteindelijke montage omdat er minder modulen dan subcomponenten zijn en omdat standaardinterfaces typisch ontworpen zijn om ze gemakkelijk te monteren. Elke module kan vóór montage getest worden en reparaties kunnen gedaan worden door het vervangen van defecte modulen. Klantgerichte systemen worden gerealiseerd door verschillende combinaties van standaardcomponenten, bestaande systemen kunnen opgewaardeerd worden met verbeterde modulen; en nieuwe systemen kunnen worden gerealiseerd door nieuwe combinaties van bestaande en verbeterde modulen.’ (Sage & Rouse, 1999: 475)
In de algemeen-evenwichtsliteratuur worden telkens twee modulen als standaardonderdelen van modellen gegeven: een Cobb-Douglasproductiefunctie, F(kt, ht) = kt ht1- , metkt kapitaal en ht arbeid en een nutsfunctie van een representatief huishouden, u(ct, 1-ht)= (1- )logct + log(1-ht), met ct consumptie. Beide functies hoeven alleen nog lichtelijk aan- gepast te worden aan de wensen van de gebruiker.
De ontwikkeling van modellen voor het begrijpen van complexe systemen kent een langere traditie in computerwetenschappen. Von Neumann (1963) is exemplarisch. Volgens Von Neumann bestaat de aanpak van het probleem van complexiteit uit twee delen. Het eerste deel is het opdelen van het probleem in ‘elementaire eenheden’. Het tweede deel bestaat uit het analyseren van hoe het samenstel van deze elementen als geheel functioneert. Het eerste deel noemde hij de ‘axiomatische procedure’:
‘We veronderstellen dat de elementen bepaalde goed gedefinieerde functionele karakteristieken kent; dat wil zeggen, ze moeten beschouwd worden als “black boxes”, als automatismen waarvan de innerlijke structuur niet ontsloten hoeft te worden, maar waarvan we veronderstellen dat ze op bepaalde duidelijk gedefinieerde stimuli op een duidelijk gedefinieerde wijze reageren.’
De elementaire eenheden worden dus door Von Neumann beschouwd als gekalibreerde black boxes.
Simon (1962) geeft een verdere uitwerking van Von Neumanns ‘axiomatische procedure’. De centrale boodschap van zijn artikel is dat complexe systemen vaak de vorm van hiërarchische systemen hebben. Een hiërarchisch systeem bestaat uit onderling samenhangende subsystemen, die elk op hun beurt hiërarchisch zijn totdat we een niveau van elementaire subsystemen bereiken. Elk elementair subsysteem kan als een black box worden beschouwd, waarvan alleen de inputoutput relatie en niet de interne structuur van belang is.
Een systeem is ‘decomposable’ als er tussen de subsystemen geen interactie bestaat. Decomposable systemen zijn daarom veel eenvoudiger te onderzoeken. Complexe systemen zijn per definitie niet decomposable, maar Simon toonde aan dat ze vaak hiërarchische systemen zijn die ‘nearly-decomposable’ zijn. In nearly-decomposablesystemen is de interactie tussen de componenten zwak maar niet verwaarloosbaar. Een belangrijk resultaat van deze eigenschap is dat in a nearly-decomposablesysteem (a) het korte-termijngedrag van elk component bijna onafhankelijk is van het korte-termijngedrag van de andere componenten; (b) op de langere termijn het gedrag van elk component alleen afhankelijk is van de andere componenten op een meer globale wijze. Het grote voordeel van een interactie op alleen een meer globale wijze is dat er dus geen rekening hoeft worden gehouden met de vele details van deze interactie. Dit maakt dat complexe systemen als zij een nearly-decomposable structuur hebben begrijpelijk zijn:
‘Het feit dat vele complexe systemen een nearly-decomposable, hiërarchische structuur hebben is een belangrijke helpende factor die het ons mogelijk maakt om zulke systemen en hun delen te begrijpen, te beschrijven, en zelfs te “zien”. Of misschien moet de propositie andersom gesteld worden. Als er belangrijke systemen in de wereld zijn die complex zijn zonder hiërarchisch te zijn, zouden ze in belangrijke mate aan onze waarneming en ons begrip kunnen ontsnappen. Analyse van hun gedrag zou zulk gedetailleerde kennis en berekening van de interacties van hun elementaire delen betekenen dat onze geheugencapaciteiten of berekeningen tekort- schieten.’ (Simon, 1962: 477)
Conclusie
Modellen waarmee economen bepaalde fenomenen kunnen begrijpen voldoen aan andere criteria dan modellen waarmee ze verklaren of meten. Terwijl elke module (black box met standaard interface) van een gray-boxmodel individueel gekalibreerd moet zijn, wordt de assemblage van deze modulen getest met een Turingtest.
De resultaten betekenen een revisie van de twee criteria die De Regt en Dieks (2005) ontwikkeld hebben voor wetenschappelijk begrijpen:
1.Criterium voor het begrijpen van fenomenen: Een fenomeen p kan worden begrepen als er een theorie t van p bestaat die begrijpelijk is (en voldoet aan de gebruikelijke logische, methodologische en empirische vereisten).
2.Criterium voor de begrijpelijkheid van theorieën: Een wetenschappelijke theorie t is begrijpelijk voor wetenschappers (in context c) als ze de kwalitatieve karakteristieke consequenties van t kunnen zien zonder het uitvoeren van exacte berekeningen.
De eerste wijziging is dat economen modellen in plaats van theorieën gebruiken om fenomenen te begrijpen. Theorieën worden slechts als middel gezien om de belangrijkste causale factoren te specificeren, of algemener gesteld, als een verzameling van ‘instructies’
om een model te bouwen. De tweede wijziging is dat voor fenomenen buiten het laboratorium de methodologische vereisten impliceren dat deze modellen modulaire gray-boxmodellen zijn (logische eis), die gevalideerd zijn door structuur georiënteerde gedragstesten en gedragspatronentesten (empirische eis). Volgens Simon kunnen economen de kwalitatieve karakteristieke consequenties van die modellen zien. Deze twee wijzigingen leiden tot de volgende twee aangepaste criteria voor de economische wetenschap:
1.Criterium voor het begrijpen van economische fenomenen: Een economisch fenomeen p kan begrepen worden als er een model m van p bestaat dat begrijpelijk is.
2.Criterium voor de begrijpelijkheid van modellen: Een wetenschappelijk model m is begrijpelijk voor economen (in context c) als het een gray-boxmodel is (modulair en gevalideerd door structuurgeoriënteerde gedragstesten en gedragspatronentesten).
Literatuur
Barlas, Y. (1996). Formal aspects of model validity and validation in system dynamics. System dynamics review, 12: 183-210.
Franklin, A. (1997). Calibration. Perspectives on Science, 5: 31-80.
Kydland, F.E. & E.C. Prescott (1996). The computational experiment. An econometric tool. Journal of Eco- nomic Perspectives, 10: 69-85.
Lucas, R.E. (1977). Understanding business cycles. In K. Brunner & A.H. Meltzer (red.), Stabilization of the domestic and international economy (pp. 7-29). Amsterdam: North-Holland.
Lucas, R.E. (1980). Methods and problems in business cycle theory. Journal of money, credit, and banking, 12: 696-715.
Neumann, J. von (1963). The general and logical theory of automata. In A.H. Taub (red.), John von Neu- mann: Collected works, dl. v (pp. 288-328). Oxford: Pergamon.
Regt, H.W. de & D. Dieks (2005). A contextual approach to scientific understanding. Synthese, 144: 137- 170.
Sage, A.P. & W.B. Rouse (red.) (1999). Handbook of systems engineering and management. New York: Wiley. Simon, H.A. (1962). The architecture of complexity. Proceedings of the American Philosophical Society, 106: 467-
482.
Woodward, J. (2000). Explanation and invariance in the special sciences. The British journal for the philosophy of science, 51: 197-254.