Wetenschappelijkheid en toetsen | Impuls-blog

Waarover gaat het?

De discussies over de kwaliteit van het onderwijs, gebaseerd op bepaalde toetsen en bepaalde experts, krijgen ruime aandacht in de media. Jammer genoeg verduisteren ze de vele zaken die wel goed gaan. Bovendien worden ze vaak omringd met sloganmatige titels en vlugge veralgemeningen. En zo wordt de historische waarheid bevestigd dat bestaande generaties telkens oordelen dat het vroeger beter was. Petronius meende al in de Romeinse tijd ”Nunc pueri scolis ludunt” (de kinderen doen tegenwoordig niets anders meer dan spelen op school). In Terzake van 13 mei laatstleden zagen we een bekende politica vastbesloten verklaren dat de internationale en eigen centraal opgelegde toetsen ‘wetenschappelijk’ kunnen aantonen hoe het peil van het onderwijs er uitziet.

Hoe zit dat met die wetenschappelijkheid?

Menswetenschappen en natuurwetenschappen

We zijn erg vertrouwd met meetschalen in de natuurwetenschappen. Er bestaan vele schalen in de natuurwetenschappen. Ze laten metingen toe en maken vergelijkingen mogelijk, los van de plaats of tijd van de metingen. Er bestaat een internationaal aanvaard eenhedenstelsel om de veelheid van schalen over lengte, tijd, massa, stroomsterkte, temperatuur, hoeveelheid stof en lichtsterkte te meten. En daaronder kan je alle mogelijke afgeleide schalen brengen zoals meter, seconde, kilogram, ampère, kelvin, mol, lumen, lux enzovoort. Daardoor kan je vergelijken en allerlei berekeningen maken. Al die schalen hebben een duidelijk beginpunt en een mogelijk eindpunt en de tussenliggende niveaus zijn duidelijk afgebakend en universeel toepasbaar. Je kan die metingen dan ook maximaal mathematiseren.

Hoe zit dat nu met de menswetenschappen?

Menswetenschappen proberen menselijke gedragingen te meten. Jammer genoeg bestaan daarvoor geen schalen die ondubbelzinnig een beginpunt of eindpunt van gedrag aanwijzen. Psychologie, sociologie, pedagogie en ook economie hebben geen duidelijke beginpunten en tussenniveaus die onaanvechtbaar en universeel geldend zijn. Wat is bijvoorbeeld het beginpunt van intelligentie? En hoe bepaal je de tussenniveaus van intelligentie? Wat is het beginpunt van begrijpend lezen? En hoe bepaal je de tussenniveaus van begrijpend lezen? Wat is crimineel gedrag en waar is het beginpunt ervan en waar zitten de tussenniveaus? Economie kan er wat tussenuit glippen omdat de economie met een indicator ‘geld’ werkt. Geld is goed herkenbaar en via pariteitsregels van koopkracht kan je zo geldstromen beschrijven. Maar zelfs met die duidelijke maat heb je een beperkt zicht op de factoren die die geldstromen beïnvloeden. Waarom lukt de ene belegging beter dan de andere? Wat is de weerslag van het optrekken van de invoerrechten in de VS naar China toe op onze economie? Hoe breng je die factoren in kaart of in een schaal van weinig belangrijk tot zeer belangrijk?

Kortom, menselijk gedrag is voor een zeer groot deel onvoorspelbaar en bovendien zeer afhankelijk van de context waarin de mensen zich bevinden. Mensen die in rurale gebieden of andere klimaatgordels leven, zullen andere vormen van intelligent gedrag ontplooien ten opzichte van gebieden in andere omstandigheden. In bepaalde landen kijkt men anders aan tegen niveaus van criminaliteit enzovoort.

Dat betekent uiteraard niet dat er in de menswetenschappen geen onderzoekswerk kan worden verricht. Alleen zal men telkens een eigen schaal moeten ontwerpen. Als je crimineel gedrag wil onderzoeken, moet je eerst definiëren wat je onder crimineel gedrag verstaat en nadien gradaties aanbrengen in crimineel gedrag. Wanneer is euthanasie een crimineel gedrag? Wat is de laagste vorm van criminaliteit en hoe zijn de andere gradaties bepaald? Is zakkenrollen de laagste vorm of handtassenroven? En waar situeert zich dan verkrachting of autodiefstal? En zo kan je dat ook doen met intelligentie. Wat versta je onder intelligentie? Hoeveel denkvaardigheden kan je onderscheiden? Zijn er dat tien, zeventig of misschien wel tweehonderd? Vandaar dan ook de bekende uitspaak: ‘intelligentie is wat de intelligentietests meten’. Het gaat om aannames, die al dan niet grondig bediscussieerd zijn. Maar ook dan blijven het aannames.

Om te kunnen vergelijken (en dus te rekenen) ga je op de aannames die je hebt gemaakt een cijfer zetten. Ook dat is een bijkomende aanname. Bijvoorbeeld: op een meerkeuzetoets van vijftig vragen, zet ik één punt per vraag en zo kan ik met de bekomen punten gemakkelijk tellen en vergelijken. Maar zijn die vragen echt allemaal even belangrijk? Uiteraard niet: het is een aanname en we stellen dat axioma om te kunnen vergelijken en een rangschikking te maken. Op die wijze krijg je de schijn van objectiviteit, terwijl je in werkelijkheid zou moeten stellen: Ik neem aan dat ik met vijftig vragen de inhoud van de cursus dek. Als tweede aanname vind ik dat alle vragen een gelijk gewicht hebben. Onder de aannames die ik stel, krijg ik dan met deze toets de volgende rangschikking, met gemiddeldes, standaarddeviaties, correlaties en noem verder maar op.

Door aannames te mathematiseren kan ik onbeperkt berekeningen uitvoeren op mijn verkregen gegevens en daarbij geldt dan de wiskundige logica. Die wiskunde is natuurlijk ondubbelzinnig en geeft dus de schijn van objectiviteit. Maar de aannames die je hebt gesteld worden erdoor verborgen.

Is dat fout?

Het is niet fout wanneer je duidelijk je aannames vooropstelt en bediscussieerbaar maakt. Binnen die lijnen krijg je dan objectiviteit en ook discussie. Met andere aannames zou je andere resultaten bekomen.

De aannames bij toetsen en examens

Leerlingprestaties zijn ook uitingen van menselijk gedrag. We weten dat ze bepaald worden door factoren zoals intelligentie, sociaal milieu, armoede, motivatie, toevallige omstandigheden en contexten. Als we die leerlingprestaties willen meten komen we volop uit bij de beperkingen van de menswetenschappen.

Om te beginnen is het al quasi mogelijk om exact creatief gedrag te beschrijven. Creëren is sowieso verschillen tot stand brengen. Hetzelfde stelt zich voor attitudes en engagement. Je mag nog zoveel burgerzin geven, je weet nooit zeker of de leerlingen dan ook echt in de democratie gaan geloven. Dat belet uiteraard niet dat je dat probeert. Maar dat meten is dan nog wat anders. Er zijn dus heel wat doelstellingen, die zich niet laten meten op de klassieke manier met cijfers.

Maar zelfs bij gedrag dat goed herkenbaar is door wat je concreet vraagt, is meten met cijfers niet vanzelfsprekend. Natuurlijk kan je perfect zien of een leerling een vergelijking van de eerste graad kan oplossen. Of kan uitleggen wat fotosynthese is. Of de participe passé correct kan toepassen. Of de oorzaken van de Franse revolutie kan identificeren. En noem verder maar op. Je ziet dat bijvoorbeeld al heel duidelijk wanneer leerlingen de oefeningen uit een goed handboek kunnen oplossen. Maar als je daar dan een cijfer moet op zetten, komt de verdeeldheid naar voren. Hoeveel punten zet ik op iedere vraag? Is de Franse revolutie even belangrijk dan de guldensporenslag? Is fotosynthese even belangrijk als de wet van Ohm?

En dan komen de aannames. Bijvoorbeeld:

ik zet de toets op 100 punten (dus niet op 10 of op 20 of op 50).
ik stel twaalf vragen (waarom twaalf?)
ik zet nu op ieder van die twaalf vragen een cijfer. Het geheel moet 100 zijn. (Maar mijn collega vindt dat ik te veel punten zet op vragen 4, 6 en 10. Een andere collega staat erop een andere toets op te stellen).

Met die toets ga ik aan de slag en zo kan ik gemiddeldes en standaarddeviaties bepalen en verder nog correlaties berekenen. En met de huidige statistische software is dat een fluitje van een cent.

Zo gebeurt dat ook met centrale toetsen en examens. Alleen zal men dan vaak de vragen zo masseren dat je een normaalverdeling krijgt. Dus gemakkelijke, middelmatig moeilijke en moeilijke vragen. Op die manier kan je altijd zwakke, middelmatige en sterke leerlingen onderscheiden. De vraag is natuurlijk of dat nodig is als je werkt met concrete doelen die moeten worden bereikt.

In centrale en internationale toetsen gaat men ook vaak aannames voor sociaal milieu, geslacht en etniciteit in cijfers omzetten. Men corrigeert als het ware de ruwe uitsagen met een factor en een cijferwaarde. Maar ook die aannames gaan uit van een axioma. Als je de cijfers in de formule vervangt, krijg je ook andere resultaten en rangschikkingen. En al de berekeningen, rangschikkingen, correlaties en analyses zijn op die aannames gebaseerd.

Nederigheid vereist

Er is helemaal niets fout met pogingen om de resultaten van leerlingen in kaart te brengen. Zorgvuldig opgestelde toetsen kunnen daarbij een hulp zijn. Maar het blijven cijfers die op een aantal aannames zijn gebaseerd. En aannames zijn nu eenmaal waardegebonden en dus niet objectief. De waarde die je aan een doelstelling stelt, is vatbaar voor discussie. Als je wil selecteren, moet je in die wegingen duidelijk kleur bekennen omdat je dan een rangschikking wenst.
Wanneer je concrete doeltellingen hebt, kan je uiteraard zien of de leerling ze heeft bereikt. Maar de afweging in het toekennen van cijfers blijft steeds voor discussie vatbaar. Het zal steeds een benadering zijn. De alleenzaligmakende toets bestaat dus niet.
Die benaderingen kunnen een hulpmiddel zijn bij het beoordelen van de vorderingen van de leerlingen. Maar uiteindelijk zal het lerarenteam, met behulp van die toetsen een veel vollediger plaatje van de leerling moeten in kaart brengen. En wanneer het om creatief gedrag en attitudes gaat, wordt dat uitzonderlijk moeilijk.

Op die manier gelden dezelfde restricties voor centrale toetsen en centrale examens. Als instituut A een toets maakt, zal die verschillen van die van instituut B. In het jargon heet dat dan, dat de toetsmatrijs verschilt, zeg maar de aannames.

Dezelfde restricties gelden nog in het kwadraat wanneer het om internationale toetsen gaat, bijvoorbeeld de PISA toetsen. Als de contexten van 75 onderwijssystemen grondig verschillen, waarop baseer je je dan om te stellen dat de gestelde toetsvragen een universele geldigheid en universele inschaling hebben?

Andreas Schleicher, de OESO-topman achter de PISA-toetsen stelt in een interview (De Groene Amsterdammer, 8 mei 2019): “We willen sociale en emotionele vaardigheden kunnen observeren en meetbaar maken, net zoals we wis- en natuurkunde kunnen observeren en meten”.

Zo zie je maar hoe het licht van de wetenschappelijke verlichting verblindend kan werken.

Bronnen

Kahneman, D. (2016). Ons feilbaar denken. Business Contact, 557 blz.

Koretz, D. (2018). The testing charade: pretending to make schools better. Chicago: University of Chicago Press, 214 blz.

Muller, J.Z. (2018). The tyranny of metrics. Princeton: University of Princeton Press, 219 blz.

Standaert, R. (2014). De becijferde school. Leuven-Den Haag: Acco, 273 blz.

Wiliam, D. (2013). Cijfers geven werkt niet. Meppel: Ten Brinke/Didactief, 73 blz.

Lees Impuls. Leiderschap in onderwijs

Je team kunnen begeesteren en engageren, daar draait het vandaag om. Als schoolleider ben je niet alleen leidinggevende. Je bent ook people manager, veranderingsmanager en communicator. Vernieuwing, innovatietrajecten, veranderingsprocessen? Steeds bijleren is de boodschap.

Wil jij je onderwijsvisie verdiepen en in een ruimer kader plaatsen? Je kennis up-to-date houden? Dat kan met Impuls. Leiderschap in onderwijs.

Neem nu een abonnement

NIEUWSBRIEF

Schrijf je in voor de nieuwsbrief van Impuls. Leiderschap in onderwijs