Hoeveel maanden achterstand? Verleidelijke maar misleidende tijdsmetingen.

Waarover gaat het?

Het is je wellicht niet ontgaan dat in een onderzoek naar de achterstand tijdens de coronaperiode gesproken werd van een achterstand in maanden tijd. Dat onderzoek had betrekking op de resultaten van de interdiocesane toetsen, die in 2020 werden afgenomen (vòòr de pandemie dus). Diezelfde toetsen werden in 2021 afgenomen, dus na de pandemie. De resultaten van 2020 werden vergeleken met de uitslagen op die toetsen na de pandemie. En dan werd een te verwachten achterstand genoteerd. De verschillen werden statistisch verwerkt, onder meer door de gemiddeldes en de standaarddeviaties bij de twee afnames van de toetsen te vergelijken.

De onderzoekers stelden dat de geschatte achterstand wel eens zes maanden onderwijstijd zou kunnen betekenen. Dat een achterstand te verwachten was, zegt alleen al het gezond verstand. En dat die achterstand groter zal zijn bij kinderen met een ongunstige thuissituatie, ligt ook in de lijn van de verwachtingen. Hoe komen onderzoekers aan het uitdrukken van verschillen in maanden onderwijstijd?

Een manier om kwaliteitsverlies door een bepaalde ingreep te bepalen

Om toch greep te krijgen op meetbaarheid van achterstand, proberen onderzoekers die achterstand een cijferwaarde te geven. Het is immers vaak een probleem als er over achterstand of kwaliteitsdaling wordt gesproken. De pessimist zegt dat de achterstand levensgroot is. De optimist beweert dat de achterstand best nog meevalt. En zo ontstaan discussies, die vaak in welles-nietes standpunten verzanden, niet in het minst op basis van bepaalde opvattingen over wat iemand onder kwaliteit verstaat. Het kwaliteitsbegrip is immers zwaar ideologisch geladen.
Bepaalde onderzoekers denken een oplossing gevonden te hebben in een tijdsmaat, uitgedrukt in gemiddelde maanden nodig om een programma aan te leren. Door een dergelijk cijfer in maanden achterstand toe te kennen, veronderstellen ze de discussies over de achterstand meer objectief te maken.

Om daartoe te komen gaat men in de testpsychologie als volgt te werk.
Je kan toetsresultaten van situatie één (bijvoorbeeld een globale leesmethode) vergelijken met de resultaten in situatie twee (een analytische methode). Welke groep presteert best op de toets? En verder: kan je het verschil in prestaties niet uitdrukken in een cijfer met een tijdsbepaling? Cijfers en ook die tijdsmaat geven mensen duidelijkheid en zekerheid. Daar houden ze van. Ze willen het verschil precies weten.
Op die manier kan je ook de situatie van leerlingen met een lockdown en dus met onderwijs thuis, vergelijken met leerlingen die alleen in de klas onderwijs hebben gekregen. Achterstand is te verwachten bij de thuisgroep en zeker bij leerlingen met een ongunstige thuissituatie. Maar hoeveel achterstand precies?
En om die vraag te beantwoorden, komen de toetsenmakers met een wit konijn naar voor. Ze bepalen een gemiddelde tijdsmaat. Leerlingen in situatie één moeten gemiddeld, één, twee, drie … maanden tijd bijwerken om de resultaten van situatie twee te halen.

De baanbrekers

De druk om een achterstand of verschil in kwaliteit op een toets in een graad van achterstand uit te drukken, komt voort uit een soort spinn-off van de beweging van de effectieve school, in moderne versie die van de evidence based school of iets bescheidener de evidence informed school. Bij het onderzoek naar welke methode of situatie het beste werkt, wordt het rendement vaak uitgedrukt in tijdseenheden. De redenering is logisch: je maakt twee gelijkwaardige groepen waarbij groep één bijvoorbeeld rapporten krijgt met cijfers op 10 voor wiskunde en de andere groep alleen een rapport waar aangevinkt is of ze de vooropgestelde doelen al dan niet hebben bereikt. Nu ga je nakijken of en in welke mate de twee groepen na de volgende lesperiode in wiskunde presteren. Zijn er verschillen en hoe groot zijn die verschillen dan? Kunnen we het verschil aanduiden door te stellen dat de groep één een voorsprong heeft van bijvoorbeeld gemiddeld één maand lestijd voor wiskunde op de groep twee?

Baanbrekend bij deze werkwijze is de populaire toolkit van de Engelse Education Endowment Foundation (EEF). Die bestudeert allerlei pedagogisch-didactische aanpakwijzen en probeert het rendement ervan in te schatten. Enkele voorbeelden van dergelijke aanpakwijzen zijn: digitaal leren, huistaken lager onderwijs, huistaken secundair onderwijs, klasverkleining, feedback, zittenblijven, metacognitie, mastery learning, niveauklassen (streaming en setting), klasverkleining, dragen van een uniform, inzet van assistent-leraren, zomerscholen….

Via literatuurstudies voor elke bestudeerde aanpak worden drie rubrieken ingevuld:

de kosten (bijvoorbeeld meer leraarsuren, materiaal) in vijf categorieën, met één als laagste;
de geschatte wetenschappelijke evidentie, eveneens in vijf categorieën;
de impact op prestaties op de toetsen in extra leerwinst (of achteruitgang) met als indicator een aantal gemiddelde maanden schooltijd. Over deze derde rubriek gaat het in deze blog.

Een meer gedetailleerde beschrijving van die toolkit vind je via het archief van de blogs Impuls. Het gaat om de blog van juli 2017: “Wat werkt?”

Het aanduiden in maanden tijd als een indicator van impact, klinkt wel best aardig, maar die inschatting is voor heel wat kritiek vatbaar.

Die meting in tijd is erg populair geworden bij het discours over de al dan niet opgelopen achterstand tijdens de coronaperiode. Koortsachtig wordt er gezocht naar aanduidingen om de achterstand te meten om op basis daarvan dan allerlei remediërende maatregelen op te zetten. De aanduidig van tijdsachterstand klinkt dan erg verleidelijk, maar ze is in principe misleidend. Bij het boven vermelde onderzoek naar de resultaten op de interdiocesane proeven, kwamen onderzoekers tot de conclusie dat het om een achterstand van wellicht zes maanden ging. Dat ging er bij de publieke opinie in als zoete koek met als gevolg dat het ene doemscenario na het andere de media bereikte.

Misleidende tijd

Het is nogal evident dat er door schoolsluitingen en het desgevallend vervangende afstandsonderwijs achterstand is opgelopen. Het is ook evident dat die achterstand groter wordt naarmate de thuissituatie ongunstiger is. Maar dat uitdrukken in leertijd is wel verleidelijk maar tegelijkertijd misleidend. De fysische tijd van afwezigheid via corona, is niet gelijk aan de leertijd in het brein van de leerlingen.
Men gaat immers uit van bestaande toetsen (of parallelle versies daarvan) die men dan afneemt van de groepen die in de achterstandssituatie zitten. En dan kan je uiteraard zien dat de leerlingen uit die situaties in die toetsen in meerdere of mindere mate lagere resultaten halen.
Maar hier kom je zoals vaak terecht bij de toets die het curriculum bepaalt. Die toets is echter het resultaat van een opeenvolgende reeks subjectieve beslissingen, die beginnen bij het kiezen van de items (en dus van de concrete doelen).Vervolgens wordt op iedere item een cijfer gezet, meestal één punt per item, zodat er gemakkelijk kan worden geteld met gemiddeldes, standaarddeviaties, medianen, percentielen enzovoort. Binnen dit zeer gesloten geheel van gekozen items en de vereeenvoudigd becijferde items, kan je dan wel schattingen maken in tijd. Maar die schatting geldt dan alleen voor die beperkte en vereenvoudigde dosis leerstof die gemeten werd.
De tijdseenheden worden dan afgeleid van de maten van het gemiddelde en de standaarddeviatie. De stelling is dan de volgende. Als je leerlingen die onderwijs hebben gekregen in een bepaalde aanpak of situatie vergelijkt met leerlingen zonder die aanpak of situatie,nemen we een statistische maat, gebaseerd op een wiskundige normaalverdeling: de standaardafwijking (SD). Vaak gaat men er van uit dat de studie van één jaar voor een vak overeenkomt met één derde standaarddeviatie verschil in spreiding ten opzichte van het gemiddelde. Dat is dan 33 % van een standaarddeviatie. Als je een school gedurende 1/3de schooljaar sluit, wordt dat dus 1/3de van een 1/3de, wat neerkomt op 11 % afwijking of achterstand.
In mensentaal betekent het dat één SD verschil bij een toets met gemiddelde 50 een plaatsverschuiving in percentiel oplevert van plaats 50 naar plaats 84 op100. Een halve SD geeft een verschuiving van percentiel 50 naar 69.

Die tijdsmetingen in toetsgerichte landen wordeneen belangrijke maatstaf om nog meer dan voorheen ‘teaching to the test’ te doen, want je mag niet afwijken van die genormeerde, gevalideerde en gestandaardiseerde itemverzameling. Binnen de statistische verwerking van die uniforme en volledigheid eisende toetsen, kan je dan schattingen maken dat bijvoorbeeld een spreidingsverschil in de resultaten van 4% standaarddeviatie ongeveer een maand verschil in onderwijstijd (voor die bepaalde proef) uitmaakt. Kom je aan een afwijking van 24 %, tel je gewoon op naar zes maanden.
Dit soort telwerk is echter het resultaat van een cumulatieve reeks van keuzes, die bij het opstellen van een toets leiden tot een sterk verdunde variante van het curriculum.

De ouroboros eet zijn staart op

Het misleidende zit in het vervangen van het curriculum waarin al de na te streven inhouden en doelstellingen zitten, door de uniforme, gestandaardiseerde en beperkte selectie van items, die de toets uitmaakt. De proef geldt dan niet meer als een ‘pars pro toto’ maar krijgt de status van een volledig dekkend curriculum. Het wordt ‘teaching to the tests’ in volle ornaat. Nu is het zo dat het in de menselijke aard zit om complexe zaken het liefst zo eenvoudig mogelijk voor te stellen. Een getal doet het dan wel goed, want het geeft zekerheid en houvast. Maar een wiskundig getal geeft nooit de complexe realiteit weer. Die moet je zoeken in de concrete school, de concrete klas en de concrete leerling. De toets abstraheert de complexe en zeer verschillende lespraktijk tot een gemiddeld getal, dat evenwel op geen enkele individuele leerling kan worden toegepast. Uiteraard weten we dat er achterstand is en de best geplaatste personen om die te detecteren voor de leerlingen zijn nog steeds de leraren. Geen enkele van je leerlingen is een perfecte weergave van een dergelijk bepaald gemiddelde. Het is een abstracte groepsmaat, die dienstig kan zijn voor selectie maar niet voor vorming.

In het bovenstaande voorbeeld van de toolkit, gaat het om metastudies die steeds gebaseerd zijn op genormeerde en uniforme centrale toetsen, meestal voor wiskunde en taal. Telkens beschouwen ze wat in de toets wordt gemeten (sowieso een deeltje van het geheel) als het volledige curriculum.

Het doet denken aan het mythische beeld van de ‘ouroboros’. Dat is een slangachtig wezen dat zich ringvormig presenteert terwijl het zijn eigen staart oppeuzelt. Het Oud-Griekse woord ouros betekent ‘staart’ en boros betekent ‘etend’. Letterlijk dus: “hij die zijn staart opeet”. De staart wordt daardoor de kop van de slang, of in dit geval: de toets wordt het curriculum.

Tijd als variabele

Testpsychologen hebben er dus iets op gevonden om op vergelijkende toetsen de statistiek van standaarddeviaties toe te passen en daaruit een tijdsmaat af te leiden. Op basis daarvan kan je dan een gemiddelde tijdsduur inschatten die de bestudeerde minder presterende groep nodig heeft om dezelfde prestaties te halen als de beter presterende groep.
De variabele ‘tijd’ is echter veel meer omvattend om een cijfermatige inschatting van het geheel van lesgeven in een tijdsmaat om te zetten. Het gezond verstand zegt wel dat hoe meer tijd je aan een doel besteedt, des te meer kans je hebt om een bepaald doel te bereiken.

Maar ‘tijd’ is geen vaste waarde, want hij varieert naargelang van de situatie. Voor het onderwijs is die gedachte ooit zeer mooi in kaart gebracht door John Carrol. Hij stelt dat verschillen in beginsituatie en leerresultaten teruggebracht kunnen worden tot verschillen in leertijd. Maar die leertijd is niet zomaar te vatten in één bepaald cijfer.
De tijd die je nodig hebt om iets te leren is een niet-isoleerbare variante. In feite gaat het bij de spreiding in leerresultaten telkens om een tijdsperiode die beladen is met allerlei contextuele factoren. Om dat te verduidelijken vertrekt Carrol van de verhouding tussen de voorziene tijd en de doorgebrachte tijd. Die verhouding wordt echter bepaald door diverse belangrijke contextfatoren. Hij vertrekt dus van de volgende vergelijking:

Prestatie = Doorgebrachte tijd / Voorziene tijd = Spreidingsmaat

Voorbeelden:

50 u/10 u = 5
15 u/10 u = 1,5
10 u/10 u = 1
08 u/10 u = 0,8
05 u/10 u = 0,5

Hoe kleiner die verhouding is, des te efficiënter is je onderwijs.Het komt er dus op neer die verhouding van tijd zo klein mogelijk te maken.
Met die gedachte in het achterhoofd onderscheidt Carroll vijf factoren, die bepalend zijn voor de prestaties van een leerling en de spreiding ervan tijdens een tijdsperiode:

Leertempo
Begripsvermogen
Kwaliteit onderwijs
Voorziene tijd
Leermotivatie

In schema gezet:

In dit model is de factor leertempo afhankelijk van de kennis en de achtergrond die een leerling al heeft over het onderwerp. Als je veel achtergrond hebt over een vak, leer je ook sneller dan als je van nul af moet beginnen. Overigens kan dat leertempo verschillen van vak tot vak en van leerling tot leerling. Voorkennis is dus een belangrijke predictor voor het resultaat. Het gelijkschakelen van de voorkennis blijkt een belangrijke factor te zijn voor een succesvol didactisch proces.
De factor begripsvermogen (‘ability to understand instruction’) kan beschouwd worden als een vorm van schoolse, vaak verbale intelligentie.
De factor kwaliteit van het onderwijs is een voor de leerling externe factor die te maken heeft met een optimale didactische aanpak, zoals zorgen voor samenhang, het stapsgewijze vorderen en het niet verder gaan voordat de vorige stap is beheerst (beheersingsleren).
De factor voorziene tijd (‘time allowed for learning’) spreekt vanuit de basisstelling van Carroll voor zich zelf.
Ten slotte is de leermotivatie als factor gebaseerd op de bereidheid om te leren. Het gaat om een soort vasthoudendheid om een leerstof aan te pakken (‘perseverance’). Dat willen leren is dan weer afhankelijk van vroegere ervaringen van lukken of mislukken.
Dit model heeft Bloom geïnspireerd om zijn strategie voor ‘mastery learning’, of beheersingsleren, uit te bouwen. Bloom beweerde dat hij de tempoverschillen tussen leerlingen die normaliter op een ratio van 5/1 zitten, kan herleiden tot een 3/1-verhouding. Hij stelt zelfs dat bij optimale kwaliteit een ratio van 1/1,5 mogelijk is. Daarom ontwikkelde hij zijn bekende strategie voor Mastery Learning. Het gaat daarbij niet om echt nieuwe aanpakwijzen, maar wel om een intelligente combinatie van diverse methoden en groeperingen van leerlingen. De strategie van beheersingsleren was en is internationaal erg populair. Ze heeft de beperking dat ze zich alleen leent tot gesloten en dus meetbare, cognitieve doelstellingen, die men in een tijdslijn kan plaatsen. Maar dan gaat het toch nog, volgens Bloom, om meer dan de helft van de leerstof op school. De mastery learning strategie steunt in grote mate op het vermogen om duidelijke doelstellingen te formuleren, diagnostische toetsen op te stellen en extra hulp te geven. Die boodschap is nadien goed overgekomen bij allerlei differentiatiemodellen die inderdaad steunen op die didactische aanpakwijzen.
Uit deze benadering van tijd op basis van het Carroll model en de daaruit ontstane differentiatiemodellen, mag duidelijk blijken dat het omzetten van achterstand in een globale tijd, de grote variatie in allerlei interveniërende factoren ontkent. Het is een ver-reikende simplificatie gebaseerd op een abstract gemiddelde, los van enige context.

Een curriculumaanpak

De andere benadering om achterstand in kaart te brengen is dat je niet vertrekt van de toetsen, met hun gesloten karakter, maar dat je vertrekt van een kwalitatieve analyse van de achterstand. Je vertrekt van een curriculum waarin de doelstellingen zijn opgelijst. En in die doelstellingen moet je dan weloverwogen gaan snoeien. Dat is realistisch want minder tijd is sowieso minder leerstof. Hoeveel tijd precies, is een kwestie van keuzes maken en die hangt af van de boven geschetste variabelen en contexten. Kwalitatief denken betekent – in tegenstelling met de kunstmatig becijferde, gemiddelde en contextloze berekeningen – dat de professionals aan het woord komen. Ze kunnen per leerling of groep bekijken waar er leerinhoud moet worden ingehaald en dit met het oog op de overgang naar een volgend jaar of traject. Uiteraard moet er dan worden gesnoeid en het is best dat te doen in overleg en met het oog op de toekomst en verdere schoolloopbaan van de leerlingen. In een tijd van levenslang leren is zeker niet iedere doelstelling bij het initieel onderwijs evenveel waard. Niet alles is even belangrijk. In plaats van het keurslijf van de geünifomiseerde en vereenvoudigde toets, moeten er op professionele wijze, keuzes worden gemaakt in het omvattende curriculum en het aantal daaraan verbonden doelen.

Om af te ronden

Karaokegedrag om de genormeerde centrale toets koste wat het kost in te halen, leidt tot uitermate grote verlengingen van de studietijd om per se de toetsnormen in te halen. En uiteraard komt dan de gekende inhaalstress om de hoek kijken.
Inhalen moet dus beperkt in tijd zijn en moet zoveel mogelijk op maat van de doelgroepen gebeuren. En daar heb je professionals voor nodig. Dat zal ook heel wat verschil maken in de kosten om de ‘maanden’ achterstand in te halen. Dat hoeven echt geen maanden te zijn. Selectief inhalen is de boodschap en daarbij moeten uiteraard bij de corona-achterstand leerlingen met ongunstige thuissituaties voorrang krijgen. Tegelijkertijd is er ook een zekere nederigheid vereist om voorzichtig om te gaan met het kwantificeren van erg complexe situaties.
Je mag dus best de verleidelijke houvast van tijdsachterstand met de nodige korrels zout nemen. Een leerling die een kwartier te laat in de les komt, heeft dus niet per se een kwartier leerachterstand.

Bronnen

Blog Impuls: https://www.impuls-onderwijs.be/ archief andere berichten. ‘Wat werkt? Juli 2017.
Carroll, J.B. (1963). A model of school learning. Teachers College Record, (64), 763-783.
Carroll, J.B. (1989). The Carroll Model: a 25-year retrospective and prospective view. Educational Researcher (18), 26-31.
Hanushek, E.A. & Woessmann, L. (2020). The economic impacts of learning losses. OECD Education Working Papers n°225. Paris: OECD.
Higgins, S., Katsapataki, M., Kokotsaki, D., Coleman, R., Major, L.E. & Coe, R. (2014). The Sutton Trust Education Endowment Foundation Teaching and Learning Toolkit. London: Education Endowment Foundation.
OVSG (2021). Zes maanden extra onderwijs brengen geen leerwinst. Imago, maart, 8-9.
Standaert, R., Troch, F., Peeters , Inge & Stroobants, Ilse (2018). Leren en onderwijzen. Leuven: Acco.

Deze blog werd geschreven door Roger Standaert.

Impuls

Leiderschap in onderwijs