Over examenpunten, cesuur, normconstantie, etc. Gert Storms
0. Doel van deze uiteenzetting - doel is niet om te zeggen hoe het moet - doel is wel discussie op gang brengen - er is veel veranderd in ons examen- en beoordelingssysteem - geen jaarsysteem meer - deliberaties erg veranderd in samenstelling en in aard - op elk vak moet een voldoende gehaald worden - studenten ‘slepen’ hun onvoldoendes mee
1. Wat is een examen? Een examen evalueert in welke mate studenten de leerdoelen bereiken * Best vooraf een plan van het examen en hoe daarin de leerdoelen geëvalueerd worden * Vooraf slaagcriterium vastleggen op basis van leerdoelen * Het examen levert dan informatie over - realisatie van leerdoelen (door de docent) - in hoeverre leerdoelen beheerst worden (door individuele studenten)
1. Normconstantie: wenselijk? noodzakelijk? Als de leerdoelen niet veranderen, dan is normconstantie wenselijk/noodzakelijk … … ondanks veranderde instroom Algemeen: normconstantie van eerste zittijd naar tweede zittijd van het ene academiejaar naar het andere voor de beslissing slagen/niet slagen voor graden van verdienste Eisen kunnen terecht wijzigen doorheen de tijd maatschappelijke verwachtingen veranderen ook
1. Normconstantie: wenselijk? noodzakelijk? Veranderde instroom universiteit als geheel: 2/3 uit S.O. met sterke wiskunde psychologie: 1/3 uit S.O. met sterke wiskunde Kwoteren in functie van slaagcijfers (vergelijkingen met vorige jaren) of in functie van leerdoelen?
2. Normconstantie: praktisch * Wat is gebruikelijk? 1. essay-vragen: weinig over te zeggen: geen enkele controle literatuur: minder betrouwbaar dan meerkeuzevragen
2. Normconstantie: praktisch * Wat is gebruikelijk? 2. meerkeuzevragen: Haladyna, T.M. (1999). Developing and validating multiple-choice test items. Lawrence Erlbaum, Mahwah regels voor opstellen van vragen - zie ook de “10 geboden” (De Neve & Janssen, 1992) - tijdsinvestering hoe bereken je de cesuur? hoe bereken je de scores?
2. Normconstantie: praktisch * Wat is gebruikelijk? de schoolmeestermethode er zijn 40 vragen bereken eerst de score op 40 zet om naar score op 20 door deling (+ afronding?) maar: cruciaal: moeilijkheidsgraad van het examen als geheel is constant doorheen de tijd is dat zo als de inspiratie op geraakt? numerus clausus-methode: altijd zelfde proportie geslaagd
2. Normconstantie: praktisch * Nadelen aan de gebruikelijke methoden de schoolmeestermethode - onderstelt dat je altijd examens opstelt die perfect dezelfde moeilijkheidsgraad hebben en som geeft leerstofbeheersing weer wat geen realistische onderstelling is - hoe moeten de vragen gekozen worden? representatief? maar moet dan iedereen slechts helft van de leerstof kennen? - weglaten van vragen (na psychometrische inspectie) is geen oplossing !
2. Normconstantie: praktisch * Nadelen aan de gebruikelijke methoden numerus clausus-methode: onderstelt dat de instroming constant is (grote groepen in ons departement!) wat geen realistische onderstelling is
3. Normconstantie: alternatieven * De methode van De Groot (1) kadert in de klassieke psychometrie vooraf kernitems selecteren 20 tot 25% (vb. 10 van de 40 vragen) niet te moeilijk, niet te gemakkelijk vragen die geslaagden kan scheiden van niet-geslaagden grote voordeel: beperkter aantal kernitems zoals bij calibri: alle vragen bepalen examenuitslag toch verbetert de betrouwbaarheid van de meting naarmate de test langer is (dus meer vragen)
3. Normconstantie: alternatieven * De methode van De Groot (2) na het examen bereken je de p-waarde van de kernitems bereken gemiddelde van deze p-waarde dit gemiddelde geeft je het percentage studenten dat verdient te slagen bereken de cesuur op basis van de cumulatieve verdeling van de examenscores transformeer de gegevens op basis van de cesuur (en op basis van een ander ijkpunt – lineair)
3. Normconstantie: alternatieven * De methode van De Groot (3) Gemiddelde p-waarde: 0.60 KernitemP-waarde Examen- score FrequentieProportie Cumulatieve proportie …/…232221…/…0413…/…273233…/… …/… …/… …/… …/…
3. Normconstantie: alternatieven * De methode van Nedelsky/Aitken vertrekt weer vanuit klassiek psychometrisch kader vooraf voor elk item aanduiden welke alternatieven een grensstudent moet kunnen uitschakelen verwachte score berekenen per vraag, veronderstellende dat studenten gokken tussen resterende alternatieven som van de verwachte scores geeft cesuur voordeel: spitsvondigheden beïnvloeden cesuur minder dan bij de schoolmeestermethode transformatie: zie methode van De Groot
3. Normconstantie: alternatieven * de methoden van De Groot en Nedelsky kunnen gemakkelijk uitgebreid worden met een ‘tweede cesuur’, bijvoorbeeld voor een graad van verdienste, op een manier die volledig analoog is aan de berekening van de gebruikelijke cesuur volgens beide methoden - voor de methode van De Groot betekent dit dan het selecteren van een voldoende groot aantal items die geschikt zijn voor het scheiden van studenten die een onderscheiding verdienen - voor de methode van Nedelsky betekent dit de verwachte scores berekenen voor de grensstudent zonder uitsluitingscijfer * de transformatie naar punten op 20 kan dan eventueel via combinatie van verschillende lineaire functies combinatie van verschillende lineaire functies
3. Normconstantie: alternatieven * Calibri: methode van De Boeck, Helsen, Onghena, & Storms vertrekt vanuit item-responstheorie vooraf selectie van slaagvragen (maar, zoals bij methode De Groot bepalen alle vragen mee de examenscore) studenten met θ p groter dan ’s van alle slaagvragen verdienen te slagen betekent niet dat deze studenten alle slaagvragen perfect moeten kunnen oplossen (want probabilistisch model) moeilijkste (drie) slaagvragen: gemiddelde
3. Normconstantie: alternatieven * De methode van De Boeck, Onghena, Storms, & Helsen (vervolg) concreet: punten op 20 op basis van kansverhoudingen *.50 kans om kritische slaagvragen correct op te lossen => 10/20 *.60 kans om kritische slaagvragen correct op te lossen => 12/20 *.80 kans om kritische slaagvragen correct op te lossen => 16/20 etc. zoals bij methode De Groot impliceert een moeilijk examen niet dat de scores laag liggen (of omgekeerd voor een gemakkelijk examen) probleem: moeilijkheid bij berekenen van de examenscores
Enkele opmerkingen over correctie voor raden basisidee: constant gokken bij examen met 50 vragen en telkens 4 alternatieven levert verwachte waarde van 50*(1/4) = 12.5 op en dat is niet terechtbasisidee: constant gokken bij examen met 50 vragen en telkens 4 alternatieven levert verwachte waarde van 50*(1/4) = 12.5 op en dat is niet terecht => moet gecorrigeerd Correct antwoord: +1 Open laten: 0 Fourtief antwoord: -1/3 levert meer betrouwbare resultaten oplevert meer betrouwbare resultaten op maar te streng?Je gaat ervan uit dat elk foutief antwoord resultaat is van een gokmaar te streng?Je gaat ervan uit dat elk foutief antwoord resultaat is van een gok
Enkele opmerkingen over het weggooien van vragen Poirot! geeft aantal psychometrische indices: * betrouwbaarheid van het examen (alfa) * p-waarde * item-toets correlatie * upper/lower analyse Poirot! geeft ook aanwijzingen * (te) gemakkelijke of (te) moeilijke vraag * negatieve item-toets correlatie * … Maar soms zeer bedenkelijk advies Een examen is geen test! Didactische overwegingen primeren
Tot besluit * niemand is in staat om examens op te stellen met een perfecte normconstantie: vergelijken van de verdeling t.o.v. vorige jaren is altijd veilig * de alternatieven zijn wat veiliger dan de schoolmeestermethode IRT is best, maar practische moeilijkheden methode De Groot levert weinig bijkomende werk op methode Nedelsky? * Perfecte normconstantie is een onmogelijk ideaal ! maar we moeten alles in het werk stellen om dat zo goed mogelijk te benaderen.