Bias in onderwijsevaluaties: Hoe gaan we er mee om? Dr. Benjamin Boerebach Strategie & Informatie, Bestuursstaf,
DAIR seminar Even voorstellen… Beleidsmedewerker Strategie & Informatie UvA Q Promotie onderzoek AMC Evaluating Clinicians’ Teaching Performance
3 Onderwijsevaluaties Studentevaluaties Evaluaties van vakken, NSE Docentevaluaties Evaluatie van een docent over zijn eigen vak, samenwerking met collega’s etc. Managementevaluaties Evaluaties door opleidingscommissies, onderwijsdirecteur, interne audit, etc. Externe evaluaties Onderwijsvisitatie, evaluatie door potentiële werkgevers DAIR seminar
4 Percepties Een onderwijsevaluatie geeft de perceptie weer van een groep betrokkenen op de kwaliteit van het onderwijsproces De perceptie van verschillende groepen, die betrokken zijn bij hetzelfde onderwijsproces, op de kwaliteit van het onderwijs kan verschillen DAIR seminar
5 Verschillende betrokkenen, verschillende percepties De literatuur toont aan dat zelfevaluaties van het eigen functioneren lage correlaties hebben met evaluaties vanuit een ander perspectief (o.a. Davis et al. 2006; Eva &Regehr 2008) Twee studies laten zien dat evaluaties over een docent door betrokken collega’s en studenten lage correlaties met elkaar vertonen (Beckman et at. 2003; 2004) Zelfevaluaties door artsen én patienten-evaluaties komen niet overeen met een objectieve maat, zelfs niet bij concrete handelingen (o.a. Epstein et al 2005; Kasper et al. 2011) DAIR seminar
6 Onderwijsevaluaties DAIR seminar
7 Kwaliteit van Onderwijs DAIR seminar
8 Kwaliteit van een vak Vragenlijst aan studenten Vragen(lijst) aan docenten + reactie op studentevaluatie Interpretatie van docent- en studentevaluatie, binnen de onderwijsvisie DAIR seminar
9 Validiteit, Betrouwbaarheid en Bias DAIR seminar
10 Validiteit en Betrouwbaarheid Valide en betrouwbare van studentevaluaties zijn mogelijk indien is voldaan aan een aantal voorwaarden, onder anderen: Passende vragen Representatief sample Afgenomen op een geschikt moment en locatie Etc. DAIR seminar
11 Valide en betrouwbaar ≠ Vrij van bias Een valide en betrouwbare meting betekent dat die ene meting op zichzelf vrij is van bias Vergelijking tussen twee valide en betrouwbare metingen, die dus vrij zijn van bias, is niet vrij van bias DAIR seminar
Bias in vergelijking 12 DAIR seminar
Bias in vergelijking 13 DAIR seminar
Bias in vergelijking 14 DAIR seminar
Bias in vergelijking 15 DAIR seminar
Onderwijskundige literatuur (Marsh 2007) Groepsgrootte (-) Interesse studenten in een vak (+) Keuzevak (+) of verplicht (-) Moeilijkheid (+) Studiejaar studenten (+) Functieniveau docent (+) Studierichting: humanities (+), beta (-) Geslacht docent (+/-) 16 DAIR seminar
Nederlands voorbeeld Studie naar onderwijsevaluaties van medisch specialisten (Arah et al. 2012) Factoren die van invloed zijn op evaluatiescores: ervaring arts, geslacht arts, opleidingsjaar student, geslacht student, BKO, onderzoekstijd, management positie 17 DAIR seminar
Arah et al. (2012) Mannelijke artsen scoren slechte op de dimensie “feedback” (OR: 0.78) Mannelijke artsen scoren beter op de dimensie “toetsing” (OR:1.12) Artsen met BKO training scoren hoger op vrijwel alle dimensies (OR: ) Opleidingsjaar studenten was van invloed 18 DAIR seminar
Uitleg bias in onderwijsevaluaties Kwaliteit X = αB + µC + βD + ωE + φF + ε B = duidelijke uitleg docent C = niveau van de cursus D = geslacht docent E = ervaring docent F = grootte van groep studenten 19 DAIR seminar
Bias in onderwijsevaluaties Kwaliteit X = 1.0B + 1.0C + 0.2D E F + ε B = duidelijke uitleg docent C = niveau van de cursus D = geslacht docent E = ervaring docent F = grootte van groep studenten 20 DAIR seminar
Bias in onderwijsevaluaties Kwaliteit X = 1.0B + 1.0C + 0.2D E F + ε B = duidelijke uitleg docent (4) C = niveau van de cursus (4) D = geslacht docent (man = 0) E = ervaring docent (10 jaar) F = grootte van groep studenten (20) Score = DAIR seminar
Bias in onderwijsevaluaties Kwaliteit X = 1.0B + 1.0C + 0.2D E F + ε B = duidelijke uitleg docent (3.5) C = niveau van de cursus (3.5) D = geslacht docent (vrouw = 1) E = ervaring docent (2 jaar) F = grootte van groep studenten (150) Score = DAIR seminar
Bias in onderwijsevaluaties Iedere evaluatie heeft in zekere mate mee te maken Grootte van de bias hangt af van o.a. Cultuur (op verschillende niveaus) Setting / context Onderwijsdimensie / onderwijsproces 23 DAIR seminar
Wat nu….corrigeren? Normatief kader Ethische aspecten Evaluatie doel Doelgroep 24 DAIR seminar
Normatief kader We stellen impliciet verschillende verwachtingen / kaders voor verschillende groepen (wellicht terecht): v.b. Kleinschalig onderwijs moet hoger “scoren” Oudere docenten moeten hoger “scoren” Vrouwelijke docenten mogen “lager scoren” (ethisch? discriminerend?) labelling 25 DAIR seminar
Evaluatie doel Summatief gebruik (harde, soms verstrekkende consequenties) Noodzakelijk om te corrigeren Formatief gebruik (identificeren verbeterpunten) Niet noodzakelijk corrigeren Dicht bij de data/bron blijven 26 DAIR seminar
Doelgroep Docenten en studenten moeten de data begrijpen Gecorrigeerde resultaten zijn soms lastig te interpreteren Tonen van groep-specifieke referentiedata Management moet wel de beschikking hebben over gecorrigeerde data (en de correcties kunnen interpreteren, kunnen uitleggen) Verschil in data tussen docenten en management over hetzelfde proces, wenselijk? Onderzoekers moeten tevens corrigeren als dat van toepassing is 27 DAIR seminar
Wat nu….corrigeren? Discussie! Normatief kader Ethische aspecten Evaluatie doel Doelgroep 28 DAIR seminar