De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Betrouwbaarheid van Competentie Assessments

Verwante presentaties


Presentatie over: "Betrouwbaarheid van Competentie Assessments"— Transcript van de presentatie:

1 Betrouwbaarheid van Competentie Assessments
Saskia Wools ORD Enschede Dit onderzoek maakt deel uit van een groter onderzoek waarbij kwaliteit van toetsen centraal staat, en met name kwaliteitsbeoordeling.

2 Betrouwbaarheid De inspectie acht het van belang dat scholen betrouwbare, valide en genormeerde toetsen gebruiken. De Commissie Testaangelegenheden Nederland (COTAN) van het NIP beoordeelt toetsen aan de hand van criteria als testconstructie, handleiding en testmateriaal, betrouwbaarheid en validiteit. Waarom betrouwbaarheid? De meeste onderzoeken over kwaliteit competentie assessment richten zich op specifieke eigenschappen van CA’s, zoals authenticiteit, cognitieve complexiteit of de invulling van een begrip als validiteit. Betrouwbaarheid wordt vaak geassocieerd met grootschalige gestandaardiseerde toetsen, en soms klinkt zelfs het geluid door dat betrouwbaarheid bij CA’s minder relevant zou zijn dan bij andere onderwijstoetsen. Betrouwbaarheid is echter niet minder relevant dan validiteit. Accuraat meten is immers een voorwaarde voor een goede of valide meting. In beoordelingssystemen heeft betrouwbaarheid dan ook vaak een plaats naast validiteit. De inspectie acht het bijvoorbeeld van belang dat scholen betrouwbare, valide en genormeerde toetsen gebruiken. En ook de COTAN beoordeelt toetsen aan de hand van criteria als testconstructie, handleiding en testmateriaal, betrouwbaarheid EN validiteit.

3 Competentie assessment
Criterium georiënteerd Mastery testing Meerdere toetsen Decision accuracy Wat is het probleem bij competentie assessments als het gaat om betrouwbaarheid? Allereerst is de normering van een CA meestal criterium georiënteerd, oftewel, de kandidaten moeten volgens een vast criterium presteren. Zij moeten bijvoorbeeld een bepaald aantal gedragingen laten zien om de toets te halen. Daarnaast worden kandidaten van een CA vaak in verschillende categorieën geclassificeerd: beginner, gevorderd, expert/ onvoldoende, voldoende/ geslaagd, gezakt. Wanneer kandidaten in categorieën worden ingedeeld is de exacte score die zij haalden wellicht minder relevant, maar is juist de indeling in deze categorieën bepalend. De betrouwbaarheidsvraag zou dan eerder worden: Zou ik bij hypothetisch herhaald meten de kandidaten in dezelfde categorie indelen? In dit geval spreken we dan ook over betrouwbaarheid in termen van ‘decision accuracy’. Een ander kenmerk van competentie assessment wat bepalend kan zijn voor de interpretatie en schatting van betrouwbaarheid is dat er vaak meerdere toetsen ingezet worden om tot een dergelijke beslissing te komen. De classificaties uit verschillende toetsen worden dan geaggregeerd tot één uiteindelijke beslissing. Het spreekt natuurlijk voor zich dat met name die laatste beslissing accuraat moet zijn. Een oplossing die hier ingezet kan worden is om betrouwbaarheid uit te drukken in percentage misclassificaties. Hiermee laten we zien hoe veel kandidaten onder invloed van meetonnauwkeurigheid bij een hypothetisch volgende afname een andere classificatie zouden krijgen.

4 Misclassificaties Ware score T Onvoldoende Voldoende
Geobserveerde score X Juiste classificatie Misclassificatie Het percentage misclassificatie is dus de som van het percentage kandidaten in vak A en vak D. Om het percentage misclassificatie te berekenen is een scoreverdeling nodig en daarnaast een schatting van een betrouwbaarheidscoefficient. Daarnaast geldt de aanname dat de data normaal verdeeld is.

5 Onderzoeksdoel Misclassificatie en competentie beoordeling
Proef op de som: Schatting betrouwbaarheid examenprogramma In dit onderzoek wilden we nagaan in hoeverre het mogelijk is om de betrouwbaarheid van CA’s en CAP’s uit te drukken in termen van percentage misclassificatie. Er is daarom geprobeerd dit te schatten voor ‘echte data’ verzameld bij een competentie gerichte MBO opleiding. De data zijn afkomstig van de politieacademie waar de resultaten van alle landelijk afgenomen proeves van bekwaamheid centraal opgeslagen worden. Het is nadrukkelijk niet de bedoeling om uitspraken te doen over de kwaliteit van het toetsinstrumentarium van de politieacademie, maar om na te gaan in hoeverre het uitdrukken van betrouwbaarheid in misclassificaties een begaanbare en informatieve weg is voor competentie assessments.

6 All-round politiemedewerker (4)
Cohort – afgestudeerd in 2008 N = 1406 22 kernopgaven De opleiding tot allround politiemedewerker is een 4-jarige MBO opleiding. Voor dit onderzoek is data uit het cohort 2004/2005 gebruikt omdat van dit cohort bekend is of zij op tijd geslaagd zijn en welke herkansingen zij hebben gedaan.

7 Structuur Examenprogramma
De 72 examenonderdelen worden afgenomen door Opleiding, Korps, en bureau examinering waarbij een externe beoordelaar komt. Tijdens het onderzoek bleek dat alleen van deze laatste examens afgenomen door het bureau examinering de data op het niveau van scorepunten bekend was, daarom analyses alleen op proeves van bureau examinering. 24 toetsen zijn uiteindelijk geanalyseerd: dit zijn o.a. arbeidsproeven, simulaties, schriftelijke toetsen, verslagen, authentieke opdrachten, presentaties en reflectiegesprekken. Door de diversiteit aan toetsvormen misschien wel exemplarisch voor competentie gerichte beroepsopleidingen. School Korps Examen

8 Analyse 1 Analyse per toets: Slaagt iedereen? Erg makkelijk
Cruciale punten Dus: weinig variantie Slaagt iedereen? Analyse op de toetsen die door het grootste deel van het cohort ’04/’05 gemaakt zijn. Voor elke toetsversie is alle beschikbare data voor die specifieke versie gebruikt, dit betekent dat in een enkel geval ook niveau 3 kandidaten of kandidaten uit andere cohorten de toets hebben gemaakt en dat deze gegevens in deze eerste analyseronde zijn meegenomen. N is daarom tussen 503 en 2883. Analyse voor verkrijgen GLB voor elke toets. Uit de analyses bleek dat de toetsen erg makkelijk waren. P waarde tussen de .86 en .97. Verder bleek dat de cruciale punten vrijwel altijd gehaald werden (gem P .95) En overall dat er erg weinig variantie is in de dataset waardoor niet altijd een goede schatting van de GLB berekend kon worden. Daarnaast waren een aantal toetsen te kort, wat ook een minder goede schatting van de GLB oplevert. Ten slotte was de data niet normaal verdeeld. Hierdoor kon geen misclassificatie berekend worden voor enkele toets, of voor geheel van toetsen. Ondanks de lage variantie slaagt toch niet iedereen vanwege de cruciale punten. Ookal heeft vrijwel iedereen de cruciale punten, de 5% die ze niet heeft zakt alsnog. Daarom is de data op een ander niveau aangevlogen om te kijken of er meer variantie gegenereerd kon worden.

9 Analyse 2 Analyse op examenprogramma toets = item Veel missings
Hoeveel dimensies? Betrouwbaarheidsschatting erg laag Hierbij werd de uitslag op de toets gezien als item. Wanneer een student een toets gehaald had werd dit gezien als een item goed, bij gezakt was het item fout. Zo ontstond er een toets met 24 items die gemaakt werd over een periode van 4 jaar, in plaats van een opleiding met 24 proeves met daarbinnen een variërend aantal items. Probleem hierbij was echter dat er erg veel missings ontstonden. Doordat de versies tussentijds gewisseld zijn, zijn er weinig kandidaten die exact dezelfde toetsversies hebben gemaakt. Het resultaat was dus een dataset met veel gaten. Uiteindelijk is besloten om te gaan rekenen met de cases waarvan in ieder geval de helft van de proeves gemaakt was. Dit kwam neer op een N van 1014 kandidaten. Om ondanks de missings toch grip op de data te krijgen en een betrouwbaarheidsschatting te krijgen is een IRT model gefit. Zowel een Rasch als een multidimensioneel model paste echter niet. Daarnaast is er gezocht naar dimensies die in de data konden worden onderscheiden, maar zowel op inhoudelijke gronden, als met een exploratieve factor analyses konden geen dimensies worden aangewezen. De betrouwbaarheidsschatting van deze toets is erg laag. Maar deze schatting is niet bruikbaar voor schatting percentage misclassificatie: wederom niet normaal verdeeld

10 Conclusie Nog geen resultaat over de kwaliteit
Hoe gaan we om met gebrek aan variantie? Is betrouwbaarheid numeriek uit te drukken? Moeten we naar een ander model? Wordt vervolgd… Dus: tot nu toe is het nog niet gelukt om de betrouwbaarheid van het CAP uit te drukken in percentage misclassificaties. Eén van de belangrijkste factoren is het gebrek aan variantie in de dataset. Dus hoe moeten omgaan met classificatiebeslissingen waarbij iedereen in één categorie komt? Zoals vaak bij competentie assessment het geval is. Er wordt immers net zo lang doorgeleerd totdat studenten klaar zijn om de toets te halen. Dit is natuurlijk in het specifieke geval van de politie ook aan de hand, de selectie is streng, de opleiding is duur en dus wordt er net zo lang getraind totdat iemand het zal halen. Enerzijds is dit een goed teken, je zou kunnen aannemen dat alle kandidaten dan dus bekwaam zijn en dat de leerdoelen door iedereen gehaald zijn. Maar het zorgt er ook voor dat we niet met zekerheid iets over de kwaliteit van de beslissing kunnen zeggen: zou iemand die niet competent is via deze beoordelingsmethodiek wel zakken? Vooralsnog lijkt de weg die we nu inslaan op een meer integrale benadering van validiteit en betrouwbaarheid. Waar voor de gehele beslissing bewijs wordt verzameld, zowel validiteitsbewijzen als betrouwbaarheidsbewijzen. Oftewel, is er aan voorwaarden voor ene betrouwbare beslissing voldaan? (beoordelaarsovereenstemming, meerdere meetmomenten, een doordachte cesuur, een compensatieregeling voor aggregatie van toetsen (om de afhankelijkheid van één toets niet te groot te maken). Het resultaat van dit onderzoek is tot nu toe teleurstellend. We weten nog steeds niet hoe we moeten omgaan met het bepalen van betrouwbaarheid voor CA’s en in hoeverre misclassificaties hierbij een uitkomst bieden. En dat terwijl een numerieke uiting van betrouwbaarheid in dit soort situaties natuurlijk nog steeds erg gewenst is.

11 Voor slides en meer informatie: www.rcec.nl
Voor vragen, opmerkingen, of suggesties:


Download ppt "Betrouwbaarheid van Competentie Assessments"

Verwante presentaties


Ads door Google