Betrouwbaarheid van Competentie Assessments

Slides:



Advertisements
Verwante presentaties
Wat is Blits? • Complete methode voor het nieuwe vak Studievaardigheden. Doorlopende leerlijn van groep 5 t/m 8.
Advertisements

Studenttevredenheid en accreditatie
Doel van de miniconferentie: Weten waar je op je opleiding over in gesprek kunt gaan mbt het toetsen van taal in totaal. Voettekst.
Op weg naar de landelijke toetsenbank lerarenopleidingen
Screening van toetsen: Psychometrische analyse
De normering van de examens in vogelvlucht
L&B in het MBO.
WELKOM!. INHOUD • VOORSTELLEN • ORGANISATORISCHE ZAKEN • BEOORDELINGEN % • HUISWERK • PORTFOLIO • CITO ENTREE & VERKEERSEXAMEN • VRAGEN & OPMERKINGEN.
Formatief - summatief evalueren
Competentie Thermometer
Werken met CITO LOVS 11 maart 2008.
Titel van de presentatie
KNAG Onderwijsdag Het belang van goede schoolexamens.
Betrouwbaarheid en Validiteit
Beoordelen van docenten loont de moeite!
De basis Les 1 Inleiding tot het bieden
10 juni 2014 Wim Mulder en Lobke Spruijt
Bijeenkomst 8 Summatieve toetsing
De Ontwikkeling van de persoonsgerichte ondersteuningsuitkomsten schaal (POS) Elise Bonte 1BaOA1.
Evaluatie Van Interactieve Software Systemen
Workshop Rienk van Marle en Joris Verwijmeren Themadag Onderzoek 18 november 2010, Amsterdam Themadag Onderzoek 2010 Van Marle&Verwijmeren.
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
Brief staatssecretaris 22 december 2008
Summatieve beoordeling BPV met behulp van STAR en een competentiemeter
De ontwikkeling van professionele vakkennis op de pabo
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
Social Medicine CQ-index: betrouwbaarheid en validiteit voor allochtone bevolkingsgroepen Karien Stronks afd. Sociale Geneeskunde AMC/UvA Onderzoekersforum.
Evaluatie examens LBB 2009 Vragenlijst en examenbespreking Deelnemers Groene leertraject.
Aan de slag met competenties beoordelen
LeerWinst indicator van prestatieverbeteringen. LeerWinst-methode ontwikkeld door De Loos Monitoring uw toegevoegde waarde op basis van historisch toetsresultaten.
Bijeenkomst bedrijfsleven en onderwijs SLEBB Examenmix 20 januari 2010.
Competentiegericht ontwerpen & ontwikkelen
Interpretatie van statistiek bij toetsen en toetsvragen
UITSTROOMGEGEVENS Cito eindscores Soort voortgezet onderwijs Keuze scholen.
Inleiding : De testafname
Psychologische Test.
Competentie Thermometer Nicolaes Maesstraat LB Zaandam The Netherlands Competentie Thermometer Voor PO, VO en MBO 1.
Ervaring vanuit ervaringsbewijzen omtrent standaarden.
Haal meer uit de toetsen met ParnasSys
BEOORDELINGSPORTFOLIO: MEER DAN PLUSSEN EN MINNEN
Welkom. Even voorstellen. Wie is Silvo Steenkamer?
Skillstoetsing Van vele korte praktijktoetsen naar een aantal langduriger assesments.
Inhoud workshop Wat is de bedoeling van het V2- assessment?
Kwaliteitsbeleid.
Een prachtige kans voor uw kinderen
EXAMENVRAGEN MAKEN programma Kwaliteitseisen CSPE 2010 Tips
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Valide tijdreeksmodellen Bestaan die ? Frans van Geer.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Eerste ervaringen BKE Hogeschool Leiden paula
Hedendaags toetsen in het hoger onderwijs. Waar gaat het nu over?
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam.
‘Een heel onderzoek in 90 minuten. Kan dat?’
De ontwikkeling van de D-RECT Opleidingsklimaten meetbaar maken Klarke Boor.
Toetsing: het hart van onderwijs! 16 april 2013 Karen Heij.
De Rekenscan van Rekenblokken
1 Toetsontwikkeling en kwaliteit AOC-raad presentatie Silvester Draaijer (Onderwijscentrum VU)
Toezicht op de kwaliteit van onderwijs en de doorlopende leerlijnen 1. Waarom toezicht? 2. Hoe werkt toezicht? 3. Hoe houden we toezicht op doorlopende.
Naam: 1 Vul je naam in Druk op de startknop om te beginnen Beantwoord de vragen door de juiste digitale tijd te kiezen Kijk aan het eind hoeveel je goed.
RESEARCH CENTER VOOR EXAMINERING EN CERTIFICERING Kwaliteit van examens voor competentiegericht onderwijs Saskia Wools Marianne Hubregtse Theo Eggen.
OSR onderzoek Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten.
Naam: 1 Vul je naam in. Beantwoord zo snel mogelijk de vragen. Kijk aan het einde hoeveel je er goed had. Druk op knop om te beginnen!!
Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten
Disclosure belangen NHG spreker
Van rapport naar portfolio
Resultaten ICT monitor 2002
Vwo 4 – periode
Het online opzetten, afnemen, beoordelen en verwerken van toetsen
Evalueren om te leren vs. evalueren van het leren
Transcript van de presentatie:

Betrouwbaarheid van Competentie Assessments Saskia Wools ORD 2010 - Enschede Dit onderzoek maakt deel uit van een groter onderzoek waarbij kwaliteit van toetsen centraal staat, en met name kwaliteitsbeoordeling.

Betrouwbaarheid De inspectie acht het van belang dat scholen betrouwbare, valide en genormeerde toetsen gebruiken. De Commissie Testaangelegenheden Nederland (COTAN) van het NIP beoordeelt toetsen aan de hand van criteria als testconstructie, handleiding en testmateriaal, betrouwbaarheid en validiteit. Waarom betrouwbaarheid? De meeste onderzoeken over kwaliteit competentie assessment richten zich op specifieke eigenschappen van CA’s, zoals authenticiteit, cognitieve complexiteit of de invulling van een begrip als validiteit. Betrouwbaarheid wordt vaak geassocieerd met grootschalige gestandaardiseerde toetsen, en soms klinkt zelfs het geluid door dat betrouwbaarheid bij CA’s minder relevant zou zijn dan bij andere onderwijstoetsen. Betrouwbaarheid is echter niet minder relevant dan validiteit. Accuraat meten is immers een voorwaarde voor een goede of valide meting. In beoordelingssystemen heeft betrouwbaarheid dan ook vaak een plaats naast validiteit. De inspectie acht het bijvoorbeeld van belang dat scholen betrouwbare, valide en genormeerde toetsen gebruiken. En ook de COTAN beoordeelt toetsen aan de hand van criteria als testconstructie, handleiding en testmateriaal, betrouwbaarheid EN validiteit.

Competentie assessment Criterium georiënteerd Mastery testing Meerdere toetsen Decision accuracy Wat is het probleem bij competentie assessments als het gaat om betrouwbaarheid? Allereerst is de normering van een CA meestal criterium georiënteerd, oftewel, de kandidaten moeten volgens een vast criterium presteren. Zij moeten bijvoorbeeld een bepaald aantal gedragingen laten zien om de toets te halen. Daarnaast worden kandidaten van een CA vaak in verschillende categorieën geclassificeerd: beginner, gevorderd, expert/ onvoldoende, voldoende/ geslaagd, gezakt. Wanneer kandidaten in categorieën worden ingedeeld is de exacte score die zij haalden wellicht minder relevant, maar is juist de indeling in deze categorieën bepalend. De betrouwbaarheidsvraag zou dan eerder worden: Zou ik bij hypothetisch herhaald meten de kandidaten in dezelfde categorie indelen? In dit geval spreken we dan ook over betrouwbaarheid in termen van ‘decision accuracy’. Een ander kenmerk van competentie assessment wat bepalend kan zijn voor de interpretatie en schatting van betrouwbaarheid is dat er vaak meerdere toetsen ingezet worden om tot een dergelijke beslissing te komen. De classificaties uit verschillende toetsen worden dan geaggregeerd tot één uiteindelijke beslissing. Het spreekt natuurlijk voor zich dat met name die laatste beslissing accuraat moet zijn. Een oplossing die hier ingezet kan worden is om betrouwbaarheid uit te drukken in percentage misclassificaties. Hiermee laten we zien hoe veel kandidaten onder invloed van meetonnauwkeurigheid bij een hypothetisch volgende afname een andere classificatie zouden krijgen.

Misclassificaties Ware score T Onvoldoende Voldoende Geobserveerde score X Juiste classificatie Misclassificatie Het percentage misclassificatie is dus de som van het percentage kandidaten in vak A en vak D. Om het percentage misclassificatie te berekenen is een scoreverdeling nodig en daarnaast een schatting van een betrouwbaarheidscoefficient. Daarnaast geldt de aanname dat de data normaal verdeeld is.

Onderzoeksdoel Misclassificatie en competentie beoordeling Proef op de som: Schatting betrouwbaarheid examenprogramma In dit onderzoek wilden we nagaan in hoeverre het mogelijk is om de betrouwbaarheid van CA’s en CAP’s uit te drukken in termen van percentage misclassificatie. Er is daarom geprobeerd dit te schatten voor ‘echte data’ verzameld bij een competentie gerichte MBO opleiding. De data zijn afkomstig van de politieacademie waar de resultaten van alle landelijk afgenomen proeves van bekwaamheid centraal opgeslagen worden. Het is nadrukkelijk niet de bedoeling om uitspraken te doen over de kwaliteit van het toetsinstrumentarium van de politieacademie, maar om na te gaan in hoeverre het uitdrukken van betrouwbaarheid in misclassificaties een begaanbare en informatieve weg is voor competentie assessments.

All-round politiemedewerker (4) Cohort 2004-2005 – afgestudeerd in 2008 N = 1406 22 kernopgaven De opleiding tot allround politiemedewerker is een 4-jarige MBO opleiding. Voor dit onderzoek is data uit het cohort 2004/2005 gebruikt omdat van dit cohort bekend is of zij op tijd geslaagd zijn en welke herkansingen zij hebben gedaan.

Structuur Examenprogramma De 72 examenonderdelen worden afgenomen door Opleiding, Korps, en bureau examinering waarbij een externe beoordelaar komt. Tijdens het onderzoek bleek dat alleen van deze laatste examens afgenomen door het bureau examinering de data op het niveau van scorepunten bekend was, daarom analyses alleen op proeves van bureau examinering. 24 toetsen zijn uiteindelijk geanalyseerd: dit zijn o.a. arbeidsproeven, simulaties, schriftelijke toetsen, verslagen, authentieke opdrachten, presentaties en reflectiegesprekken. Door de diversiteit aan toetsvormen misschien wel exemplarisch voor competentie gerichte beroepsopleidingen. School Korps Examen

Analyse 1 Analyse per toets: Slaagt iedereen? Erg makkelijk Cruciale punten Dus: weinig variantie Slaagt iedereen? Analyse op de toetsen die door het grootste deel van het cohort ’04/’05 gemaakt zijn. Voor elke toetsversie is alle beschikbare data voor die specifieke versie gebruikt, dit betekent dat in een enkel geval ook niveau 3 kandidaten of kandidaten uit andere cohorten de toets hebben gemaakt en dat deze gegevens in deze eerste analyseronde zijn meegenomen. N is daarom tussen 503 en 2883. Analyse voor verkrijgen GLB voor elke toets. Uit de analyses bleek dat de toetsen erg makkelijk waren. P waarde tussen de .86 en .97. Verder bleek dat de cruciale punten vrijwel altijd gehaald werden (gem P .95) En overall dat er erg weinig variantie is in de dataset waardoor niet altijd een goede schatting van de GLB berekend kon worden. Daarnaast waren een aantal toetsen te kort, wat ook een minder goede schatting van de GLB oplevert. Ten slotte was de data niet normaal verdeeld. Hierdoor kon geen misclassificatie berekend worden voor enkele toets, of voor geheel van toetsen. Ondanks de lage variantie slaagt toch niet iedereen vanwege de cruciale punten. Ookal heeft vrijwel iedereen de cruciale punten, de 5% die ze niet heeft zakt alsnog. Daarom is de data op een ander niveau aangevlogen om te kijken of er meer variantie gegenereerd kon worden.

Analyse 2 Analyse op examenprogramma toets = item Veel missings Hoeveel dimensies? Betrouwbaarheidsschatting erg laag Hierbij werd de uitslag op de toets gezien als item. Wanneer een student een toets gehaald had werd dit gezien als een item goed, bij gezakt was het item fout. Zo ontstond er een toets met 24 items die gemaakt werd over een periode van 4 jaar, in plaats van een opleiding met 24 proeves met daarbinnen een variërend aantal items. Probleem hierbij was echter dat er erg veel missings ontstonden. Doordat de versies tussentijds gewisseld zijn, zijn er weinig kandidaten die exact dezelfde toetsversies hebben gemaakt. Het resultaat was dus een dataset met veel gaten. Uiteindelijk is besloten om te gaan rekenen met de cases waarvan in ieder geval de helft van de proeves gemaakt was. Dit kwam neer op een N van 1014 kandidaten. Om ondanks de missings toch grip op de data te krijgen en een betrouwbaarheidsschatting te krijgen is een IRT model gefit. Zowel een Rasch als een multidimensioneel model paste echter niet. Daarnaast is er gezocht naar dimensies die in de data konden worden onderscheiden, maar zowel op inhoudelijke gronden, als met een exploratieve factor analyses konden geen dimensies worden aangewezen. De betrouwbaarheidsschatting van deze toets is erg laag. Maar deze schatting is niet bruikbaar voor schatting percentage misclassificatie: wederom niet normaal verdeeld

Conclusie Nog geen resultaat over de kwaliteit Hoe gaan we om met gebrek aan variantie? Is betrouwbaarheid numeriek uit te drukken? Moeten we naar een ander model? Wordt vervolgd… Dus: tot nu toe is het nog niet gelukt om de betrouwbaarheid van het CAP uit te drukken in percentage misclassificaties. Eén van de belangrijkste factoren is het gebrek aan variantie in de dataset. Dus hoe moeten omgaan met classificatiebeslissingen waarbij iedereen in één categorie komt? Zoals vaak bij competentie assessment het geval is. Er wordt immers net zo lang doorgeleerd totdat studenten klaar zijn om de toets te halen. Dit is natuurlijk in het specifieke geval van de politie ook aan de hand, de selectie is streng, de opleiding is duur en dus wordt er net zo lang getraind totdat iemand het zal halen. Enerzijds is dit een goed teken, je zou kunnen aannemen dat alle kandidaten dan dus bekwaam zijn en dat de leerdoelen door iedereen gehaald zijn. Maar het zorgt er ook voor dat we niet met zekerheid iets over de kwaliteit van de beslissing kunnen zeggen: zou iemand die niet competent is via deze beoordelingsmethodiek wel zakken? Vooralsnog lijkt de weg die we nu inslaan op een meer integrale benadering van validiteit en betrouwbaarheid. Waar voor de gehele beslissing bewijs wordt verzameld, zowel validiteitsbewijzen als betrouwbaarheidsbewijzen. Oftewel, is er aan voorwaarden voor ene betrouwbare beslissing voldaan? (beoordelaarsovereenstemming, meerdere meetmomenten, een doordachte cesuur, een compensatieregeling voor aggregatie van toetsen (om de afhankelijkheid van één toets niet te groot te maken). Het resultaat van dit onderzoek is tot nu toe teleurstellend. We weten nog steeds niet hoe we moeten omgaan met het bepalen van betrouwbaarheid voor CA’s en in hoeverre misclassificaties hierbij een uitkomst bieden. En dat terwijl een numerieke uiting van betrouwbaarheid in dit soort situaties natuurlijk nog steeds erg gewenst is.

Voor slides en meer informatie: www.rcec.nl Voor vragen, opmerkingen, of suggesties: saskia.wools@cito.nl