Een systemische aanpak van toetsing NVMO Hoofdlezing Maastricht, 15-16 november 2012 Cees van der Vleuten Universiteit Maastricht
Overzicht Van praktijk naar onderzoek Van onderzoek naar theorie Van theorie naar praktijk Conclusies 30 jarige reis: Confrontatie tussen onderwijs/toetspraktijk en wetenschappelijk onderzoek Voor mij komen daar consistenties en inzichten uit, een verhaal, een theorie zo u wilt
Toetsvormen MCQ, MEQ, OEQ, SIMP, Write-ins, Key Feature, PMP, SCT, Patiënt examen, OSCE, OSPE, DOCEE, SP-based test, Video assessment, MSF, Mini-CEX, DOPS, assessment center, self-assessment, peer assessment, incognito SPs………….
De beklimming...... Does Does Shows how Shows how Knows how Knows how Performance assessment in vivo: KKB, 360۫…, Peer, Video, Incognito Pat, Video……. Does Shows how Performance assessment in vitro: OSCE, SP-based test….. Shows how Knows how (Klinisch) Contextuele toetsen: MCQ, open vragen, mondeling….. Knows how Knows Feitgerichte toetsen: MCQ, open vragen, mondeling….. Knows
Karakteristieken van instrumenten Validiteit Betrouwbaarheid Onderwijs- invloed Kosten Acceptabiliteit Onderwijs- invloed Betrouwbaarheid Validiteit
Validiteit: wat beoordelen we? Curricula zijn veranderd van input sturing naar output sturing Van disciplines naar leerdoelen, eindtermen, en nu competenties Van docentsturing naar zelfsturing
Competentie-frameworks CanMeds (Canada) Medical expert Communicator Collaborator Manager Health advocate Scholar Professional ACGME (US) Medical knowledge Patient care Practice-based learning & improvement Interpersonal and communication skills Professionalism Systems-based practice GMC (UK) Good clinical care Relationships with patients and families Working with colleagues Managing the workplace Social responsibility and accountability Professionalism Benadruk het belang van domain independent skills Benoem EPAs
Validiteit: wat beoordelen we? Does Ongestandaardiseerde Toetsing (opkomend) Does Shows how Shows how Gestandaardiseerde Toetsing (ver uitontwikkeld) Knows how Knows how Knows Knows
Inzichten over validiteit We hebben een veelheid aan toetsmethoden nodig om de hele competentiepiramide te dekken Nodig zijn gestandaardiseerde èn ongestandaardiseerde toetsmethodieken Kwaliteitscontrole van instrumenten is essentieel voor gestandaardiseerde beoordeling De gebruikers (de mensen) zijn essentieel bij ongestandaardiseerde beoordeling. Beiden zijn nodig. De een kan niet zonder de ander. Voor de top is observatie nodig en expertiseoordelen. Wat dan met subjectivieit?
Betrouwbaarheid: hoe precies beoordelen we? Korte casus gerichte Essay2 0.68 0.73 0.84 0.82 KKB6 0.73 0.84 0.92 0.96 Praktijk Video Obser- vatie7 0.62 0.76 0.93 In- cognito SPs8 0.61 0.76 0.82 0.86 Toets- Tijd in Hours 1 2 4 8 MCQ1 0.62 0.76 0.93 Simu- laties1 0.36 0.53 0.69 0.82 Mon- de- ling3 0.50 0.69 0.82 0.90 Patient examen4 0.60 0.75 0.86 0.90 OSCE5 0.54 0.69 0.82 0.90 1Norcini et al., 1985 2Stalenhoef-Halling et al., 1990 3Swanson, 1987 4Wass et al., 2001 5Van der Vleuten, 1988 6Norcini et al., 1999 7Ram et al., 1999 8Gorter, 2002
Inzichten over betrouwbaarheid Acceptabele betrouwbaarheid wordt slechts bereikt bij een grote steekproef aan toetselementen en beoordelaars Geen enkele methode is inherent beter dan een andere (ook de nieuwere niet!) Objectiviteit is NIET gelijk aan betrouwbaarheid Vele onafhankelijke subjectieve oordelen maken een objectief oordeel. Dus random error kan dmv steekproeftrekking worden bestreden. Belangrijk inzicht voor niet gestandaardiseerde technologie
Onderwijsinvloeden: Hoe stuurt toetsing het leren? Sturing is complex (zie Cilliers, 2011, 2012) Veel negatieve invloeden Povere leerstijlen Cijferproblematiek (zesjes cultuur, genade-zes, jagen op punten) Hoge werkplekbeoordelingen Veel reductionisme in toetsing Weinig feedback (cijfer is slechte vorm van feedback) Toetsconcept niet aansluitend op onderwijsconcept Aggregatie van informatie over niet betekenisvolle eenheden Weinig longitudinale opvolging Veel vinken, weinig vonken (OSCE, werkplekbeoordelingen). Toetsconcept gericht op beheersingsleren en herkansing, niet op ontwikkeling, remediering, en opvolging Vinken en vonken: noem stationsexamen, en rituele beoordelingen op werkplek. Hoe het reductionsime te bestrijden?
Inzichten over onderwijsgevolgen Geen enkele toets of beoordeling zonder betekenisvolle feedback Narratieve feedback heeft meer impact dan scores op complexe vaardigheden Feedback alleen is niet genoeg voor gebruik Meer longitudinale beoordeling is wenselijk. Eindigen dat dit een aantal lessen geleerd zijn uit de praktijk die onderzoeksmatig zijn onderbouwd. Dit was een reis van praktijk naar onderzoek. Maar nu maken we een stap verder.
Overzicht Van onderzoek naar theorie Van praktijk naar onderzoek Van theorie naar praktijk Conclusies
De beperkingen van de enkelvoudige toetsbenadering Geen enkele toets kan alles Elke toets heeft beperkingen Elke toets houdt een fors compromis in
Toetsprogramma’s Implicaties Validiteit: een veelheid aan toetsen nodig Betrouwbaarheid: veel (gecombineerde) informatie nodig Onderwijsgevolgen: toetsing moeten (longitudinaal) betekenisvol voor het leren zijn Implicaties van onderzoek uit betrouwbaarheid, onderwijsgevolgen Toetsprogramma’s
Toetsprogramma’s Curriculum programma is goede metafoor; in een toetsprogramma zijn: Onderdelen gepland, gearrangeerd, gecoördineerd Systematisch geëvalueerd en bijgesteld Maar hoe doe je dat dan? (de literatuur biedt bitter weinig houvast!) Implicaties van onderzoek uit betrouwbaarheid, onderwijsgevolgen
Toetsprogramma’s Zie Dijkstra et al 2012: 73 generieke richtlijnen voor toetsprogramma’s Nog te doen: Verdere validering Een handzaam (zelfevaluatie) instrument Generiek geformuleerd
Bouwstenen Toetsprogramma’s 1 Elke toets of beoordeling is één datapunt (Δ) Elk datapunt is geoptimaliseerd voor leren Informatierijk (kwantitatief, kwalitatief) Betekenisvol Gevarieerd in vorm Summatief versus formatief vervangen we door een continuüm van wat er op het spel staat (stakes) N datapunten zijn gerelateerd aan aard van beslissing
Voortgangsbeslissingen: Continuüm van wat er op spel staat, relatie met datapunten en hun functie Er staat niets op spel alles op spel Eén datapunt: Gericht op informatie, feedback Tussentijdse Voortgangsbeslissingen: Meer datapunten nodig Gericht op diagnose, bijsturing en voorspelling Finale Beslissingen: Veel datapunten nodig Gericht op een (niet verassende) zware beslissing
Toetsinformatie als pixels
Klassieke benadering van aggregatie Methode 1 voor beoordeling van vaardigheid A Σ Methode 2 voor beoordeling van vaardigheid B Σ Methode 3 voor beoordeling van vaardigheid C Σ Methode 4 voor beoordeling van vaardigheid D Σ
Betekenisvolle benadering van aggregatie Competentie A Competentie B Competentie C Competentie D Methode 1 Methode 2 Methode 3 Methode 4 Σ Σ Σ Σ
Uitgewerkt in een theoretisch model waarin alle onderdelen consistent verwerkt zijn. Niet mee vermoeien. Model is generiek: zowel voor theoretisch onderwijs (schoolbanken) als in de praktijk (bv vervolgopleidingen)
Overzicht Van theorie naar praktijk Van praktijk naar onderzoek Van onderzoek naar theorie Van theorie naar praktijk Conclusies Laten we nu terug gaan van theorie naar praktijk
Terug van theorie naar praktijk Bestaande toetspraktijken: Master Diergeneeskunde Utrecht AKO, graduate entry geneeskunde Maastricht Jaar 6 geneeskunde Maastricht (later hele Master) Huisartsopleiding Nederland Sommige specialistenopleidingen zijn hard op weg Cleveland Learner Clinic, Cleveland, Ohio
Cleveland Clinic Lerner College of Medicine (Dannefer et al., 2007) 5 jarige opleiding arts/klinisch onderzoeker Overkoepelende competententiestructuur Beschreven standaarden per fase van de studie Alle toetsing formatief en infomatief Wekelijkse casustoetsing met open vragen, geen grades maar feedback Veel docent en peer evaluaties in narratieve vorm Werkplekbeoordelingen OSCEs
Competentie framework Research Medical Knowledge in the Basic and Clinical Sciences Communication Professionalism Personal Development Clinical Skills Clinical Reasoning Health Care Systems Reflective Practice
Voorbeeld van standaarden Competency Year 1 Year 2 Year 5 Research Demonstrate knowledge base for basic and clinical research, skills set to conceptualize and conduct research Demonstrates ability to critically review basic science research Actively participates in the performance of laboratory procedures relevant to their basic science research Demonstrates ability to critically review clinical research papers Applies principles and skills in medical biostatistics and clinical epdidemiology to analysis of data Analyzes and effecitively critiques a broad range of research papers Demonstrates the ability to generate research a hypothesis and formulate questions to test it Designs and performs studies to test a hypothesis Niet alles, er zijn meer criteria beschreven
Cleveland Clinic Lerner College of Medicine (Dannefer et al., 2007) Alle infomatie in een centraal webgebaseerd systeem Mentor systeem met longitudinale opvolging, gesprekken op basis van zelfanalyses Voortgangsbeslissingen door onafhankelijke commissie met zware procedures voor besluitvorming Zeggen waar Maastricht afwijkt; vgt
establish trustworthiness Criteria Potentiele Toepassingen in Toetsing Strategy to establish trustworthiness Criteria Potentiele Toepassingen in Toetsing Credibility Prolonged engagement Trainen van beoordelaars Triangulation Toenemende inschakeling van experts op basis van mate van zekerheid over het oordeel Peer examination Benchmarken beoordelaars Member checking Incorporeer een zelf-oordeel van de lerende Structural coherence Controle op inconsistenties in besluitvorming Transferability Time sampling Gebruik van veel datapunten Thick description Gemotiveerde besluitvorming Dependability Stepwise replication Grootte van de commissie bestaande uit gerespecteerde leden Confirmability Audit Creëer beroepsmogelijkheid Vertel over onze portfoliobeoordeling
Cleveland Clinic Lerner College of Medicine (Dannefer et al., 2007) Alle infomatie in een centraal webgebaseerd systeem Mentor systeem met longitudinale opvolging, gesprekken op basis van zelfanalyses Voortgangsbeslissingen door onafhankelijke commissie met zware procedures voor besluitvorming Zeggen waar Maastricht afwijkt; vgt
Cleveland Clinic Lerner College of Medicine Opbrengsten: Studenten passen zich probleemloos aan na de “test-cultuur” waaraan ze gewend zijn Hoog presterende studenten (USMLE) Studenten zijn de ambassadeurs geworden van het systeem en waarderen: De rijkheid van het systeem Het aandacht bieden aan brede vaardigheden De zelf-controle De begeleiding
Overzicht Conclusies Van praktijk naar onderzoek Van onderzoek naar theorie Van theorie naar praktijk Conclusies 30 jarige reis: Confrontatie tussen onderwijs/toetspraktijk en wetenschappelijk onderzoek Voor mij komen daar consistenties en inzichten uit, een verhaal, een theorie zo u wilt
Conclusies 1 We moeten af van het exclusief denken in individuele toetsmethoden Een systemische, programmatische aanpak is daarvoor noodzakelijk, longitudinaal gericht Elke toetsmethode kan hierin functioneel zijn (oud en nieuw; gestandaardiseerd en ongestandaardiseerd) Professionele oordeelsvorming is onontbeerlijk (vergelijkbaar aan de klinische praktijk) Subjectiviteit wordt gepareerd met sampling en met procedurele maatregelen (en niet met standaardisering of objectivering) Minder psyschometrich, meer onderwijskundig
Conclusies 2 Het toetsprogramma optimaliseert: De leerfunctie (door informatierijkheid) De beslisfunctie (door combinatie van informatie) Nu nog van praktijk naar onderzoek
Dank voor uw aandacht! www.fdg.unimaas.nl/educ/cees/nvmo Deze Powerpoint: www.fdg.unimaas.nl/educ/cees/nvmo Dank voor uw aandacht!