Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen.

Slides:



Advertisements
Verwante presentaties
Wat Voorstellen Beperkte inleiding toetsen in Wat maakt oefentoetsen leuker dan Facebook Toetsen maken Mijn fouten.
Advertisements

Expertmodule 3 Toetsanalyse / UT S&O en DAAD onderwijsadvies
Screening van toetsen: Psychometrische analyse
Digitale toetsen op afstand Bregatha de Gooijer
Uitwerken van een Wiskundige In- en UitStapToets en een Individuele Leerlijn bij toekomstige leerkrachten lager onderwijs uniform voor al de lerarenopleidingen.
Toetskwaliteit LAW onderwijsmiddag Leendert van Gastel, Amstel Instituut 24 mei 2005.
KNAG Onderwijsdag Het belang van goede schoolexamens.
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Toetsen en leerlijnen in nieuwe scheikunde
SETQ Systematic Evaluation Teaching Qualities
Studiedag ‘Diversifiëren van evaluatiemethoden’ 5 juni 2008
Bijeenkomst 8 Summatieve toetsing
Werkbijeenkomst Leerdoelen & Toetsing Bijeenkomst in het kader van de accreditatie / zelfevaluatie IO en IDE 23 mei 2013.
Kwaliteit door een zelf regulerend proces, ondersteunend en motiverend
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
Evaluatie examens LBB 2009 Vragenlijst en examenbespreking Deelnemers Groene leertraject.
Experts werkvorm + begrippentest
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Presentatie UKB Digitale Toets informatievaardigheden Marjolein Drent en Bert Boxem Bibliotheek & Archief, Universiteit Twente.
Interpretatie van statistiek bij toetsen en toetsvragen
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Betrouwbaarheid.
Validiteit.
Normeringsdilemma’s normering van de centrale examens
Baarde en de goede Hoofdstuk 11: Data-analyse
20 mei Symposium Statistical Auditing Slide 1 Wat zegt de COS over steekproeven en data-analyse? Paul van Batenburg.
De kwaliteit van het basisonderwijs in het Noorden
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
RTTI – kennismaking en ervaring
Het betrekken van studenten bij de toetscyclus
Week 2 : Ontwikkelingspsychologie, Liesbeth van Beemen:
Pemprl.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
De repetitie is nagekeken… Hoe analyseer je de resultaten en zet je die om in actie? Utrecht,16 februari 2016 J.C. van der Net.
Het examen economie en ondernemen under construction Naar een ‘nieuw’ cspe Suzanne van der Horst Tom Erkens.
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
Expertiseteam Toetsenbank 1. Doel van vragen stellen 2. Welke soorten vragen zijn er 3. Veel voorkomende fouten 4. Zelf een vraag maken 5. Zelf een vraag.
Meten is weten? Do’s en don’ts van mondeling examineren Lisa De Jonghe Dienst Onderwijs Geneeskunde.
Expertiseteam Toetsenbank Digitaal toetsen Alex van Essen Prinsentuin College 15 november 2011.
Programma van de workshop De test Toetsvragen maken, bespreken. (niveau, vraagvorm, moeilijkheidsgraad etc) en plenair kort rapporteren Het proces Redactie,vakcommissie,taalcorrectie,
Van papieren naar digitale tentamens Angela Peters, stafmedewerker toetsing, IOO 16 oktober 2014.
Toetsing: het hart van onderwijs! 16 april 2013 Karen Heij.
De Rekenscan van Rekenblokken
Toetsen en beoordelen Toetsen Overzicht hoofdstuk 5
Expertiseteam ToetsenbankCRETA 8 oktober 2012 Agnes de Boer (Cito), Marjan Versluis (Wellantcollege) en Alex van Essen (Toetsplaza)
1 Toetsontwikkeling en kwaliteit AOC-raad presentatie Silvester Draaijer (Onderwijscentrum VU)
Toetsing en toetsontwikkeling
Tevredenheidsonderzoek 2017
Bijeenkomst 1.2 Ellen van den Boomen
Vragen, wat voor vragen?.
Toetsen? Doe het zelf!.
Opbrengstgericht werken op het Bredero Lyceum
Van rapport naar portfolio
Toetsen: Samenstelling, Beoordeling en Analyse
ETUDE Toetsservicesysteem
Informatie voor de scholingsgroepen Hogeschool Inholland
Het online opzetten, afnemen, beoordelen en verwerken van toetsen
PowerPoint Taal Bijeenkomst 6: Evalueren op leerlingniveau
Kwaliteitszorg Onderwijs GW dr
Toelichting bij ''Backward designing'' uit de kennisbank
Toetsing Vakdidactiek 2.
PowerPoint Taal Bijeenkomst 6: Evalueren op leerlingniveau
Toetsvoorbereiding – toets 1
Evalueren om te leren vs. evalueren van het leren
Vakdidactiek EP 2 bijeenkomst 2
iL 19: De evolutie van toetsing bij biologie
Indoor Comfort Index Validatie van het meetinstrument
Onderwijskunde en vakdidactiek 2
Onderwijskunde en vakdidactiek
Transcript van de presentatie:

Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen

Toets- en itemanalyse Eerst een stukje over toetskwaliteit

Toetsen ►Een toets is een steekproef, een momentopname. ►Er kan van alles misgaan, hoeft niet aan de toets te liggen.

Toetsen - criteria Een goede toets is: ►Betrouwbaar ►Valide ►Bruikbaar

Toetsen – criteria: betrouwbaarheid ►Kwaliteit van toets zelf  Vragen eenduidig en goed geformuleerd (allerlei criteria)  Toets en toetsvragen moeten discrimineren (onderscheid tussen goede en zwakke leerlingen)  Voldoende aantal vragen ►Omstandigheden  Ruimte en rust  Beschikbaarheid hulpmiddelen  Beschikbare tijd ►Beoordeling resultaat (voorkomen van invloed door de beoordelaar)  Gesloten vragen met eenduidig antwoord  Open vragen met antwoordmodel Betrouwbaar = bij herhaalde afname onder dezelfde omstandigheden geeft een zelfde resultaat Betrouwbaar = bij herhaalde afname onder dezelfde omstandigheden geeft een zelfde resultaat

Betrouwbaarheid en cesuur raadscore cijfer 1 10 maximale scorecesuurscore Proportie leerlingen die slaagt. 0,0 (of 1,0) 5,5 (of 6,0) score

Toetsen – criteria: validiteit ►Begripsvaliditeit  Is de toets representatief voor de leerdoelen? ►Inhoudsvaliditeit  Is de toets representatief voor de leerstof? ►Criteriumvaliditeit  Heeft de toets een voorspellende waard? (met name van belang bij centrale examens, toelatingsexamens) Valide = meet wat je wilde weten

Toetsen – criteria: bruikbaarheid ►Is de toets doelmatig (efficient)?  De inspanningen (voorbereidingen, afname en beoordeling door docenten en leerlingen) moeten opwegen tegen de winst aan validiteit en betrouwbaarheid van de resultaten. ►Is de toets transparant?  Is direct duidelijk wat gevraagd wordt?  Goede instructie?  Nette lay-out?  Afname, waardering, correctie, bekendmakingen helder? Bruikbaarheid = mate van efficiency en doorzichtigheid van de toets Bruikbaarheid = mate van efficiency en doorzichtigheid van de toets

Toets(vragen) ontwikkelen ►Maak een analyse van de leerstof ►Maak een toetsmatrijs ►Bepaal welke wijze van toetsen het meest geschikt is ►Bepaal het soort vragen die het meest geschikt zijn (op onderdelen) ►Stel de vragen samen ►Stel de toets samen ►Bepaal de cesuur ►Toetsafname, analyseer, evalueer en stel bij

Toets(vragen) ontwikkelen ►Creatief proces ►Eerst grof, dan verfijnen ►Bijschaven ►Overleg en feedback zijn zeer belangrijk (laat collega’s, vakgenoten de toetsvragen afnemen)

Toets(vragen) ontwikkelen Wat is een goede vraag? ►Goede vragen ontlokken een ‘gericht’ denkproces ►Goede vragen maken onderscheid tussen leerlingen die de stof wel en die de stof niet begrijpen ►Goede vragen zijn in principe niet te moeilijk en niet te makkelijk ►Goede vragen stimuleren de leerling om zijn of haar best te doen

Toets- en itemanalyse Statistiek

Toets- en itemanalyse Statistische informatie (normen): (de belangrijkste) ►Itemanalyse  Vraagmoeilijkheid  P-waarde  A-waarde (afleiders)  Onderscheidingsvermogen  R it -waarde  D-waarde of D-index ►Toetsanalyse  Betrouwbaarheid  Cronbach’s Alpha (α) Normen dienen als indicatie. Met name de vragen die als “slecht” worden gekwalificeerd vereisen de aandacht. Normen dienen als indicatie. Met name de vragen die als “slecht” worden gekwalificeerd vereisen de aandacht. De aantallen resultaten moeten voldoende groot zijn. Hoe groter de aantallen, des te veelzeggender is de informatie. De aantallen resultaten moeten voldoende groot zijn. Hoe groter de aantallen, des te veelzeggender is de informatie.

Itemanalyse

Item-analyse: de P-waarde Wordt bepaald door het aandeel van de leerlingen die de vraag correct hebben beantwoord. ►Nummer tussen 0 en 1 ►Bijv. als 90 van 100 leerlingen de vraag goed hebben beantwoord  p-waarde is 0,90 ►> 0,90 te makkelijk < 0,10 te moeilijk van 0,25 – 0,85 zijn “goede” Gemiddelde “norm” bij een toets met MC4-vragen is 0,65 In QMP: P Value Proportion Correct

Item-analyse: de P-waarde - normen VraagvormOptimale P-waarde (Crocker & Algina) Optimale P-waarde (Lord) Open0,50 Gesloten2 alternatieven0,750,85 3 alternatieven0,680,77 4 alternatieven0,630,74 5 alternatieven0,600,70 Normen gelden voor het gemiddelde van een toets. Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met makkelijke vragen). Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte” leerlingen. Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede” leerlingen. Normen gelden voor het gemiddelde van een toets. Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met makkelijke vragen). Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte” leerlingen. Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede” leerlingen.

Item-analyse: de P-waarde – Formatieve toets ►Extreme P-waarden zijn meer interessant. ►Hoge p-waarden kunnen aangeven dat de eindterm van een onderdeel wordt beheerst. ►Lage P-waarden kunnen aangeven dat de leerlingen de eindtermen (nog) niet beheersen. Kan inzicht geven in de mate waarin leerlingen de eindtermen hebben behaald. Kan inzicht geven in de mate waarin leerlingen de eindtermen hebben behaald.

Item-analyse: de A-waarde Ratio van de afleider ►Nummer tussen 0 en 1 ►Goede afleiders : A-waarden allemaal ongeveer gelijk (allemaal even aantrekkelijk) A-waarde ideale afleider : (1 – P-waarde) / k (k=aantal alternatieven) ►Als A-waarde < 0,02 dan is deze niet goed Kan komen door slechte afleider, maar ook bijv. door ‘test-wiseness’. In QMP: Proportion Selected van de Outcomes

Item-analyse: de A-waarde Test-wiseness: ‘a subject’s capacity to utilize the characteristics and formats of the test and/or the test-taking situation to receive a high score’ (Millman e.a.) Test-wiseness: ‘a subject’s capacity to utilize the characteristics and formats of the test and/or the test-taking situation to receive a high score’ (Millman e.a.) Wat is het grootste voordeel van het gebruik van chroom in de productie van staal? Chroom maakt staal … a)Transparant. b)roestvrij. c)zwaar. d)flexibel.

Item-analyse: de A-waarde – Formatieve toets A-waarden kunnen inzicht geven in misvattingen die een leerling heeft over een bepaald onderwerp.

Item-analyse: de R it -waarde Verband tussen de vraagscore en de toetsscore. ►Hoge correlatie  leerlingen die hoog scoren bij de vraag scoren ook hoog bij de test ►Nummer tussen -1 en +1 In QMP: Item Total Discrimination

Item-analyse: de R it -waarde R it -waardeBetekenis < 0Slecht De hoogscoorders beantwoorden de vraag fout en de laagscoorders goed. Verwijderen of geheel aanpassen. ongeveer 0Geen verband te zien Verwijderen of geheel aanpassen. tussen 0 en 0,20Weinig verband - middelmatig tussen 0,20 en 0,30Gemiddeld verband - voldoende tussen 0,30 en 0,45Sterk verband - goed > 0,45Zeer sterk verband – zeer goed

Item-analyse: de D-waarde Onderscheid (discriminatie) t.o.v. hoge- en lage scoorders ►Hoe groter de discriminatie, des te beter meet de vraag wat je wilt weten ►Nummer tussen -1 en +1 In QMP: Item Discrimination

Item-analyse: de D-waarde D-waardeBetekenis < 0Slecht De laagscoorders scoren op zo’n vraag HOGER dan de hoogscoorders. Dus andersom dan wat je wilt. Waarom is de vraag. Hoogscoorders raken in de war? tussen 0 en 0,15Matig Afleiders niet goed? Verkeerd gesteld? tussen 0,15 en 0,30Redelijk tussen 0,30 en 0,50Goed discriminerend > 0,50Sterk discriminerend

Toetsanalyse

Toetsanalyse: Cronbach’s Alpha In hoeverre zijn de vragen betrouwbaar (t.o.v. elkaar), meten ze dezelfde zaken. Bij elke nieuw afgenomen toets weer? ►Hoge waarde  Hoge betrouwbaarheid ►Nummer tussen -1 en +1 In de literatuur kunnen de normen iets afwijken van elkaar.

Toetsanalyse: Cronbach’s Alpha WaardeKwalificatie < 0,65Slecht / middelmatig tussen 0,65 en 0,80Middelmatig / voldoende tussen 0,80 en 0,90Voldoende / goed > 0,90Goed / zeer goed WaardeKwalificatie < 0,60Onvoldoende tussen 0,60 en 0,80Voldoende / goed > 0,80Goed / zeer goed Summatieve toets: Formatieve toets:

Toetsanalyse: Cronbach’s Alpha - invloeden ►Hoe goed discrimineren de vragen? Bij meer goede discriminerende vragen een hogere α ►Er mogen niet teveel te makkelijke en te moeilijke vragen zitten in de toets. (te makkelijke en te moeilijke vragen discrimineren minder) ►Het aantal van de vragen heeft invloed. Bij meer vragen  hogere betrouwbaarheid. (heeft meer individuele meetpunten) ►Te weinig alternatieven bij de vragen (gokken) ►Aantal deelnemers  meer  hogere betrouwbaarheid. ►Onjuiste groep deelnemers

Toetsanalyse: Cronbach’s Alpha - invloeden ►Toetsinhoud. Verschillende domeinen, onderwerpen. In hoeverre hangen de vragen samen? Worden er teveel zaken gemeten? Opvangen door topicrapportage. ►Voortijdig afbreken of niet op tijd klaar komen of andere storingen ►(In)consistentie van ingestelde vraagscore ►Willekeurige vragen in toets ►Diversiteit in vraagtypen

Vragen ?