Screening van toetsen: Psychometrische analyse

Slides:



Advertisements
Verwante presentaties
Haal meer uit de toetsen met ParnasSys
Advertisements

Expertmodule 3 Toetsanalyse / UT S&O en DAAD onderwijsadvies
Uitwerken van een Wiskundige In- en UitStapToets en een Individuele Leerlijn bij toekomstige leerkrachten lager onderwijs uniform voor al de lerarenopleidingen.
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Betrouwbaarheid van Competentie Assessments
Statistiek II Deel 1.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Toetskwaliteit LAW onderwijsmiddag Leendert van Gastel, Amstel Instituut 24 mei 2005.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Challenge the future Delft University of Technology Platform wars for smart grids Met subkop Andreas Ligtvoet en Geerten van de Kaa 4 e valorisatieworkshop.
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Werkpakket 5: Evaluaties Dirk Tempelaar. Werkpakket 5: Evaluaties Activiteiten Werkpakket 5 Aansluitmonitoren Wiskunde, Statistiek, …. Kwaliteitsonderzoek.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Over examenpunten, cesuur, normconstantie, etc. Gert Storms
Evaluatie en toetsing: examens met open vragen (corrigeren/scoringssleutels) PSY ZAP-dag III
Verandering van persoonlijkheidstypen & angst gedurende de adolescentie. Joyce Akse, Rutger Engels, Quinten Raaijmakers, Wim Meeus & William Hale Josje.
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Meervoudige lineaire regressie
Oefeningen F-toetsen ANOVA.
Werkbijeenkomst Leerdoelen & Toetsing Bijeenkomst in het kader van de accreditatie / zelfevaluatie IO en IDE 23 mei 2013.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
Aanvullende vragen Collegesheets M&S3
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Kwaliteit door een zelf regulerend proces, ondersteunend en motiverend
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
Toetsen in ESIS.
Kinesiofobie bij lage-rugpijn: kan het eenvoudig en toch ‘’evidence-based? Prof.dr. Rob Oostendorp, Nancy Demolon MSc, Olaf van der Zanden MSc, Prof dr.
Het Patiëntveiligheidprogramma GGZ 2008 – 2011, Wat is precies ontwikkeld? *de opbrengsten van het landelijk programma *de waarde voor de praktijk.
indicator op basis van niveau-indicaties
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Werken op de Muiswerkmanier. Onderzoek toont aan Didactische mode.
Presentatie UKB Digitale Toets informatievaardigheden Marjolein Drent en Bert Boxem Bibliotheek & Archief, Universiteit Twente.
Interpretatie van statistiek bij toetsen en toetsvragen
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Validiteit.
HELDER ZICHT OP HET KIND EN DE RESULTATEN
Professionalisering Medewerkers
Niveautoetsen.
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Normeringsdilemma’s normering van de centrale examens
Antecedenten en gevolgen van baanonzekerheid in Vlaanderen tussen 1996 en 2007: risicogroepen i.f.v. de economische conjunctuur Hans De Witte & Carissa.
11 december DTL: een eerste concept Een aanzet Han Smolenaars Marieke Reijken.
1 BUE Middenkader 2003 Een eerste verkenning van de resultaten.
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
AOS docentonderzoek bijeenkomst 9 Analyseren. Analyseren van data verzamelde data analyse resultaten conclusies Doel: ordenen van data om antwoord op.
Expertiseteam Toetsenbank Digitaal toetsen Alex van Essen Prinsentuin College 15 november 2011.
Programma van de workshop De test Toetsvragen maken, bespreken. (niveau, vraagvorm, moeilijkheidsgraad etc) en plenair kort rapporteren Het proces Redactie,vakcommissie,taalcorrectie,
Toetsing: het hart van onderwijs! 16 april 2013 Karen Heij.
De Rekenscan van Rekenblokken
Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen.
Toetsen en beoordelen Toetsen Overzicht hoofdstuk 5
Print & Scan Wat kan ik leren uit print & scan analyses over mijn meerkeuzeexamen? Lisa De Jonghe O 2 : dienst Onderwijs Ondersteuning.
1 Toetsontwikkeling en kwaliteit AOC-raad presentatie Silvester Draaijer (Onderwijscentrum VU)
Week 5 te doen: Bespreken Hst 4. Bespreken artikel ‘Norm Referenced Achievement Tests Vragen stellen (maken) over ‘Anders Evalueren’ Huiswerk.
Openstaande discussies B&I
Toetsen? Doe het zelf!.
Het opzetten van een VVE-monitor
Informatie voor de scholingsgroepen Hogeschool Inholland
Kwaliteitszorg Onderwijs GW dr
Uitsplitsing cijfer beoordeling eigen kookkunsten & inschatting kookkunsten gemiddelde Nederlander.
Toetsen van verschillen tussen twee of meer groepen
Toetsvoorbereiding – toets 1
Evalueren om te leren vs. evalueren van het leren
iL 19: De evolutie van toetsing bij biologie
Onderwijskunde en vakdidactiek
Acceptance and Action Questionnaire
Transcript van de presentatie:

Screening van toetsen: Psychometrische analyse Peter de Vries Examencommissie Psy/MPS 23 maart 2011

Psychometrische analyse Toets: bepalen welke studenten de stof beheersen en welke niet (summatieve functie). Representativiteit en validiteit: vooraf te bepalen m.b.v. o.m. toetsmatrijs Naderhand: psychometrische analyses Moeilijkheid van de vragen Onderscheidingsvermogen van de vragen Betrouwbaarheid van de toets

Psychometrische analyse Bij afwijken van “de norm”: inhoud van de vraag opnieuw bestuderen, eventueel “reparatie”: Item achteraf uit de toets verwijderen Item verwijderen en score aanpassen Modelantwoord wijzigen NB: Psychometrische normen en uitkomsten vormen indicaties!

Vraagmoeilijkheid : p-waarde Open vraag: p-waarde = gemiddelde score op een vraag (proportie) Lage p-waarde: zeer moeilijke vraag Hoge p-waarde: zeer makkelijke vraag Idealiter: gemiddelde moeilijkheid, p = 0,5 P-waarde gesloten toetsvraag: proportie correct beantwoord. Idealiter: p-waarde ligt midden tussen de maximale p-waarde (1) en gokkans.

Vraagmoeilijkheid : p-waarde Overzicht normen voor p-waarden bij (summatieve) toetsen Soort toetsvraag “Norm” voor de p-waarde Open (OV) 0,50 Gesloten (MC) 2 alternatieven 3 alternatieven 4 alternatieven 5 alternatieven 0,75 0,68 0,63 0,60

Onderscheidingsvermogen: item-testcorelatie of item-restcorrelatie Toetsvragen moeten onderscheid maken tussen studenten met een hoge en lage eindscore (hoog- resp. laagscoorders)  wanneer hoogscoorders beter scoren op een vraag dan laagscoorders, is er sprake van een positieve correlatie tussen item- en totaalscore.  item-testcorrelatie; bij minder dan 25 vragen item-restcorrelatie [bij gebruik van SPSS is item-restcorrelaties aan te bevelen ongeacht aantal vragen] NB: Stabiliteit item-testcorrelatie afhankelijk van aantal toetsdeelnemers; wanneer <50 dan item-testcorrelatie voorzichtig interpreteren!

Onderscheidingsvermogen: item-testcorelatie of item-restcorrelatie Overzicht normen voor het onderscheidingsvermogen (item-testcorrelatie) Gevonden waarden Kwalificatie 0,35 en hoger 0,25 - 0,35 0,15 - 0,25 Minder dan 0,15 Goed/zeer goed Voldoende/goed Middelmatig/voldoende Slecht/middelmatig

Betrouwbaarheid toets: Cronbach’s α Cronbach’s α: stabiliteit/consistentie toets o.b.v. enkele afname Normwaarden betrouwbaarheid toets 0,90 en hoger  zeer goed 0,80 - 0,90  voldoende/goed 0,70 - 0,80  middelmatig/voldoende Minder dan 0,70  slecht/middelmatig I.h.a. zijn betrouwbaarheden lager dan 0,60 niet acceptabel. Echter: Psychometrische gegevens, en dus ook betrouwbaarheidsscores, zijn ter indicatie Lage aantallen items of studenten hebben een negatieve invloed.

Reparatiemogelijkheden Mogelijkheden om psychometrische kwaliteit te verhogen op basis van lage p-waarden en item-testcorrelaties: Vraag anders sleutelen Antwoordopties herzien (als daar reden toe is) Vraag verwijderen Verbetering van vragen “meenemen voor een volgend tentamen”

Reparatiemogelijkheden Indien Cronbach’s α kleiner dan 0,70: Risico op te veel onjuiste zak/slaagbeslissingen Mogelijk negatieve item-testcorrelaties Reparatie: Vraag uit toets verwijderen (als daar inhoudelijk gezien aanleiding toe is) Betrouwbaarheidsanalyse op subsets van items: bijv. op alle kennisvragen, inzichtvragen, en toepassingsvragen (voor zover van toepassing); als deze afzonderlijke α’s wel voldoende hoog zijn is er geen probleem. Echter: kleiner aantal items heeft negatieve invloed op α ...

Reparatiemogelijkheden Indien Cronbach’s α tussen 0,70 en 0,80: Acceptabel indien gecompenseerd door andere toetsscore Verwijderen items met negatieve item-testcorrelatie Analyse op subsets uitvoeren.

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) 25 meerkeuze vragen, 6 open vragen (weging 40 : 60) Gemiddelde cijfer: 7,05 (SD = 1,51) Aantal studenten: 17 (klein, want < 50) 3 onvoldoendes (≈ 18 %)  wellicht wat aan de makkelijke kant… Cijferverdeling:

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) 2 sets psychometrische analyses, voor MC en OV. Bewerking: 0 of 1 punt voor MCvragen: voor OV ligt score tussen 0 en 1 Invoeren in SPSS.

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) Run SPSS-syntax: RELIABILITY /VARIABLES=MC1 MC2 MC3 MC4 MC5 MC6 MC7 MC8 MC9 MC10 MC11 MC12 MC13 MC14 MC15 MC16 MC17 MC18 MC19 MC20 MC21 MC22 MC23 MC24 MC25 /SCALE('Meerkeuzevragen') ALL /MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR /SUMMARY=TOTAL. /VARIABLES=OV1 OV2 OV3 OV4 OV5 OV6 /SCALE('Open Vragen') ALL Voordeel: deze syntax levert niet alleen Cronbach’s α, maar ook p-waarden en item-restcorrelaties

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) p-waarden α (is wat laag …) Output open vragen: Item-restcorrelaties α als 1 van de items verwijderd zou worden

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) Output meerkeuzevragen: α (is wederom laag …) p-waarde = 1 voor vragen 1, 11, 14, en 16; deze worden daarom niet meegenomen. p-waarden zijn gespreid

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) Output meerkeuzevragen: Item-restcorrelaties laten een aantal lage waarden zien… α springt naar 0,66 als dit item verwijderd zou worden; inspectie van de vraag geeft ook aanleiding daartoe… …maar deze is wel erg laag…

Voorbeeld: Tentamen Relatiemanagement & Consumentenvertrouwen (2010) Verwijdering van MC25 is op inhoudelijke gronden verdedigbaar. Herhaling van de analyses levert de volgende gegevens (α = 0,66): α zou nog verder verhoogd kunnen worden, maar is er wel iets mis met deze vraag? En blijven er wel voldoende items over?

Tot slot Niet onbelangrijk: Psychometrische gegevens zijn slechts ter indicatie Lage aantallen items hebben een negatieve invloed op de analyses Idem voor lage aantallen studenten Psychometrisch analyseren betekent vaak kiezen tussen twee kwaden; verwijdering van items kan weliswaar tot betere analyseresultaten leiden, maar daardoor kan ook bijv. de representativiteit in het gedrang komen…

Vragen?