Interpretatie van statistiek bij toetsen en toetsvragen

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Expertmodule 3 Toetsanalyse / UT S&O en DAAD onderwijsadvies
Screening van toetsen: Psychometrische analyse
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
Uitwerken van een Wiskundige In- en UitStapToets en een Individuele Leerlijn bij toekomstige leerkrachten lager onderwijs uniform voor al de lerarenopleidingen.
Toetsen van verschillen tussen twee of meer groepen
Aan de hand van de volgende dia’s laten wij u zien hoe een computerprogramma, geheel automatisch, uit een opgavenbank een toets samenstelt die zo goed.
Statistiek II Deel 1.
VOORSTELLING WILLEM VAN RAVENSTEIN 56 jaar 25 jaar onderwijs… HML lerarenopleiding sinds 2011 terug…
Exact competentie gericht.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Levensvragen Over geluk…..
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Toetsen en leerlijnen in nieuwe scheikunde
P-waarde versus betrouwbaarheidsinterval
Studiedag ‘Diversifiëren van evaluatiemethoden’ 5 juni 2008
Over examenpunten, cesuur, normconstantie, etc. Gert Storms
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Gegevensverwerving en verwerking
Meervoudige lineaire regressie
Portfolio
Hoofdstuk 9 Verbanden, correlatie en regressie
Statistiek voor Historici
Aanvullende vragen Collegesheets M&S3
Kwaliteit door een zelf regulerend proces, ondersteunend en motiverend
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
S.O.R. Strategische Oriëntatie Ronde
Workshop inhoud en beleid
Toetsen & Toetsen 16 november Toetsen & Beoordelen Na deze ochtend 1- Weet je wat een effectieve en gefundeerde toetsconstructie is 2- Weet je.
Presentatie UKB Digitale Toets informatievaardigheden Marjolein Drent en Bert Boxem Bibliotheek & Archief, Universiteit Twente.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Betrouwbaarheid.
Partiële r² Predictie van y gebaseerd op z alleen
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
Niveautoetsen.
De oplossing optellen oefenen doorwerken verbeteren de oefening het huiswerk verkeerd.
Normeringsdilemma’s normering van de centrale examens
Obs Nicolaas Beets informatieve bijeenkomst nieuwe Cito-normering
Baarde en de goede Hoofdstuk 11: Data-analyse
11 december DTL: een eerste concept Een aanzet Han Smolenaars Marieke Reijken.
Het verschil tussen telefoon en . Telefoon Telefoon is het communicatiemiddel waarmee je elkaar met een telefoon kan oproepen en zo met iemand kan.
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
RTTI – kennismaking en ervaring
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
De repetitie is nagekeken… Hoe analyseer je de resultaten en zet je die om in actie? Utrecht,16 februari 2016 J.C. van der Net.
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
1 Hoe goed rekent zuster Bregje? Een onderzoek naar de rekenvaardigheid van verpleegkundigen in Nederland. NVE-congres, 17 november 2011 Gerard J.J.M.
Marktonderzoek © 2011 | Noordhoff Uitgevers bv H 10 onderzoek met vragenlijsten.
Expertiseteam Toetsenbank Digitaal toetsen Alex van Essen Prinsentuin College 15 november 2011.
Programma van de workshop De test Toetsvragen maken, bespreken. (niveau, vraagvorm, moeilijkheidsgraad etc) en plenair kort rapporteren Het proces Redactie,vakcommissie,taalcorrectie,
Van papieren naar digitale tentamens Angela Peters, stafmedewerker toetsing, IOO 16 oktober 2014.
Toetsing: het hart van onderwijs! 16 april 2013 Karen Heij.
De Rekenscan van Rekenblokken
Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen.
Print & Scan Wat kan ik leren uit print & scan analyses over mijn meerkeuzeexamen? Lisa De Jonghe O 2 : dienst Onderwijs Ondersteuning.
Week 5 te doen: Bespreken Hst 4. Bespreken artikel ‘Norm Referenced Achievement Tests Vragen stellen (maken) over ‘Anders Evalueren’ Huiswerk.
Wat zegt een steekproef?
Analyse en advies toepassen overgangsmaatregel
ETUDE Toetsservicesysteem
Informatie voor de scholingsgroepen Hogeschool Inholland
Het online opzetten, afnemen, beoordelen en verwerken van toetsen
Kwaliteitszorg Onderwijs GW dr
HOGE RAAD VOOR DE JUSTITIE | CONSEIL SUPERIEUR DE LA JUSTICE
Om de PowerPoint te starten:
Les 3 Lezen 4.2, 4.3 en 4.4.
Toetsen van verschillen tussen twee of meer groepen
Hoe gaat de normering? Introductie voor examensecretarissen
Transcript van de presentatie:

Interpretatie van statistiek bij toetsen en toetsvragen Dato N. M. de Gruijter ICLON, universiteit Leiden Egel-gebruikersdag 31 januari 2003

Nut/noodzaak psychometrische analyse aantal kwaliteitsaspecten van een toets ook beoordelen met een getalsmatige analyse van de antwoorden Sommige methoden voor de bepaling van de cesuur voldoende/onvoldoende maken gebruik van psychometrische gegevens Hoe komen wij er aan? standaardpakket voor de verwerking van tentamens geeft nuttige gegevens sommige gegevens te berekenen met spreadsheet

Gegeven tentamen: elke student krijgt dezelfde vragen Gegevensrechthoek maken met beoordeling vragen per student Totaalscore per student: som van de beoordelingen Item- en toetsgegevens M/Mmax, de gemiddelde score gedeeld door de maximale score = p-waarde bij meerkeuze item-totaalcorrelatie rit item-restcorrelatie rir schatting van de betrouwbaarheid: coëfficiënt 

Betrouwbaarheid geeft aan hoe nauwkeurig wij onderscheid kunnen maken tussen studenten waarde van de betrouwbaarheid ligt tussen 0 en 1 betrouwbaarheid kan opgevat worden als de correlatie tussen de toetsuitslagen en de toetsuitslagen van een hypothetische tweede toets Hoge betrouwbaarheid wil niet zeggen dat de toets de studenten goed op relevante verschillen onderscheidt, een kwestie van validiteit, maar is wel een noodzakelijke voorwaarde voor deze validiteit

Betrouwbaarheid als correlatie tussen twee vergelijkbare toetsen (correlatie = 0.80)

Schatting betrouwbaarheid o.a. coëfficiënt  items die met 1 (goed) en 0 (fout): te herschrijven als KR20 betrouwbaarheidschatting geeft geen indicatie van de nauwkeurigheid beslissingen over zakken en slagen (geeft o.a. niet aan of een toets te moeilijk of te gemakkelijk is)

ItemIndices Kwaliteit toets gebaseerd op kwaliteit afzonderlijke items moeilijkheidsgraad (gemakkelijkheid): p-waarde of, algemener M/Mmax. Items moeten niet te moeilijk/gemakkelijk zijn: moeten passen bij het niveau van de kandidaten discriminatie-index: items moeten goed onderscheid maken tussen goede en slechte studenten gecorrigeerde item-totaalcorrelatie rir

Itemindices gebruiken als 'vlaggetjes': Afwijkende waarden geven een signaal dat er met een vraag iets mis kan zijn Signaal moeten wij serieuzer nemen als de groep tentamenkandidaten groot is Itemindices zijn groepsafhankelijk: vraag die bij een regulier tentamen goed wordt gemaakt wordt door herkansers slecht gemaakt

Als indices aangeven dat er iets raars aan de hand is: vraag opnieuw bekijken eventueel collega raadplegen nota nemen van reacties studenten voorbeelden van mogelijke oorzaken en acties: verkeerde sleutel was opgegeven scoring en analyse opnieuw afleider (eigenlijk) ook goed antwoord ook goed rekenen vraag te moeilijk, stof niet behandeld, oorzaak resultaat onbekend niets veranderen, vraag niet meetellen en zonodig cesuur aanpassen, alleen cesuur aanpassen PS: laten vallen vraag moet zorgvuldig overwogen worden aangezien studenten die de vraag goed hadden beantwoord relatief in het nadeel zijn men kan besluiten om niets te doen, bijvoorbeeld omdat de informatie onbetrouwbaar is (kleine groep studenten)

Andere aanbiedingsmethoden Verschillende studenten doen verschillende toetsen is gebruikelijk als je aan herkansingen denkt is mogelijk bij computeraanbieding van toetsen, zelfs op hetzelfde tijdstip heeft dan als voordeel dat geheimhouding vragen gemakkelijker te realiseren is is goed te verdedigen als de stof door elke steekproef van vragen goed wordt bestreken ook al maakt het de vergelijking tussen studenten die op hetzelfde tijdstip tentamen doen onnauwkeuriger CAT, computer-adaptief testen