Interpretatie van statistiek bij toetsen en toetsvragen Dato N. M. de Gruijter ICLON, universiteit Leiden Egel-gebruikersdag 31 januari 2003
Nut/noodzaak psychometrische analyse aantal kwaliteitsaspecten van een toets ook beoordelen met een getalsmatige analyse van de antwoorden Sommige methoden voor de bepaling van de cesuur voldoende/onvoldoende maken gebruik van psychometrische gegevens Hoe komen wij er aan? standaardpakket voor de verwerking van tentamens geeft nuttige gegevens sommige gegevens te berekenen met spreadsheet
Gegeven tentamen: elke student krijgt dezelfde vragen Gegevensrechthoek maken met beoordeling vragen per student Totaalscore per student: som van de beoordelingen Item- en toetsgegevens M/Mmax, de gemiddelde score gedeeld door de maximale score = p-waarde bij meerkeuze item-totaalcorrelatie rit item-restcorrelatie rir schatting van de betrouwbaarheid: coëfficiënt
Betrouwbaarheid geeft aan hoe nauwkeurig wij onderscheid kunnen maken tussen studenten waarde van de betrouwbaarheid ligt tussen 0 en 1 betrouwbaarheid kan opgevat worden als de correlatie tussen de toetsuitslagen en de toetsuitslagen van een hypothetische tweede toets Hoge betrouwbaarheid wil niet zeggen dat de toets de studenten goed op relevante verschillen onderscheidt, een kwestie van validiteit, maar is wel een noodzakelijke voorwaarde voor deze validiteit
Betrouwbaarheid als correlatie tussen twee vergelijkbare toetsen (correlatie = 0.80)
Schatting betrouwbaarheid o.a. coëfficiënt items die met 1 (goed) en 0 (fout): te herschrijven als KR20 betrouwbaarheidschatting geeft geen indicatie van de nauwkeurigheid beslissingen over zakken en slagen (geeft o.a. niet aan of een toets te moeilijk of te gemakkelijk is)
ItemIndices Kwaliteit toets gebaseerd op kwaliteit afzonderlijke items moeilijkheidsgraad (gemakkelijkheid): p-waarde of, algemener M/Mmax. Items moeten niet te moeilijk/gemakkelijk zijn: moeten passen bij het niveau van de kandidaten discriminatie-index: items moeten goed onderscheid maken tussen goede en slechte studenten gecorrigeerde item-totaalcorrelatie rir
Itemindices gebruiken als 'vlaggetjes': Afwijkende waarden geven een signaal dat er met een vraag iets mis kan zijn Signaal moeten wij serieuzer nemen als de groep tentamenkandidaten groot is Itemindices zijn groepsafhankelijk: vraag die bij een regulier tentamen goed wordt gemaakt wordt door herkansers slecht gemaakt
Als indices aangeven dat er iets raars aan de hand is: vraag opnieuw bekijken eventueel collega raadplegen nota nemen van reacties studenten voorbeelden van mogelijke oorzaken en acties: verkeerde sleutel was opgegeven scoring en analyse opnieuw afleider (eigenlijk) ook goed antwoord ook goed rekenen vraag te moeilijk, stof niet behandeld, oorzaak resultaat onbekend niets veranderen, vraag niet meetellen en zonodig cesuur aanpassen, alleen cesuur aanpassen PS: laten vallen vraag moet zorgvuldig overwogen worden aangezien studenten die de vraag goed hadden beantwoord relatief in het nadeel zijn men kan besluiten om niets te doen, bijvoorbeeld omdat de informatie onbetrouwbaar is (kleine groep studenten)
Andere aanbiedingsmethoden Verschillende studenten doen verschillende toetsen is gebruikelijk als je aan herkansingen denkt is mogelijk bij computeraanbieding van toetsen, zelfs op hetzelfde tijdstip heeft dan als voordeel dat geheimhouding vragen gemakkelijker te realiseren is is goed te verdedigen als de stof door elke steekproef van vragen goed wordt bestreken ook al maakt het de vergelijking tussen studenten die op hetzelfde tijdstip tentamen doen onnauwkeuriger CAT, computer-adaptief testen