18-5-2011 Samantha Bouwmeester Testtheorie College 8 18-5-2011 Samantha Bouwmeester
Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning, DIF) Welk van onderstaande alternatieven is een voorbeeld van een criterium-referenced test? De bloktoets van 1.4 De VGT De DAT De WISC Bij vraagonzuiverheid doet de vraag beroep op nog een andere dan te meten psychologische eigenschap! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde q uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 2
Voorbeeld vraagonzuiverheid: Welk van onderstaande alternatieven is een voorbeeld van een criterium-referenced test? De bloktoets van 1.4 De VGT De DAT De WISC UVT studenten EUR studenten Psychologie studenten van de EUR en de UVT met dezelfde θ hebben niet dezelfde kans om het item correct te beantwoorden. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! In dit voorbeeld: Studenten aan de EUR kunnen een hogere gemiddelde score hebben op dit item dan de UVT studenten terwijl de IRF hetzelfde is. 3
Nog even MHM en errorbars… Het gemiddelde geeft de proportie mensen weer die vraag 17 correct heeft beantwoord. Mean Errorbar: Het 95% BI van de gemiddelde score in groep 1. Mean ± 1.96×SE Scoregroep
En DMM en errorbars… Mean Scoregroep vraag 18 Eis is: items mogen niet snijden (in de populatie) Maar: Items mogen wel raken! In de steekproef hebben we steekproef variantie en daarom snijden items som “toevallig” Een snijding met twee niet-overlappende 95% BI’s is significant! Scoregroep 5
En dan nog even de testinfomatiefunctie… = 0.6 = 0.55 0.25 0.25 0.25 + + 0.2 0.1 0.1
Hoofdstuk 5: Corrigeren voor gokken bij MC vragen? Toevalscorrectie 4 keuze - items X 1 2 3 4 5 6 7 8 9 10 Weet je antwoord? ja nee Eerlijk antwoord 1 6 Verwacht antwoord 1 ¼ 7 In totaal 7 correcte antwoorden, dus 3 foute antwoorden. Kans op goed antwoord bij gokken: ¼ , kans op fout antwoord bij gokken: ¾ Dus “aantal fout” (3) is ¾ deel van het “totaal aantal gegokte antwoorden” Totaal aantal gegokte antwoorden = 3 / ¾ = 4 Er is dan dus 1 antwoord goed gegokt. De voor-gissen-gecorrigeerde (eerlijke?) score is dus: 7-1=6. In formulevorm:
Is de voor-gissen-gecorrigeerde score wel eerlijk? Eigenlijk is er geen scherp onderscheid te maken tussen wel en niet weten (ondercorrectie, overcorrectie) Er bestaat een kans op een fout antwoord, terwijl er niet is gegokt: dubbel gestraft... De variantie van de gecorrigeerde score is altijd groter dan die van de ongecorrigeerde score: S2(Xc) > S2(X). Hierdoor zal de betrouwbaarheid van de gecorrigeerde score hoger uitvallen, zonder dat er beter gemeten is… Xc is lineaire transformatie van X, dus r(Xc, X)= 1, en r(X, Y)= r(Xc,Y)
Bewerkte scores en normen ruwe score = de eerste score, zonder bewerking. Heeft weinig betekenis. 8 goed Van de hoeveel opgaven? Hoeveel goed voor een voldoende? Hoe verhoudt het zich t.o.v. de groep? Norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd op de kenmerken van de verdeling van de ruwe scores in een populatie NB: bewerkte score is nog geen norm! afhankelijk v.d. prestaties van anderen. afgezet tegen populatie 9
Drie soorten vergelijkingen: Een absolute standaard. Een referentiegroep. Een populatie. Een absolute standaard -> criterion referenced - vb. Bloktoets: 25 goed = 5.5. Niet afhankelijk van groepsgrootte Niet afhankelijk van scores anderen Niet afhankelijk van populatie Ruwe score Bewerkte score 0-24 0 (gezakt) 25-40 1 (geslaagd) 10
2. Met een referentiegroep -> norm-referenced Rangscores: de beste 3 Percentielscores: rangscore uitgedrukt in percentage: percentage respondenten uit de steekproef met een lagere of gelijke score. testscore f F p P Percentiel score 1 5 5-.5*5=2.5 2 12 17 17-.5*12=11 3 18 35 35-.5*18=26 4 8 43 43-.5*8=39 20 63 63-.5*20=53 6 22 85 85-.5*22=74 7 15 100 100-.5*15=92.5 11 n=100
Percentielscore bij score =3 Neem de cumulatieve score behorend bij score 3, en trek daar de helft van het aantal mensen met score 3 van af: 5+12+18-1/2 18 = 26 Maak hier een percentage van: n/100 12
Rationale lineaire interpolatie: Waarom dat gedoe met “ ½×f “ en niet gewoon F ? Rationale lineaire interpolatie: percentielscore = percentage mensen met score tot aan 3). Van de mensen met score 3 heeft ongeveer de helft een “echte” score tussen 2.5 en 3.0 en een helft heeft “echte”score tussen 3.0 en 3.5. We gaan er dus van uit dat er een continue lineaire schaal onder de discrete scores ligt. We nemen alleen de eerste helft mee voor de percentielscore van score 3. 13
SPSS doet het een beetje anders… Percentielscore: de gemiddelde rangscore van alle respondenten met de ruwe score n/100
NB. Het gemiddelde van Z is 0 en de SD is 1 (altijd!) 3. Uitgaande van een populatie. NB. Het gemiddelde van Z is 0 en de SD is 1 (altijd!) Afwijkingsscore geeft aan hoever de score van een persoon van het gemiddelde ligt. Z drukt uit hoeveel standaarddeviaties de score van een persoon van het gemiddelde ligt. Z is dus eigenlijk gestandaardiseerde afwijkingsscore Z is NIET per se normaal verdeeld!!
Z is een lineaire transformatie van X: Bij een lineaire transformatie blijft de vorm van de verdeling precies hetzelfde.
Genormaliseerde standaardscores : niet-lineaire transformatie, we “maken” de verdeling “zo normaal mogelijk”. Niet-lineaire transformaties wanneer een variabele scheef naar rechts is: Deze transformaties zorgen er allemaal voor dat grote waarden van X relatief wat minder groot worden ten opzichte van kleine waarden.
Ieder stukje bevat 10% van de populatie 20 30 40 50 60 70 80 90 Ieder stukje bevat 10% van de populatie percentielen Z 10 20 30 40 50 60 90 80 70 T=Z×10+50 30 55 70 85 100 115 170 155 130 IQ=Z×15+100 -1.75 -1.25 -.75 -.25 1.75 1.25 .75 .25 2 1 3 4 5 6 7 8 9 Stanines
Verdeling percentielscores Ieder percentiel bevat 10% van de scores. Daarom is de verdeling van de percentielscores altijd rechthoekig!
Als X normaal verdeeld is, dan kun je de kans op een score van X of hoger/lager opzoeken in de tabel, of door spss laten berekenen. Cdf.normal(Zscore,0,1) 20
Als de verdeling normaal is, en n is groot, dan p(Z) is gelijk aan percentielscore / 100 Kans op een score van 8 of lager? P(X≤8) Volgens normale verdeling: .76 Volgens percentielscore/100 ook .76 76% 2 3 4 5 6 7 9 10 11 X
Als verdeling is niet normaal is, dan kun je de p-waarden uit de standaard normale verdeling niet gebruiken… Maar percentielscores zijn nog wel bruikbaar 0-10% 90-100% score 1 score 16 t/m 20 P(Z(X>15.00)>2)=1-.975=.025 P(Z(X<1.00)<-3)=.005