27-4-2012 Samantha Bouwmeester Testtheorie College 2 27-4-2012 Samantha Bouwmeester
Verband tussen ICC’s en Pearson Correlatie Even afmaken college 1… Verband tussen ICC’s en Pearson Correlatie Rater 2 scoort hetzelfde als Rater 1: Pearson correlatie: 1.0 ICCconsistency: 1.0 ICCagreement: 1.0
Rater 2 scoort altijd 4 punten hoger dan Rater 1: Pearson correlatie: 1.0 ICCconsistency: 1.0 ICCagreement: 0.53
Rater 2 scoort altijd 1.5 keer zo hoog als Rater 1 Pearson correlatie: 1.0 ICCconsistency: 0.92 ICCagreement: 0.74
Variantie en Covariantie Lengte (m) Gewicht (kg) Leeftijd (0=jong) m -0.1 0.1 0.0 0.02 0.01 0.00 kg -5 5 50 25 Z 1 2 1 1.7 75 2 1.8 70 3 1.6 65 5.1 210 5
Lengte (m) Gewicht (kg) Leeftijd Score m -0.1 0.1 0.0 kg -5 5 .5 Z 1 2 Q 1 1 1.7 75 2 1.8 70 3 1.6 65 5.1 210 6 6
Lengte (m) Gewicht (kg) m -0.1 0.1 0.0 kg -5 5 cm 160 180 170 510 -10 10 200 100 50 1.7 75 1.8 70 1.6 65 5.1 210 7
Dus: de covariantie zegt alleen iets over de richting van het verband en niets over de sterkte! Dit komt omdat variabelen op verschillende schalen gemeten kunnen zijn (bijv. 100 cm =1 m). Correlatie is de gestandaardiseerde covariantie en zegt ook iets over sterkte van het verband. Vergelijk: Afwijkingsscore ( ) zegt iets over richting van afwijking, Z score iets over de sterkte van de afwijking. 8
Variantie-covariantie matrix Y1 Y2 Y3 Y4 Y5 Y6 Y1 1.37 .96 1.06 .84 1.29 .72 .79 .73 .66 .74 .51 .45 .39 .52 .33 .90 .54 .49 .44 Y2 Y3 Y4 Y5 Y6 9
Stel een test bestaat uit 2 items: Y1 Y2 Stel een test bestaat uit 2 items: Dus: De variantie van X is gelijk aan de variantie van variabele Y1 plus variantie van variabele Y2 plus twee keer de covariantie tussen Y1 en Y2 Dit kun je generaliseren naar een situatie met meer dan twee items (bijv. X=Y1 + Y2 + … + YK) 10
4 3 2 1 Pp Y1 Y2 5 2 1 X -5/4 3/4 -1/4 25/16 9/16 1/16 44/16 1 1 1 1 1 3 2 Var-covar. matrix Y1 Y2 Y1 1/6 1/3 1/4 Y2 11
Herhaalbaarheid van metingen (on)Betrouwbaarheid: de mate waarin testscores variëren wanneer een test tweemaal of vaker1 onder gelijkblijvende condities2 wordt voorgelegd aan dezelfde persoon. Is het zinvol om een test tweemaal of vaker voor te leggen aan dezelfde persoon? bij psychologische eigenschappen niet zinvol door geheugen- en leerprocessen. Deze beïnvloeden de prestatie. Bij fysiologische of fysieke metingen wel zinvol (bloedruk, reactiesnelheid, snelheid van schaatsen) 2. Wat verstaan we onder gelijkblijvende condities? - allerlei (stabiele) kenmerken van de testomgeving en de testprocedure, zoals: a. Items, instructie, temperatuur, testruimte b. Relevante eigenschappen van de persoon (motivatie, concentratievermogen, verwachtingen) c. Fysiologische condities en lichamelijke processen. 12
Testscore = systematische invloeden + toevallige invloeden Belangrijke vraag: Hoe komt het dat testscores bij herhaalde metingen, onder gelijkblijvende condities, toch fluctueren? Testscore = systematische invloeden + toevallige invloeden X T = E + Testscore: aantal (milli)seconden op de 5 km. Schaatsen voor mannen op het de Olympische spelen 2010 in Vancouver. Systematisch deel: kwaliteit van schaatser, kwaliteit van het ijs, temperatuur, luchtdruk. Toevallig deel: tegenstander, verkoudheid, black-out, binnenbocht…. 13
Testscore: aantal correcte antwoorden op de bloktoets 3.7 Systematisch deel: studievaardigheden, moeilijkheid items, aanleg voor statistiek, Nederlandse taal, etc. Toevallig deel: ingeving, hoestbui, tijdelijk concentratieverlies, serveillanten, etc. NB: Toevallige invloeden hebben alleen betrekking op de specifieke testsessie (1 replicatie), dus: Systematisch deel varieert niet over onafhankelijke replicaties, toevallige invloeden variëren wel. Daarom bepalen de toevallige invloeden de betrouwbaarheid... 14
De klassieke testtheorie Klassieke testtheorie houdt zich bezig met het in kaart brengen van de relatieve inbreng van de over afnemingen onvoorspelbare invloeden (E) op de testprestatie en de over afnemingen systematisch werkzame eigenschappen (T) van personen op de testsituatie. Xij = Ti + Eij i = persoon (i=1,…,n) j = replicatie (j=1,…q) Geen j, immers gelijk over replicaties! 15
Oefenrondjes 5000 m i=1(Kramer) j 6:12 5 6:15 4 6:13 3 6:19 2 6:16 1 X T E 6:15 +1 6:15 -3 -2 +4 i=2(Bøkko) -3 6:17 6:14 5 4 +5 6:22 3 +1 6:18 2 1 16
Oefenrondjes 5 km -3 6:15 6:12 5 4 -2 6:13 3 +4 6:19 2 +1 6:16 1 E T X i=1(Kramer) j gemiddelde 6:15 6:15 variantie 7.5 7.5 Betrouwbare score is de gemiddelde score over zéér groot (oneindig) aantal replicaties. Meetfout is het verschil tussen de betrouwbare score en de geobserveerde score. 17
å å X X T Consequenties: en dus Gemiddelde meetfout is nul. Geluk en pech heffen elkaar op! Immers: å = q j ij i X 1 å = q j ij i X T 1 en dus 18
Standaarddeviatie van de meetfout over replicaties van één persoon i Standaarddeviatie van de meetfout = standaarddeviatie geobserveerde score! 19
Tot nu toe meerdere replicaties voor één persoon (i). Klassieke Testtheorie neemt aan dat SEi gelijk is voor alle personen in de populatie: Overigens: niet altijd realistisch want bij gokken (lage T) meer meetfout dan bij niet gokken (hogere T). 20
X T E Sven Kramer (Ned) 6:14 6:15 -1 Seung-Hoon Lee (ZKO) 6:17 6:20 -3 5 km mannen X T E Sven Kramer (Ned) 6:14 6:15 -1 Seung-Hoon Lee (ZKO) 6:17 6:20 -3 Ivan Skobrev (Rus) 6:18 1 Harvard Bokko (Noo) 6:19 2 Bob de Jong (Ned) 6:23 21
NB: hier staat nu een i (van personen) i.p.v. een j (van replicaties)! Aannames van KTT: Gemiddelde meetfout over personen = 0 Meetfouten correleren nergens mee… …behalve met de variabele waar ze zelf deel van uitmaken. Maar das lôgisch… 22
Wat is de variantie van X? ET S r = NB: STi2 = 0, maar ST2 niet! 23
Systematisch deel, verklaarbare spreiding Uit aannames volgt: Systematisch deel, verklaarbare spreiding Toevallig deel, onverklaarbare spreiding Betrouwbaarheid: Systematische spreiding Totale spreiding 24
Herschrijven betrouwbaarheid: Betekent: 95 van de 100 berouwbaarheidsintervallen bevatten de “true score” Standaardmeetfout: Stel X is bloktoets met 40 items en Tim heeft X=20. Stel S(E)=2, dan ligt Tims “true score” waarschijnlijk tussen de 16 en 24 (kans van 5% dat dit niet zo is). 95% betrouwbaarheidsinterval 25
Betrouwbaarheidsinterval 5 van de 100 BI’s bevatten Ti niet! Xi Xi -1.96 × SE + Xi +1.96 × SE Xi Xi Xi Xi Xi Xi Xi schaal Ti 26
Volgende keer vier manieren om toch de betrouwbaarheid te schatten! Probleem: De formule voor de betrouwbaarheid heeft twee onbekenden…. Volgende keer vier manieren om toch de betrouwbaarheid te schatten! 27
Ten slotte: Systematische variatie is niet perse gelijk aan de variatie die men beoogde te meten met de test …!! Vb. Redactiesom Na een uurtje knikkeren heeft Jerre in totaal 32 knikkers. Hij heeft drie baksen verloren aan Teske, twaalf ééntellers aan Maico, en heeft vijf baksen gewonnen van Tim. Hoeveel knikkers had Jerre toen hij begon met knikkeren? beoogd/bedoeld: rekenvaardigheid Onbedoeld: Taalkennis, kennis over knikkers, toevalsfactoren Systematisch: rekenvaardigheid, taalkennis, kennis over knikkers Niet-systematisch: toevalsfactoren 28