01-5-2012 Samantha Bouwmeester Testtheorie College 3 01-5-2012 Samantha Bouwmeester
Even herhalen vorige college… (i = persoon, j = replicatie) dus Betrouwbare score van persoon i is gemiddelde score bij oneindig aantal replicaties j. Gemiddelde meetfout voor één persoon over replicaties is nul: geluk en pech heffen elkaar op! De spreiding van de meetfouten voor één persoon over replicaties is gelijk aan de spreiding van de geobserveerde scores voor één persoon over replicaties. Immers spreiding in betrouwbare score voor één persoon is nul! 2
… Aanname KTT: de gemiddelde meetfout over personen is nul: discutabel! Meetfouten correleren nergens mee, behalve met een variabele waar ze zelf deel van uitmaken. Variantie van scores bestaat uit systematisch deel, ST2, en toevallig deel, SE2. Betrouwbaarheid is de verhouding systematische variantie / totale variantie 3
… ) ( ' 2 X S T rxx = Tot nu toe: Puur theoretische definities, afleidingen en aannames over meten en betrouwbaarheid. De vraag is nu: Op welke manier kunnen we de betrouwbaarheid van een test met empirische data daadwerkelijk schatten/bepalen? 4
Bepaling van de betrouwbaarheid Vier manieren om betrouwbaarheid te schatten: o.b.v. 2 testafnames 2 parallelle tests test-hertest o.b.v. 1 testafname splitsingsmethode alfa als ondergrens van de betrouwbaarheid 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 5
1. Parallelvorm-methode Betrouwbaarheid = correlatie tussen twee parallelle tests Wanneer zijn twee tests parallel? Als de betrouwbare score van persoon i op test G gelijk is aan de betrouwbare score op test H, én: Als de variantie van de geobserveerde scores op test G gelijk is aan de variantie van de geobserveerde scores op test H Als twee tests parallel zijn, dan geldt dat de betrouwbaarheid van de test gelijk is aan de correlatie tussen de scores op test G en test H 6
Helaas! Niet direct controleerbaar of twee tests parallel zijn. Wel controleerbaar: Goede controle voor parallellie! Voorbeeld: Stel we hebben een vragenlijst die faalangst meet, dan zijn twee faalangsttests parallel wanneer zij dezelfde correlatie hebben met een “relevante” andere test, die bijvoorbeeld zelfvertrouwen meet. 7
In de praktijk bestaan parallelle tests eigenlijk niet! Nota Bene! In de praktijk bestaan parallelle tests eigenlijk niet! Bij niet parallelle tests is rgh < rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) tests is lager dan de betrouwbaarheid in de populatie. dit komt omdat bij niet-parallelle items het verschil tussen items voor wat “error” zorgt. Door deze niet-systematische meetfout kan de rangorde van de scores gaan verschillen en daardoor wordt de correlatie een beetje naar lager. 8
2. Test-Hertest methode Betrouwbaarheid = correlatie tussen twee afnames van dezelfde test. De correlatie tussen twee afnames (t=1, en t=2) is de betrouwbaarheid van de test. Is er verandering te verwachten in de te meten eigenschap? Zo ja, dan geen goede methode! Geen goede schatting van de betrouwbaarheid bij: Leereffect Geheugeneffect Attitudeverandering Aselecte uitval Vraag: Hoe groot moet het tijdsinterval tussen twee afnames zijn….? 9
3. Splitsingsmethode Eigenlijk ook een vorm van de parallelvorm-methode! Betrouwbaarheid = correlatie tussen de ruwe scores van twee helften van dezelfde test (+ correctie aantal items). Betrouwbaarheid gehele test Correlatie tussen twee testhelften (=betrouwbaarheid van ½ test) Verlengingsfactor NB: hoe meer items, des te betrouwbaarder de test! 10
Vuistregels voor splitsen: Voorbeeld: Stel de correlatie tussen twee testhelften (rxx’) is .7. Wat is de betrouwbaarheid (rKK) van de gehele test? Antwoord: Nota Bene! Wanneer twee testhelften niet parallel zijn, geldt: rKK< rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) testhelften is lager dan de betrouwbaarheid in de populatie! Vuistregels voor splitsen: - Niet splitsen in gemakkelijke en moeilijke helft - Niet splitsen in 1e en 2e helft - Items van de twee helften moeten inhoudelijk overlappen! 11
4. Cronbach’s alpha Bekendste maat: Cronbach’s alfa: Bewijs op p216-219, beetje (beetje????) moeilijk! Hoef je niet te kunnen/kennen voor bloktoets… ! Bekendste maat: Cronbach’s alfa: Aantal items in de test Som van alle covarianties Variantie van de Somscore Als v=w, dan . Dit is de variantie! (en die doet dus niet mee… 12
v w Yw=4 Yw=3 Yw=2 Yw=1 Yv=4 Yv=3 Yv=2 Yv=1 2.1 -1.2 2.1 1.4 -1.2 3.2 2.2 Voorbeeld: Stel we hebben een test bestaande uit 4 items met de volgende variantie/covariantie matrix: 2.1 3.2 1.6 1.3 1.4 2.2 1.3 2.3 =-1.2 + 2.1 + 1.4 - 1.2 + 3.2 + 2.2 + 2.1 + 3.2 + 1.3 + 1.4 + 2.2 + 1.3=18 = 18 + 2.1 + 3.2 + 1.6 + 2.3 = 27.2 k = 4 13
Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) Nota Bene! Alfa ≤ rxx’ Alfa is een ondergrens van de betrouwbaarheid. Dit betekent dat de werkelijke betrouwbaarheid in de populatie hoger is. Maaaaaar: steekproef alfa kan weer een overschatting zijn van de betrouwbaarheid. Dus: bij een kleine steekproef heb je grotere kans dat alfa een OVERSCHATTING is van de betrouwbaarheid! Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) s1 rxx’ s1 s2 s3 rxx’ s2 1 s3 1 14
mu0() ≤ mu1(lambda) ≤ mu2 ≤ mu3 ≤…. ≤ rxx’ - Alfa is de gemiddelde splitsingsbetrouwbaarheid over alle mogelijke splitsingen Interne consistentie is eigenlijk niet zo’n goede benaming omdat: alfa neemt toe als aantal items toenemen, maar inhoudelijk gaat de test een eigenschap bij verlenging niet beter of betrouwbaarder meten. ook bij heterogeniteit kan alfa hoog zijn (bijv. Clusters van items die verschillende vaardigheden meten en binnen een cluster hoog correleren) Andere maten voor interne consistentie: KR-20, alfa voor dichotome items (zelfde als Cronbach’s alfa) Lambda-2, minder bekend maar eigenlijk een BETERE ondergrens van de betrouwbaarheid! (formule wordt gegeven op bloktoets) mu0() ≤ mu1(lambda) ≤ mu2 ≤ mu3 ≤…. ≤ rxx’ 15
Zes speciale onderwerpen Nauwkeurigheid van metingen standaardmeetfout Vb. Karin heeft Xi = 10, op een toets met S(X) = 2, gemiddelde 14 en rxx’= .91. Wat is 95% BI van Karin’s true score? 95% BI: 16
Xi = 10, S(X) = 2, gemiddelde 14 , rxx’= .91. standaardschattingsfout Bij schatting van Ti wordt rekening gehouden met betrouwbaarheid en gemiddelde. Geschatte true score van Karin wordt nu: In paragraaf 6.4.1: 95% BI: NB: omdat ST ≤ SX, is de tweede methode nauwkeuriger! 17
2.Relatie betrouwbaarheid en testlengte Spearman-Brown formule: rxx’ = betrouwbaarheid oude test rkk = betrouwbaarheid na verlenging / verkorting K = verlengings/verkortings factor Voorbeeld 1: Stel we hebben een test bestaande uit 50 items met rxx’ =.8. De test duurt te lang. Wat wordt de betrouwbaarheid als we 20 items verwijderen? k=30/50 =.6 (verkortingsfactor...), rkk = onbekend 18
Er moeten dus 430-30=90! Items worden toegevoegd!!! Voorbeeld 2: Stel we hebben een test bestaande uit 30 items met rxx’ =.5. We willen een betrouwbaarheid van .8. Hoeveel items moeten we toevoegen? k=onbekend rkk = .8 Er moeten dus 430-30=90! Items worden toegevoegd!!! 19
- betrouwbaarheid is dan dus .9/.6 =1.5 keer zo groot. Vb. rxx’=.6, rkk=.9 - betrouwbaarheid is dan dus .9/.6 =1.5 keer zo groot. Validiteit is (slechts) keer zo groot. Winst in betrouwbaarheid wordt steeds kleiner Praktisch ondoenlijk! Parallelle items vereist! Validiteit neemt minder toe dan betrouwbaarheid. 20
3. Betrouwbaarheid en validiteit De correlatie tussen een test en een criterium (validiteit) is altijd kleiner of gelijk aan de wortel uit de betrouwbaarheid van de test! Dus stel de rxx’= .64, dan wordt de correlatie NOOIT hoger dan .80. Wat zou de correlatie (validiteit) zijn als zowel X ALS Y perfect betrouwbaar (rxx’=1) zouden zijn gemeten? Formule 6.53 attenuatiecorrectie TX = test X met oneindig aantal parallelle items. PAS OP: gevonden validiteitscoëfficiënt is te optimistisch en niet realistisch (want X en Y zijn niet perfect betrouwbaar gemeten!!) 21
4. Betrouwbaarheid van verschilscores Verschilscores zijn vaak erg onbetrouwbaar omdat het verschil vooral uit meetfouten bestaat. Dit geldt met name voor variabelen met al een lage betrouwbaarheid. NB. E kan positief én negatief zijn. X1=rekentoets september X2=rekentoets mei X2-X1= vooruitgang rekentoets X1=T+E1 X2=T+Tmei+E2 X2-X1=T+Tmei+E2-T-E1=Tmei+E1-E2 T valt weg, daarom relatief veel error in de verschilscore Dit probleem wordt groter naarmate de variabelen X1 en X2 hoog correleren! De variabelen meten dan grotendeels hetzelfde en het verschil tussen de scores berust vooral op niet-systematische verschillen. 22
5. Betrouwbaarheid en spreiding van scores Als variantie in betrouwbare score afneemt, dan neemt ook de betrouwbaarheid af (bij gelijkblijvende meetfouten variantie SE) Daarom: pas op bij gebruik van tests in deelpopulaties waar ze niet voor gemaakt zijn! Voorbeeld: stel we nemen een toets 3.7 af bij eerstejaars. Omdat vrijwel niemand kennis heeft van testtheorie, is de spreiding in T klein. Als ST afneemt, en SE blijft gelijk, dan neemt de betrouwbaarheid van de test af! 23
Variantie van deeltest Betrouwbaarheid van deeltest 6. Heterogene tests Voor heterogene tests (meerdere deeltests) gebruiken we gestratificeerde alpha-coëfficiënt om de betrouwbaarheid van de gehele test te berekenen: Variantie van deeltest Betrouwbaarheid van deeltest Variantie van totale test Subtest 1.9 2.5 .65 Y2.Verbale analogieën .81 Y1.Figuur herkennen SY1Y2 = 1.8 24