Varianties bij replicatie (herhaald testen) Variantie op geobserveerde score Variantie op meetfout Variantie op betrouwbare score
Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Replicatie onhaalbaar 1 meting in populatie Gemiddelde van de geobserveerde score Eigenschappen Hypothese 1 Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Hypothese 2 Y is willekeurige variabele waarvan E geen deel is immers: X=T+E zodat: r(E,X)>0 GEVOLG: r(E,T)=0
Variantie van de geobserveerd score MAAR: r(E,T)=0, dus: Gevolg: Variantie geobserveerde score = Variantie betrouwbare score + Variantie meetfout
Betrouwbaarheid bepalen Betrouwbaarheid: (reliability) Standaard meetfout: (standard error of measurement) Goede test rxx’ =.95 Probleem: er zijn altijd 2 onbekenden: S²(T) en rxx’ of S(E) en rxx’ Verband met standaard meetfout Nood aan schattingsmethoden
Voorbeeld WAIS (Wechsler Adult Intelligence Scale) Gegeven Standaardmeetfout
Standaardmeetfout: verloop en interpretatie 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 S(X) S(E) rxx’ .6826 .9546 .9972 X Ti Ti+S(E)
Opmerking: betrouwbare score “bedoelde” score Toevallige fout Bedoelde scorecomponent Onbedoeld deel (systematische fout) Geobserveerde testscore = Betrouwbare score + Toevallige meetfout Bedoelde scorecomponent + Onbedoelde scorecomponent Bedoelde scorecomponent Betrouwbare score Onbedoelde scorecomponent Meetfout
Methoden om betrouwbaarheid te bepalen Herhaalde testafname (2) 2 verschillende tests (parallelle test ) Equivalentiecoëfficiënt zelfde test (test-retest) Stabiliteitscoëfficiënt parallelle test na tijdsinterval Stabiliteits en equivalentiecoëfficiënt is de meest strenge betrouwbaarheidstest omdat zowel intrinsieke als extrinsieke fouten spelen Eenmalige testafname 2 helften (split-half) items onderling (interne consistentie) OPMERKINGEN Betrouwbaarheid is steeds verbonden met een BEPAALDE populatie Betrouwbaarheid is theoretisch geldig voor alle meetwaarden, in praktijk zijn extreme scores minder betrouwbaar dan scores rond het gemiddelde
Test- Retest methode (stabiliteit) Afname 1: X1 Afname 2: X2 Betrouwbaarheid = Probleem: “onafhankelijke replicaties”… nutteloos bij tests voor STATE (<> TRAIT) Parallelle test methode (equivalentie) Test 1: X1 Test 2: X2 en Ti1=Ti2 voor alle individuen en S²(X1)= S²(X2) in populatie Betrouwbaarheid = Probleem: parallelle tests zijn moeilijk te maken
Controle op parallellie Niet empirisch controleerbaar: Ti1=Ti2 voor alle individuen Empirisch controleerbaar: Eenvoudig te realiseren door standaardizeren van testscores (z of T) Belangrijkste eigenschap, te controleren voor meerdere Y (Y is een willekeurige variabele)
Halveringstechniek (split-half) Odd-Even methode Alle items Even items Oneven items Helft1: X1 Helft 2: X2 Betrouwbaarheid = Opmerking: SPEED-test (alle items even moeilijk) geen probleem, POWER-test (moeilijkheidsgraad stijgt) ODD-EVEN gebruiken
Testverlenging en betrouwbaarheid Test verlengen leidt tot meer nauwkeurige en meer betrouwbare meting rvt = betrouwbaarheid verlengde test rtt = betrouwbaarheid originele test K = verlengingsfactor Praktische beperkingen door langere testduur Theoretische beperking wegens problemen bij constructie van toe te voegen items
Effekt van testverlenging 0,2 0,4 0,6 0,8 1 2 4 6 8 10 20 items rtt=0.60 Eerste verlengingen hebben meeste effekt Toegevoegde itmes moeten equivalent zijn met originele Het moet mogelijk zijn om items toe te voegen
Testverlenging bepalen Toepassing rxx = .80, maar .90 gewenst huidige testlengte = 10 min Nieuwe testduur: 22 min 30 sec