8-5-2012 Samantha Bouwmeester Testtheorie College 5 8-5-2012 Samantha Bouwmeester
Validiteit & Betekenis Het begrip validiteit “de mate waarin een test aan zijn doel voldoet” Validiteit is geen eigenschap van de test zonder meer: hangt af van doel van de test! (vb: depressie meten met meetlat...) Verantwoord? (test) Testgedrag Te meten construct (algemeen) Gedrag Conclusies / interpretatie 2
Twee hoofdsoorten: Voorspelling van gedrag buiten de testsituatie (predictieve validiteit). van belang in het onderwijs, selectie van personeel. Gaat om doen van uitspraken over niet-waargenomen gedrag buiten de testsituatie. 2. Verklaring van het testgedrag, operationalisering van het theoretisch construct (begripsvaliditeit) gaat om het verifiëren van theorieën, toetsen van hypotheses. Gaat om de relatie tussen observeerbaar gedrag en theoretisch construct. X Y Verlatingsangst vragenlijst hechting N.B. Predictieve validiteit kan niet zonder begripsvaliditeit en andersom! C verlatingsangst X Y hechting verlatingsangstvragenlijst 3
Predictieve validiteit Onderzoekt relatie tussen test- en criterium prestatie. Toetsscore X Criteriumscore Y Twee moeilijkheden: De tijd tussen test en criterium bepaald in hoge mate de correlatie. Criterium is niet altijd beschikbaar, te operationaliseren, of te kwantificeren. (Toepassing van testtheorie kennis in baan als schoolpsycholoog???) 4
Operationaliseringsproces: Aanleiding om voorspelling te doen (psychologisch of niet-psychologisch). Pestgedrag onder ouderen in verzorgingshuis Doel Concretisering van het uiteindelijke doel in termen van zichtbare resultaten. Wat verstaan we onder “pesten”? Conceptueel criterium Observeerbaar gedrag waarmee het criterium wordt gemeten. Welk gedrag hoort er bij pesten? Niet groeten? Roddelen? Criterium gedrag (kwantatieve) operationalisering van het criterium gedrag. ”pest”-vragenlijst, interview, groepsopdracht, dagboek . Criterium maat Als criterium-maat onbetrouwbaar is, altijd lage validiteit. Maar als criterium-maat wel betrouwbaar, niet perse hoge validiteit!! 5
(partiële correlatie) Andere functie van tests bij predictie: suppressor variabele r(T2.T1,Y) r(T2,Y) T1 T2 Y T1 T2 Y Catalpa speciosa Vb. T1 = verbale vaardigheid. T2 = botanische kennistest. Y = geschiktheid voor boswachter. r(T2,Y) r(T1,T2) > 0 r(T1,Y) = 0 r(T2,Y) > 0 r(T2,Y) < r(T2.T1,Y) “Correlatie tussen T2 en Y als T1 uit T2 is verwijderd is groter dan de correlatie tussen T2 en Y. T1 is een suppressor variabele. Verbale vaardigheid drukt de relatie tussen botanische kennis en geschiktheid boswachter (partiële correlatie) 6
moderator variabele C Y M Vb. IQ = CITO X = motivatie Y = schoolprestatie C Y M M=hoog Y M=laag C 7
Waarom kan de predictieve validiteit laag uitvallen? Lage betrouwbaarheid van test of criterium (nooit hoger dan wortel van de betrouwbaarheid!) Afwijking van lineariteit (links) of homoscedasticiteit (rechts) Heterogene groepen (moderators: lage/hoge motivatie) Betekenis van criterium verschilt (secretaresse) Enkele predictor voor het voorspellen van meerdimensioneel criterium (bloktoets) 8
Item populatie Enkele andere onderscheidingen: Predictive validity: testgedrag voorspelt criteriumprestatie op later tijdstip. (CITO-toets als voorspelling van middelbare school prestaties) Concurrent validity: testgedrag voorspelt criteriumprestatie op hetzelfde tijdstip. (CITO-toets als beoordeling/vergelijking van leerkrachtoordeel.) Content validity: adequaatheid van de representatie van het itemdomein. Subjectief oordeel telt zwaar: face validity! (vb: Alleen vragen over validiteit in bloktoets testtheorie.) Item populatie Item steekproef 9
Construct validity: welke psychologische eigenschap meet de test? - welk construct meet de test? (observatie en logisch denken) - toetsbare hypotheses vanuit de theorie v.h. construct. (logisch proces) - empirisch onderzoek om hypotheses te toetsen (methodologisch proces) Synthetische validiteit: richt zich op onderdelen van criteriumgedrag. (testtheorie: spss-vaardigheid, itemconstructievaardigheid, theoriekennis, statistische kennis Congruent validity: correlatie met test die min of meer dezelfde eigenschap meet. (vb: faalangst test en zelfcompetentie test) Face validity: subjectieve impressie van de relatie tussen testgedrag en construct: zonder empirisch onderzoek. (vb: Rorschach vs persoonlijkheids test) Incremental validity: voegt de test iets toe aan de al bestaande tests die dezelfde eigenschap meten. (vb: Cito-toets naast leerkracht-oordeel) 10
Evaluatie van een test: Multi-trait Multi-method matrix Agressie bij kinderen Evaluatie van een test: Multi-trait Multi-method matrix Observatie Oordeel Onderwijzer Vragenlijst Observatie Agr. Verl. Imp. Agr Verl. Imp. Agr. Ver. Imp. Agr. b b=hoog c>0, c b d=laag c>d c>m m d Verl. m b Imp. m m b Oordeel Onderwijzer Agr. c d d b Verl. d c d m b Imp. d d c m m b Vragenlijst Agr. c d d c d d b Verl. d c d d c d m b Imp. d d c d d c m m b b = betrouwbaarheid c = convergente validiteit 11 d = discriminante validiteit m = methode variantie
Waardoor wordt de onderliggende structuur (gezamenlijke variantie)bepaald? Vooral door de eigenschap of vooral door de methode? PCA (met rotatie) kan inzicht geven! Praktijk: De gebruikte methode zorgt (ook) voor gezamenlijke variantie Idealiter: Eigenschappen bepalen structuur 12
Een paar oefentoetsvragen… EUR QJ A B C D A B SMS de antwoorden naar: 4411
1 Twee schoolpsychologen diagnosticeren het gedrag van 12 kinderen in drie categorieën, adhd, concentratiestoornis (CS), normaal: Psycholoog A scoort 2 keer ADHD, 5 keer CS en de rest Normaal, Psycholoog B scoort 3 keer ADHD, 8 keer CS en de rest Normaal. Ze komen bij 8 kinderen overeen in hun beoordeling. Hoe hoog is de geschatte betrouwbaarheid tussen de twee beoordelaars? .35 .48 .67 Dat kan op grond van bovenstaande gegevens niet berekend worden.
2 In hoofdstuk 2 van Drenth & Sijtsma wordt het begrip "averechtse diagnostiek" gebruikt. Wat wordt er met dit begrip bedoeld wanneer men denkt aan het gebruik van schoolvorderingstoetsen (bijv. Cito-toetsen)? Dat men door het gebruik van schoolvorderingentoetsen kinderen aanzet om extra te gaan oefenen waardoor zij beter gaan presteren op een schoolvorderingstoets. Dat de scores op een schoolvorderingentoets niet alleen iets zeggen over de prestatie van het kind maar ook over andere factoren zoals motivatie of faalangst. Dat de prestaties op schoolvorderingentoetsen momentopnames zijn die minder diagnostische en voorspellende waarde hebben dan men beoogt. Dat men de resultaten op een schoolvorderingentoets niet alleen gebruikt om de prestatie van het kind te evalueren, maar bijvoorbeeld ook het functioneren van een leerkracht.
3 Met behulp van de standaardmeetfout wordt het 90% betrouwbaarheidsinterval berekend voor Sven met een bloktoetsscore van 32. Dit interval is [24-40]. Hoe moeten we dit interval interpreteren? De kans is 90% dat Sven's bloktoetsscore tussen de 24 en 40 ligt. De kans is 5% dat Sven's betrouwbare score onder de 24 ligt en 5% dat zijn score boven de 40 ligt. De kans dat het betrouwbaarheidsinterval [24-40] Sven's betrouwbare score bevat is 90% De betrouwbare score van Sven ligt in 90% van de gevallen tussen 24 en 40.
4 Waarom kan een testscore X nooit hoger correleren met een variabele dan met de betrouwbare score T? Omdat de correlatie tussen X en T gelijk is aan de betrouwbaarheid van de test. De correlatie tussen X en een andere variabele is dus altijd lager. Omdat het enige deel van X dat niet in T zit meetfout is, en meetfout correleert nergens mee. Omdat de correlatie tussen X en E altijd groter is dan 0. Omdat de correlatie tussen X en T gelijk is aan 1. De correlatie tussen X en een andere variabele is dus altijd lager.
5 Een test met 20 items heeft een geschatte betrouwbaarheid van .75. Een onderzoeker wil de betrouwbaarheid van de test verbeteren en voegt 5 items toe. De variantie van de nieuwe test is 4. Wat is het 95% betrouwbaarheids interval van Jan op de nieuwe test die een score 12 heeft? -De Spearman-Brown formule is: -Neem voor de schatting van T de testscore X. - P(Z<1.96)=.975 8.08 tot 15.92 8.40 tot 15.60 10.04 tot 13.96 10.20 tot 13.80
6 Beoordeel onderstaande stellingen aangaande indruksvaliditeit (face validity): Een hoge indruksvaliditeit is voor een respondent prettig omdat het doel van de test voor hem/haar dan duidelijk lijkt (transparantie). Een hoge indruksvaliditeit van een test is wenselijk omdat het duidt op een hoge constructvaliditeit. Stelling I is juist, Stelling II is onjuist Stelling I is onjuist, Stelling II is juist Beide stellingen zijn juist Beide stellingen zijn onjuist
https://psy.sin-online.nl/channel/polls/index.html?chid=6038
1 Twee schoolpsychologen diagnosticeren het gedrag van 12 kinderen in drie categorieën, adhd, concentratiestoornis (CS), normaal: Psycholoog A scoort 2 keer ADHD, 5 keer CS en de rest Normaal, Psycholoog B scoort 3 keer ADHD, 8 keer CS en de rest Normaal. Ze komen bij 8 kinderen overeen in hun beoordeling. Hoe hoog is de geschatte betrouwbaarheid tussen de twee beoordelaars? Po=8/12 Pe=2*3/12+5*8/12+5*1/12)/12 Kappa: (.667-.354)/(1-.354)=.48 psycholoog A adhd cs norm psycholoog B 2 5 3 8 1 12
5 Een test met 20 items heeft een geschatte betrouwbaarheid van .75. Een onderzoeker wil de betrouwbaarheid van de test verbeteren en voegt 5 items toe. De variantie van de nieuwe test is 4. Wat is het 95% betrouwbaarheids interval van Jan op de nieuwe test die een score 12 heeft? - Neem voor de schatting van T de testscore X. - P(Z<1.96)=.975 Interval: 10.20 tot 13.80