De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

8-5-2012 Samantha Bouwmeester College 5 Testtheorie.

Verwante presentaties


Presentatie over: "8-5-2012 Samantha Bouwmeester College 5 Testtheorie."— Transcript van de presentatie:

1 Samantha Bouwmeester College 5 Testtheorie

2 Het begrip validiteit “de mate waarin een test aan zijn doel voldoet” Validiteit is geen eigenschap van de test zonder meer: hangt af van doel van de test! (vb: depressie meten met meetlat...) (test) Testgedrag Te meten construct Verantwoord? (algemeen) Gedrag Conclusies / interpretatie Validiteit & Betekenis 2

3 Twee hoofdsoorten: 1.Voorspelling van gedrag buiten de testsituatie (predictieve validiteit). -van belang in het onderwijs, selectie van personeel. -Gaat om doen van uitspraken over niet-waargenomen gedrag buiten de testsituatie. 2. Verklaring van het testgedrag, operationalisering van het theoretisch construct (begripsvaliditeit) -gaat om het verifiëren van theorieën, toetsen van hypotheses. -Gaat om de relatie tussen observeerbaar gedrag en theoretisch construct. XY XY hechting Verlatingsangst vragenlijst hechting verlatingsangstvragenlijst verlatingsangst 3 N.B. Predictieve validiteit kan niet zonder begripsvaliditeit en andersom! C

4 Predictieve validiteit Onderzoekt relatie tussen test- en criterium prestatie. Toetsscore X Criteriumscore Y Twee moeilijkheden: -De tijd tussen test en criterium bepaald in hoge mate de correlatie. -Criterium is niet altijd beschikbaar, te operationaliseren, of te kwantificeren. (Toepassing van testtheorie kennis in baan als schoolpsycholoog???) 4

5 Conceptueel criterium Concretisering van het uiteindelijke doel in termen van zichtbare resultaten. Wat verstaan we onder “pesten”? Als criterium-maat onbetrouwbaar is, altijd lage validiteit. Maar als criterium- maat wel betrouwbaar, niet perse hoge validiteit!! Observeerbaar gedrag waarmee het criterium wordt gemeten. Welk gedrag hoort er bij pesten? Niet groeten? Roddelen? Criterium gedrag (kwantatieve) operationalisering van het criterium gedrag. ”pest”-vragenlijst, interview, groepsopdracht, dagboek. Criterium maat Doel Aanleiding om voorspelling te doen (psychologisch of niet-psychologisch). Pestgedrag onder ouderen in verzorgingshuis 5 Operationaliseringsproces:

6 Andere functie van tests bij predictie: suppressor variabele T1T2Y r(T1,T2) > 0 r(T1,Y) = 0 r(T2,Y) > 0 r(T2,Y) < r(T2.T1,Y) Vb. T1 = verbale vaardigheid. T2 = botanische kennistest. Y = geschiktheid voor boswachter. Catalpa speciosa 6 T1T2Y r(T2,Y) “Correlatie tussen T2 en Y als T1 uit T2 is verwijderd is groter dan de correlatie tussen T2 en Y. T1 is een suppressor variabele. Verbale vaardigheid drukt de relatie tussen botanische kennis en geschiktheid boswachter (partiële correlatie) r(T2,Y) r(T2.T1,Y)

7 CY M Vb. IQ = CITO X = motivatie Y = schoolprestatie moderator variabele Y C M=hoog M=laag 7

8 8  Lage betrouwbaarheid van test of criterium (nooit hoger dan wortel van de betrouwbaarheid!)  Afwijking van lineariteit (links) of homoscedasticiteit (rechts)  Heterogene groepen (moderators: lage/hoge motivatie)  Betekenis van criterium verschilt (secretaresse)  Enkele predictor voor het voorspellen van meerdimensioneel criterium (bloktoets) 8 Waarom kan de predictieve validiteit laag uitvallen?

9 Enkele andere onderscheidingen: Predictive validity: testgedrag voorspelt criteriumprestatie op later tijdstip. (CITO-toets als voorspelling van middelbare school prestaties) Concurrent validity: testgedrag voorspelt criteriumprestatie op hetzelfde tijdstip. (CITO-toets als beoordeling/vergelijking van leerkrachtoordeel.) Content validity: adequaatheid van de representatie van het itemdomein. Subjectief oordeel telt zwaar: face validity! (vb: Alleen vragen over validiteit in bloktoets testtheorie.) Item populatie Item steekproef 9

10 Construct validity: welke psychologische eigenschap meet de test? - welk construct meet de test? (observatie en logisch denken) - toetsbare hypotheses vanuit de theorie v.h. construct. (logisch proces) - empirisch onderzoek om hypotheses te toetsen (methodologisch proces) Synthetische validiteit: richt zich op onderdelen van criteriumgedrag. (testtheorie: spss-vaardigheid, itemconstructievaardigheid, theoriekennis, statistische kennis Congruent validity: correlatie met test die min of meer dezelfde eigenschap meet. (vb: faalangst test en zelfcompetentie test) 10 Face validity: subjectieve impressie van de relatie tussen testgedrag en construct: zonder empirisch onderzoek. (vb: Rorschach vs persoonlijkheids test) Incremental validity: voegt de test iets toe aan de al bestaande tests die dezelfde eigenschap meten. (vb: Cito-toets naast leerkracht-oordeel)

11 Evaluatie van een test: Multi-trait Multi-method matrix b mm bm b dd dd dd Imp. Verl. Agr.Oordeel Onderwijzer Imp.Verl.Agr Oordeel Onderwijzer b mm bm b d d d d d d dd dd dd c c c c c c mm m b b b Imp. Verl. Agr. Observatie Imp.Verl. Agr. Observatie Imp. Verl. Agr.Vragenlijst Imp.Ver.Agr. Vragenlijst c c c c = convergente validiteit b = betrouwbaarheid d = discriminante validiteit m = methode variantie Agressie bij kinderen 11 1.b=hoog 2.c>0, c  b 3.d=laag 4.c>d 5.c>m 6.m  d

12 Waardoor wordt de onderliggende structuur (gezamenlijke variantie)bepaald? Vooral door de eigenschap of vooral door de methode? PCA (met rotatie) kan inzicht geven! 12 Idealiter: Eigenschappen bepalen structuur Praktijk: De gebruikte methode zorgt (ook) voor gezamenlijke variantie

13 Een paar oefentoetsvragen… EUR QJ A B C D A B SMS de antwoorden naar:

14 1 Twee schoolpsychologen diagnosticeren het gedrag van 12 kinderen in drie categorieën, adhd, concentratiestoornis (CS), normaal: Psycholoog A scoort 2 keer ADHD, 5 keer CS en de rest Normaal, Psycholoog B scoort 3 keer ADHD, 8 keer CS en de rest Normaal. Ze komen bij 8 kinderen overeen in hun beoordeling. Hoe hoog is de geschatte betrouwbaarheid tussen de twee beoordelaars? A..35 B..48 C..67 D. Dat kan op grond van bovenstaande gegevens niet berekend worden. 14

15 A.Dat men door het gebruik van schoolvorderingentoetsen kinderen aanzet om extra te gaan oefenen waardoor zij beter gaan presteren op een schoolvorderingstoets. B.Dat de scores op een schoolvorderingentoets niet alleen iets zeggen over de prestatie van het kind maar ook over andere factoren zoals motivatie of faalangst. C.Dat de prestaties op schoolvorderingentoetsen momentopnames zijn die minder diagnostische en voorspellende waarde hebben dan men beoogt. D.Dat men de resultaten op een schoolvorderingentoets niet alleen gebruikt om de prestatie van het kind te evalueren, maar bijvoorbeeld ook het functioneren van een leerkracht In hoofdstuk 2 van Drenth & Sijtsma wordt het begrip "averechtse diagnostiek" gebruikt. Wat wordt er met dit begrip bedoeld wanneer men denkt aan het gebruik van schoolvorderingstoetsen (bijv. Cito-toetsen)?

16 Met behulp van de standaardmeetfout wordt het 90% betrouwbaarheidsinterval berekend voor Sven met een bloktoetsscore van 32. Dit interval is [24-40]. Hoe moeten we dit interval interpreteren? 3 16 A.De kans is 90% dat Sven's bloktoetsscore tussen de 24 en 40 ligt. B.De kans is 5% dat Sven's betrouwbare score onder de 24 ligt en 5% dat zijn score boven de 40 ligt. C.De kans dat het betrouwbaarheidsinterval [24-40] Sven's betrouwbare score bevat is 90% D.De betrouwbare score van Sven ligt in 90% van de gevallen tussen 24 en 40.

17 Waarom kan een testscore X nooit hoger correleren met een variabele dan met de betrouwbare score T? 4 17 A.Omdat de correlatie tussen X en T gelijk is aan de betrouwbaarheid van de test. De correlatie tussen X en een andere variabele is dus altijd lager. B.Omdat het enige deel van X dat niet in T zit meetfout is, en meetfout correleert nergens mee. C.Omdat de correlatie tussen X en E altijd groter is dan 0. D.Omdat de correlatie tussen X en T gelijk is aan 1. De correlatie tussen X en een andere variabele is dus altijd lager.

18 Een test met 20 items heeft een geschatte betrouwbaarheid van.75. Een onderzoeker wil de betrouwbaarheid van de test verbeteren en voegt 5 items toe. De variantie van de nieuwe test is 4. Wat is het 95% betrouwbaarheids interval van Jan op de nieuwe test die een score 12 heeft? -De Spearman-Brown formule is: -Neem voor de schatting van T de testscore X. - P(Z<1.96)= A.8.08 tot B.8.40 tot C tot D tot 13.80

19 Beoordeel onderstaande stellingen aangaande indruksvaliditeit (face validity): I. Een hoge indruksvaliditeit is voor een respondent prettig omdat het doel van de test voor hem/haar dan duidelijk lijkt (transparantie). II. Een hoge indruksvaliditeit van een test is wenselijk omdat het duidt op een hoge constructvaliditeit. A.Stelling I is juist, Stelling II is onjuist B.Stelling I is onjuist, Stelling II is juist C.Beide stellingen zijn juist D.Beide stellingen zijn onjuist 6 19


Download ppt "8-5-2012 Samantha Bouwmeester College 5 Testtheorie."

Verwante presentaties


Ads door Google