8-5-2012 Samantha Bouwmeester Testtheorie College 5 8-5-2012 Samantha Bouwmeester.

Slides:

Advertisements

Verwante presentaties

Statistische uitspraken over onbekende populatiegemiddelden

Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.

Toetsen van verschillen tussen twee of meer groepen

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

College 3 Meten.

Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

Informatie avond groep 8

Natuurlijke Werkloosheid en de Phillipscurve

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Titel van de presentatie

Hoofdstuk 2 De fundamenten van individueel gedrag

Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.

Werkcollege differentiële psychologie

Betrouwbaarheid en Validiteit

Hoofdstuk 3 – Gegevens verzamelen

Kwaliteit van meetinstrumenten

toetsen voor het verband tussen variabelen met gelijk meetniveau

Hoofdstuk 6: Controle structuren

De grafiek van een lineair verband is ALTIJD een rechte lijn.

Gegevensverwerving en verwerking

Meten van onderzoeksvariabelen

Oefeningen F-toetsen ANOVA.

Een fundamentele inleiding in de inductieve statistiek

Evaluatie Van Interactieve Software Systemen

Evaluatie van Interactieve Software Systemen

Hoofdstuk 9 Verbanden, correlatie en regressie

Meten bij marktonderzoek

Voorspellende analyse

Meten bij marktonderzoek

Toetsen als Leerinterventie. Samenvatten in het Testing Effect Paradigma. Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner CELSTEC, Open Universiteit.

Populatiegemiddelden: recap

Aanvullende vragen Collegesheets M&S3

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Rekenproblemen en Dyscalculie

Afdeling Revalidatiegeneeskunde

Competentiegericht ontwerpen & ontwikkelen

Interpretatie van statistiek bij toetsen en toetsvragen

Meten van intelligentie bij kinderen met ADHD

Varianties bij replicatie (herhaald testen)

Betrouwbaarheid.

Partiële r² Predictie van y gebaseerd op z alleen

Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.

Psychologische Test.

Hartelijk welkom 13 juni 2013.

Notenschrift test jezelf

Hoofdstuk X Het correlatievraagstuk & SPSS toepassing

Operationaliseren Definiëren Operationaliseren

Notenschrift test jezelf

Baarde en de goede Hoofdstuk 11: Data-analyse

CITO (onderdeel van het leerlingvolgsysteem)

Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.

Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.

Gerald Riedstra STOEIEN TUSSEN VADER EN KIND Onderzoek naar de psychometrische kwaliteiten van de Nederlandse versie van Rough and Tumble Play-Quality.

Week 2 : Ontwikkelingspsychologie, Liesbeth van Beemen:

Methoden & Technieken van Onderzoek

Module Waarnemen, observeren en rapporteren Les 2

Rotterdam, 00 januari 2007 Onderzoek I Bijeenkomst 3 kwartaal 2.

Plancyclus, les 4  Actualiteit  Vragen naar aanleiding van vorige les  Vragen over hoofdstuk 4 en 5  Observeren met een plan; het verschil tussen observeren.

Verkeersborden leren hoe werkt dat?

Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.

Problemen in de interactie en communicatie bij kinderen met een aan autisme verwante stoornis. M. Serra & R.B. Minderaa.

Talentontwikkeling “Zoek en vind het talent van ieder kind”

Toetsen van verschillen tussen twee of meer groepen

Voorspellende analyse

Transcript van de presentatie:

8-5-2012 Samantha Bouwmeester Testtheorie College 5 8-5-2012 Samantha Bouwmeester

Validiteit & Betekenis Het begrip validiteit “de mate waarin een test aan zijn doel voldoet” Validiteit is geen eigenschap van de test zonder meer: hangt af van doel van de test! (vb: depressie meten met meetlat...) Verantwoord? (test) Testgedrag Te meten construct (algemeen) Gedrag Conclusies / interpretatie 2

Twee hoofdsoorten: Voorspelling van gedrag buiten de testsituatie (predictieve validiteit). van belang in het onderwijs, selectie van personeel. Gaat om doen van uitspraken over niet-waargenomen gedrag buiten de testsituatie. 2. Verklaring van het testgedrag, operationalisering van het theoretisch construct (begripsvaliditeit) gaat om het verifiëren van theorieën, toetsen van hypotheses. Gaat om de relatie tussen observeerbaar gedrag en theoretisch construct. X Y Verlatingsangst vragenlijst hechting N.B. Predictieve validiteit kan niet zonder begripsvaliditeit en andersom! C verlatingsangst X Y hechting verlatingsangstvragenlijst 3

Predictieve validiteit Onderzoekt relatie tussen testen criterium prestatie. Toetsscore X Criteriumscore Y Twee moeilijkheden: De tijd tussen test en criterium bepaald in hoge mate de correlatie. Criterium is niet altijd beschikbaar, te operationaliseren, of te kwantificeren. (Toepassing van testtheorie kennis in baan als schoolpsycholoog???) 4

Operationaliseringsproces: Aanleiding om voorspelling te doen (psychologisch of niet-psychologisch). Pestgedrag onder ouderen in verzorgingshuis Doel Concretisering van het uiteindelijke doel in termen van zichtbare resultaten. Wat verstaan we onder “pesten”? Conceptueel criterium Observeerbaar gedrag waarmee het criterium wordt gemeten. Welk gedrag hoort er bij pesten? Niet groeten? Roddelen? Criterium gedrag (kwantatieve) operationalisering van het criterium gedrag. ”pest”-vragenlijst, interview, groepsopdracht, dagboek . Criterium maat Als criterium-maat onbetrouwbaar is, altijd lage validiteit. Maar als criterium-maat wel betrouwbaar, niet perse hoge validiteit!! 5

(partiële correlatie) Andere functie van tests bij predictie: suppressor variabele r(T2.T1,Y) r(T2,Y) T1 T2 Y T1 T2 Y Catalpa speciosa Vb. T1 = verbale vaardigheid. T2 = botanische kennistest. Y = geschiktheid voor boswachter. r(T2,Y) r(T1,T2) > 0 r(T1,Y) = 0 r(T2,Y) > 0 r(T2,Y) < r(T2.T1,Y) “Correlatie tussen T2 en Y als T1 uit T2 is verwijderd is groter dan de correlatie tussen T2 en Y. T1 is een suppressor variabele. Verbale vaardigheid drukt de relatie tussen botanische kennis en geschiktheid boswachter (partiële correlatie) 6

moderator variabele C Y M Vb. IQ = CITO X = motivatie Y = schoolprestatie C Y M M=hoog Y M=laag C 7

Waarom kan de predictieve validiteit laag uitvallen? Lage betrouwbaarheid van test of criterium (nooit hoger dan wortel van de betrouwbaarheid!) Afwijking van lineariteit (links) of homoscedasticiteit (rechts) Heterogene groepen (moderators: lage/hoge motivatie) Betekenis van criterium verschilt (secretaresse) Enkele predictor voor het voorspellen van meerdimensioneel criterium (bloktoets) 8

Item populatie Enkele andere onderscheidingen: Predictive validity: testgedrag voorspelt criteriumprestatie op later tijdstip. (CITO-toets als voorspelling van middelbare school prestaties) Concurrent validity: testgedrag voorspelt criteriumprestatie op hetzelfde tijdstip. (CITO-toets als beoordeling/vergelijking van leerkrachtoordeel.) Content validity: adequaatheid van de representatie van het itemdomein. Subjectief oordeel telt zwaar: face validity! (vb: Alleen vragen over validiteit in bloktoets testtheorie.) Item populatie Item steekproef 9

Construct validity: welke psychologische eigenschap meet de test? - welk construct meet de test? (observatie en logisch denken) - toetsbare hypotheses vanuit de theorie v.h. construct. (logisch proces) - empirisch onderzoek om hypotheses te toetsen (methodologisch proces) Synthetische validiteit: richt zich op onderdelen van criteriumgedrag. (testtheorie: spss-vaardigheid, itemconstructievaardigheid, theoriekennis, statistische kennis Congruent validity: correlatie met test die min of meer dezelfde eigenschap meet. (vb: faalangst test en zelfcompetentie test) Face validity: subjectieve impressie van de relatie tussen testgedrag en construct: zonder empirisch onderzoek. (vb: Rorschach vs persoonlijkheids test) Incremental validity: voegt de test iets toe aan de al bestaande tests die dezelfde eigenschap meten. (vb: Cito-toets naast leerkracht-oordeel) 10

Evaluatie van een test: Multi-trait Multi-method matrix Agressie bij kinderen Evaluatie van een test: Multi-trait Multi-method matrix Observatie Oordeel Onderwijzer Vragenlijst Observatie Agr. Verl. Imp. Agr Verl. Imp. Agr. Ver. Imp. Agr. b b=hoog c>0, c b d=laag c>d c>m m  d Verl. m b Imp. m m b Oordeel Onderwijzer Agr. c d d b Verl. d c d m b Imp. d d c m m b Vragenlijst Agr. c d d c d d b Verl. d c d d c d m b Imp. d d c d d c m m b b = betrouwbaarheid c = convergente validiteit 11 d = discriminante validiteit m = methode variantie

Waardoor wordt de onderliggende structuur (gezamenlijke variantie)bepaald? Vooral door de eigenschap of vooral door de methode? PCA (met rotatie) kan inzicht geven! Praktijk: De gebruikte methode zorgt (ook) voor gezamenlijke variantie Idealiter: Eigenschappen bepalen structuur 12

Een paar oefentoetsvragen… EUR QJ A B C D A B SMS de antwoorden naar: 4411

1 Twee schoolpsychologen diagnosticeren het gedrag van 12 kinderen in drie categorieën, adhd, concentratiestoornis (CS), normaal: Psycholoog A scoort 2 keer ADHD, 5 keer CS en de rest Normaal, Psycholoog B scoort 3 keer ADHD, 8 keer CS en de rest Normaal. Ze komen bij 8 kinderen overeen in hun beoordeling. Hoe hoog is de geschatte betrouwbaarheid tussen de twee beoordelaars? .35 .48 .67 Dat kan op grond van bovenstaande gegevens niet berekend worden.

2 In hoofdstuk 2 van Drenth & Sijtsma wordt het begrip "averechtse diagnostiek" gebruikt. Wat wordt er met dit begrip bedoeld wanneer men denkt aan het gebruik van schoolvorderingstoetsen (bijv. Cito-toetsen)? Dat men door het gebruik van schoolvorderingentoetsen kinderen aanzet om extra te gaan oefenen waardoor zij beter gaan presteren op een schoolvorderingstoets. Dat de scores op een schoolvorderingentoets niet alleen iets zeggen over de prestatie van het kind maar ook over andere factoren zoals motivatie of faalangst. Dat de prestaties op schoolvorderingentoetsen momentopnames zijn die minder diagnostische en voorspellende waarde hebben dan men beoogt. Dat men de resultaten op een schoolvorderingentoets niet alleen gebruikt om de prestatie van het kind te evalueren, maar bijvoorbeeld ook het functioneren van een leerkracht.

3 Met behulp van de standaardmeetfout wordt het 90% betrouwbaarheidsinterval berekend voor Sven met een bloktoetsscore van 32. Dit interval is [24-40]. Hoe moeten we dit interval interpreteren? De kans is 90% dat Sven's bloktoetsscore tussen de 24 en 40 ligt. De kans is 5% dat Sven's betrouwbare score onder de 24 ligt en 5% dat zijn score boven de 40 ligt. De kans dat het betrouwbaarheidsinterval [24-40] Sven's betrouwbare score bevat is 90% De betrouwbare score van Sven ligt in 90% van de gevallen tussen 24 en 40.

4 Waarom kan een testscore X nooit hoger correleren met een variabele dan met de betrouwbare score T? Omdat de correlatie tussen X en T gelijk is aan de betrouwbaarheid van de test. De correlatie tussen X en een andere variabele is dus altijd lager. Omdat het enige deel van X dat niet in T zit meetfout is, en meetfout correleert nergens mee. Omdat de correlatie tussen X en E altijd groter is dan 0. Omdat de correlatie tussen X en T gelijk is aan 1. De correlatie tussen X en een andere variabele is dus altijd lager.

5 Een test met 20 items heeft een geschatte betrouwbaarheid van .75. Een onderzoeker wil de betrouwbaarheid van de test verbeteren en voegt 5 items toe. De variantie van de nieuwe test is 4. Wat is het 95% betrouwbaarheids interval van Jan op de nieuwe test die een score 12 heeft? -De Spearman-Brown formule is: -Neem voor de schatting van T de testscore X. - P(Z<1.96)=.975 8.08 tot 15.92 8.40 tot 15.60 10.04 tot 13.96 10.20 tot 13.80

6 Beoordeel onderstaande stellingen aangaande indruksvaliditeit (face validity): Een hoge indruksvaliditeit is voor een respondent prettig omdat het doel van de test voor hem/haar dan duidelijk lijkt (transparantie). Een hoge indruksvaliditeit van een test is wenselijk omdat het duidt op een hoge constructvaliditeit. Stelling I is juist, Stelling II is onjuist Stelling I is onjuist, Stelling II is juist Beide stellingen zijn juist Beide stellingen zijn onjuist

https://psy.sin-online.nl/channel/polls/index.html?chid=6038

1 Twee schoolpsychologen diagnosticeren het gedrag van 12 kinderen in drie categorieën, adhd, concentratiestoornis (CS), normaal: Psycholoog A scoort 2 keer ADHD, 5 keer CS en de rest Normaal, Psycholoog B scoort 3 keer ADHD, 8 keer CS en de rest Normaal. Ze komen bij 8 kinderen overeen in hun beoordeling. Hoe hoog is de geschatte betrouwbaarheid tussen de twee beoordelaars? Po=8/12 Pe=2*3/12+5*8/12+5*1/12)/12 Kappa: (.667-.354)/(1-.354)=.48 psycholoog A adhd cs norm psycholoog B 2 5 3 8 1 12

5 Een test met 20 items heeft een geschatte betrouwbaarheid van .75. Een onderzoeker wil de betrouwbaarheid van de test verbeteren en voegt 5 items toe. De variantie van de nieuwe test is 4. Wat is het 95% betrouwbaarheids interval van Jan op de nieuwe test die een score 12 heeft? - Neem voor de schatting van T de testscore X. - P(Z<1.96)=.975 Interval: 10.20 tot 13.80