22-5-2012 Samantha Bouwmeester Testtheorie Responsie College 22-5-2012 Samantha Bouwmeester.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Tevredenheid met behandelaar en behandeling.
Uitleg bijwoordelijke bepaling (bwb)
Aflezen van analoge en digitale meetinstrumenten
Uitleg meewerkend voorwerp (mv)
voor iedereen die van zijn hond houdt…
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
H1 Basis Rekenvaardigheden
Uitleg lijdend voorwerp (lv)
College 3 Meten.
Arbeidsfactor Arbeidsfactor.
Dynamische tijdbalk Een dynamische tijdbalk geeft een uitvergroot deel van de algemene tijdbalk weer. Hij heet dynamisch omdat hij er voor elke periode.
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Kenmerken Veel aanbieders Vrije toe- en uitreding Homogene goederen
Kwadratische verbanden
toetsen voor het verband tussen variabelen met gelijk meetniveau
De Wiskunde B-Dag 2002.
Gegevensverwerving en verwerking
Meten van onderzoeksvariabelen
Evaluatie Van Interactieve Software Systemen
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Populatiegemiddelden: recap
Statistiek voor Historici
Aanvullende vragen Collegesheets M&S3
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
dat hebben wij, wij op vakantie naar kreta in september en wat hebben we, we zitten hier in de regen.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
Afdeling Revalidatiegeneeskunde
Uitleg bijvoeglijke bepaling (bvb)
De steekproefuitkomsten generaliseren naar de populatie
Interpretatie van statistiek bij toetsen en toetsvragen
Interpreteren van data
Marco van Gijzen & Allard Bouwmeester
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Varianties bij replicatie (herhaald testen)
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Betrouwbaarheid.
Validiteit.
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
Is bij elke cultuur astrologie hetzelfde? Maya Christelijk Islamitisch.
Met handen en voeten geloven 1
Kirti Zeijlmans MSc Rijksuniversiteit Groningen Voor meer informatie:
Ik geloof… Dat onze achtergrond en omstandigheden misschien wel van invloed zijn geweest op wie we zijn,maar dat wìj verantwoorde-lijk zijn voor wie we.
Kwantitatieve & kwalitatieve data analyse
Slot 4Hc.
Baarde en de goede Hoofdstuk 11: Data-analyse
Uitleg persoonsvorm (pv)
Is dit onderzoek belangrijk? Is dit onderzoek onbelangrijk?
Een veel gebruikte functie in Excel
ono počínatzahrátkošile (het inspeelshirt)
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Onderzoeksvaardigheden 3
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Codetuts Academy Les 6 Module 2a Php Fundamentals 1.
Verschillende grafieken en formules
Reactievergelijkingen Een kwestie van links en rechts kijken.
Les 1. Wat voor les krijgen we nu? Tijdens de lessen over hoofdstuk 9, 10 en 11 krijg je op een andere manier les. Het doel is om je zelfstandigheid te.
Lesbrief Vervoer H2.
Wat zegt een steekproef?
Voorspellende analyse
Transcript van de presentatie:

22-5-2012 Samantha Bouwmeester Testtheorie Responsie College 22-5-2012 Samantha Bouwmeester

Lambda2 : Onderschatting van de betrouwaarheid (net als cronbach’s alfa) maar iets hoger dan alfa. -Bij de IRF's is mij nog niet helemaal duidelijk hoe ik en of ik uberhaupt de verschillende parameters kan aflezen of bereken vanuit de grafiek. Hoe groter delta, des te moeilijker het item, des te hogere theta je nodig hebt om het item correct te maken. Hoe groter alfa, des te steiler de IRF, des te beter het item discrimineert.

-Op collegesheet 17 van college 2 vraag ik mij af hoe ik de formule van de betrouwbare score moet invullen, en dan met name ''q''. deze verwarring komt ook terug in de formules die gegeven zijn op collegesheet 18 van college 2. Wanneer gebruik je nu precies ICCrandon-absolute en wanneer ICC fixed-consistency?  Absolute: als je eist dat de scores van de beoordelaars exact overeenkomen. Consistency: als je eist dat de scores van de beoordelaars alleen een constante mogen verschillen Random: je wilt het resultaat generaliseren naar de populatie beoordelaar Fixed: je wilt het resultaat alleen gebruiken voor het betreffende onderzoek. - Het laatste deel van HS 6 gaat over de generaliseerbaarheid van metingen. Hier hebben ze het ook over universumscore etc, moeten we dit ook weten? Zo ja, zou u dit misschien uit kunnen leggen?

In HS 2 gaat het laatste stukje over averechtse diagnostiek, ook hierbij valt bij mij het kwartje nog niet helemaal, zelfs niet ad hand van het voorbeeld wat in het boek staat. Is het mogelijk dat je morgen het verschil uitlegt tussen Factor Analyse en de PCA? Daarnaast blijven de verschillende soorten validiteiten voor mij onduidelijk. Tot slot begrijp ik niet goed wat ze met het universum bedoelen.

Ik had een vraag over de Fleiss kappa Ik had een vraag over de Fleiss kappa. We hebben niet veel aandacht hieraan besteed en de formule in het blokboek is best lastig om te onthouden. Moeten we dit kunnen voor de bloktoets? En ik heb diezelfde vraag ook over het zelf berekenen van de item-rest correlatie.  Verder begrijp ik nog niet zo goed wanneer je de attenuatiecorrectie moet toepassen en wat die precies meet.  Waarom wordt de Spearman Brown formule ook gebruikt bij de splitsingsmethode? Ik snap hoe die wordt gebruikt bij verlenging/verkorting van tests, maar hoe zit dat bij de splitsingsmethode? Is de verlengingsfactor dan altijd 2, omdat het om twee helften gaat die even groot zijn? En is rxx geen onderdeel van rkk, omdat rxx al 'bestond' en rkk de nieuwe betrouwbaarheid is? Of is rxx de betrouwbaarheid van de eerste helft en rkk van de tweede helft?

* Waarom is Cronbach's alfa nou precies de ondergrens van de betrouwbaarheid? En waarom is er bij een kleine steekproef een grotere kans op overschatting van de betrouwbaarheid? Even voor de duidelijkheid: een overschatting van de betrouwbaarheid houdt in dat het hoger en beter uitvalt/lijkt, dan het in werkelijkheid is toch? * Van de redenen waarom de predictieve validiteit laag kan zijn worden genoemd dat de betekenis van het criterium verschilt, afwijking van lineariteit/homoscedasticiteit en dat een enkele predictor wordt gebruikt voor het voorspellen van een meerdimensionaal criterium.. Heeft u misschien een voorbeeld bij deze redenen, want ik kan ze wel in m'n hoofd stampen maar ik begrijp niet helemaal wat ze betekenen.

Evaluatie van een test: Multi-trait Multi-method matrix Observatie Oordeel Onderwijzer Vragenlijst Observatie Agr. Verl. Imp. Agr Verl. Imp. Agr. Ver. Imp. Agr. b Verl. m b Imp. m m b Oordeel Onderwijzer Agr. c d d b Verl. d c d m b Imp. d d c m m b Vragenlijst Agr. c d d c d d b Verl. d c d d c d m b Imp. d d c d d c m m b b = betrouwbaarheid c = convergente validiteit 7 d = discriminante validiteit m = methode variantie

Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) Nota Bene! Alfa ≤ rxx’ Alfa is een ondergrens van de betrouwbaarheid. Dit betekent dat de werkelijke betrouwbaarheid in de populatie hoger is. Maaaaaar: steekproef alfa kan weer een overschatting zijn van de betrouwbaarheid. Dus: bij een kleine steekproef heb je grotere kans dat alfa een OVERSCHATTING is van de betrouwbaarheid! Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) s1 rxx’ s1 s2 s3 rxx’ s2 1 s3 1 8

Item rest correlatie (corrected item total correlation) De correlatie tussen een item en de restscore van een test. Reststcore is de totaalscore van alle items minus de score van het item in kwestie. of Stappen: Bereken de standaarddeviatie van het item. Bereken de standaarddeviatie van de Restscore Bereken de covariantie tussen het item en de restscore Vul alle gegevens in, in de formule van de correlatie. 9

Validiteit en betrouwbaarheid X Ex Tx Omdat E nergens mee correleert is de maximale correlatie die X kan hebben met een andere variabele (zeg Y) gelijk aan de correlatie tussen X en T. 10

Attenuatiecorrectie Y X Ex E E Ey TY Tx 11

Regressie naar het midden Zelfs als de herkansers zich niet meer voorbereiden op de toets, is de kans groot dat er tenminste eentje slaagt… Die had namelijk “pech” de eerste keer… Moeten we nu concluderen dat de herkansers beter zijn geworden? Nee, dat niet!! T − + ≥5.5 T bloktoets + − Zak-slaag grens T T + <5.5 + T − T Deze studenten moeten toets herkansen. T 12

Regressie naar het midden komt vaak voor… Regressie naar het gemiddelde is het verschijnsel dat extreme scores op een variabele in een bepaalde steekproef bij een herhaalde meting voor dezelfde variabele minder extreme scores heeft die dichter bij het gemiddelde van de populatie liggen. Regressie naar het midden komt vaak voor… Mensen die uitgekozen zijn op basis van screeningslijst depressiviteit blijken gemiddelde na therapie minder depressief Uit evaluatie van een sociaal project voor kinderen met uit laag sociaal milieu blijken kinderen het gemiddeld het beter te doen na training! 13

Nee, dat hoeft idd. niet. Een hoge methode variantie kan betekenen: Als de methode variantie laag is, en de discriminante validiteit hoog is, wat zegt dit dan? Dit betekent dat de methodes weinig overlap hebben en dat de (verschillende) constructen goed van elkaar te onderscheiden zijn. Dit is wat je wilt. Als methode variantie hoog is, dan hoeven de constructen toch niet per se te overlappen? Nee, dat hoeft idd. niet. Een hoge methode variantie kan betekenen: dat je methodes overlappen; dat je constructen overlappen; Beide overlappen. Je kunt aan de discriminante validiteit beoordelen in hoeverre A. B. of c. aan de orde zijn. 14

Past het mokken model op bovenstaande 4 items? Passen het Raschmodel, het 2-paramater logistisch model, en het 3-parameter logistisch model op deze items? Past het mokken model op bovenstaande 4 items? Item 2 wordt uit de test verwijderd. Voor Sanne (θ = S) geldt dat de kans dat zij item 1 goed beantwoordt kleiner is dan de kans dat zij item 3 goed beantwoordt: P[(X1 = 1)|θ = S] < P[(X3 = 1)|θ = S]. Geldt dit ook voor Matthew, die een hele hoge θ heeft? Waarom wel, niet? 15

Voor Kelly geldt P[(X5 = 1)|θk] < P[(X4 = 1)|θ k]. Vul in: Item 4 Item 5 K M Gegeven is een set items waarop het DMM past. Stel Kelly heeft een lagere trekwaarde dan Milou (θK < θM). Voor Kelly geldt P[(X5 = 1)|θk] < P[(X4 = 1)|θ k]. Vul in: de kans dat Milou item 5 goed beantwoordt is ...... [kleiner dan (<); kleiner dan of gelijk aan (≤), gelijk aan (=), groter dan of gelijk aan (≥); groter dan (>)] de kans dat Kelly het item goed beantwoordt. De kans dat Milou item 5 goed beantwoordt is ...... (kleiner dan (<); kleiner dan of gelijk aan (≤), gelijk aan (=), groter dan of gelijk aan (≥); groter dan (>) dan de kans dat Milou item 4 goed beantwoordt. 16

1 Een test bestaat uit 20 items. De totaal score is de som van correcte antwoorden op de 20 items. In onderstaande tabel zie je de scores op item 1 en op de totaalscore. Bereken de item rest correlatie tussen item 1 en de restscore. item 1 Totaalscore 1 12 10 11 8 .50 .69 .83 .85 17

2 Beschouw onderstaande stellingen over transformaties Stelling 1: Wanneer men ruwe scores omzet in stanines via Z-scores dan voert men een niet-lineaire transformatie uit. Stelling 2: Wanneer men ruwe scores omzet in stanines via Z-scores dan vormt deze stanine verdeling een normale verdeling. Stelling 1 is juist, Stelling 2 is onjuist Stelling 1 is onjuist, Stelling 2 is juist  Beide stellingen zijn juist Beide stellingen zijn onjuist 18

3 De meetwaarden (θ) van twee personen kunnen vergeleken worden terwijl de meetwaarde (θ) van de ene persoon bepaald werd met Test A en de meetwaarde (θ) van de andere persoon bepaald werd met Test B.  Hoe noemen we dit fenomeen?   lokale onafhankelijkheid. marginale afhankelijkheid. monotonie. populatie onafhankelijkheid. 19

4 Een test bestaat uit vijf items. De vijf items passen in het Rasch model. De delta’s (δ) van de items zijn 1.5, 2, 2.5, 3 en 3.5. Hoe ziet de testinformatiefunctie er uit wanneer we uitgaan van meetwaarden die lopen van θ=-4 tot θ =4? De testinformatiefunctie is een rechte lijn. Voor alle waarden van θ=-4 tot θ =4 geeft de test evenveel informatie. De testinformatie heeft de top bij θ = -2.5. De testinformatie is symmetrisch en heeft de top bij θ = 0. De testinformatie heeft de top bij θ = 2.5. 20

5 Door het normaliseren van testscores: ontstaat een ongeveer normaal verdeelde scoreverdeling kunnen normgroepen worden bepaald kunnen testscores worden vergeleken met een absolute norm ontstaan scores die een lineaire transformatie zijn van de ruwe scores. 21

6 De base rate (toevalskans) van een erfelijke aandoening is 4%. De selectieratio op basis van een test is 8%, en de succesratio is 25%. Wat is dan de validiteit van de test met het criterium? Tip: neem n=100. -.12 .12 .32 .84 22

1 Een test bestaat uit 20 items. De totaal score is de som van correcte antwoorden op de 20 items. In onderstaande tabel zie je de scores op item 1 en op de totaalscore. Bereken de item rest correlatie tussen item 1 en de restscore. item 1 Totaalscore Restscore 1 12 11 10 8 .50 .69 .83 .85 23

2 Beschouw onderstaande stellingen over transformaties Stelling 1: Wanneer men ruwe scores omzet in stanines via Z-scores dan voert men een niet-lineaire transformatie uit. Stelling 2: Wanneer men ruwe scores omzet in stanines via Z-scores dan vormt deze stanine verdeling een normale verdeling. Stelling 1 is juist, Stelling 2 is onjuist Stelling 1 is onjuist, Stelling 2 is juist  Beide stellingen zijn juist Beide stellingen zijn onjuist 24

3 De meetwaarden (θ) van twee personen kunnen vergeleken worden terwijl de meetwaarde (θ) van de ene persoon bepaald werd met Test A en de meetwaarde (θ) van de andere persoon bepaald werd met Test B.  Hoe noemen we dit fenomeen?   lokale onafhankelijkheid. marginale afhankelijkheid. monotonie. populatie onafhankelijkheid. 25

4 Een test bestaat uit vijf items. De vijf items passen in het Rasch model. De delta’s (δ) van de items zijn 1.5, 2, 2.5, 3 en 3.5. Hoe ziet de testinformatiefunctie er uit wanneer we uitgaan van meetwaarden die lopen van θ=-4 tot θ =4? De testinformatiefunctie is een rechte lijn. Voor alle waarden van θ=-4 tot θ =4 geeft de test evenveel informatie. De testinformatie heeft de top bij θ = -2.5. De testinformatie is symmetrisch en heeft de top bij θ = 0. De testinformatie heeft de top bij θ = 2.5. 26

5 Door het normaliseren van testscores: ontstaat een ongeveer normaal verdeelde scoreverdeling kunnen normgroepen worden bepaald kunnen testscores worden vergeleken met een absolute norm ontstaan scores die een lineaire transformatie zijn van de ruwe scores. 27

6 De base rate (toevalskans) van een erfelijke aandoening is 4%. De selectieratio op basis van een test is 8%, en de succesratio is 25%. Wat is dan de validiteit van de test met het criterium? Tip: neem n=100. -.12 .12 .32 .84 1 tot 2 4 8 100 28