15-5-2012 Samantha Bouwmeester Testtheorie College 7 15-5-2012 Samantha Bouwmeester.

Slides:



Advertisements
Verwante presentaties
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Advertisements

Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
1 19 jan Urk. 2 de context van 2Korinthe 3  Paulus reageert op beschuldigingen dat hij onbevoegd zou zijn (3:1,2);  Paulus plaatst zijn Evangelie.
Aan de hand van de volgende dia’s laten wij u zien hoe een computerprogramma, geheel automatisch, uit een opgavenbank een toets samenstelt die zo goed.
Paulus' eerste brief aan Korinthe (20) 23 januari 2013 Bodegraven.
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Water, schapen en vrouwen
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
prNBN D addendum 1 Deel 2: PLT
Hogere Wiskunde Complexe getallen college week 6
Datastructuren Analyse van Algoritmen en O
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.
© GfK 2012 | Title of presentation | DD. Month
P-waarde versus betrouwbaarheidsinterval
Hoofdstuk 1 De grote lijn..
Gegevensverwerving en verwerking
Metingen met spreiding
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Meten bij marktonderzoek
1 7 nov Rijnsburg 7 nov Rijnsburg. 2 Hebreeën 7 15 En nog veel duidelijker wordt het, als naar het evenbeeld van Melchisedek een andere priester.
Optuigen van datastructuren
Pasen & Pinksteren op één dag!
Romeinen Maar de gerechtigheid uit het geloof… nl. in Gods onvoorwaardelijke BELOFTE 2.
Groot geloof 1.
1 19 dec Rijnsburg 19 dec Rijnsburg. 2 Hebreeën 8 1 De hoofdzaak VAN ONS ONDERWERP is, dat wij zulk een hogepriester hebben, die gezeten is.
De vierkantjes ! Dit is een puzzel om uw hersens eens goed te laten werken. De vraag is bij elk figuur hoeveel vierkanten u ziet.
Les 9 Gelijkstroomschakelingen
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
2009 Tevredenheidsenquête Resultaten Opleidingsinstellingen.
PLAYBOY Kalender 2006 Dit is wat mannen boeit!.
ribwis1 Toegepaste wiskunde Lesweek 2
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
ribwis1 Toegepaste wiskunde, ribPWI Lesweek 01
ribWBK11t Toegepaste wiskunde Lesweek 02
Tweedegraadsfuncties
DEEL 2 LES 16 De verdieping Les 16 Slembiedingen versie
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?

ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
2 januari 2009Nieuwjaarsreceptie "Meule wal straete" 1 Nieuwjaarsreceptie 2 januari 2009 Eerste bijeenkomst van de bewoners van de “Meule wal straete”
Interpretatie van statistiek bij toetsen en toetsvragen
Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 3.
Varianties bij replicatie (herhaald testen)
Betrouwbaarheid.
De financiële functie: Integrale bedrijfsanalyse©
NIEMAND IETS SCHULDIG 12 oktober 2014 Zoetermeer.
1 Week /11/ Dalende beurzen Blijkbaar is de macht van de centrale banken in de wereld overroepen Men kan niet blijven de mensen.
22/11/ DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week
Les 3: Verkeer TOETS.
Centrummaten en Boxplot
De vierkantjes ! Dit is een puzzel om uw hersens eens goed te laten werken. De vraag is bij elk figuur hoeveel vierkanten u ziet.
Lucas 15: 11 En Hij zeide: Iemand had twee zonen
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Strijd tegen de zonde?.
ZijActief Koningslust
Baarde en de goede Hoofdstuk 11: Data-analyse
Transcript van de presentatie:

15-5-2012 Samantha Bouwmeester Testtheorie College 7 15-5-2012 Samantha Bouwmeester

q 1 P(Xg=1|q) .5 -2 -1 0 1 2 Item response functie: -2 -1 0 1 2 1 .5 P(Xg=1|q) Item response functie: S-curve, op grote gebieden vlak, op gering gebied steil. Op steile gebied zijn de meetwaarden q goed te onderscheiden. Op vlakke gebied zijn de meetwaarden q vrijwel niet te onderscheiden. 2

IRF’s van items die verschillen in moeilijkheid/lokatie G K H Wie is/was de minister president van Nederland? P(Xg=1|q=0)=.95 Wie is/was de president van Frankrijk? P(Xk=1|q=0)=.73 Kabila! Wie is de president van Congo? P(Xh=1|q=0)=.12 3

IRF’s van items die verschillen in kans op correct antwoord bij minimale meetwaarde θ Welke stad ligt niet aan de Middellandse zee? Marseille Perpignan Nîmes Nice Wat is de hoofdstad van Noord-Holland? Amsterdam Haarlem Leiden P(Xl=1|q=-4)=.33 P(X2=1|q=-4)=.25 4

Item respons functies van een goed en een slecht discriminerend item. 0.9 0.2 q =-1.5 q = 1.5 5

Item respons functies van drie slecht functionerende items Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op goed antwoord....Dat is dus gek. P(X=1) is gelijk voor alle waarden van q: item meet blijkbaar iets anders… Single peaked item: vb. Ik vind dat er voldoende hard wordt opgetreden criminele allochtone jongeren. 6

Kenmerken van items die de exacte vorm bepalen: Moeilijkheid (vaardigheden), populariteit (attitudes) (parameter: dg ) Discriminerend vermogen in het kritieke gebied (parameter: ag) Pseudokansniveau (parameter: gg ) dg, ag, en gg zijn item-parameters omdat zij de kenmerken (vorm en lokatie) van een item (Xg) functie bepalen. Deze waarden kunnen verschillend zijn voor verschillende items. qi is een persoonsparameter omdat de (latente) meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor personen met verschillende vaardigheid, symptomen, stijl, etc. 7

Item respons modellen Parametrische IRT modellen Een item respons model legt restricties op aan het antwoordgedrag. Het ene model is restrictiever (strenger) dan het andere model. Hoe restrictiever het model, des te moeilijker het zal passen op de data (werkelijkheid) maar hoe mooier de meeteigenschappen. (kennis kopen met assumpties) Wij bespreken alleen IRT-modellen voor dichotome items, met een stijgende relatie tussen succeskans en meetlatwaarde. Parametrische IRT modellen Rasch (locatie parameter, δ) 2 parameter logistisch model, Birnbaum (locatie δ en discriminatie α) 3 parameter logistisch model (locatie δ, discriminatie α, pseudokans γ) Non-parametrische IRT modellen - Mokken’s homogeniteits model (MHM). IRF moet monotoon niet-dalend zijn. - Dubbele monotoniemodel (DMM). IRF niet-dalend en IRF’s mogen niet snijden. 8

Als x toeneemt wordt ex énorm Even opfrissen: e = exp(onent) = 2.718281828 (net zoiets als π=3.14159265) e3 = exp(3) = e  e  e = 2.71~  2.71~  2.71~ = 20.09 exp(X) is de “inverse”functie van ln(X), en andersom, “inverse” is een soort “omgekeerd” Rekenmachine: e3 = 3 inv ln X eX -2 .14 1 0.1 1.1 2.7 10 22026 e0=1 e-getal= tussen 0 en 1 ex wordt nooooit <0 Als x toeneemt wordt ex énorm 9

Locatie-parameter van item g Meetwaarde persoon i Rasch-model Locatie-parameter van item g Rob S. heeft een meetwaarde van θ= -1 op de vaardigheidsschaal: spreken in het openbaar. Het item: Ik heb woordvindingsproblemen bij het spreken voor groepen, heeft een δ van 0. De antwoordcategorieën zijn 0 (nee) en 1 (ja). Wat is de kans dat Rob S. het antwoord “ja” geeft op dit item, wanneer bekend is dat het item voldoet aan het Rasch model? 10

dh = 0 dk = 1.5 NB: als d = q, dan is de kans .5: 1 item parameter δg. Items in het Rasch model verschillen alleen in moeilijkheid/populariteit (δ): dit maakt het model streng (past dus niet zo snel op echte data) Als δh > δg, dan is item h moeilijker dan item g. dh = 0 dg = -1.5 dk = 1.5 11

Birnbaum model (2-parameter logistisch model) Ruud de W. heeft een meetwaarde van qi = 1 op de vaardigheidsschaal rekenen. Het item: “e2+e3-e”, heeft een δg van 1 en een αg van 0.5 Wat is de kans dat Ruud de W. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model? NB: als δ = θ, dan is de kans .5 12

2 item parameters δg, αg. Items in het 2-parameter logistisch model kunnen verschillen in moeilijkheid/populariteit (δ) en discriminerend vermogen (α): minder streng dan Rasch. Hoe groter α, des te steiler de functie, des te beter het item discrimineert dg = -2, ag = 1 dh = 0, ah = 2 dk = 1, ak = .5 13

Birnbaum-model (3-parameter logistisch model) Chiel B. heeft een meetwaarde van θ = -2 op de vaardigheidsschaal taal. Het item: “Wat betekent ignoreren?”, is een 4-keuzevraag en heeft een δg van 1 en een αg van 1, en een γg van .25 Wat is de kans dat Chiel B. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 3-par-logistisch model? 14

3 item parameters δg, αg, en, γg. Items in het 3-parameter logistisch model kunnen verschillen in moeilijkheid (δ), discriminerend vermogen (α) en pseudokans (γ) dg = -2, ag = 2, gg = .2 dg = 1.5, ag = 1, gg=.25 dg = -1, ag = 1.5, gg=0 15

Mokkens model van monotone homogeniteit (MHM) Volgens Mokken zijn de “parametrische”-functies vaak te restrictief voor psychologische eigenschappen. Daarom: non-parametrisch IRT-model=> de Item response functie wordt NIET gedefinieerd door parameters…(alleen persoonsparameter θ, meetwaarde) P(X=1) 16 Ө

P(X=1|qp)  P(X=1|qj) p j als qp>qj, dan Enige eis aan functie: monotoon-niet dalend, daarom minder restrictief dan parametrische modellen. Ordinaal meetniveau van de psychologische eigenschap q (tenminste interval meetniveau bij parametrische modellen) Je kunt de personen alleen maar rangordenen volgens q. als qp>qj, dan P(X=1|qp)  P(X=1|qj) j p 17

Mokkens model van dubbele monotonie (DMM) Monotoon niet dalend in q Extra eis: de item response functies mogen niet snijden (wel raken). DMM is daarom strenger dan MHM. Ordinaal meetniveau, ordering van personen en items mogelijk. Volgorde van de kans op correct antwoord op de items is voor alle waarden van q gelijk! 18

(sub)populatie onafhankelijkheid Gegeven: een test die bestemd is voor een bepaalde populatie (bijv. 4-12 jarigen) met een aantal items die gekozen zijn uit een populatie van items. Vraag: zijn de schattingen van de meetwaarden (q) en itemkenmerken (d) onafhankelijk van de “sub”populatie (bijv. 5 jarigen)? Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening van) de meetwaarden welke items (uit populatie van alle mogelijke items) men krijgt voorgelegd? Onafhankelijkheid Item kenmerken Maakt het uit voor de (ordening van) de items (bijv. qua lokatie) welke (sub)populatie (uit populatie van alle mogelijke meetwaarden) de items maakt? 19

Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! Populatie onafhankelijkheid Rasch model Populatie 1 Populatie 2 Populatie 3 Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: geldt voor alle meetwaarden als 20

Niet alleen ordening van personen maar zelfs van intervallen ! Populatie onafhankelijkheid 2-par logistisch model Populatie 1 Populatie 2 Niet alleen ordening van personen maar zelfs van intervallen ! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 21

Populatie onafhankelijkheid 3-par logistisch model Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 22

Populatie onafhankelijkheid MHM Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: geldt NIET voor alle meetwaarden als 23

Populatie onafhankelijkheid DMM Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: Geldt voor alle meetwaarden als 24

Hoe schatten we de nu meetwaarden (q) en de itemparameters? Personen kunnen worden geordend op totaalscore items A B C D personen 1 2 3 4 Totaal 4 2 3 1 1 3 1 2 4 5 1 2 Items kunnen worden geordend op p-waarden “slechts 2 goed, maar wel de 2 moeilijkste…” pp5 pp3 pp4 pp2 pp1 D A C B “iteratief proces” Oplossing geeft waarden voor theta en delta waarbij alle responspatronen zo goed mogelijk verklaard worden. 25

Nauwkeurigheid van metingen Parametrische IRT-modellen geven gedetailleerdere informatie over betrouwbaarheid dan KTT-modellen In KTT : standaard error is constant over T In IRT: standaard error is functie van q, en dus niet overal hetzelfde. Consequentie: een test is voor sommige waarden van q informatiever / betrouwbaarder dan voor andere! 26 26

Betrouwbaarheid van scores in IRT: Een te moeilijk of te gemakkelijk item levert weinig informatie op over de meetwaarde van een persoon, dus meetwaarde niet erg betrouwbaar. Item-informatie functie geeft voor elke waarde van q de standaardmeetfout (SE) voor het betreffende item Test-informatie functie is optelsom van alle item-informatiefuncties. 27

Iteminformatie functie De plaats waar het item het steilst is, en dus het beste discrimineert, daar is de functie het informatiefst, heeft het de kleinste SE en is het dus het betrouwbaarst! Iteminformatie functie 28

Testinformatie functie Itest (θ=0)=.2+.2+.25=.65 1.7 95% BI (θ=-2): 2.4 -2.4 1.3 -5.3 95% BI (θ=0): 29

Doel-testinformatie functies: IQ achterstand IQ hoogbegaafd Zak-slaag bloktoets 30

Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning , DIF) voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bij vraagonzuiverheid doet vraag beroep op een andere dan te meten psychologische eigenschap! NB. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde q uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 31

Voorbeeld vraagonzuiverheid: Jongens en meisjes met dezelfde θ hebben niet dezelfde kans om het item correct te beantwoorden. 32