15-5-2012 Samantha Bouwmeester Testtheorie College 7 15-5-2012 Samantha Bouwmeester
q 1 P(Xg=1|q) .5 -2 -1 0 1 2 Item response functie: -2 -1 0 1 2 1 .5 P(Xg=1|q) Item response functie: S-curve, op grote gebieden vlak, op gering gebied steil. Op steile gebied zijn de meetwaarden q goed te onderscheiden. Op vlakke gebied zijn de meetwaarden q vrijwel niet te onderscheiden. 2
IRF’s van items die verschillen in moeilijkheid/lokatie G K H Wie is/was de minister president van Nederland? P(Xg=1|q=0)=.95 Wie is/was de president van Frankrijk? P(Xk=1|q=0)=.73 Kabila! Wie is de president van Congo? P(Xh=1|q=0)=.12 3
IRF’s van items die verschillen in kans op correct antwoord bij minimale meetwaarde θ Welke stad ligt niet aan de Middellandse zee? Marseille Perpignan Nîmes Nice Wat is de hoofdstad van Noord-Holland? Amsterdam Haarlem Leiden P(Xl=1|q=-4)=.33 P(X2=1|q=-4)=.25 4
Item respons functies van een goed en een slecht discriminerend item. 0.9 0.2 q =-1.5 q = 1.5 5
Item respons functies van drie slecht functionerende items Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op goed antwoord....Dat is dus gek. P(X=1) is gelijk voor alle waarden van q: item meet blijkbaar iets anders… Single peaked item: vb. Ik vind dat er voldoende hard wordt opgetreden criminele allochtone jongeren. 6
Kenmerken van items die de exacte vorm bepalen: Moeilijkheid (vaardigheden), populariteit (attitudes) (parameter: dg ) Discriminerend vermogen in het kritieke gebied (parameter: ag) Pseudokansniveau (parameter: gg ) dg, ag, en gg zijn item-parameters omdat zij de kenmerken (vorm en lokatie) van een item (Xg) functie bepalen. Deze waarden kunnen verschillend zijn voor verschillende items. qi is een persoonsparameter omdat de (latente) meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor personen met verschillende vaardigheid, symptomen, stijl, etc. 7
Item respons modellen Parametrische IRT modellen Een item respons model legt restricties op aan het antwoordgedrag. Het ene model is restrictiever (strenger) dan het andere model. Hoe restrictiever het model, des te moeilijker het zal passen op de data (werkelijkheid) maar hoe mooier de meeteigenschappen. (kennis kopen met assumpties) Wij bespreken alleen IRT-modellen voor dichotome items, met een stijgende relatie tussen succeskans en meetlatwaarde. Parametrische IRT modellen Rasch (locatie parameter, δ) 2 parameter logistisch model, Birnbaum (locatie δ en discriminatie α) 3 parameter logistisch model (locatie δ, discriminatie α, pseudokans γ) Non-parametrische IRT modellen - Mokken’s homogeniteits model (MHM). IRF moet monotoon niet-dalend zijn. - Dubbele monotoniemodel (DMM). IRF niet-dalend en IRF’s mogen niet snijden. 8
Als x toeneemt wordt ex énorm Even opfrissen: e = exp(onent) = 2.718281828 (net zoiets als π=3.14159265) e3 = exp(3) = e e e = 2.71~ 2.71~ 2.71~ = 20.09 exp(X) is de “inverse”functie van ln(X), en andersom, “inverse” is een soort “omgekeerd” Rekenmachine: e3 = 3 inv ln X eX -2 .14 1 0.1 1.1 2.7 10 22026 e0=1 e-getal= tussen 0 en 1 ex wordt nooooit <0 Als x toeneemt wordt ex énorm 9
Locatie-parameter van item g Meetwaarde persoon i Rasch-model Locatie-parameter van item g Rob S. heeft een meetwaarde van θ= -1 op de vaardigheidsschaal: spreken in het openbaar. Het item: Ik heb woordvindingsproblemen bij het spreken voor groepen, heeft een δ van 0. De antwoordcategorieën zijn 0 (nee) en 1 (ja). Wat is de kans dat Rob S. het antwoord “ja” geeft op dit item, wanneer bekend is dat het item voldoet aan het Rasch model? 10
dh = 0 dk = 1.5 NB: als d = q, dan is de kans .5: 1 item parameter δg. Items in het Rasch model verschillen alleen in moeilijkheid/populariteit (δ): dit maakt het model streng (past dus niet zo snel op echte data) Als δh > δg, dan is item h moeilijker dan item g. dh = 0 dg = -1.5 dk = 1.5 11
Birnbaum model (2-parameter logistisch model) Ruud de W. heeft een meetwaarde van qi = 1 op de vaardigheidsschaal rekenen. Het item: “e2+e3-e”, heeft een δg van 1 en een αg van 0.5 Wat is de kans dat Ruud de W. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model? NB: als δ = θ, dan is de kans .5 12
2 item parameters δg, αg. Items in het 2-parameter logistisch model kunnen verschillen in moeilijkheid/populariteit (δ) en discriminerend vermogen (α): minder streng dan Rasch. Hoe groter α, des te steiler de functie, des te beter het item discrimineert dg = -2, ag = 1 dh = 0, ah = 2 dk = 1, ak = .5 13
Birnbaum-model (3-parameter logistisch model) Chiel B. heeft een meetwaarde van θ = -2 op de vaardigheidsschaal taal. Het item: “Wat betekent ignoreren?”, is een 4-keuzevraag en heeft een δg van 1 en een αg van 1, en een γg van .25 Wat is de kans dat Chiel B. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 3-par-logistisch model? 14
3 item parameters δg, αg, en, γg. Items in het 3-parameter logistisch model kunnen verschillen in moeilijkheid (δ), discriminerend vermogen (α) en pseudokans (γ) dg = -2, ag = 2, gg = .2 dg = 1.5, ag = 1, gg=.25 dg = -1, ag = 1.5, gg=0 15
Mokkens model van monotone homogeniteit (MHM) Volgens Mokken zijn de “parametrische”-functies vaak te restrictief voor psychologische eigenschappen. Daarom: non-parametrisch IRT-model=> de Item response functie wordt NIET gedefinieerd door parameters…(alleen persoonsparameter θ, meetwaarde) P(X=1) 16 Ө
P(X=1|qp) P(X=1|qj) p j als qp>qj, dan Enige eis aan functie: monotoon-niet dalend, daarom minder restrictief dan parametrische modellen. Ordinaal meetniveau van de psychologische eigenschap q (tenminste interval meetniveau bij parametrische modellen) Je kunt de personen alleen maar rangordenen volgens q. als qp>qj, dan P(X=1|qp) P(X=1|qj) j p 17
Mokkens model van dubbele monotonie (DMM) Monotoon niet dalend in q Extra eis: de item response functies mogen niet snijden (wel raken). DMM is daarom strenger dan MHM. Ordinaal meetniveau, ordering van personen en items mogelijk. Volgorde van de kans op correct antwoord op de items is voor alle waarden van q gelijk! 18
(sub)populatie onafhankelijkheid Gegeven: een test die bestemd is voor een bepaalde populatie (bijv. 4-12 jarigen) met een aantal items die gekozen zijn uit een populatie van items. Vraag: zijn de schattingen van de meetwaarden (q) en itemkenmerken (d) onafhankelijk van de “sub”populatie (bijv. 5 jarigen)? Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening van) de meetwaarden welke items (uit populatie van alle mogelijke items) men krijgt voorgelegd? Onafhankelijkheid Item kenmerken Maakt het uit voor de (ordening van) de items (bijv. qua lokatie) welke (sub)populatie (uit populatie van alle mogelijke meetwaarden) de items maakt? 19
Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! Populatie onafhankelijkheid Rasch model Populatie 1 Populatie 2 Populatie 3 Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: geldt voor alle meetwaarden als 20
Niet alleen ordening van personen maar zelfs van intervallen ! Populatie onafhankelijkheid 2-par logistisch model Populatie 1 Populatie 2 Niet alleen ordening van personen maar zelfs van intervallen ! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 21
Populatie onafhankelijkheid 3-par logistisch model Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 22
Populatie onafhankelijkheid MHM Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: geldt NIET voor alle meetwaarden als 23
Populatie onafhankelijkheid DMM Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: Geldt voor alle meetwaarden als 24
Hoe schatten we de nu meetwaarden (q) en de itemparameters? Personen kunnen worden geordend op totaalscore items A B C D personen 1 2 3 4 Totaal 4 2 3 1 1 3 1 2 4 5 1 2 Items kunnen worden geordend op p-waarden “slechts 2 goed, maar wel de 2 moeilijkste…” pp5 pp3 pp4 pp2 pp1 D A C B “iteratief proces” Oplossing geeft waarden voor theta en delta waarbij alle responspatronen zo goed mogelijk verklaard worden. 25
Nauwkeurigheid van metingen Parametrische IRT-modellen geven gedetailleerdere informatie over betrouwbaarheid dan KTT-modellen In KTT : standaard error is constant over T In IRT: standaard error is functie van q, en dus niet overal hetzelfde. Consequentie: een test is voor sommige waarden van q informatiever / betrouwbaarder dan voor andere! 26 26
Betrouwbaarheid van scores in IRT: Een te moeilijk of te gemakkelijk item levert weinig informatie op over de meetwaarde van een persoon, dus meetwaarde niet erg betrouwbaar. Item-informatie functie geeft voor elke waarde van q de standaardmeetfout (SE) voor het betreffende item Test-informatie functie is optelsom van alle item-informatiefuncties. 27
Iteminformatie functie De plaats waar het item het steilst is, en dus het beste discrimineert, daar is de functie het informatiefst, heeft het de kleinste SE en is het dus het betrouwbaarst! Iteminformatie functie 28
Testinformatie functie Itest (θ=0)=.2+.2+.25=.65 1.7 95% BI (θ=-2): 2.4 -2.4 1.3 -5.3 95% BI (θ=0): 29
Doel-testinformatie functies: IQ achterstand IQ hoogbegaafd Zak-slaag bloktoets 30
Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning , DIF) voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bij vraagonzuiverheid doet vraag beroep op een andere dan te meten psychologische eigenschap! NB. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde q uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 31
Voorbeeld vraagonzuiverheid: Jongens en meisjes met dezelfde θ hebben niet dezelfde kans om het item correct te beantwoorden. 32