De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

15-5-2012 Samantha Bouwmeester College 7 Testtheorie.

Verwante presentaties


Presentatie over: "15-5-2012 Samantha Bouwmeester College 7 Testtheorie."— Transcript van de presentatie:

1 Samantha Bouwmeester College 7 Testtheorie

2  P(X g =1|  ) Item response functie: • S-curve, op grote gebieden vlak, op gering gebied steil. • Op steile gebied zijn de meetwaarden  goed te onderscheiden. • Op vlakke gebied zijn de meetwaarden  vrijwel niet te onderscheiden. 2

3 P(X g =1|  =0)=.95 P(X k =1|  =0)=.73 Wie is/was de minister president van Nederland? Wie is de president van Congo? Wie is/was de president van Frankrijk? P(X h =1|  =0)=.12 Kabila! IRF’s van items die verschillen in moeilijkheid/lokatie 3 G K H

4 P(X l =1|  =-4)=.33 P(X 2 =1|  =-4)=.25 Wat is de hoofdstad van Noord-Holland? a.Amsterdam b.Haarlem c.Leiden Welke stad ligt niet aan de Middellandse zee? a.Marseille b.Perpignan c.Nîmes d.Nice IRF’s van items die verschillen in kans op correct antwoord bij minimale meetwaarde θ 4

5 Item respons functies van een goed en een slecht discriminerend item  =-1.5  = 1.5 5

6 Item respons functies van drie slecht functionerende items 6 • Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op goed antwoord....Dat is dus gek. • P(X=1) is gelijk voor alle waarden van  : item meet blijkbaar iets anders… • Single peaked item: vb. Ik vind dat er voldoende hard wordt opgetreden criminele allochtone jongeren.

7 Kenmerken van items die de exacte vorm bepalen: 1.Moeilijkheid (vaardigheden), populariteit (attitudes) (parameter:  g ) 2.Discriminerend vermogen in het kritieke gebied (parameter:  g ) 3.Pseudokansniveau (parameter:  g )  g,  g, en  g zijn item-parameters omdat zij de kenmerken (vorm en lokatie) van een item (X g ) functie bepalen. Deze waarden kunnen verschillend zijn voor verschillende items.  i is een persoonsparameter omdat de (latente) meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor personen met verschillende vaardigheid, symptomen, stijl, etc. 7

8 Item respons modellen ◊ Een item respons model legt restricties op aan het antwoordgedrag. ◊ Het ene model is restrictiever (strenger) dan het andere model. ◊ Hoe restrictiever het model, des te moeilijker het zal passen op de data (werkelijkheid) maar hoe mooier de meeteigenschappen. (kennis kopen met assumpties) ◊ Wij bespreken alleen IRT-modellen voor dichotome items, met een stijgende relatie tussen succeskans en meetlatwaarde. 8 Parametrische IRT modellen -Rasch (locatie parameter, δ) -2 parameter logistisch model, Birnbaum (locatie δ en discriminatie α) -3 parameter logistisch model (locatie δ, discriminatie α, pseudokans γ) Non-parametrische IRT modellen - Mokken’s homogeniteits model (MHM). IRF moet monotoon niet-dalend zijn. - Dubbele monotoniemodel (DMM). IRF niet-dalend en IRF’s mogen niet snijden.

9 Even opfrissen: e = exp(onent) = (net zoiets als π= ) e 3 = exp(3) = e  e  e = 2.71~  2.71~  2.71~ = exp(X) is de “inverse”functie van ln(X), en andersom, “inverse” is een soort “omgekeerd” Rekenmachine: e 3 = 3 inv ln 9 • e 0 =1 • e -getal = tussen 0 en 1 • e x wordt nooooit <0 • Als x toeneemt wordt e x énorm • e 0 =1 • e -getal = tussen 0 en 1 • e x wordt nooooit <0 • Als x toeneemt wordt e x énorm X eXeX

10 Rasch-model Rob S. heeft een meetwaarde van θ= -1 op de vaardigheidsschaal: spreken in het openbaar. Het item: Ik heb woordvindingsproblemen bij het spreken voor groepen, heeft een δ van 0. De antwoordcategorieën zijn 0 (nee) en 1 (ja). Wat is de kans dat Rob S. het antwoord “ja” geeft op dit item, wanneer bekend is dat het item voldoet aan het Rasch model? Locatie- parameter van item g Meetwaarde persoon i 10

11 NB: als  = , dan is de kans.5:  g = -1.5  h = 0  k = 1.5 • 1 item parameter δ g. • Items in het Rasch model verschillen alleen in moeilijkheid/populariteit (δ): dit maakt het model streng (past dus niet zo snel op echte data) • Als δ h > δ g, dan is item h moeilijker dan item g. 11

12 Birnbaum model (2-parameter logistisch model) Ruud de W. heeft een meetwaarde van q i = 1 op de vaardigheidsschaal rekenen. Het item: “e 2 +e 3 -e”, heeft een δ g van 1 en een α g van 0.5 Wat is de kans dat Ruud de W. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model? NB: als δ = θ, dan is de kans.5 12

13 • 2 item parameters δ g, α g. • Items in het 2-parameter logistisch model kunnen verschillen in moeilijkheid/populariteit (δ) en discriminerend vermogen (α): minder streng dan Rasch. • Hoe groter α, des te steiler de functie, des te beter het item discrimineert  g = -2,  g = 1  k = 1,  k =.5  h = 0,  h = 2 13

14 14 Birnbaum-model (3-parameter logistisch model) Chiel B. heeft een meetwaarde van θ = -2 op de vaardigheidsschaal taal. Het item: “Wat betekent ignoreren?”, is een 4-keuzevraag en heeft een δ g van 1 en een α g van 1, en een γ g van.25 Wat is de kans dat Chiel B. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 3-par-logistisch model? 14

15 15 • 3 item parameters δ g, α g, en, γ g. • Items in het 3-parameter logistisch model kunnen verschillen in moeilijkheid (δ), discriminerend vermogen (α) en pseudokans (γ)  g = -2,  g = 2,  g =.2  g = 1.5,  g = 1,  g =.25  g = -1,  g = 1.5,  g =0 15

16 Mokkens model van monotone homogeniteit (MHM) - Volgens Mokken zijn de “parametrische”-functies vaak te restrictief voor psychologische eigenschappen. - Daarom: non-parametrisch IRT-model=> de Item response functie wordt NIET gedefinieerd door parameters…(alleen persoonsparameter θ, meetwaarde) Ө P(X=1) 16

17 • Enige eis aan functie: monotoon-niet dalend, daarom minder restrictief dan parametrische modellen. • Ordinaal meetniveau van de psychologische eigenschap  (tenminste interval meetniveau bij parametrische modellen) Je kunt de personen alleen maar rangordenen volgens . als  p >  j, dan P(X=1|  p )  P(X=1|  j ) j p 17

18 Mokkens model van dubbele monotonie (DMM) -Monotoon niet dalend in  -Extra eis: de item response functies mogen niet snijden (wel raken). -DMM is daarom strenger dan MHM. -Ordinaal meetniveau, ordering van personen en items mogelijk. Volgorde van de kans op correct antwoord op de items is voor alle waarden van  gelijk! 18

19  Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening van) de meetwaarden welke items (uit populatie van alle mogelijke items) men krijgt voorgelegd?  Onafhankelijkheid Item kenmerken Maakt het uit voor de (ordening van) de items (bijv. qua lokatie) welke (sub)populatie (uit populatie van alle mogelijke meetwaarden) de items maakt? (sub)populatie onafhankelijkheid Gegeven: een test die bestemd is voor een bepaalde populatie (bijv jarigen) met een aantal items die gekozen zijn uit een populatie van items. Vraag: zijn de schattingen van de meetwaarden (  ) en itemkenmerken (  ) onafhankelijk van de “sub”populatie (bijv. 5 jarigen)? 19

20 Populatie 1Populatie 2Populatie 3 Populatie onafhankelijkheid Rasch model Populatie-onafhankelijkheid van items? Ja, immers: geldt voor alle meetwaarden als Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! 20

21 Populatie 1Populatie 2 Populatie onafhankelijkheid 2-par logistisch model Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Niet alleen ordening van personen maar zelfs van intervallen ! 21

22 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als Populatie 1 Populatie 2 Populatie onafhankelijkheid 3-par logistisch model 22

23 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: geldt NIET voor alle meetwaarden als Populatie 1Populatie 2 Populatie onafhankelijkheid MHM MHM_1 MHM_2 MHM_3 MHM_4 23

24 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: Geldt voor alle meetwaarden als Populatie 1Populatie 3 Populatie onafhankelijkheid DMM DMM_1 DMM_2 DMM_3 DMM_4 24

25 Hoe schatten we de nu meetwaarden (  ) en de itemparameters?  “iteratief proces”  Oplossing geeft waarden voor theta en delta waarbij alle responspatronen zo goed mogelijk verklaard worden items ABCD personen Totaal Personen kunnen worden geordend op totaalscore Items kunnen worden geordend op p- waarden pp3pp4pp2pp1 “slechts 2 goed, maar wel de 2 moeilijkste…” pp5 DACB 25

26 26 Nauwkeurigheid van metingen - Parametrische IRT-modellen geven gedetailleerdere informatie over betrouwbaarheid dan KTT-modellen - In KTT : standaard error is constant over T - In IRT: standaard error is functie van , en dus niet overal hetzelfde. - Consequentie: een test is voor sommige waarden van  informatiever / betrouwbaarder dan voor andere! 26

27 • Een te moeilijk of te gemakkelijk item levert weinig informatie op over de meetwaarde van een persoon, dus meetwaarde niet erg betrouwbaar. • Item-informatie functie geeft voor elke waarde van  de standaardmeetfout (S E ) voor het betreffende item • Test-informatie functie is optelsom van alle item-informatiefuncties. Betrouwbaarheid van scores in IRT: 27

28 De plaats waar het item het steilst is, en dus het beste discrimineert, daar is de functie het informatiefst, heeft het de kleinste S E en is het dus het betrouwbaarst! Iteminformatie functie 28

29 Testinformatie functie 95% BI (θ=-2): testinformatiefunctie Itest ( θ =0)= =.65 95% BI (θ=0):

30 IQ achterstandIQ hoogbegaafdZak-slaag bloktoets Doel-testinformatie functies: 30

31 Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning, DIF) voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bij vraagonzuiverheid doet vraag beroep op een andere dan te meten psychologische eigenschap! NB. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde  uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 31

32 Voorbeeld vraagonzuiverheid: Jongens en meisjes met dezelfde θ hebben niet dezelfde kans om het item correct te beantwoorden. 32


Download ppt "15-5-2012 Samantha Bouwmeester College 7 Testtheorie."

Verwante presentaties


Ads door Google