Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ? Math Candel, Methodologie & Statistiek, Universiteit Maastricht
Overzicht: Klassieke testtheorie Methoden en technieken: Samenvatting Betrouwbaarheid Overeenstemming Validiteit Samenvatting
Klassieke testtheorie: Y: geobserveerde score T: score op goede kenmerk (true trait) F: score op foute kenmerk (false trait) E: meetfout Betrouwbaarheid: invloed van E Validiteit: invloed van F
Methoden t.a.v. betrouwbaarheid Test-hertest betrouwbaarheid korte periode: geheugeneffecten lange periode: kenmerk zelf is veranderd Cronbach’s gevoelig voor betrouwbaarheid en itemheterogeniteit
Cronbach’s VOEG schaal Subschaal: klachten t.a.v. spijsvertering: Is uw eetlust minder dan normaal ? Hebt u nogal eens een opgezet gevoel in uw maagstreek ? Hebt u nogal eens pijn in uw maagstreek ? Is uw buik nogal eens van streek ? Is uw maag nogal eens van streek ? Hebt u nogal eens vage maagklachten ? Antwoordopties: 1 = ja, 2 = nee
Mengen van schalen Belang gezondheid B1: Gezondheid is het allerbelangrijkste in het leven van een mens B2: Voor gezondheid moet je alles over hebben, etc…. Locus of control L1: Gezondheid wordt bepaald door krachten die je niet kunt beinvloeden L2: Je kunt weinig doen aan je eigen gezondheid, etc….
Betrouwbaarheid is gebaseerd op correlaties Betrouwbaarheid is gebaseerd op correlaties. Correlaties tussen meetmomenten of correlaties tussen scores op verschillende items. In sommige situaties is niet zozeer de associatie of correlatie van belang, maar de overeenstemming tussen scores. Bijv. een arts dient vrij nauwkeurig de bloeddruk te meten daar deze waarde bepalend is of iemand wel of niet verder behandeld dient te worden. Twee artsen zouden dus ook ongeveer dezelfde meting moeten doen. En hoge correlatie tussen hun beider oordelen is in deze situatie niet afdoende. Ander voorbeeld: voor een sporter is de bepaling van de hematocrietwaarde bepalend voor het wel of niet geschorst worden. De exacte waarde is dan ook van belang. En 2 afzonderlijke metingen zouden dan ook niet dienen te verschillen. (en niet alleen strek te correleren).
Methoden t.a.v. overeenstemming Nominale/Ordinale metingen Twee beoordelaars VB: Palpatiemethode om stugheid borstweefsel te bepalen
Oij geobserveerde frequentie in rij i en kolom j Eij verwachte frequentie in rij i en kolom j
Kappa: De Kappa is een belangrijke maat. Om te laten inzien wat deze precies uitdrukt en hoe deze berekend dient te worden, vraag ik jullie nu om in tweetallen te we
…………... De Kappa is een belangrijke maat. Om te laten inzien wat deze precies uitdrukt en hoe deze berekend dient te worden, vraag ik jullie nu om in tweetallen te we
Correlatiecoefficient Pearson’s r = 0.82 vs Cohen’s = 0.00 Pearson’s r is een maat voor associatie:
Overeenstemming in 2 situaties In deze situaties zien we verschillen in overeenstemming, maar geen verschillen in de kappa. De kappa kijkt alleen naar volledige overeenstemming. Maar er kan meer of minder overeenstemming zijn. Zo zal een classificatie in cel (1,2) minder verkeerd zijn dan een classificatie in cel (1,4). De oplosing ligt erin om gewichten te geven aan de cellen van de kruistabel bij de berekening van de geobserveerde en verwachte overneenstemming. Zo krijt ceel op de diagonaal het grootste gewicht (=1) en een cel net buiten de diagonaal een wat kleiner gewicht en een cel die het verst afligt van de diagonaal krijgt helemaal geen gewicht. De volgende transparant geeft aan hoe de kappa werkt wanneer zulke gewichten worden geintroduceerd. = 0.423 = 0.394
Gewogen Kappa Oij geobserveerde frequentie in rij i en kolom j Eij verwachte frequentie in rij i en kolom j wij gewicht voor rij i en kolom j
Kwadratische gewichten i = rijnummer j = kolomnummer K = aantal klassen
Overeenstemming in 2 situaties = 0.394 w = 0.762 = 0.423 w = -0.184
Overeenstemming Kwantitatieve metingen Twee beoordelaars VB: TCM meting om stugheid borstweefsel te bepalen
gemiddelde van de verschillen = 0 De plot van Bland & Altman, laat een aantal dingen zien. Allereerst dienen de verschillen gemiddeld nul te zijn. In de plot betekent dit dat de punten even vaak onder als boven de nullijn zouden moeten liggen. Je kunt natuurlijk ook een t-toets uitvoeren om deze verhscillen te onderzoeken. Vererder dienen bij overneenstemming de variantie van de scores voor iedere beoordelaar even groot te zijn. Het valt te leiden dat dan de verschillen en de gemiddelden ongecorreleerd dienen te zijn. Ook dit is af te lezen uit de scatterplot. Tot slot dienen te verschillen niet al te groot te zijn. Er dienen geen duidelijke uitschieters in de verschillen voor te komen. Hiervoor wordt een soort interval gemaakt: de bovengrens is 0 + 2*SD(verschillen), en de ondergrens is 0 - 2*SD(verschillen). Verhscillen die buiten deze grenzen liggen, wijzen op niet overeenstemming. gemiddelde van de verschillen = 0 geen correlatie tussen gemiddelden en verschillen geen uitschieters in verschillen: 02*SD(verschil)
Methoden t.a.v. validiteit Predictieve validiteit: Voorspelkracht van de meting Hoe goed voorspelt iemand’s CITO score zijn/haal schoolcarriere ? VOEG subschalen goede voorspellers van iemand’s huisartsbezoek ? (maagklachten, hart/long klachten, bewegingsklachten, vermoeidheidsklachten)
Predictieve validiteit Continue afhankelijke variabele: lineaire regressie-analyse Binaire afhankelijke variabele: logistische regressie VOEG als voorspeller huisartsbezoek (HB):
Constructvaliditeit/ Nomologische validiteit Gedraagt de meting zich zoals je dit op basis van kennis of theorie mag verwachten ? Convergente validiteit: Hangen twee metingen van hetzelfde construct sterk met elkaar samen ? Discriminante validiteit: Hangen twee metingen van verschillende constructen zwak met elkaar samen ?
Discriminante validiteit
Samenvatting Verschillende statistische procedures en maten: meer dan goed meten alleen Cronbach’s niet geschikt voor zeer heterogene items Associatiematen geven geen inzicht in overeenstemming Kappa vs gewogen kappa vs Bland & Altman scatterplot Verscheidene procedures/maten voor validiteit