Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

Slides:

Advertisements

Verwante presentaties

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Advertisements

WOT statistiek Correlaties CLIN Centre for Linguistics.

Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.

Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.

Enkele Determinanten van Peer Review Presentatie werkstuk Geert Wissink Universiteit van Amsterdam, 13 januari 2003.

College 3 Meten.

1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Presteren ijverige studenten beter? De complexe relatie tussen

Betrouwbaarheid en Validiteit

Hoofdstuk 3 – Gegevens verzamelen

Kwaliteit van meetinstrumenten

Onderwerp Vraagstelling Theorie Methodiek verslaglegging

© mei 2013 – versie 00 Technieken 1: de juiste maat Je kunt een boodschap overdrijven, te hoog van de toren blazen, doorschieten in een gevoel. Je kunt.

Meten van het emotioneel functioneren bij 9- tot 15-jarigen met een gehoorverlies Universiteit Leiden Instituut Psychologie, Sectie Onderwijs- en Ontwikkelingspsychologie.

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

toetsen voor het verband tussen variabelen met gelijk meetniveau

Verandering van persoonlijkheidstypen & angst gedurende de adolescentie. Joyce Akse, Rutger Engels, Quinten Raaijmakers, Wim Meeus & William Hale Josje.

Chapter 9. Understanding Multivariate Techniques

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking

Non-parametrische technieken

Meervoudige lineaire regressie

Meten van onderzoeksvariabelen

Peter Schwartz The art of the long view stappenplan

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Methoden voor het meten van klantentevredenheid

Evaluatie Van Interactieve Software Systemen

Kolom aanmaken en cijfers invoeren in Grade Center.

5 Werving en selectie.

Hoofdstuk 9 Verbanden, correlatie en regressie

variabelen vaststellen

Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.

Statistiek voor Historici

Overzicht derde college “ruis”

Aanvullende vragen Collegesheets M&S3

Methodologie & Statistiek I Verband tussen twee variabelen 3.1.

Responsie college II: Spearman-Brown G = nieuwe schaal Y= oude schaal

S.O.R. Strategische Oriëntatie Ronde

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Inhoud presentatie Statistische betrouwbaarheid: belangrijk?

Hoofdstuk 4 – Gegevens analyseren

Nederlands tijdschrift voor Diabetologie

 Auteurs: F.J. Bredt, T.I.J. van den Berg, L.A.M. Elders, A. Burdorf.

Bourdon Bourdon test verwijst algemeen naar verzameling aan tests die gemeenschappelijk hebben dat de testpersoon zo snel en zo selectief mogelijk moet.

Varianties bij replicatie (herhaald testen)

Betrouwbaarheid.

Partiële r² Predictie van y gebaseerd op z alleen

Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.

Psychologische Test.

Hoofdstuk X Het correlatievraagstuk & SPSS toepassing

Operationaliseren Definiëren Operationaliseren

Baarde en de goede Hoofdstuk 11: Data-analyse

Kwantitatieve & kwalitatieve data analyse

Niet meer zenuwziek van de statistiek, maar … hoe statistiek weer te waarderen via 4C/ID? Hans van Buuren - OUNL 4C/ID

Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.

De Invloed van Populaire leeftijdgenoten op de Bereidheid van Adolescenten om Alcohol te Drinken: Een Experimentele Chat Room Studie Hanneke Teunissen,

Methoden & Technieken van Onderzoek

Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.

Rotterdam, 00 januari 2007 Onderzoek I Bijeenkomst 3 kwartaal 2.

1 Relatie Intelligentie Quotiënt en de Motorische Vaardigheid Marco Borhem Fleur van Dam Sanne Hein Opdrachtgever Docent Begeleider Opdrachtgever Docent.

Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?

Tot nu toe. Geschiedenis Uitzonderingen, verschil in incidenties.

Zelfwaardering en acceptatie door leeftijdsgenoten EEN LONGITUDINAAL ONDERZOEK BIJ BASISSCHOOLKINDEREN - WENDY DONDERS EN KARINE VERSCHUEREN.

Grafische vergelijking meetmethoden

Grafische vergelijking

Toetsen van verschillen tussen twee of meer groepen

Kwantitatieve kenmerken

Transcript van de presentatie:

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ? Math Candel, Methodologie & Statistiek, Universiteit Maastricht

Overzicht: Klassieke testtheorie Methoden en technieken: Samenvatting Betrouwbaarheid Overeenstemming Validiteit Samenvatting

Klassieke testtheorie: Y: geobserveerde score T: score op goede kenmerk (true trait) F: score op foute kenmerk (false trait) E: meetfout Betrouwbaarheid: invloed van E Validiteit: invloed van F

Methoden t.a.v. betrouwbaarheid Test-hertest betrouwbaarheid korte periode: geheugeneffecten lange periode: kenmerk zelf is veranderd Cronbach’s  gevoelig voor betrouwbaarheid en itemheterogeniteit

Cronbach’s  VOEG schaal Subschaal: klachten t.a.v. spijsvertering: Is uw eetlust minder dan normaal ? Hebt u nogal eens een opgezet gevoel in uw maagstreek ? Hebt u nogal eens pijn in uw maagstreek ? Is uw buik nogal eens van streek ? Is uw maag nogal eens van streek ? Hebt u nogal eens vage maagklachten ? Antwoordopties: 1 = ja, 2 = nee

Mengen van schalen Belang gezondheid B1: Gezondheid is het allerbelangrijkste in het leven van een mens B2: Voor gezondheid moet je alles over hebben, etc…. Locus of control L1: Gezondheid wordt bepaald door krachten die je niet kunt beinvloeden L2: Je kunt weinig doen aan je eigen gezondheid, etc….

Betrouwbaarheid is gebaseerd op correlaties Betrouwbaarheid is gebaseerd op correlaties. Correlaties tussen meetmomenten of correlaties tussen scores op verschillende items. In sommige situaties is niet zozeer de associatie of correlatie van belang, maar de overeenstemming tussen scores. Bijv. een arts dient vrij nauwkeurig de bloeddruk te meten daar deze waarde bepalend is of iemand wel of niet verder behandeld dient te worden. Twee artsen zouden dus ook ongeveer dezelfde meting moeten doen. En hoge correlatie tussen hun beider oordelen is in deze situatie niet afdoende. Ander voorbeeld: voor een sporter is de bepaling van de hematocrietwaarde bepalend voor het wel of niet geschorst worden. De exacte waarde is dan ook van belang. En 2 afzonderlijke metingen zouden dan ook niet dienen te verschillen. (en niet alleen strek te correleren).

Methoden t.a.v. overeenstemming Nominale/Ordinale metingen Twee beoordelaars VB: Palpatiemethode om stugheid borstweefsel te bepalen

Oij geobserveerde frequentie in rij i en kolom j Eij verwachte frequentie in rij i en kolom j

Kappa: De Kappa is een belangrijke maat. Om te laten inzien wat deze precies uitdrukt en hoe deze berekend dient te worden, vraag ik jullie nu om in tweetallen te we

…………... De Kappa is een belangrijke maat. Om te laten inzien wat deze precies uitdrukt en hoe deze berekend dient te worden, vraag ik jullie nu om in tweetallen te we

Correlatiecoefficient Pearson’s r = 0.82 vs Cohen’s  = 0.00 Pearson’s r is een maat voor associatie:

Overeenstemming in 2 situaties In deze situaties zien we verschillen in overeenstemming, maar geen verschillen in de kappa. De kappa kijkt alleen naar volledige overeenstemming. Maar er kan meer of minder overeenstemming zijn. Zo zal een classificatie in cel (1,2) minder verkeerd zijn dan een classificatie in cel (1,4). De oplosing ligt erin om gewichten te geven aan de cellen van de kruistabel bij de berekening van de geobserveerde en verwachte overneenstemming. Zo krijt ceel op de diagonaal het grootste gewicht (=1) en een cel net buiten de diagonaal een wat kleiner gewicht en een cel die het verst afligt van de diagonaal krijgt helemaal geen gewicht. De volgende transparant geeft aan hoe de kappa werkt wanneer zulke gewichten worden geintroduceerd.  = 0.423  = 0.394

Gewogen Kappa Oij geobserveerde frequentie in rij i en kolom j Eij verwachte frequentie in rij i en kolom j wij gewicht voor rij i en kolom j

Kwadratische gewichten i = rijnummer j = kolomnummer K = aantal klassen

Overeenstemming in 2 situaties  = 0.394 w = 0.762  = 0.423 w = -0.184

Overeenstemming Kwantitatieve metingen Twee beoordelaars VB: TCM meting om stugheid borstweefsel te bepalen

gemiddelde van de verschillen = 0 De plot van Bland & Altman, laat een aantal dingen zien. Allereerst dienen de verschillen gemiddeld nul te zijn. In de plot betekent dit dat de punten even vaak onder als boven de nullijn zouden moeten liggen. Je kunt natuurlijk ook een t-toets uitvoeren om deze verhscillen te onderzoeken. Vererder dienen bij overneenstemming de variantie van de scores voor iedere beoordelaar even groot te zijn. Het valt te leiden dat dan de verschillen en de gemiddelden ongecorreleerd dienen te zijn. Ook dit is af te lezen uit de scatterplot. Tot slot dienen te verschillen niet al te groot te zijn. Er dienen geen duidelijke uitschieters in de verschillen voor te komen. Hiervoor wordt een soort interval gemaakt: de bovengrens is 0 + 2*SD(verschillen), en de ondergrens is 0 - 2*SD(verschillen). Verhscillen die buiten deze grenzen liggen, wijzen op niet overeenstemming. gemiddelde van de verschillen = 0 geen correlatie tussen gemiddelden en verschillen geen uitschieters in verschillen: 02*SD(verschil)

Methoden t.a.v. validiteit Predictieve validiteit: Voorspelkracht van de meting Hoe goed voorspelt iemand’s CITO score zijn/haal schoolcarriere ? VOEG subschalen goede voorspellers van iemand’s huisartsbezoek ? (maagklachten, hart/long klachten, bewegingsklachten, vermoeidheidsklachten)

Predictieve validiteit Continue afhankelijke variabele: lineaire regressie-analyse Binaire afhankelijke variabele: logistische regressie VOEG als voorspeller huisartsbezoek (HB):

Constructvaliditeit/ Nomologische validiteit Gedraagt de meting zich zoals je dit op basis van kennis of theorie mag verwachten ? Convergente validiteit: Hangen twee metingen van hetzelfde construct sterk met elkaar samen ? Discriminante validiteit: Hangen twee metingen van verschillende constructen zwak met elkaar samen ?

Discriminante validiteit

Samenvatting Verschillende statistische procedures en maten: meer dan goed meten alleen Cronbach’s  niet geschikt voor zeer heterogene items Associatiematen geven geen inzicht in overeenstemming Kappa vs gewogen kappa vs Bland & Altman scatterplot Verscheidene procedures/maten voor validiteit