Betrouwbaarheid en Validiteit Wat is de kwaliteit van metingen ? Betrouwbaarheid Validiteit Overeenstemming (valt buiten M&S 3) Collegesheets M&S3 Math Candel, Methodologie en Statistiek
Betrouwbaarheid: Voorbeeld 1
Voorbeeld 2: Soortgelijke items over de attitude t.a.v. gezondheid “Voor gezondheid moet je alles over hebben” “Niets is belangrijker dan je gezondheid” Antwoordcategorieën: 5 = zeer mee eens 4 = mee eens 3 = eens noch oneens 2 = mee oneens 1 = zeer mee oneens
Klassieke testtheorie: Score voor persoon i op replicatie j: Yij = Ti + eij Gemeten score = ware score + “meetfout” Gemiddelde van eij over replicaties = 0 zodat Gemiddelde van Yij over replicaties = Ti
Uit klassieke theorie volgt: Gemeten variantie = Ware score variantie (verschillen tussen ware scores) + Meetfoutvariantie
Definitie van betrouwbaarheid
Restriction-of-range effect Populatie 1: Bloeddruk bij adolescenten Populatie 2: Bloeddruk bij adolescenten en volwassenen
Aannamen klassieke testtheorie Metingen zijn parallel: meten dezelfde ware score hebben dezelfde meetfoutvariantie Metingen hebben ongecorreleerde meetfouten Gevolg: Correlatie tussen 2 metingen = betrouwbaarheid van 1 van beide metingen
Schatting van de betrouwbaarheid Neem het gemiddelde van alle correlaties die tussen een tweetal replicaties berekend kan worden Andere schatting:
Nadelige effecten van onbetrouwbaarheid 1. Lagere power van statistische toetsen Bijv. Onbetrouwbaarheid verhoogt binnengroepsvarianties:
2. Attenuatie effect
Attenuatie in formule liggen tussen 0 en 1 betrouwbaarheden van X en Y liggen tussen 0 en 1 de correlatie tussen X en Y wordt dus altijd afgezwakt (gaat naar 0 toe)
Formule voor de ware score correlatie/ Correctie voor attenuatie formule Op basis van schattingen van de betrouwbaarheden van X en Y kunnen we de correlatie tussen de onderliggende ware scores uitrekenen
Repliceren als remedie tegen onbetrouwbaarheid Bereken het gemiddelde van K replicaties: G Spearman-Brown geeft de betrouwbaarheid van dit gemiddelde G: waarin K de verlengingsfactor is
Betrouwbaarheid van 1 item: Aantal replicaties
De betrouwbaarheid van G hangt dus af van: De betrouwbaarheid van 1 replicatie (meting/item) Het aantal replicaties (metingen/items) per persoon
Methoden om betrouwbaarheid van meting te bepalen 1. Test-hertest betrouwbaarheid Meet tweemaal bij een groep personen Bereken correlatie tussen deze twee metingen Correlatie = maat voor betrouwbaarheid Probleem: Geheugeneffecten: Geen onafhankelijke meetfouten Washout-periode Construct kan veranderd zijn: Geen parallelle metingen
2. Parallel-test betrouwbaarheid Meet met 2 parallelle meetinstrumenten Vlak na elkaar Correlatie = maat voor betrouwbaarheid Probleem: Geen parallel meetinstrument
3. Split-half betrouwbaarheid Splits vragenlijst in 2 helften Correlatie tussen somscores op beide helften Spearman-Brown met K = 2 levert betrouwbaarheid van de hele vragenlijst = Split-half betrouwbaarheid ! Probleem: Iedere opsplitsing van de vragenlijst levert een andere schatting van de betrouwbaarheid
4. Cronbach’s - Soort gemiddelde van alle mogelijke split-half betrouwbaarheden - Formele uitleg: Als items parallelle metingen zijn dan kunnen we middels de Spearman-Brown formule de betrouwbaarheid van K items bepalen Wat is de betrouwbaarheid van 1 item ?
Cronbach’s Schatting van itembetrouwbaarheid middels: Standardized
Schattingen van itembetrouwbaarheid gaan omlaag als: - Items veel meetfout bevatten - Items ook iets unieks meten: heterogene items Cronbach’s en de standardized : Coëfficiënt voor interne consistentie
Praktijk van itemanalyse 1. Gereedmaken van de data Hercoderen van gespiegelde items Missing values verhelpen - Verwijder personen en items met veel missende waarden (bijv. > 10% missende waarden) - Resterende missing values vervangen door redelijke waarde c) Scoring items moet kloppen met betekenis Pas op met: “n.v.t.” en “weet niet”
Betrouwbaarheidsanalyse middels SPSS (RELIABILITY) Items uit “Leeft Nederland Oké ?” Belang van gezondheid: Item5a: Gezondheid is het allerbelangrijkste in het leven van een mens Item5e: Voor gezondheid moet je alles over hebben Item5h: Gezondheid is alleen maar een hulpmiddel om gelukkig te worden Item5j: Gezondheid is iets waarover je niet genoeg kunt lezen
SPSS uitvoer: Belang van gezondheid
Spearman-Brown: Cronbach’s : Standardized :
Ware score variantie voor somscore:
Meetfout variantie voor somscore:
Betrouwbaarheidsanalyse van Locus of control Item5c: Gezondheid wordt bepaald door krachten die je niet kunt beinvloeden Item5f: Je kunt weinig doen aan je eigen gezondheid Item5i: Er zijn teveel dingen die van invloed zijn op je gezondheid; zoveel dat je het niet kunt bijhouden Wat is de ware score correlatie tussen Belang van Gezondheid en Locus of Control ?
Correctie voor attenuatie formule (X,Y) = correlatie tussen Belang en Locus = 0.2267 (X,X’) = betrouwbaarheid Belang schaal = 0.4765 (Cronbach’s ) (Y,Y’) = betrouwbaarheid Locus schaal = 0.4434
Analyse op gemengde schaal (Belang + Locus)
Betrouwbaarheidsanalyse validiteitsanalyse Concreet: mengen van twee verschillende schalen hoeft niet in een RELIABILITY analyse opgespoord te worden Om multidimensionaliteit op te sporen: Inhoudsanalyse (gezond verstand) en/of Factoranalyse (valt buiten M&S 3)
Validiteit: Meet het instrument wat men wil meten ? Inhoudsvaliditeit Dekken de items gezamenlijk goed het inhoudelijk gebied af dat men wil meten ? Te onderzoeken met een facet design
Predictieve validiteit Is het meetinstrument een goede voorspeller van een extern (later te meten) criterium ? CITO scores op basisschool een goede voorspeller van succes op middelbare school ? Zwangerschapstest een goede voorspeller van zwangerschap ? Van belang is voorspellend vermogen; theorie is niet nodig
Begrips- of constructvaliditeit Vertoont de meting een samenhang met andere variabelen zoals dit theoretisch verwacht wordt ?
Bepaling van de validiteit Inhoudsvaliditeit: Items ontwerpen via een facetdesign Predictieve validiteit: Uitrekenen van validiteitscoëfficiënt: Correlatie tussen meting X en criterium C
Begrips- of constructvaliditeit Bekijk groepsverschillen: Bijv. chronisch zieken zullen hoger scoren op de belang van gezondheid schaal
Correlatie-onderzoek: Twee schalen die hetzelfde meten, dienen hoog te correleren. Bijv. BELANG2: Vindt u gezondheid (1) belangrijker dan (2) even belangrijk als (3) minder belangrijk dan o.a. gezinsleven, werk, vrede, geloof, …. ? Somscore is maat voor het belang van gezondheid
(X,Y) = correlatie tussen BELANG en BELANG2 = -0.0565 (p = 0.214) (X,X’) = betrouwbaarheid BELANG schaal = 0.4765 (Cronbach’s ) (Y,Y’) = betrouwbaarheid BELANG2 schaal = 0.7613
Bekijk de interne structuur: Als items pretenderen hetzelfde te meten, dan moeten deze sterk correleren: - Hoge item-rest correlaties - Hoge item-item correlaties
Met instemmingstendentie Xij = Ti + Ii + Eij Ysij = -Ti + Ii + Eij Na hercodering: Yij = Ti – Ii - Eij (TX,TY) = (Ti+Ii,Ti-Ii) 1 Zonder instemmingstendentie Xij = Ti + Eij Ysij = -Ti + Eij Na hercodering: Yij = Ti - Eij (TX,TY) = (Ti,Ti) = 1