Betrouwbaarheid en Validiteit

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Betrouwbaarheid van Competentie Assessments
Artikel over een wetenschappelijk onderzoek Gemaakt door Vicky Peers
College 3 Meten.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Hoofdstuk 3 – Gegevens verzamelen
Kwaliteit van meetinstrumenten
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
De ontwikkeling en validering van een cognitieve-vaardighedentest voor volwassen anderstaligen Evelien Buyse, Karine Verschueren en Walter Magez Nederlands.
De Ontwikkeling van de persoonsgerichte ondersteuningsuitkomsten schaal (POS) Elise Bonte 1BaOA1.
Autisme en intelligentie
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Gegevensverwerving en verwerking
Chapter 9. Understanding Multivariate Techniques
Non-parametrische technieken
Meervoudige lineaire regressie
Meten van onderzoeksvariabelen
Inferentie voor regressie
Een fundamentele inleiding in de inductieve statistiek
Evaluatie Van Interactieve Software Systemen
Evaluatie van Interactieve Software Systemen
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
variabelen vaststellen
Statistiek voor Historici
Aanvullende vragen Collegesheets M&S3
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Responsie college II: Spearman-Brown G = nieuwe schaal Y= oude schaal
Voorbeelden van toetsvragen:
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Beschrijvende en inferentiële statistiek
Afdeling Revalidatiegeneeskunde
Hoofdstuk 4 – Gegevens analyseren
Interpretatie van statistiek bij toetsen en toetsvragen
Meten van intelligentie bij kinderen met ADHD
Bourdon Bourdon test verwijst algemeen naar verzameling aan tests die gemeenschappelijk hebben dat de testpersoon zo snel en zo selectief mogelijk moet.
Varianties bij replicatie (herhaald testen)
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Betrouwbaarheid.
Validiteit.
Partiële r² Predictie van y gebaseerd op z alleen
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
Inleiding in de statistiek. met ondersteuning van SPSS
Professionalisering Medewerkers
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Operationaliseren Definiëren Operationaliseren
Kwantitatieve & kwalitatieve data analyse
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
De Invloed van Populaire leeftijdgenoten op de Bereidheid van Adolescenten om Alcohol te Drinken: Een Experimentele Chat Room Studie Hanneke Teunissen,
Gerald Riedstra STOEIEN TUSSEN VADER EN KIND Onderzoek naar de psychometrische kwaliteiten van de Nederlandse versie van Rough and Tumble Play-Quality.
Methoden & Technieken van Onderzoek
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Methoden & Technieken van Onderzoek
Variabelen. Wat zijn variabelen? In een programmeertaal zijn er “dingen” nodig die ervoor zorgen dat het programma informatie voor korte of langere tijd.
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
Evaluatieonderzoek VVTO Engels Kees de Bot Sieneke Goorhuis BCN/RUG.
Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen.
FOKKE en SUKKE helpen bij het veldwerk. Gebruik van een statistisch pakket SPSS Opslaan en bewerken data –selecteren –wegen –hercoderen –Ontwerpen van.
Betrouwbaarheidsinterval
Indoor Comfort Index Validatie van het meetinstrument
Voorspellende analyse
Transcript van de presentatie:

Betrouwbaarheid en Validiteit Wat is de kwaliteit van metingen ? Betrouwbaarheid Validiteit Overeenstemming (valt buiten M&S 3) Collegesheets M&S3 Math Candel, Methodologie en Statistiek

Betrouwbaarheid: Voorbeeld 1

Voorbeeld 2: Soortgelijke items over de attitude t.a.v. gezondheid “Voor gezondheid moet je alles over hebben” “Niets is belangrijker dan je gezondheid” Antwoordcategorieën: 5 = zeer mee eens 4 = mee eens 3 = eens noch oneens 2 = mee oneens 1 = zeer mee oneens

Klassieke testtheorie: Score voor persoon i op replicatie j: Yij = Ti + eij Gemeten score = ware score + “meetfout” Gemiddelde van eij over replicaties = 0 zodat Gemiddelde van Yij over replicaties = Ti

Uit klassieke theorie volgt: Gemeten variantie = Ware score variantie (verschillen tussen ware scores) + Meetfoutvariantie

Definitie van betrouwbaarheid

Restriction-of-range effect Populatie 1: Bloeddruk bij adolescenten Populatie 2: Bloeddruk bij adolescenten en volwassenen

Aannamen klassieke testtheorie Metingen zijn parallel: meten dezelfde ware score hebben dezelfde meetfoutvariantie Metingen hebben ongecorreleerde meetfouten Gevolg: Correlatie tussen 2 metingen = betrouwbaarheid van 1 van beide metingen

Schatting van de betrouwbaarheid Neem het gemiddelde van alle correlaties die tussen een tweetal replicaties berekend kan worden Andere schatting:

Nadelige effecten van onbetrouwbaarheid 1. Lagere power van statistische toetsen Bijv. Onbetrouwbaarheid verhoogt binnengroepsvarianties:

2. Attenuatie effect

Attenuatie in formule liggen tussen 0 en 1 betrouwbaarheden van X en Y liggen tussen 0 en 1 de correlatie tussen X en Y wordt dus altijd afgezwakt (gaat naar 0 toe)

Formule voor de ware score correlatie/ Correctie voor attenuatie formule Op basis van schattingen van de betrouwbaarheden van X en Y kunnen we de correlatie tussen de onderliggende ware scores uitrekenen

Repliceren als remedie tegen onbetrouwbaarheid Bereken het gemiddelde van K replicaties: G Spearman-Brown geeft de betrouwbaarheid van dit gemiddelde G: waarin K de verlengingsfactor is

Betrouwbaarheid van 1 item: Aantal replicaties

De betrouwbaarheid van G hangt dus af van: De betrouwbaarheid van 1 replicatie (meting/item) Het aantal replicaties (metingen/items) per persoon

Methoden om betrouwbaarheid van meting te bepalen 1. Test-hertest betrouwbaarheid Meet tweemaal bij een groep personen Bereken correlatie tussen deze twee metingen Correlatie = maat voor betrouwbaarheid Probleem: Geheugeneffecten: Geen onafhankelijke meetfouten Washout-periode Construct kan veranderd zijn: Geen parallelle metingen

2. Parallel-test betrouwbaarheid Meet met 2 parallelle meetinstrumenten Vlak na elkaar Correlatie = maat voor betrouwbaarheid Probleem: Geen parallel meetinstrument

3. Split-half betrouwbaarheid Splits vragenlijst in 2 helften Correlatie tussen somscores op beide helften Spearman-Brown met K = 2 levert betrouwbaarheid van de hele vragenlijst = Split-half betrouwbaarheid ! Probleem: Iedere opsplitsing van de vragenlijst levert een andere schatting van de betrouwbaarheid

4. Cronbach’s  - Soort gemiddelde van alle mogelijke split-half betrouwbaarheden - Formele uitleg: Als items parallelle metingen zijn dan kunnen we middels de Spearman-Brown formule de betrouwbaarheid van K items bepalen Wat is de betrouwbaarheid van 1 item ?

Cronbach’s  Schatting van itembetrouwbaarheid middels: Standardized 

Schattingen van itembetrouwbaarheid gaan omlaag als: - Items veel meetfout bevatten - Items ook iets unieks meten: heterogene items Cronbach’s  en de standardized : Coëfficiënt voor interne consistentie

Praktijk van itemanalyse 1. Gereedmaken van de data Hercoderen van gespiegelde items Missing values verhelpen - Verwijder personen en items met veel missende waarden (bijv. > 10% missende waarden) - Resterende missing values vervangen door redelijke waarde c) Scoring items moet kloppen met betekenis Pas op met: “n.v.t.” en “weet niet”

Betrouwbaarheidsanalyse middels SPSS (RELIABILITY) Items uit “Leeft Nederland Oké ?” Belang van gezondheid: Item5a: Gezondheid is het allerbelangrijkste in het leven van een mens Item5e: Voor gezondheid moet je alles over hebben Item5h: Gezondheid is alleen maar een hulpmiddel om gelukkig te worden Item5j: Gezondheid is iets waarover je niet genoeg kunt lezen

SPSS uitvoer: Belang van gezondheid

Spearman-Brown: Cronbach’s : Standardized :

Ware score variantie voor somscore:

Meetfout variantie voor somscore:

Betrouwbaarheidsanalyse van Locus of control Item5c: Gezondheid wordt bepaald door krachten die je niet kunt beinvloeden Item5f: Je kunt weinig doen aan je eigen gezondheid Item5i: Er zijn teveel dingen die van invloed zijn op je gezondheid; zoveel dat je het niet kunt bijhouden Wat is de ware score correlatie tussen Belang van Gezondheid en Locus of Control ?

Correctie voor attenuatie formule (X,Y) = correlatie tussen Belang en Locus = 0.2267 (X,X’) = betrouwbaarheid Belang schaal = 0.4765 (Cronbach’s ) (Y,Y’) = betrouwbaarheid Locus schaal = 0.4434

Analyse op gemengde schaal (Belang + Locus)

Betrouwbaarheidsanalyse validiteitsanalyse Concreet: mengen van twee verschillende schalen hoeft niet in een RELIABILITY analyse opgespoord te worden Om multidimensionaliteit op te sporen: Inhoudsanalyse (gezond verstand) en/of Factoranalyse (valt buiten M&S 3)

Validiteit: Meet het instrument wat men wil meten ? Inhoudsvaliditeit Dekken de items gezamenlijk goed het inhoudelijk gebied af dat men wil meten ? Te onderzoeken met een facet design

Predictieve validiteit Is het meetinstrument een goede voorspeller van een extern (later te meten) criterium ? CITO scores op basisschool een goede voorspeller van succes op middelbare school ? Zwangerschapstest een goede voorspeller van zwangerschap ? Van belang is voorspellend vermogen; theorie is niet nodig

Begrips- of constructvaliditeit Vertoont de meting een samenhang met andere variabelen zoals dit theoretisch verwacht wordt ?

Bepaling van de validiteit Inhoudsvaliditeit: Items ontwerpen via een facetdesign Predictieve validiteit: Uitrekenen van validiteitscoëfficiënt: Correlatie tussen meting X en criterium C

Begrips- of constructvaliditeit Bekijk groepsverschillen: Bijv. chronisch zieken zullen hoger scoren op de belang van gezondheid schaal

Correlatie-onderzoek: Twee schalen die hetzelfde meten, dienen hoog te correleren. Bijv. BELANG2: Vindt u gezondheid (1) belangrijker dan (2) even belangrijk als (3) minder belangrijk dan o.a. gezinsleven, werk, vrede, geloof, …. ? Somscore is maat voor het belang van gezondheid

(X,Y) = correlatie tussen BELANG en BELANG2 = -0.0565 (p = 0.214) (X,X’) = betrouwbaarheid BELANG schaal = 0.4765 (Cronbach’s ) (Y,Y’) = betrouwbaarheid BELANG2 schaal = 0.7613

Bekijk de interne structuur: Als items pretenderen hetzelfde te meten, dan moeten deze sterk correleren: - Hoge item-rest correlaties - Hoge item-item correlaties

Met instemmingstendentie Xij = Ti + Ii + Eij Ysij = -Ti + Ii + Eij Na hercodering: Yij = Ti – Ii - Eij (TX,TY) = (Ti+Ii,Ti-Ii) 1 Zonder instemmingstendentie Xij = Ti + Eij Ysij = -Ti + Eij Na hercodering: Yij = Ti - Eij (TX,TY) = (Ti,Ti) = 1