Varianties bij replicatie (herhaald testen)

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Vraag en aanbod.
Snelheid op een bepaald tijdstip
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Voorraadwaardering LIFO FIFO GEMIDDELDE INKOOPPRIJS
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
MERKWAARDIGE PRODUCTEN
Interne standaard Door: Sam Compiet.
Les 5 : MODULE 1 Oplegreacties (vervolg)
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
28 april Symposium Statistical Auditing
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Betrouwbaarheid en Validiteit
Kwaliteit van meetinstrumenten
Inhoud bijeenkomst 1 Doel- en vraagstelling Conceptueel model
Hoofdstuk 6: Controle structuren
Studiedag ‘Diversifiëren van evaluatiemethoden’ 5 juni 2008
Xxxxxxxxxxxxxxx 4/4/2017 Inleiding onderzoeksleer Helleke Hendriks docent werktuigbouwkunde voormalig productonderzoeker bij Consumentenbond xxxxxxxxxxxxx.
De grafiek van een lineair verband is ALTIJD een rechte lijn.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Gegevensverwerving en verwerking
Non-parametrische technieken
Meten van onderzoeksvariabelen
Oefeningen F-toetsen ANOVA.
Metingen met spreiding
Continue kansverdelingen
Algemene formule gemeten zijn berekend wordt vraag: wat is ? antwoord:
Een fundamentele inleiding in de inductieve statistiek
Evaluatie Van Interactieve Software Systemen
H 7 Krachten Deel 3 krachten meten.
Voorspellende analyse
Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner
Populatiegemiddelden: recap
Aanvullende vragen Collegesheets M&S3
Responsie college II: Spearman-Brown G = nieuwe schaal Y= oude schaal
We leren % van waar we over gediscussieerd hebben met anderen
Temperatuur reconstructie door Mann et al.
HAV is meten ook weten Hoe betrouwbaar is een meting?
Een bakje kwark kost € 1,27. Hoeveel kosten vijf bakjes? 5 x € 1,27 = 5 x € 1,00 = € 5,00 5 x € 0,20 = € 1,00 5 x € 0,07 = € 0, € 6,35 Een.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Voorraadwaardering LIFO FIFO GEMIDDELDE INKOOPPRIJS of
Beschrijvende en inferentiële statistiek
Interpretatie van statistiek bij toetsen en toetsvragen
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Onderzoeksmethoden en -Technieken
Betrouwbaarheid.
Stanines z Stanines
Validiteit.
Partiële r² Predictie van y gebaseerd op z alleen
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
Psychologische Test.
Centrummaten en Boxplot
Operationaliseren Definiëren Operationaliseren
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Statistiek: Argumentatiemiddel bij pedagogische vragen
Kwantitatieve & kwalitatieve data analyse
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Theresialyceum. OriëntatieTheorievormingOntwerpplanExperimentVerwerkingRapportagePresentatie Onderzoekscyclus Experiment.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Criteria voor een goed “onderzoek”
Zelfwaardering en acceptatie door leeftijdsgenoten EEN LONGITUDINAAL ONDERZOEK BIJ BASISSCHOOLKINDEREN - WENDY DONDERS EN KARINE VERSCHUEREN.
Transcript van de presentatie:

Varianties bij replicatie (herhaald testen) Variantie op geobserveerde score Variantie op meetfout Variantie op betrouwbare score

Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Replicatie onhaalbaar  1 meting in populatie Gemiddelde van de geobserveerde score Eigenschappen Hypothese 1 Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Hypothese 2 Y is willekeurige variabele waarvan E geen deel is immers: X=T+E zodat: r(E,X)>0 GEVOLG: r(E,T)=0

Variantie van de geobserveerd score MAAR: r(E,T)=0, dus: Gevolg: Variantie geobserveerde score = Variantie betrouwbare score + Variantie meetfout

Betrouwbaarheid bepalen Betrouwbaarheid: (reliability) Standaard meetfout: (standard error of measurement) Goede test rxx’ =.95 Probleem: er zijn altijd 2 onbekenden: S²(T) en rxx’ of S(E) en rxx’ Verband met standaard meetfout  Nood aan schattingsmethoden

Voorbeeld WAIS (Wechsler Adult Intelligence Scale) Gegeven Standaardmeetfout

Standaardmeetfout: verloop en interpretatie 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 S(X) S(E) rxx’ .6826 .9546 .9972 X Ti Ti+S(E)

Opmerking: betrouwbare score  “bedoelde” score Toevallige fout Bedoelde scorecomponent Onbedoeld deel (systematische fout) Geobserveerde testscore = Betrouwbare score + Toevallige meetfout Bedoelde scorecomponent + Onbedoelde scorecomponent Bedoelde scorecomponent  Betrouwbare score Onbedoelde scorecomponent  Meetfout

Methoden om betrouwbaarheid te bepalen Herhaalde testafname (2) 2 verschillende tests (parallelle test ) Equivalentiecoëfficiënt zelfde test (test-retest) Stabiliteitscoëfficiënt parallelle test na tijdsinterval Stabiliteits en equivalentiecoëfficiënt is de meest strenge betrouwbaarheidstest omdat zowel intrinsieke als extrinsieke fouten spelen Eenmalige testafname 2 helften (split-half) items onderling (interne consistentie) OPMERKINGEN Betrouwbaarheid is steeds verbonden met een BEPAALDE populatie Betrouwbaarheid is theoretisch geldig voor alle meetwaarden, in praktijk zijn extreme scores minder betrouwbaar dan scores rond het gemiddelde

Test- Retest methode (stabiliteit) Afname 1: X1 Afname 2: X2 Betrouwbaarheid = Probleem: “onafhankelijke replicaties”… nutteloos bij tests voor STATE (<> TRAIT) Parallelle test methode (equivalentie) Test 1: X1 Test 2: X2 en Ti1=Ti2 voor alle individuen en S²(X1)= S²(X2) in populatie Betrouwbaarheid = Probleem: parallelle tests zijn moeilijk te maken

Controle op parallellie Niet empirisch controleerbaar: Ti1=Ti2 voor alle individuen Empirisch controleerbaar: Eenvoudig te realiseren door standaardizeren van testscores (z of T) Belangrijkste eigenschap, te controleren voor meerdere Y (Y is een willekeurige variabele)

Halveringstechniek (split-half) Odd-Even methode Alle items Even items Oneven items Helft1: X1 Helft 2: X2 Betrouwbaarheid = Opmerking: SPEED-test (alle items even moeilijk) geen probleem, POWER-test (moeilijkheidsgraad stijgt) ODD-EVEN gebruiken

Testverlenging en betrouwbaarheid Test verlengen leidt tot meer nauwkeurige en meer betrouwbare meting rvt = betrouwbaarheid verlengde test rtt = betrouwbaarheid originele test K = verlengingsfactor Praktische beperkingen door langere testduur Theoretische beperking wegens problemen bij constructie van toe te voegen items

Effekt van testverlenging 0,2 0,4 0,6 0,8 1 2 4 6 8 10 20 items rtt=0.60 Eerste verlengingen hebben meeste effekt Toegevoegde itmes moeten equivalent zijn met originele Het moet mogelijk zijn om items toe te voegen

Testverlenging bepalen Toepassing rxx = .80, maar .90 gewenst huidige testlengte = 10 min Nieuwe testduur: 22 min 30 sec