Varianties bij replicatie (herhaald testen)

Slides:

Advertisements

Verwante presentaties

Statistische uitspraken over onbekende populatiegemiddelden

Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Vraag en aanbod.

Snelheid op een bepaald tijdstip

Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Voorraadwaardering LIFO FIFO GEMIDDELDE INKOOPPRIJS

Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.

MERKWAARDIGE PRODUCTEN

Interne standaard Door: Sam Compiet.

Les 5 : MODULE 1 Oplegreacties (vervolg)

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

28 april Symposium Statistical Auditing

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Betrouwbaarheid en Validiteit

Kwaliteit van meetinstrumenten

Inhoud bijeenkomst 1 Doel- en vraagstelling Conceptueel model

Hoofdstuk 6: Controle structuren

Studiedag ‘Diversifiëren van evaluatiemethoden’ 5 juni 2008

Xxxxxxxxxxxxxxx 4/4/2017 Inleiding onderzoeksleer Helleke Hendriks docent werktuigbouwkunde voormalig productonderzoeker bij Consumentenbond xxxxxxxxxxxxx.

De grafiek van een lineair verband is ALTIJD een rechte lijn.

Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.

Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.

Gegevensverwerving en verwerking

Non-parametrische technieken

Meten van onderzoeksvariabelen

Oefeningen F-toetsen ANOVA.

Metingen met spreiding

Continue kansverdelingen

Algemene formule gemeten zijn berekend wordt vraag: wat is ? antwoord:

Een fundamentele inleiding in de inductieve statistiek

Evaluatie Van Interactieve Software Systemen

H 7 Krachten Deel 3 krachten meten.

Voorspellende analyse

Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner

Populatiegemiddelden: recap

Aanvullende vragen Collegesheets M&S3

Responsie college II: Spearman-Brown G = nieuwe schaal Y= oude schaal

We leren % van waar we over gediscussieerd hebben met anderen

Temperatuur reconstructie door Mann et al.

HAV is meten ook weten Hoe betrouwbaar is een meting?

Een bakje kwark kost € 1,27. Hoeveel kosten vijf bakjes? 5 x € 1,27 = 5 x € 1,00 = € 5,00 5 x € 0,20 = € 1,00 5 x € 0,07 = € 0, € 6,35 Een.

Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Voorraadwaardering LIFO FIFO GEMIDDELDE INKOOPPRIJS of

Beschrijvende en inferentiële statistiek

Interpretatie van statistiek bij toetsen en toetsvragen

HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?

Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex

Onderzoeksmethoden en -Technieken

Betrouwbaarheid.

Stanines z Stanines

Partiële r² Predictie van y gebaseerd op z alleen

Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.

Psychologische Test.

Centrummaten en Boxplot

Operationaliseren Definiëren Operationaliseren

Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Statistiek: Argumentatiemiddel bij pedagogische vragen

Kwantitatieve & kwalitatieve data analyse

Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.

Theresialyceum. OriëntatieTheorievormingOntwerpplanExperimentVerwerkingRapportagePresentatie Onderzoekscyclus Experiment.

Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.

Criteria voor een goed “onderzoek”

Zelfwaardering en acceptatie door leeftijdsgenoten EEN LONGITUDINAAL ONDERZOEK BIJ BASISSCHOOLKINDEREN - WENDY DONDERS EN KARINE VERSCHUEREN.

Transcript van de presentatie:

Varianties bij replicatie (herhaald testen) Variantie op geobserveerde score Variantie op meetfout Variantie op betrouwbare score

Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Replicatie onhaalbaar  1 meting in populatie Gemiddelde van de geobserveerde score Eigenschappen Hypothese 1 Gemiddelde geobserveerde score = Gemiddelde betrouwbare score Hypothese 2 Y is willekeurige variabele waarvan E geen deel is immers: X=T+E zodat: r(E,X)>0 GEVOLG: r(E,T)=0

Variantie van de geobserveerd score MAAR: r(E,T)=0, dus: Gevolg: Variantie geobserveerde score = Variantie betrouwbare score + Variantie meetfout

Betrouwbaarheid bepalen Betrouwbaarheid: (reliability) Standaard meetfout: (standard error of measurement) Goede test rxx’ =.95 Probleem: er zijn altijd 2 onbekenden: S²(T) en rxx’ of S(E) en rxx’ Verband met standaard meetfout  Nood aan schattingsmethoden

Voorbeeld WAIS (Wechsler Adult Intelligence Scale) Gegeven Standaardmeetfout

Standaardmeetfout: verloop en interpretatie 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 S(X) S(E) rxx’ .6826 .9546 .9972 X Ti Ti+S(E)

Opmerking: betrouwbare score  “bedoelde” score Toevallige fout Bedoelde scorecomponent Onbedoeld deel (systematische fout) Geobserveerde testscore = Betrouwbare score + Toevallige meetfout Bedoelde scorecomponent + Onbedoelde scorecomponent Bedoelde scorecomponent  Betrouwbare score Onbedoelde scorecomponent  Meetfout

Methoden om betrouwbaarheid te bepalen Herhaalde testafname (2) 2 verschillende tests (parallelle test ) Equivalentiecoëfficiënt zelfde test (test-retest) Stabiliteitscoëfficiënt parallelle test na tijdsinterval Stabiliteits en equivalentiecoëfficiënt is de meest strenge betrouwbaarheidstest omdat zowel intrinsieke als extrinsieke fouten spelen Eenmalige testafname 2 helften (split-half) items onderling (interne consistentie) OPMERKINGEN Betrouwbaarheid is steeds verbonden met een BEPAALDE populatie Betrouwbaarheid is theoretisch geldig voor alle meetwaarden, in praktijk zijn extreme scores minder betrouwbaar dan scores rond het gemiddelde

Test- Retest methode (stabiliteit) Afname 1: X1 Afname 2: X2 Betrouwbaarheid = Probleem: “onafhankelijke replicaties”… nutteloos bij tests voor STATE (<> TRAIT) Parallelle test methode (equivalentie) Test 1: X1 Test 2: X2 en Ti1=Ti2 voor alle individuen en S²(X1)= S²(X2) in populatie Betrouwbaarheid = Probleem: parallelle tests zijn moeilijk te maken

Controle op parallellie Niet empirisch controleerbaar: Ti1=Ti2 voor alle individuen Empirisch controleerbaar: Eenvoudig te realiseren door standaardizeren van testscores (z of T) Belangrijkste eigenschap, te controleren voor meerdere Y (Y is een willekeurige variabele)

Halveringstechniek (split-half) Odd-Even methode Alle items Even items Oneven items Helft1: X1 Helft 2: X2 Betrouwbaarheid = Opmerking: SPEED-test (alle items even moeilijk) geen probleem, POWER-test (moeilijkheidsgraad stijgt) ODD-EVEN gebruiken

Testverlenging en betrouwbaarheid Test verlengen leidt tot meer nauwkeurige en meer betrouwbare meting rvt = betrouwbaarheid verlengde test rtt = betrouwbaarheid originele test K = verlengingsfactor Praktische beperkingen door langere testduur Theoretische beperking wegens problemen bij constructie van toe te voegen items

Effekt van testverlenging 0,2 0,4 0,6 0,8 1 2 4 6 8 10 20 items rtt=0.60 Eerste verlengingen hebben meeste effekt Toegevoegde itmes moeten equivalent zijn met originele Het moet mogelijk zijn om items toe te voegen

Testverlenging bepalen Toepassing rxx = .80, maar .90 gewenst huidige testlengte = 10 min Nieuwe testduur: 22 min 30 sec