01-5-2012 Samantha Bouwmeester Testtheorie College 3 01-5-2012 Samantha Bouwmeester.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Tevredenheid met behandelaar en behandeling.
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
‘SMS’ Studeren met Succes deel 1
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
Welke eis stel je aan de ondergrond als je aan uitwendige hartmassage begint Dat deze hard is.
Aflezen van analoge en digitale meetinstrumenten
De omvang van een steekproef bepalen
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.
Leer de namen van de noten 2
Betrouwbaarheid en Validiteit
toetsen voor het verband tussen variabelen met gelijk meetniveau
Als de som en het verschil gegeven zijn.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.
De ontwikkeling en validering van een cognitieve-vaardighedentest voor volwassen anderstaligen Evelien Buyse, Karine Verschueren en Walter Magez Nederlands.
Regelmaat in getallen … … …
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
Oefeningen F-toetsen ANOVA.
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Een fundamentele inleiding in de inductieve statistiek
Evaluatie Van Interactieve Software Systemen
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Meten bij marktonderzoek
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
Werken aan Intergenerationele Samenwerking en Expertise.
Aanvullende vragen Collegesheets M&S3
Responsie college II: Spearman-Brown G = nieuwe schaal Y= oude schaal
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
ribwis1 Toegepaste wiskunde Lesweek 3
ribwis1 Toegepaste wiskunde Lesweek 2
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Tweedegraadsfuncties
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Statistiekbegrippen en hoe je ze berekent!!
Hoe gaat dit spel te werk?! Klik op het antwoord dat juist is. Klik op de pijl om door te gaan!
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
Interpretatie van statistiek bij toetsen en toetsvragen
Varianties bij replicatie (herhaald testen)
Betrouwbaarheid.
Validiteit.
Partiële r² Predictie van y gebaseerd op z alleen
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
De financiële functie: Integrale bedrijfsanalyse©
1 BUE: de eerste cijfers Gijs Martens HRM Netwerk 22/02/02.
Centrummaten en Boxplot
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Kwantitatieve & kwalitatieve data analyse
13 november 2014 Bodegraven 1. 2 de vorige keer: 1Kor.15:29-34 indien er geen doden opgewekt worden...  vs 29: waarom dopen?  vs.30-32: waarom doodsgevaren.
welke hoef je niet te leren?
Baarde en de goede Hoofdstuk 11: Data-analyse
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Testen met een klein aantal testmonsters Rob Ross.
Wat zegt een steekproef?
De omvang van een steekproef bepalen
Transcript van de presentatie:

01-5-2012 Samantha Bouwmeester Testtheorie College 3 01-5-2012 Samantha Bouwmeester

Even herhalen vorige college… (i = persoon, j = replicatie) dus Betrouwbare score van persoon i is gemiddelde score bij oneindig aantal replicaties j. Gemiddelde meetfout voor één persoon over replicaties is nul: geluk en pech heffen elkaar op! De spreiding van de meetfouten voor één persoon over replicaties is gelijk aan de spreiding van de geobserveerde scores voor één persoon over replicaties. Immers spreiding in betrouwbare score voor één persoon is nul! 2

… Aanname KTT: de gemiddelde meetfout over personen is nul: discutabel! Meetfouten correleren nergens mee, behalve met een variabele waar ze zelf deel van uitmaken. Variantie van scores bestaat uit systematisch deel, ST2, en toevallig deel, SE2. Betrouwbaarheid is de verhouding systematische variantie / totale variantie 3

… ) ( ' 2 X S T rxx = Tot nu toe: Puur theoretische definities, afleidingen en aannames over meten en betrouwbaarheid. De vraag is nu: Op welke manier kunnen we de betrouwbaarheid van een test met empirische data daadwerkelijk schatten/bepalen? 4

Bepaling van de betrouwbaarheid Vier manieren om betrouwbaarheid te schatten: o.b.v. 2 testafnames 2 parallelle tests test-hertest o.b.v. 1 testafname splitsingsmethode alfa als ondergrens van de betrouwbaarheid 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 5

1. Parallelvorm-methode Betrouwbaarheid = correlatie tussen twee parallelle tests Wanneer zijn twee tests parallel? Als de betrouwbare score van persoon i op test G gelijk is aan de betrouwbare score op test H, én: Als de variantie van de geobserveerde scores op test G gelijk is aan de variantie van de geobserveerde scores op test H Als twee tests parallel zijn, dan geldt dat de betrouwbaarheid van de test gelijk is aan de correlatie tussen de scores op test G en test H 6

Helaas! Niet direct controleerbaar of twee tests parallel zijn. Wel controleerbaar: Goede controle voor parallellie! Voorbeeld: Stel we hebben een vragenlijst die faalangst meet, dan zijn twee faalangsttests parallel wanneer zij dezelfde correlatie hebben met een “relevante” andere test, die bijvoorbeeld zelfvertrouwen meet. 7

In de praktijk bestaan parallelle tests eigenlijk niet! Nota Bene! In de praktijk bestaan parallelle tests eigenlijk niet! Bij niet parallelle tests is rgh < rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) tests is lager dan de betrouwbaarheid in de populatie. dit komt omdat bij niet-parallelle items het verschil tussen items voor wat “error” zorgt. Door deze niet-systematische meetfout kan de rangorde van de scores gaan verschillen en daardoor wordt de correlatie een beetje naar lager. 8

2. Test-Hertest methode Betrouwbaarheid = correlatie tussen twee afnames van dezelfde test. De correlatie tussen twee afnames (t=1, en t=2) is de betrouwbaarheid van de test. Is er verandering te verwachten in de te meten eigenschap? Zo ja, dan geen goede methode! Geen goede schatting van de betrouwbaarheid bij: Leereffect Geheugeneffect Attitudeverandering Aselecte uitval Vraag: Hoe groot moet het tijdsinterval tussen twee afnames zijn….? 9

3. Splitsingsmethode Eigenlijk ook een vorm van de parallelvorm-methode! Betrouwbaarheid = correlatie tussen de ruwe scores van twee helften van dezelfde test (+ correctie aantal items). Betrouwbaarheid gehele test Correlatie tussen twee testhelften (=betrouwbaarheid van ½ test) Verlengingsfactor NB: hoe meer items, des te betrouwbaarder de test! 10

Vuistregels voor splitsen: Voorbeeld: Stel de correlatie tussen twee testhelften (rxx’) is .7. Wat is de betrouwbaarheid (rKK) van de gehele test? Antwoord: Nota Bene! Wanneer twee testhelften niet parallel zijn, geldt: rKK< rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) testhelften is lager dan de betrouwbaarheid in de populatie! Vuistregels voor splitsen: - Niet splitsen in gemakkelijke en moeilijke helft - Niet splitsen in 1e en 2e helft - Items van de twee helften moeten inhoudelijk overlappen! 11

4. Cronbach’s alpha Bekendste maat: Cronbach’s alfa: Bewijs op p216-219, beetje (beetje????) moeilijk! Hoef je niet te kunnen/kennen voor bloktoets… ! Bekendste maat: Cronbach’s alfa: Aantal items in de test Som van alle covarianties Variantie van de Somscore Als v=w, dan . Dit is de variantie! (en die doet dus niet mee… 12

v w Yw=4 Yw=3 Yw=2 Yw=1 Yv=4 Yv=3 Yv=2 Yv=1 2.1 -1.2 2.1 1.4 -1.2 3.2 2.2 Voorbeeld: Stel we hebben een test bestaande uit 4 items met de volgende variantie/covariantie matrix: 2.1 3.2 1.6 1.3 1.4 2.2 1.3 2.3 =-1.2 + 2.1 + 1.4 - 1.2 + 3.2 + 2.2 + 2.1 + 3.2 + 1.3 + 1.4 + 2.2 + 1.3=18 = 18 + 2.1 + 3.2 + 1.6 + 2.3 = 27.2 k = 4 13

Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) Nota Bene! Alfa ≤ rxx’ Alfa is een ondergrens van de betrouwbaarheid. Dit betekent dat de werkelijke betrouwbaarheid in de populatie hoger is. Maaaaaar: steekproef alfa kan weer een overschatting zijn van de betrouwbaarheid. Dus: bij een kleine steekproef heb je grotere kans dat alfa een OVERSCHATTING is van de betrouwbaarheid! Grote steekproef (n=veel) Kleinere steekproef (n=beetje minder) s1 rxx’ s1 s2 s3 rxx’ s2 1 s3 1 14

mu0() ≤ mu1(lambda) ≤ mu2 ≤ mu3 ≤…. ≤ rxx’ - Alfa is de gemiddelde splitsingsbetrouwbaarheid over alle mogelijke splitsingen Interne consistentie is eigenlijk niet zo’n goede benaming omdat: alfa neemt toe als aantal items toenemen, maar inhoudelijk gaat de test een eigenschap bij verlenging niet beter of betrouwbaarder meten. ook bij heterogeniteit kan alfa hoog zijn (bijv. Clusters van items die verschillende vaardigheden meten en binnen een cluster hoog correleren) Andere maten voor interne consistentie: KR-20, alfa voor dichotome items (zelfde als Cronbach’s alfa) Lambda-2, minder bekend maar eigenlijk een BETERE ondergrens van de betrouwbaarheid! (formule wordt gegeven op bloktoets) mu0() ≤ mu1(lambda) ≤ mu2 ≤ mu3 ≤…. ≤ rxx’ 15

Zes speciale onderwerpen Nauwkeurigheid van metingen standaardmeetfout Vb. Karin heeft Xi = 10, op een toets met S(X) = 2, gemiddelde 14 en rxx’= .91. Wat is 95% BI van Karin’s true score? 95% BI: 16

Xi = 10, S(X) = 2, gemiddelde 14 , rxx’= .91. standaardschattingsfout Bij schatting van Ti wordt rekening gehouden met betrouwbaarheid en gemiddelde. Geschatte true score van Karin wordt nu: In paragraaf 6.4.1: 95% BI: NB: omdat ST ≤ SX, is de tweede methode nauwkeuriger! 17

2.Relatie betrouwbaarheid en testlengte Spearman-Brown formule: rxx’ = betrouwbaarheid oude test rkk = betrouwbaarheid na verlenging / verkorting K = verlengings/verkortings factor Voorbeeld 1: Stel we hebben een test bestaande uit 50 items met rxx’ =.8. De test duurt te lang. Wat wordt de betrouwbaarheid als we 20 items verwijderen? k=30/50 =.6 (verkortingsfactor...), rkk = onbekend 18

Er moeten dus 430-30=90! Items worden toegevoegd!!! Voorbeeld 2: Stel we hebben een test bestaande uit 30 items met rxx’ =.5. We willen een betrouwbaarheid van .8. Hoeveel items moeten we toevoegen? k=onbekend rkk = .8 Er moeten dus 430-30=90! Items worden toegevoegd!!! 19

- betrouwbaarheid is dan dus .9/.6 =1.5 keer zo groot. Vb. rxx’=.6, rkk=.9 - betrouwbaarheid is dan dus .9/.6 =1.5 keer zo groot. Validiteit is (slechts) keer zo groot. Winst in betrouwbaarheid wordt steeds kleiner Praktisch ondoenlijk! Parallelle items vereist! Validiteit neemt minder toe dan betrouwbaarheid. 20

3. Betrouwbaarheid en validiteit De correlatie tussen een test en een criterium (validiteit) is altijd kleiner of gelijk aan de wortel uit de betrouwbaarheid van de test! Dus stel de rxx’= .64, dan wordt de correlatie NOOIT hoger dan .80. Wat zou de correlatie (validiteit) zijn als zowel X ALS Y perfect betrouwbaar (rxx’=1) zouden zijn gemeten? Formule 6.53 attenuatiecorrectie TX = test X met oneindig aantal parallelle items. PAS OP: gevonden validiteitscoëfficiënt is te optimistisch en niet realistisch (want X en Y zijn niet perfect betrouwbaar gemeten!!) 21

4. Betrouwbaarheid van verschilscores Verschilscores zijn vaak erg onbetrouwbaar omdat het verschil vooral uit meetfouten bestaat. Dit geldt met name voor variabelen met al een lage betrouwbaarheid. NB. E kan positief én negatief zijn. X1=rekentoets september X2=rekentoets mei X2-X1= vooruitgang rekentoets X1=T+E1 X2=T+Tmei+E2 X2-X1=T+Tmei+E2-T-E1=Tmei+E1-E2 T valt weg, daarom relatief veel error in de verschilscore Dit probleem wordt groter naarmate de variabelen X1 en X2 hoog correleren! De variabelen meten dan grotendeels hetzelfde en het verschil tussen de scores berust vooral op niet-systematische verschillen. 22

5. Betrouwbaarheid en spreiding van scores Als variantie in betrouwbare score afneemt, dan neemt ook de betrouwbaarheid af (bij gelijkblijvende meetfouten variantie SE) Daarom: pas op bij gebruik van tests in deelpopulaties waar ze niet voor gemaakt zijn! Voorbeeld: stel we nemen een toets 3.7 af bij eerstejaars. Omdat vrijwel niemand kennis heeft van testtheorie, is de spreiding in T klein. Als ST afneemt, en SE blijft gelijk, dan neemt de betrouwbaarheid van de test af! 23

Variantie van deeltest Betrouwbaarheid van deeltest 6. Heterogene tests Voor heterogene tests (meerdere deeltests) gebruiken we gestratificeerde alpha-coëfficiënt om de betrouwbaarheid van de gehele test te berekenen: Variantie van deeltest Betrouwbaarheid van deeltest Variantie van totale test Subtest 1.9 2.5 .65 Y2.Verbale analogieën .81 Y1.Figuur herkennen SY1Y2 = 1.8 24