De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Verwante presentaties


Presentatie over: "01-5-2012 Samantha Bouwmeester College 3 Testtheorie."— Transcript van de presentatie:

1 Samantha Bouwmeester College 3 Testtheorie

2 Even herhalen vorige college… Betrouwbare score van persoon i is gemiddelde score bij oneindig aantal replicaties j. Gemiddelde meetfout voor één persoon over replicaties is nul: geluk en pech heffen elkaar op! De spreiding van de meetfouten voor één persoon over replicaties is gelijk aan de spreiding van de geobserveerde scores voor één persoon over replicaties. Immers spreiding in betrouwbare score voor één persoon is nul! 2 (i = persoon, j = replicatie) dus

3 Aanname KTT: de gemiddelde meetfout over personen is nul: discutabel! Meetfouten correleren nergens mee, behalve met een variabele waar ze zelf deel van uitmaken. Variantie van scores bestaat uit systematisch deel, S T 2, en toevallig deel, S E 2. Betrouwbaarheid is de verhouding systematische variantie / totale variantie … 3

4 Tot nu toe: Puur theoretische definities, afleidingen en aannames over meten en betrouwbaarheid. De vraag is nu: Op welke manier kunnen we de betrouwbaarheid van een test met empirische data daadwerkelijk schatten/bepalen? )( )( ' 2 2 XS TS rxx = … 4

5 Vier manieren om betrouwbaarheid te schatten: o.b.v. 2 testafnames2 parallelle tests test-hertest o.b.v. 1 testafnamesplitsingsmethode alfa als ondergrens van de betrouwbaarheid Bepaling van de betrouwbaarheid 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 1.Dit is een 1.Dit is een v 5

6 1.Parallelvorm-methode Betrouwbaarheid = correlatie tussen twee parallelle tests Als twee tests parallel zijn, dan geldt dat de betrouwbaarheid van de test gelijk is aan de correlatie tussen de scores op test G en test H Wanneer zijn twee tests parallel? Als de betrouwbare score van persoon i op test G gelijk is aan de betrouwbare score op test H, én: Als de variantie van de geobserveerde scores op test G gelijk is aan de variantie van de geobserveerde scores op test H 6

7 Helaas! Niet direct controleerbaar of twee tests parallel zijn. Wel controleerbaar: Goede controle voor parallellie! Voorbeeld: Stel we hebben een vragenlijst die faalangst meet, dan zijn twee faalangsttests parallel wanneer zij dezelfde correlatie hebben met een “relevante” andere test, die bijvoorbeeld zelfvertrouwen meet. 7

8 Nota Bene! -In de praktijk bestaan parallelle tests eigenlijk niet! -Bij niet parallelle tests is r gh < r xx’. Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) tests is lager dan de betrouwbaarheid in de populatie. -dit komt omdat bij niet-parallelle items het verschil tussen items voor wat “error” zorgt. Door deze niet-systematische meetfout kan de rangorde van de scores gaan verschillen en daardoor wordt de correlatie een beetje naar lager. 8

9 2.Test-Hertest methode Betrouwbaarheid = correlatie tussen twee afnames van dezelfde test. Is er verandering te verwachten in de te meten eigenschap? Zo ja, dan geen goede methode! Geen goede schatting van de betrouwbaarheid bij: -Leereffect -Geheugeneffect -Attitudeverandering -Aselecte uitval Vraag: Hoe groot moet het tijdsinterval tussen twee afnames zijn….? De correlatie tussen twee afnames (t=1, en t=2) is de betrouwbaarheid van de test. 9

10 3.Splitsingsmethode Eigenlijk ook een vorm van de parallelvorm-methode! Betrouwbaarheid = correlatie tussen de ruwe scores van twee helften van dezelfde test (+ correctie aantal items). Betrouwbaarheid gehele test Correlatie tussen twee testhelften (=betrouwbaarheid van ½ test) Verlengingsfactor 10 NB: hoe meer items, des te betrouwbaarder de test!

11 Nota Bene! • Wanneer twee testhelften niet parallel zijn, geldt: r KK < r xx’. Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) testhelften is lager dan de betrouwbaarheid in de populatie! • Vuistregels voor splitsen: - Niet splitsen in gemakkelijke en moeilijke helft - Niet splitsen in 1 e en 2 e helft - Items van de twee helften moeten inhoudelijk overlappen! Voorbeeld: Stel de correlatie tussen twee testhelften (r xx’ ) is.7. Wat is de betrouwbaarheid (r KK ) van de gehele test? Antwoord: 11

12 4.Cronbach’s alpha • Bekendste maat: Cronbach’s alfa: Bewijs op p , beetje (beetje????) moeilijk! Hoef je niet te kunnen/kennen voor bloktoets… ! Aantal items in de test Som van alle covarianties Variantie van de Somscore 12 Als v=w, dan. Dit is de variantie! (en die doet dus niet mee…

13 Voorbeeld: Stel we hebben een test bestaande uit 4 items met de volgende variantie/covariantie matrix: = = 27.2 =-1.2 k = =18 Y w=4 Y w=3 Y w=2 Y w=1 Y v=4 Y v=3 Y v=2 Y v=1 w v 13

14 Nota Bene! Alfa ≤ rxx’ Alfa is een ondergrens van de betrouwbaarheid. Dit betekent dat de werkelijke betrouwbaarheid in de populatie hoger is. Maaaaaar: steekproef alfa kan weer een overschatting zijn van de betrouwbaarheid. Grote steekproef (n=veel)  s2 rxx’  s1  s3  s1  s2  s3 Dus: bij een kleine steekproef heb je grotere kans dat alfa een OVERSCHATTING is van de betrouwbaarheid! Kleinere steekproef (n=beetje minder)

15 - Alfa is de gemiddelde splitsingsbetrouwbaarheid over alle mogelijke splitsingen Interne consistentie is eigenlijk niet zo’n goede benaming omdat: • alfa neemt toe als aantal items toenemen, maar inhoudelijk gaat de test een eigenschap bij verlenging niet beter of betrouwbaarder meten. • ook bij heterogeniteit kan alfa hoog zijn (bijv. Clusters van items die verschillende vaardigheden meten en binnen een cluster hoog correleren) Andere maten voor interne consistentie: • KR-20, alfa voor dichotome items (zelfde als Cronbach’s alfa) • Lambda-2, minder bekend maar eigenlijk een BETERE ondergrens van de betrouwbaarheid! (formule wordt gegeven op bloktoets) mu 0 (  ) ≤ mu 1 (lambda) ≤ mu 2 ≤ mu 3 ≤…. ≤ rxx’ 15

16 1.Nauwkeurigheid van metingen standaardmeetfout Zes speciale onderwerpen Vb. Karin heeft X i = 10, op een toets met S(X) = 2, gemiddelde 14 en rxx’=.91. Wat is 95% BI van Karin’s true score? 95% BI: 16

17 Bij schatting van T i wordt rekening gehouden met betrouwbaarheid en gemiddelde. Geschatte true score van Karin wordt nu: In paragraaf 6.4.1: 95% BI: NB: omdat S T ≤ S X, is de tweede methode nauwkeuriger! X i = 10, S(X) = 2, gemiddelde 14, rxx’=.91. standaardschattingsfout 17

18 2.Relatie betrouwbaarheid en testlengte Spearman-Brown formule: r xx’ = betrouwbaarheid oude test r kk = betrouwbaarheid na verlenging / verkorting K = verlengings/verkortings factor Voorbeeld 1: Stel we hebben een test bestaande uit 50 items met r xx’ =.8. De test duurt te lang. Wat wordt de betrouwbaarheid als we 20 items verwijderen? k=30/50 =.6 (verkortingsfactor...), r kk = onbekend 18

19 Voorbeeld 2: Stel we hebben een test bestaande uit 30 items met r xx’ =.5. We willen een betrouwbaarheid van.8. Hoeveel items moeten we toevoegen? k=onbekend r kk =.8 Er moeten dus 4  30-30=90! Items worden toegevoegd!!! 19

20 -Winst in betrouwbaarheid wordt steeds kleiner -Praktisch ondoenlijk! -Parallelle items vereist! -Validiteit neemt minder toe dan betrouwbaarheid. 20 Vb. rxx’=.6, r kk =.9 - betrouwbaarheid is dan dus.9/.6 =1.5 keer zo groot. -Validiteit is (slechts) keer zo groot.

21 3. Betrouwbaarheid en validiteit De correlatie tussen een test en een criterium (validiteit) is altijd kleiner of gelijk aan de wortel uit de betrouwbaarheid van de test! Dus stel de rxx’=.64, dan wordt de correlatie NOOIT hoger dan.80. Wat zou de correlatie (validiteit) zijn als zowel X ALS Y perfect betrouwbaar (r xx’ =1) zouden zijn gemeten? Formule 6.53 attenuatiecorrectie T X = test X met oneindig aantal parallelle items. PAS OP: gevonden validiteitscoëfficiënt is te optimistisch en niet realistisch (want X en Y zijn niet perfect betrouwbaar gemeten!!) 21

22 4. Betrouwbaarheid van verschilscores -Verschilscores zijn vaak erg onbetrouwbaar omdat het verschil vooral uit meetfouten bestaat. Dit geldt met name voor variabelen met al een lage betrouwbaarheid. X1=rekentoets september X2=rekentoets mei X2-X1= vooruitgang rekentoets X1=T+E1 X2=T+Tmei+E2 X2-X1=T+Tmei+E2-T-E1=Tmei+E1-E2 NB. E kan positief én negatief zijn. T valt weg, daarom relatief veel error in de verschilscore Dit probleem wordt groter naarmate de variabelen X1 en X2 hoog correleren! De variabelen meten dan grotendeels hetzelfde en het verschil tussen de scores berust vooral op niet-systematische verschillen. 22

23 Voorbeeld: stel we nemen een toets 3.7 af bij eerstejaars. Omdat vrijwel niemand kennis heeft van testtheorie, is de spreiding in T klein. Als S T afneemt, en S E blijft gelijk, dan neemt de betrouwbaarheid van de test af! 5. Betrouwbaarheid en spreiding van scores • Als variantie in betrouwbare score afneemt, dan neemt ook de betrouwbaarheid af (bij gelijkblijvende meetfouten variantie S E ) • Daarom: pas op bij gebruik van tests in deelpopulaties waar ze niet voor gemaakt zijn! 23

24 6. Heterogene tests Voor heterogene tests (meerdere deeltests) gebruiken we gestratificeerde alpha-coëfficiënt om de betrouwbaarheid van de gehele test te berekenen: Subtest Y2.Verbale analogieën.81Y1.Figuur herkennen S Y1Y2 = 1.8 Variantie van deeltest Betrouwbaarheid van deeltest Variantie van totale test 24


Download ppt "01-5-2012 Samantha Bouwmeester College 3 Testtheorie."

Verwante presentaties


Ads door Google