18-5-2011 Samantha Bouwmeester Testtheorie College 8 18-5-2011 Samantha Bouwmeester.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Snelheid op een bepaald tijdstip
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
HC2MFE Meten van verschillen
Screening van toetsen: Psychometrische analyse
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
Toetsen van verschillen tussen twee of meer groepen
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Aflezen van analoge en digitale meetinstrumenten
Leer de namen van de noten 1
havo A Samenvatting Hoofdstuk 10
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
H 14: Enkelvoudige interest
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Ronde (Sport & Spel) Quiz Night !
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Leer de namen van de noten 2
Hoofdstuk 3 – Gegevens verzamelen
(11,25;10) (10,15) (10,16) Totaal 7 lijnen getekend.
WISKUNDIGE FORMULES.
Beschrijvende en inferentiële statistiek
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
H51 12 resolutie H51 PHOTOSHOP 1 audiovisueel centrum meise.
vwo C Samenvatting Hoofdstuk 14
Regelmaat in getallen … … …
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
Oefeningen F-toetsen ANOVA.
Schatter voor covariantie
Continue kansverdelingen
Een fundamentele inleiding in de inductieve statistiek
Les 10 : MODULE 1 Snedekrachten
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
Populatiegemiddelden: recap
Werken aan Intergenerationele Samenwerking en Expertise.
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
Inkomen les t/m 75 plus Zelftest Kennisvragen.
Meetonzekerheden In de natuurkunde moet je vaak een grootheid meten
Ruimtevaartquiz De Maan De.
havo/vwo D Samenvatting Hoofdstuk 4
Standaard-bewerkingen
indicator op basis van niveau-indicaties
Hoofdstuk 4 Vlakke figuren.
Hoofdstuk 4 Vlakke figuren.
Hoofdstuk 5 De stelling van Pythagoras
Statistiekbegrippen en hoe je ze berekent!!
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Bewerkingen met breuken Les 37.
Stanines z Stanines
IPSOS iov Stichting tegen Kanker, 2013
De financiële functie: Integrale bedrijfsanalyse©
1 BUE: de eerste cijfers Gijs Martens HRM Netwerk 22/02/02.
Inleiding in de statistiek voor de gedragswetenschappen
Inleiding in de statistiek voor de gedragswetenschappen
Centrummaten en Boxplot
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Inleiding in de statistiek voor de gedragswetenschappen
Baarde en de goede Hoofdstuk 11: Data-analyse
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
Toetsen van verschillen tussen twee of meer groepen
Transcript van de presentatie:

18-5-2011 Samantha Bouwmeester Testtheorie College 8 18-5-2011 Samantha Bouwmeester

Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning, DIF) Welk van onderstaande alternatieven is een voorbeeld van een criterium-referenced test? De bloktoets van 1.4 De VGT De DAT De WISC Bij vraagonzuiverheid doet de vraag beroep op nog een andere dan te meten psychologische eigenschap! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde q uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 2

Voorbeeld vraagonzuiverheid: Welk van onderstaande alternatieven is een voorbeeld van een criterium-referenced test? De bloktoets van 1.4 De VGT De DAT De WISC UVT studenten EUR studenten Psychologie studenten van de EUR en de UVT met dezelfde θ hebben niet dezelfde kans om het item correct te beantwoorden. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! In dit voorbeeld: Studenten aan de EUR kunnen een hogere gemiddelde score hebben op dit item dan de UVT studenten terwijl de IRF hetzelfde is. 3

Nog even MHM en errorbars… Het gemiddelde geeft de proportie mensen weer die vraag 17 correct heeft beantwoord. Mean Errorbar: Het 95% BI van de gemiddelde score in groep 1. Mean ± 1.96×SE Scoregroep

En DMM en errorbars… Mean Scoregroep vraag 18 Eis is: items mogen niet snijden (in de populatie) Maar: Items mogen wel raken! In de steekproef hebben we steekproef variantie en daarom snijden items som “toevallig” Een snijding met twee niet-overlappende 95% BI’s is significant! Scoregroep 5

En dan nog even de testinfomatiefunctie… = 0.6 = 0.55 0.25 0.25 0.25 + + 0.2 0.1 0.1

Hoofdstuk 5: Corrigeren voor gokken bij MC vragen? Toevalscorrectie 4 keuze - items X 1 2 3 4 5 6 7 8 9 10 Weet je antwoord? ja nee Eerlijk antwoord 1 6 Verwacht antwoord 1 ¼ 7 In totaal 7 correcte antwoorden, dus 3 foute antwoorden. Kans op goed antwoord bij gokken: ¼ , kans op fout antwoord bij gokken: ¾ Dus “aantal fout” (3) is ¾ deel van het “totaal aantal gegokte antwoorden” Totaal aantal gegokte antwoorden = 3 / ¾ = 4 Er is dan dus 1 antwoord goed gegokt. De voor-gissen-gecorrigeerde (eerlijke?) score is dus: 7-1=6. In formulevorm:

Is de voor-gissen-gecorrigeerde score wel eerlijk? Eigenlijk is er geen scherp onderscheid te maken tussen wel en niet weten (ondercorrectie, overcorrectie) Er bestaat een kans op een fout antwoord, terwijl er niet is gegokt: dubbel gestraft... De variantie van de gecorrigeerde score is altijd groter dan die van de ongecorrigeerde score: S2(Xc) > S2(X). Hierdoor zal de betrouwbaarheid van de gecorrigeerde score hoger uitvallen, zonder dat er beter gemeten is… Xc is lineaire transformatie van X, dus r(Xc, X)= 1, en r(X, Y)= r(Xc,Y)

Bewerkte scores en normen ruwe score = de eerste score, zonder bewerking. Heeft weinig betekenis. 8 goed Van de hoeveel opgaven? Hoeveel goed voor een voldoende? Hoe verhoudt het zich t.o.v. de groep? Norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd op de kenmerken van de verdeling van de ruwe scores in een populatie NB: bewerkte score is nog geen norm! afhankelijk v.d. prestaties van anderen. afgezet tegen populatie 9

Drie soorten vergelijkingen: Een absolute standaard. Een referentiegroep. Een populatie. Een absolute standaard -> criterion referenced - vb. Bloktoets: 25 goed = 5.5. Niet afhankelijk van groepsgrootte Niet afhankelijk van scores anderen Niet afhankelijk van populatie Ruwe score Bewerkte score 0-24 0 (gezakt) 25-40 1 (geslaagd) 10

2. Met een referentiegroep -> norm-referenced Rangscores: de beste 3 Percentielscores: rangscore uitgedrukt in percentage: percentage respondenten uit de steekproef met een lagere of gelijke score. testscore f F p P Percentiel score 1 5 5-.5*5=2.5 2 12 17 17-.5*12=11 3 18 35 35-.5*18=26 4 8 43 43-.5*8=39 20 63 63-.5*20=53 6 22 85 85-.5*22=74 7 15 100 100-.5*15=92.5 11 n=100

Percentielscore bij score =3 Neem de cumulatieve score behorend bij score 3, en trek daar de helft van het aantal mensen met score 3 van af: 5+12+18-1/2 18 = 26 Maak hier een percentage van:  n/100 12

Rationale lineaire interpolatie: Waarom dat gedoe met “ ½×f “ en niet gewoon F ? Rationale lineaire interpolatie: percentielscore = percentage mensen met score tot aan 3). Van de mensen met score 3 heeft ongeveer de helft een “echte” score tussen 2.5 en 3.0 en een helft heeft “echte”score tussen 3.0 en 3.5. We gaan er dus van uit dat er een continue lineaire schaal onder de discrete scores ligt. We nemen alleen de eerste helft mee voor de percentielscore van score 3. 13

SPSS doet het een beetje anders… Percentielscore: de gemiddelde rangscore van alle respondenten met de ruwe score  n/100

NB. Het gemiddelde van Z is 0 en de SD is 1 (altijd!) 3. Uitgaande van een populatie. NB. Het gemiddelde van Z is 0 en de SD is 1 (altijd!) Afwijkingsscore geeft aan hoever de score van een persoon van het gemiddelde ligt. Z drukt uit hoeveel standaarddeviaties de score van een persoon van het gemiddelde ligt. Z is dus eigenlijk gestandaardiseerde afwijkingsscore Z is NIET per se normaal verdeeld!!

Z is een lineaire transformatie van X: Bij een lineaire transformatie blijft de vorm van de verdeling precies hetzelfde.

Genormaliseerde standaardscores : niet-lineaire transformatie, we “maken” de verdeling “zo normaal mogelijk”. Niet-lineaire transformaties wanneer een variabele scheef naar rechts is: Deze transformaties zorgen er allemaal voor dat grote waarden van X relatief wat minder groot worden ten opzichte van kleine waarden.

Ieder stukje bevat 10% van de populatie 20 30 40 50 60 70 80 90 Ieder stukje bevat 10% van de populatie percentielen Z 10 20 30 40 50 60 90 80 70 T=Z×10+50 30 55 70 85 100 115 170 155 130 IQ=Z×15+100 -1.75 -1.25 -.75 -.25 1.75 1.25 .75 .25 2 1 3 4 5 6 7 8 9 Stanines

Verdeling percentielscores Ieder percentiel bevat 10% van de scores. Daarom is de verdeling van de percentielscores altijd rechthoekig!

Als X normaal verdeeld is, dan kun je de kans op een score van X of hoger/lager opzoeken in de tabel, of door spss laten berekenen. Cdf.normal(Zscore,0,1) 20

Als de verdeling normaal is, en n is groot, dan p(Z) is gelijk aan percentielscore / 100 Kans op een score van 8 of lager? P(X≤8) Volgens normale verdeling: .76 Volgens percentielscore/100 ook .76 76% 2 3 4 5 6 7 9 10 11 X

Als verdeling is niet normaal is, dan kun je de p-waarden uit de standaard normale verdeling niet gebruiken… Maar percentielscores zijn nog wel bruikbaar 0-10% 90-100% score 1 score 16 t/m 20 P(Z(X>15.00)>2)=1-.975=.025 P(Z(X<1.00)<-3)=.005