De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen.

Verwante presentaties


Presentatie over: "Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen."— Transcript van de presentatie:

1 Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen

2 Toets- en itemanalyse Eerst een stukje over toetskwaliteit

3 Toetsen ►Een toets is een steekproef, een momentopname. ►Er kan van alles misgaan, hoeft niet aan de toets te liggen.

4

5 Toetsen - criteria Een goede toets is: ►Betrouwbaar ►Valide ►Bruikbaar

6 Toetsen – criteria: betrouwbaarheid ►Kwaliteit van toets zelf  Vragen eenduidig en goed geformuleerd (allerlei criteria)  Toets en toetsvragen moeten discrimineren (onderscheid tussen goede en zwakke leerlingen)  Voldoende aantal vragen ►Omstandigheden  Ruimte en rust  Beschikbaarheid hulpmiddelen  Beschikbare tijd ►Beoordeling resultaat (voorkomen van invloed door de beoordelaar)  Gesloten vragen met eenduidig antwoord  Open vragen met antwoordmodel Betrouwbaar = bij herhaalde afname onder dezelfde omstandigheden geeft een zelfde resultaat Betrouwbaar = bij herhaalde afname onder dezelfde omstandigheden geeft een zelfde resultaat

7 Betrouwbaarheid en cesuur raadscore cijfer 1 10 maximale scorecesuurscore Proportie leerlingen die slaagt. 0,0 (of 1,0) 5,5 (of 6,0) score

8 Toetsen – criteria: validiteit ►Begripsvaliditeit  Is de toets representatief voor de leerdoelen? ►Inhoudsvaliditeit  Is de toets representatief voor de leerstof? ►Criteriumvaliditeit  Heeft de toets een voorspellende waard? (met name van belang bij centrale examens, toelatingsexamens) Valide = meet wat je wilde weten

9 Toetsen – criteria: bruikbaarheid ►Is de toets doelmatig (efficient)?  De inspanningen (voorbereidingen, afname en beoordeling door docenten en leerlingen) moeten opwegen tegen de winst aan validiteit en betrouwbaarheid van de resultaten. ►Is de toets transparant?  Is direct duidelijk wat gevraagd wordt?  Goede instructie?  Nette lay-out?  Afname, waardering, correctie, bekendmakingen helder? Bruikbaarheid = mate van efficiency en doorzichtigheid van de toets Bruikbaarheid = mate van efficiency en doorzichtigheid van de toets

10 Toets(vragen) ontwikkelen ►Maak een analyse van de leerstof ►Maak een toetsmatrijs ►Bepaal welke wijze van toetsen het meest geschikt is ►Bepaal het soort vragen die het meest geschikt zijn (op onderdelen) ►Stel de vragen samen ►Stel de toets samen ►Bepaal de cesuur ►Toetsafname, analyseer, evalueer en stel bij

11 Toets(vragen) ontwikkelen ►Creatief proces ►Eerst grof, dan verfijnen ►Bijschaven ►Overleg en feedback zijn zeer belangrijk (laat collega’s, vakgenoten de toetsvragen afnemen)

12 Toets(vragen) ontwikkelen Wat is een goede vraag? ►Goede vragen ontlokken een ‘gericht’ denkproces ►Goede vragen maken onderscheid tussen leerlingen die de stof wel en die de stof niet begrijpen ►Goede vragen zijn in principe niet te moeilijk en niet te makkelijk ►Goede vragen stimuleren de leerling om zijn of haar best te doen

13 Toets- en itemanalyse Statistiek

14 Toets- en itemanalyse Statistische informatie (normen): (de belangrijkste) ►Itemanalyse  Vraagmoeilijkheid  P-waarde  A-waarde (afleiders)  Onderscheidingsvermogen  R it -waarde  D-waarde of D-index ►Toetsanalyse  Betrouwbaarheid  Cronbach’s Alpha (α) Normen dienen als indicatie. Met name de vragen die als “slecht” worden gekwalificeerd vereisen de aandacht. Normen dienen als indicatie. Met name de vragen die als “slecht” worden gekwalificeerd vereisen de aandacht. De aantallen resultaten moeten voldoende groot zijn. Hoe groter de aantallen, des te veelzeggender is de informatie. De aantallen resultaten moeten voldoende groot zijn. Hoe groter de aantallen, des te veelzeggender is de informatie.

15 Itemanalyse

16 Item-analyse: de P-waarde Wordt bepaald door het aandeel van de leerlingen die de vraag correct hebben beantwoord. ►Nummer tussen 0 en 1 ►Bijv. als 90 van 100 leerlingen de vraag goed hebben beantwoord  p-waarde is 0,90 ►> 0,90 te makkelijk < 0,10 te moeilijk van 0,25 – 0,85 zijn “goede” Gemiddelde “norm” bij een toets met MC4-vragen is 0,65 In QMP: P Value Proportion Correct

17 Item-analyse: de P-waarde - normen VraagvormOptimale P-waarde (Crocker & Algina) Optimale P-waarde (Lord) Open0,50 Gesloten2 alternatieven0,750,85 3 alternatieven0,680,77 4 alternatieven0,630,74 5 alternatieven0,600,70 Normen gelden voor het gemiddelde van een toets. Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met makkelijke vragen). Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte” leerlingen. Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede” leerlingen. Normen gelden voor het gemiddelde van een toets. Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met makkelijke vragen). Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte” leerlingen. Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede” leerlingen.

18 Item-analyse: de P-waarde – Formatieve toets ►Extreme P-waarden zijn meer interessant. ►Hoge p-waarden kunnen aangeven dat de eindterm van een onderdeel wordt beheerst. ►Lage P-waarden kunnen aangeven dat de leerlingen de eindtermen (nog) niet beheersen. Kan inzicht geven in de mate waarin leerlingen de eindtermen hebben behaald. Kan inzicht geven in de mate waarin leerlingen de eindtermen hebben behaald.

19 Item-analyse: de A-waarde Ratio van de afleider ►Nummer tussen 0 en 1 ►Goede afleiders : A-waarden allemaal ongeveer gelijk (allemaal even aantrekkelijk) A-waarde ideale afleider : (1 – P-waarde) / k (k=aantal alternatieven) ►Als A-waarde < 0,02 dan is deze niet goed Kan komen door slechte afleider, maar ook bijv. door ‘test-wiseness’. In QMP: Proportion Selected van de Outcomes

20 Item-analyse: de A-waarde Test-wiseness: ‘a subject’s capacity to utilize the characteristics and formats of the test and/or the test-taking situation to receive a high score’ (Millman e.a.) Test-wiseness: ‘a subject’s capacity to utilize the characteristics and formats of the test and/or the test-taking situation to receive a high score’ (Millman e.a.) Wat is het grootste voordeel van het gebruik van chroom in de productie van staal? Chroom maakt staal … a)Transparant. b)roestvrij. c)zwaar. d)flexibel.

21 Item-analyse: de A-waarde – Formatieve toets A-waarden kunnen inzicht geven in misvattingen die een leerling heeft over een bepaald onderwerp.

22

23

24

25

26 Item-analyse: de R it -waarde Verband tussen de vraagscore en de toetsscore. ►Hoge correlatie  leerlingen die hoog scoren bij de vraag scoren ook hoog bij de test ►Nummer tussen -1 en +1 In QMP: Item Total Discrimination

27 Item-analyse: de R it -waarde R it -waardeBetekenis < 0Slecht De hoogscoorders beantwoorden de vraag fout en de laagscoorders goed. Verwijderen of geheel aanpassen. ongeveer 0Geen verband te zien Verwijderen of geheel aanpassen. tussen 0 en 0,20Weinig verband - middelmatig tussen 0,20 en 0,30Gemiddeld verband - voldoende tussen 0,30 en 0,45Sterk verband - goed > 0,45Zeer sterk verband – zeer goed

28 Item-analyse: de D-waarde Onderscheid (discriminatie) t.o.v. hoge- en lage scoorders ►Hoe groter de discriminatie, des te beter meet de vraag wat je wilt weten ►Nummer tussen -1 en +1 In QMP: Item Discrimination

29 Item-analyse: de D-waarde D-waardeBetekenis < 0Slecht De laagscoorders scoren op zo’n vraag HOGER dan de hoogscoorders. Dus andersom dan wat je wilt. Waarom is de vraag. Hoogscoorders raken in de war? tussen 0 en 0,15Matig Afleiders niet goed? Verkeerd gesteld? tussen 0,15 en 0,30Redelijk tussen 0,30 en 0,50Goed discriminerend > 0,50Sterk discriminerend

30 Toetsanalyse

31 Toetsanalyse: Cronbach’s Alpha In hoeverre zijn de vragen betrouwbaar (t.o.v. elkaar), meten ze dezelfde zaken. Bij elke nieuw afgenomen toets weer? ►Hoge waarde  Hoge betrouwbaarheid ►Nummer tussen -1 en +1 In de literatuur kunnen de normen iets afwijken van elkaar.

32 Toetsanalyse: Cronbach’s Alpha WaardeKwalificatie < 0,65Slecht / middelmatig tussen 0,65 en 0,80Middelmatig / voldoende tussen 0,80 en 0,90Voldoende / goed > 0,90Goed / zeer goed WaardeKwalificatie < 0,60Onvoldoende tussen 0,60 en 0,80Voldoende / goed > 0,80Goed / zeer goed Summatieve toets: Formatieve toets:

33 Toetsanalyse: Cronbach’s Alpha - invloeden ►Hoe goed discrimineren de vragen? Bij meer goede discriminerende vragen een hogere α ►Er mogen niet teveel te makkelijke en te moeilijke vragen zitten in de toets. (te makkelijke en te moeilijke vragen discrimineren minder) ►Het aantal van de vragen heeft invloed. Bij meer vragen  hogere betrouwbaarheid. (heeft meer individuele meetpunten) ►Te weinig alternatieven bij de vragen (gokken) ►Aantal deelnemers  meer  hogere betrouwbaarheid. ►Onjuiste groep deelnemers

34 Toetsanalyse: Cronbach’s Alpha - invloeden ►Toetsinhoud. Verschillende domeinen, onderwerpen. In hoeverre hangen de vragen samen? Worden er teveel zaken gemeten? Opvangen door topicrapportage. ►Voortijdig afbreken of niet op tijd klaar komen of andere storingen ►(In)consistentie van ingestelde vraagscore ►Willekeurige vragen in toets ►Diversiteit in vraagtypen

35 Vragen ?


Download ppt "Expertiseteam ToetsenbankThemadag Digitale Toetsing 1 december 2011 Alex van Essen."

Verwante presentaties


Ads door Google