De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam.

Verwante presentaties


Presentatie over: "Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam."— Transcript van de presentatie:

1 Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam E-mail: a.v.a.m.evers@uva.nl Arne Evers

2 INHOUD VAN DEZE PRESENTATIE  Overzicht van de situatie in Europa op het gebied van testbeoordelingen.  Stand van zaken in Nederland op het gebied van testkwaliteit.  Mening van gebruikers over testkwaliteit.

3 NIP/COTAN Het Nederlands Instituut van Psychologen (NIP) heeft in 1959 de Commissie Testaangelegen- heden Nederland (COTAN) geïnstalleerd. De missie van de COTAN is: het bevorderen van een beter gebruik van betere tests. De COTAN probeert dit te realiseren door voorlichting aan testgebruikers en test- constructeurs o.a. over de kwaliteit van tests.

4 Deze beoordelingen worden gepubliceerd in de Documentatie van Tests en Testresearch en in de daaropvolgende losbladige Aanvullingen

5 EUROPESE ONTWIKKELINGEN IN HET VASTSTELLEN VAN TESTKWALITEIT NEDERLAND Kwaliteitsbeoordelingen sinds 1969. Eerst met een systeem dat één globaal oordeel opleverde. Dit systeem heeft zich ontwikkeld tot het huidige systeem, met zeven specifieke beoordelingen. Tot en met 2006 zijn 580 tests beoordeeld.

6 ENGELAND In 1990 eerste overzicht van testbesprekingen met behulp van het BPS Review System. Reviews tot nu toe alleen van tests op A&O-gebied, men wil ook klinische tests gaan reviewen.

7 EUROPA Het ‘Committee on Testing’ van de EFPA (European Federation of Psychologists’ Associations) heeft in 2002 het European Test Review Model gepubliceerd. Dit model is gebaseerd op het Engelse en Nederlandse systeem. In 2004 werd in Engeland het EFPA- model ipv het Engelse systeem in gebruik genomen.

8 DUITSLAND In nov 2006 is het ‘Testbeur- teilungssystem’ van het Testkuratorium (de Duitse COTAN) gepubliceerd. Het is een mix van het Europese en het Nederlandse systeem en enkele eigen aanpassingen. Er zijn nog geen beoorde- lingen mee verricht.

9 verdere ontwikkelingen  Het Nederlandse systeem is vertaald in het Roemeens.  Het EFPA model is vertaald in het Spaans, Zweeds, Deens, Sloveens en het Nederlands.  De systemen moeten niet als concurrerende systemen worden beschouwd: Elk land zou het systeem moeten gebruiken dat het beste bij de lokale situatie past.  Alleen in Nederland en Engeland worden op ‘grote schaal’ tests beoordeeld. Mogelijk volgt Duitsland binnenkort.

10 Inhoudelijke verschillen Tussen Nederlands en EFPA-systeem:  het NL systeem geeft meer gedetailleerde toelichtingen en instructies  het resultaat van het NL systeem is een profiel van zeven scores, in het EFPA- model worden de beoordelingen op losse items gepubliceerd  in het EFPA-model wordt een bespreking van max. 1000 woorden gegeven

11 Conclusie Binnen de wereld van het testgebruik neemt Nederland op het gebied van de zorg voor testkwaliteit een vooraanstaande positie in. Het COTAN-systeem vormt daarbij een gewaardeerd instrument. Uitbreiding met ‘review’ wenselijk.

12 TESTKWALITEIT IN NEDERLAND  Eerst zullen de meest recente totaalgegevens (2006) worden gepresenteerd.  Vervolgens zal de kwaliteit van de gedocumen- teerde tests in 1982, 1992, 2000 en 2006 worden vergeleken.  Tenslotte zal de kwaliteit van schooltoetsen nader worden beschouwd.

13 Kwaliteit in 2006 In het overzicht worden de gegevens van 501 tests vermeld (in Documentatie 2000 waren dit er 373). Dit is exclusief research- instrumenten en van oorsprong Belgische tests. Beoordeling op zeven criteria: ‘onvoldoende’, ‘voldoende’, of ‘goed’.

14 Testkwaliteit in 2006 CRITERIUM GOEDVOLDONVOLDNVT/ONV Uitgangspunten 62%25%13%- Testmateriaal 72%21%8%- Handleiding 49%28%23%- Normen 13%29%56%2% Betrouwbaarheid 28%40%32%- Begripsvaliditeit 19%46%35%- Criteriumvaliditeit 8%22%56%15%

15 Conclusie kwaliteit 2006  Te weinig goed opgezet normeringsonderzoek en onderzoek naar de criteriumvaliditeit.  Ook de betrouwbaarheid en het onderzoek naar de begripsvaliditeit laten te wensen over, maar tweederde van de tests is toch minstens ‘voldoende’.  Een kwart van de tests heeft géén of een slechte handleiding.

16 Wordt de gemiddelde Nederlandse test steeds beter? Vergelijking tussen de jaren waarin een Documentatie werd uitgegeven (1982, 1992 en 2000) en de huidige stand van zaken (2006). Vergelijking op basis van het percentage tests dat als ‘onvoldoende’ wordt beoordeeld op elk van de zeven criteria en op grond van een gemiddelde hiervan.

17 Percentages ‘onvoldoende’ CRITERIUM 1982 N=238 1992 N=296 2000 N=373 2006 N=501 Uitgangspunten22%18%13% Testmateriaal 19%13% 9%8% Handleiding28%23% Normen69%66%59%56% Betrouwbaarheid47%38%33%32% Begripsvaliditeit 63%50% 35% Criteriumvaliditeit57% (67%) 56% (71%)

18 ‘Totale’ kwaliteit per test Van elke test kan men de totale kwaliteit berekenen door de oordelen over de criteria te middelen (voor 2000 en 2006 zeven, voor 1982 en 1992 vijf). Deze waarden kan men vervolgens van alle tests op elk van de vier meetmomenten middelen.

19 De resulterende waarden (op een schaal van 1 t/m 3) zijn: 19821.84 19921.94 20002.01 2006 2.03 Ook hieruit blijkt een gestage, zij het wat afvlakkende verbetering.

20 Mogelijke verklaring afvlakking Bij elke nieuwe Documentatie worden in onbruik geraakte tests verwijderd, dat is bij de telling in 2006 niet gebeurd. De periode tussen 2000 en 2006 is enkele jaren korter dan de andere intervallen. Het bestand aan tests wordt bovendien steeds groter. Toch merkwaardig, aangezien het belang van testkwaliteit steeds groter wordt, met name in het onderwijs.

21 Conclusies  Sinds 1982 belangrijke verbetering in kwaliteit van ‘de’ Nederlandse test.  De kwaliteit van de Normen en die van het onderzoek naar Criterium- validiteit baart nog steeds zorgen.  Mogelijk afvlakking van de verbetertrend na 2000.

22 Hypothetische verklaringen voor deze verbetering: 1.Het onderzoekshulpmiddelen-effect: De wetenschap ontwikkelt zich verder en steeds meer (technische) hulpmiddelen zijn beschikbaar. 2.Het COTAN-effect: Het zichtbaar maken van kwaliteit leidt tot meer inspanningen om de kwaliteit te verbeteren. Als geaccepteerd instituut heeft de COTAN per definitie gelijk.

23 Vergelijking kwaliteit schooltoetsen 2000-2006 Bij schooltoetsen worden de percentages ‘onvoldoende’ op de zeven criteria vergeleken: van de oude toetsen (< 2000, N=58) met de nieuwe toetsen (2000 - 2006, N=54).

24 Testkwaliteit binnen categorie 12 (met name schooltoetsen): p ercentages ‘onvoldoende’ CRITERIUM20002006 Uitgangspunten12%15% Testmateriaal2% Handleiding16%14% Normen52%51% Betrouwbaarheid36%40% Begripsvaliditeit47%44% Criteriumvaliditeit48%32%

25 Conclusie schooltoetsen  Er is geen verbetering in testkwaliteit waar te nemen, ondanks het grote belang (bijv. voor de indicatiestelling voor leerlinggebonden financiering mogen alleen tests worden gebruikt zonder ‘onvoldoende’ beoordeling).  Door dit grote belang is inderdaad de activiteit van testauteurs toegenomen, met als gevolg ook veel onderontwikkelde toetsen.  De verbetering in testkwaliteit sinds 2006 komt dus geheel voor rekening van andere typen instrumenten.

26 TESTGEBRUIK IN NEDERLAND De COTAN heeft in 1967, 1971, 1976 en 2000 enquêtes gehouden naar testgebruik. Doel is mogelijke trends in testgebruik op te sporen die van belang kunnen zijn voor alle ‘stakeholders’, zoals het NIP, de COTAN, testuitgevers, testconstructeurs en gebruikers. Enquête in 2000 bij alle NIP-leden.

27 Ruim 1000 psychologen hebben deze enquête ingevuld. Aan deze psychologen is o.a. gevraagd welke tests ze gebruiken. Vervolgens is gevraagd aan te geven wat men vond van de kwaliteit van de Normen, de Betrouwbaarheid en de Validiteit van elke door hen gebruikte test.

28 Van veel van de genoemde tests is ook het COTAN kwaliteitsoordeel bekend. De bedoeling is dan ook de mening van gebruikers met die van de experts te vergelijken.

29 De beoordeling van Normen volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvol- doende voldoendegoed 43 50 65 voldoende 40 29 onvoldoende 16 100% 10 100% 6 100%

30 De beoordeling van Betrouwbaarheid volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvol- doende voldoendegoed 39 56 61 voldoende 47 40 35 onvoldoende 15 100% 3 100% 4 100%

31 De beoordeling van Validiteit volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvol- doende voldoendegoed 40 51 65 voldoende 47 45 32 onvoldoende 12 100% 4 100% 3 100%

32 Voorlopige conclusie  De testgebruiker heeft een veel positiever oordeel over de kwaliteit van de gebruikte tests dan de COTAN Wie heeft gelijk?

33 Expert- en gebruikersoordeel over Normen nader beschouwd Voorbeeld: Het oordeel van de COTAN over de Normen van de Verkorte GIT en de Ketentest is in beide gevallen onvoldoende. Van de gebruikers van de Verkorte GIT is 0% het hiermee eens. Voor de Ketentest- gebruikers geldt dit voor 38%.

34 Expert- en gebruikersoordeel over Betrouwbaarheid nader beschouwd Voorbeeld: Het oordeel van de COTAN over de Betrouwbaarheid van de MMPI en de ZAT is in beide gevallen onvoldoende. Van de gebruikers van de MMPI is 2% het hiermee eens. Voor de ZAT- gebruikers geldt dit voor 51%.

35 Het gelijk van de COTAN?  Ook wanneer helemaal geen gegevens beschikbaar zijn is een flink deel van de testgebruikers het oneens met het negatieve COTAN-oordeel.  Mogelijk dat deze gebruikers normen niet nodig vinden, uit eigen waarneming vinden dat de test betrouwbaar is, en/of cognitieve dissonantie vertonen.

36  Niettemin maken testgebruikers wel onderscheid tussen ‘afwezigheid van gegevens’ en ‘gegevens - volgens de COTAN - van onvoldoende kwaliteit’.  Bij deze gebruikers is sprake van een nuancering, maar het lijkt toch niet gewenst om de beoordelingscriteria aan te passen, bijvoorbeeld louter op basis van buitenlandse gegevens, of bij te kleine groepen, om zo tot een positief oordeel te komen.

37  De conclusie is dan ook dat de testpraktijk juist gebaat is bij een onafhankelijke instantie die waakt over testkwaliteit.  De COTAN zou echter de communicatie met betrekking tot de beoordelingen moeten verbeteren.

38 De mening van testgebruikers over de kwaliteit van de SVL

39 OORDEEL GEBRUIKER NormenBetrouw- baarheid Validiteit goed 50 43 33 voldoende 45 55 64 onvoldoende 5 100% 2 100% 3 100% OORDEEL COTAN GOEDVOLDOENDEGOED/ ONVOLD

40 Conclusie SVL  In het algemeen is de gebruiker tevreden  Er is echter zeker ook ruimte voor verbetering  Daar is de komende 25 jaar genoeg tijd voor!


Download ppt "Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam."

Verwante presentaties


Ads door Google