Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam.

Slides:

Advertisements

Verwante presentaties

Startbijeenkomst Leren Leren in een professionele oefencultuur

Advertisements

Basisboek Interviewen 3e druk 2012

1 Europese Vereniging for het Toetsen en Beoordelen van Taalvaardigheid

Visual Knowledge Building

• Onderzoek uitgevoerd in opdracht van Erasmus Universiteit en Berenschot B.V. in het eerste kwartaal van • Commissie Jorritsma creëert de visie.

Door goede gesprekken groeien

Toetsen van verschillen tussen twee of meer groepen

Transport en Infrastructuur

Betrouwbaarheid van Competentie Assessments

Kritische Prestatie Indicatoren (KPI’s) Archiefwet 1995

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Aanpassing Selectie beleid. Waarom aanpassingen in het huidige selectie beleid?

Een vergelijkende studie van de financiering van ziekenhuiszorg in vijf landen ASGB 21/11/2013 C ARINE V AN DE V OORDE.

Randstad Werkmonitor state of mind arbeidsmarkt (werknemer perspectief) juli – augustus 2007 B

Logo van de desbetreffende sectie hier toevoegen.

Een handreiking voor een goede interpretatie van een (groeps)profiel

De Ontwikkeling van de persoonsgerichte ondersteuningsuitkomsten schaal (POS) Elise Bonte 1BaOA1.

Autisme en intelligentie

Ervaringen en ontwikkelingen Utrecht 15 februari 2011.

B Het goede ….(en het kwaad)

Janneke Barelds, MSc Universiteit van Tilburg/Tranzo

Powerpoint template Gemeente Maasdriel.

Wanneer én hoe moet uw leerling aan de reken- en taleneisen voldoen?

Christus als profeet. De profeet: de stem van God God wil het liefst met ieder persoonlijk spreken. In Israël (na de zondeval) is voorzien in personen.

EOR en Vakbond Discussieaanzet FNV Europa conferentie, Sjef Stoop, FNV Formaat.

Toelichting Kritische Prestatie Indicatoren (KPI’s) Archiefwet 1995

Interpretatie van statistiek bij toetsen en toetsvragen

Meten van intelligentie bij kinderen met ADHD

Hoe groot is die eigenlijk?

EEN BREED INZETBAAR INSTRUMENT OOK BIJ AVO

Een jaar verder Vernieuwing examenprogramma CKV

Obs Nicolaas Beets informatieve bijeenkomst nieuwe Cito-normering

LMSO Congres “Ba-Ma mobiliteit” BMSO Historie BMSO Ba-Ma mobiliteit Resultaten NVMO discussie Enquête master voorlichting.

Buitenschoolse kinderopvang in Gent en Mechelen. Behoefte aan buitenschoolse opvang MechelenGent Geen steekproef maar via verdeling van vragenlijsten.

Parametric release Wat is dat?.

Is dit onderzoek belangrijk? Is dit onderzoek onbelangrijk?

Stimulans Kwaliteit BPV Kinderopvang Amsterdam 17 maart 2015.

Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.

Het betrekken van studenten bij de toetscyclus

Slc kwartaal 3. programma Hoe is het gegaan Verwachtingen Tips and tricks Opdrachten slc.

Pedagogisch werken in de wijk Les 3 Kwartaal 1. Wat gaan we doen? Opdrachtformulering van Helma Plan van aanpak maken Onderzoeksvaardigheden.

Kanttekeningen bij de huidige manier van toetsen van accountantskantoren Dia 1 2 december 2015 Gert van den Brink AA.

Hulpmiddelen voor bepalen activiteiten

Tekstbronnen Wat moet je er mee?. Lees de vraag Welke informatie heb je nodig? Weet je al iets over dit onderwerp? Over welke tijd gaat het? Over welk.

© GfK 2014 | AFM Consumentenmonitor | Juni AFM Consumentenmonitor voorjaar 2014 Beleggers Juni 2014.

A1 - Startoverleg, 15 januari 2013, Arnhem Beesel Evaluatie Heerstraat- Kesselseweg.

Nederlands Vrijdag 11 maart 2VA.

The Hamlet Study Fabry or not Fabry: Valorization of clinical and laboratory assessments for improved diagnosis of Fabry disease In herinnering: korte.

Toetsing: het hart van onderwijs! 16 april 2013 Karen Heij.

OBS Het Klokhuis Informatie over nieuwe Cito-normering 2 juni 2014.

Vernieuwde werkwijze Kwaliteitskader Gehandicaptenzorg Anders denken, anders doen.

Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?

Kwalitatieve Evaluatie van Handelen rond Suïcide KEHR Suïcide Marieke de Groot, Derek de Beurs, Remco de Winter, Ad Kerkhof Vrije Universiteit Amsterdam.

Het accreditatiestelsel: het verleden en het heden.

Monitoring De Nieuwe Band Resultaten monitoringsonderzoeken 2010.

Minder kinderen, minder scholen? Bijeenkomst gemeente Sluis dinsdag 28 juni 2011.

Workshop Peer Review audit Kennisdag 5 juni 2014 Meta Peek.

OSR onderzoek Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten.

Grenswerkers in Europa Een onderzoek naar fiscale,

Profielproduct Naam auteur(s) Erwin Udo MSc. Vakgebied

De situatie Door docenten is vorig schooljaar geconstateerd dat er veel mavo leerlingen in de 2e en 3e klas omgemotiveerd zijn.  werkgroep ‘Motivatie’

De Kracht van Communicatie

Profiel Product Presentatie

De waarde van Zorgkaart Nederland

Open Data PMA 3 december 2015 Om het onderwerp open data wat levendiger te maken willen we een korte presentatie geven, met daarin: een concreet voorbeeld.

Reflector Big Five Personality

Toetsen van verschillen tussen twee of meer groepen

Aanmeldingen schooljaar

Het programma opent met de mapjes ‘jaaropbrengsten’, ‘handleiding’ en ‘knoppenblad’

Het programma opent met de mapjes ‘jaaropbrengsten’, ‘handleiding’ en ‘knoppenblad’

Transcript van de presentatie:

Testkwaliteit: Het gelijk van de COTAN Lezing t.g.v. het 25-jarig bestaan van de SchoolVragenLijst Arbeids- & Organisatiepsychologie Universiteit van Amsterdam Arne Evers

INHOUD VAN DEZE PRESENTATIE  Overzicht van de situatie in Europa op het gebied van testbeoordelingen.  Stand van zaken in Nederland op het gebied van testkwaliteit.  Mening van gebruikers over testkwaliteit.

NIP/COTAN Het Nederlands Instituut van Psychologen (NIP) heeft in 1959 de Commissie Testaangelegen- heden Nederland (COTAN) geïnstalleerd. De missie van de COTAN is: het bevorderen van een beter gebruik van betere tests. De COTAN probeert dit te realiseren door voorlichting aan testgebruikers en testconstructeurs o.a. over de kwaliteit van tests.

Deze beoordelingen worden gepubliceerd in de Documentatie van Tests en Testresearch en in de daaropvolgende losbladige Aanvullingen

EUROPESE ONTWIKKELINGEN IN HET VASTSTELLEN VAN TESTKWALITEIT NEDERLAND Kwaliteitsbeoordelingen sinds Eerst met een systeem dat één globaal oordeel opleverde. Dit systeem heeft zich ontwikkeld tot het huidige systeem, met zeven specifieke beoordelingen. Tot en met 2006 zijn 580 tests beoordeeld.

ENGELAND In 1990 eerste overzicht van testbesprekingen met behulp van het BPS Review System. Reviews tot nu toe alleen van tests op A&O-gebied, men wil ook klinische tests gaan reviewen.

EUROPA Het ‘Committee on Testing’ van de EFPA (European Federation of Psychologists’ Associations) heeft in 2002 het European Test Review Model gepubliceerd. Dit model is gebaseerd op het Engelse en Nederlandse systeem. In 2004 werd in Engeland het EFPA- model ipv het Engelse systeem in gebruik genomen.

DUITSLAND In nov 2006 is het ‘Testbeur- teilungssystem’ van het Testkuratorium (de Duitse COTAN) gepubliceerd. Het is een mix van het Europese en het Nederlandse systeem en enkele eigen aanpassingen. Er zijn nog geen beoordelingen mee verricht.

verdere ontwikkelingen  Het Nederlandse systeem is vertaald in het Roemeens.  Het EFPA model is vertaald in het Spaans, Zweeds, Deens, Sloveens en het Nederlands.  De systemen moeten niet als concurrerende systemen worden beschouwd: Elk land zou het systeem moeten gebruiken dat het beste bij de lokale situatie past.  Alleen in Nederland en Engeland worden op ‘grote schaal’ tests beoordeeld. Mogelijk volgt Duitsland binnenkort.

Inhoudelijke verschillen Tussen Nederlands en EFPA-systeem:  het NL systeem geeft meer gedetailleerde toelichtingen en instructies  het resultaat van het NL systeem is een profiel van zeven scores, in het EFPA- model worden de beoordelingen op losse items gepubliceerd  in het EFPA-model wordt een bespreking van max woorden gegeven

Conclusie Binnen de wereld van het testgebruik neemt Nederland op het gebied van de zorg voor testkwaliteit een vooraanstaande positie in. Het COTAN-systeem vormt daarbij een gewaardeerd instrument. Uitbreiding met ‘review’ wenselijk.

TESTKWALITEIT IN NEDERLAND  Eerst zullen de meest recente totaalgegevens (2006) worden gepresenteerd.  Vervolgens zal de kwaliteit van de gedocumen- teerde tests in 1982, 1992, 2000 en 2006 worden vergeleken.  Tenslotte zal de kwaliteit van schooltoetsen nader worden beschouwd.

Kwaliteit in 2006 In het overzicht worden de gegevens van 501 tests vermeld (in Documentatie 2000 waren dit er 373). Dit is exclusief research- instrumenten en van oorsprong Belgische tests. Beoordeling op zeven criteria: ‘onvoldoende’, ‘voldoende’, of ‘goed’.

Testkwaliteit in 2006 CRITERIUM GOEDVOLDONVOLDNVT/ONV Uitgangspunten 62%25%13%- Testmateriaal 72%21%8%- Handleiding 49%28%23%- Normen 13%29%56%2% Betrouwbaarheid 28%40%32%- Begripsvaliditeit 19%46%35%- Criteriumvaliditeit 8%22%56%15%

Conclusie kwaliteit 2006  Te weinig goed opgezet normeringsonderzoek en onderzoek naar de criteriumvaliditeit.  Ook de betrouwbaarheid en het onderzoek naar de begripsvaliditeit laten te wensen over, maar tweederde van de tests is toch minstens ‘voldoende’.  Een kwart van de tests heeft géén of een slechte handleiding.

Wordt de gemiddelde Nederlandse test steeds beter? Vergelijking tussen de jaren waarin een Documentatie werd uitgegeven (1982, 1992 en 2000) en de huidige stand van zaken (2006). Vergelijking op basis van het percentage tests dat als ‘onvoldoende’ wordt beoordeeld op elk van de zeven criteria en op grond van een gemiddelde hiervan.

Percentages ‘onvoldoende’ CRITERIUM 1982 N= N= N= N=501 Uitgangspunten22%18%13% Testmateriaal 19%13% 9%8% Handleiding28%23% Normen69%66%59%56% Betrouwbaarheid47%38%33%32% Begripsvaliditeit 63%50% 35% Criteriumvaliditeit57% (67%) 56% (71%)

‘Totale’ kwaliteit per test Van elke test kan men de totale kwaliteit berekenen door de oordelen over de criteria te middelen (voor 2000 en 2006 zeven, voor 1982 en 1992 vijf). Deze waarden kan men vervolgens van alle tests op elk van de vier meetmomenten middelen.

De resulterende waarden (op een schaal van 1 t/m 3) zijn: Ook hieruit blijkt een gestage, zij het wat afvlakkende verbetering.

Mogelijke verklaring afvlakking Bij elke nieuwe Documentatie worden in onbruik geraakte tests verwijderd, dat is bij de telling in 2006 niet gebeurd. De periode tussen 2000 en 2006 is enkele jaren korter dan de andere intervallen. Het bestand aan tests wordt bovendien steeds groter. Toch merkwaardig, aangezien het belang van testkwaliteit steeds groter wordt, met name in het onderwijs.

Conclusies  Sinds 1982 belangrijke verbetering in kwaliteit van ‘de’ Nederlandse test.  De kwaliteit van de Normen en die van het onderzoek naar Criterium- validiteit baart nog steeds zorgen.  Mogelijk afvlakking van de verbetertrend na 2000.

Hypothetische verklaringen voor deze verbetering: 1.Het onderzoekshulpmiddelen-effect: De wetenschap ontwikkelt zich verder en steeds meer (technische) hulpmiddelen zijn beschikbaar. 2.Het COTAN-effect: Het zichtbaar maken van kwaliteit leidt tot meer inspanningen om de kwaliteit te verbeteren. Als geaccepteerd instituut heeft de COTAN per definitie gelijk.

Vergelijking kwaliteit schooltoetsen Bij schooltoetsen worden de percentages ‘onvoldoende’ op de zeven criteria vergeleken: van de oude toetsen (< 2000, N=58) met de nieuwe toetsen ( , N=54).

Testkwaliteit binnen categorie 12 (met name schooltoetsen): p ercentages ‘onvoldoende’ CRITERIUM Uitgangspunten12%15% Testmateriaal2% Handleiding16%14% Normen52%51% Betrouwbaarheid36%40% Begripsvaliditeit47%44% Criteriumvaliditeit48%32%

Conclusie schooltoetsen  Er is geen verbetering in testkwaliteit waar te nemen, ondanks het grote belang (bijv. voor de indicatiestelling voor leerlinggebonden financiering mogen alleen tests worden gebruikt zonder ‘onvoldoende’ beoordeling).  Door dit grote belang is inderdaad de activiteit van testauteurs toegenomen, met als gevolg ook veel onderontwikkelde toetsen.  De verbetering in testkwaliteit sinds 2006 komt dus geheel voor rekening van andere typen instrumenten.

TESTGEBRUIK IN NEDERLAND De COTAN heeft in 1967, 1971, 1976 en 2000 enquêtes gehouden naar testgebruik. Doel is mogelijke trends in testgebruik op te sporen die van belang kunnen zijn voor alle ‘stakeholders’, zoals het NIP, de COTAN, testuitgevers, testconstructeurs en gebruikers. Enquête in 2000 bij alle NIP-leden.

Ruim 1000 psychologen hebben deze enquête ingevuld. Aan deze psychologen is o.a. gevraagd welke tests ze gebruiken. Vervolgens is gevraagd aan te geven wat men vond van de kwaliteit van de Normen, de Betrouwbaarheid en de Validiteit van elke door hen gebruikte test.

Van veel van de genoemde tests is ook het COTAN kwaliteitsoordeel bekend. De bedoeling is dan ook de mening van gebruikers met die van de experts te vergelijken.

De beoordeling van Normen volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvoldoende voldoendegoed voldoende onvoldoende % % 6 100%

De beoordeling van Betrouwbaarheid volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvoldoende voldoendegoed voldoende onvoldoende % 3 100% 4 100%

De beoordeling van Validiteit volgens gebruikers en experts OORDEEL COTAN OORDEEL GEBRUIKER onvoldoende voldoendegoed voldoende onvoldoende % 4 100% 3 100%

Voorlopige conclusie  De testgebruiker heeft een veel positiever oordeel over de kwaliteit van de gebruikte tests dan de COTAN Wie heeft gelijk?

Expert- en gebruikersoordeel over Normen nader beschouwd Voorbeeld: Het oordeel van de COTAN over de Normen van de Verkorte GIT en de Ketentest is in beide gevallen onvoldoende. Van de gebruikers van de Verkorte GIT is 0% het hiermee eens. Voor de Ketentest- gebruikers geldt dit voor 38%.

Expert- en gebruikersoordeel over Betrouwbaarheid nader beschouwd Voorbeeld: Het oordeel van de COTAN over de Betrouwbaarheid van de MMPI en de ZAT is in beide gevallen onvoldoende. Van de gebruikers van de MMPI is 2% het hiermee eens. Voor de ZAT- gebruikers geldt dit voor 51%.

Het gelijk van de COTAN?  Ook wanneer helemaal geen gegevens beschikbaar zijn is een flink deel van de testgebruikers het oneens met het negatieve COTAN-oordeel.  Mogelijk dat deze gebruikers normen niet nodig vinden, uit eigen waarneming vinden dat de test betrouwbaar is, en/of cognitieve dissonantie vertonen.

 Niettemin maken testgebruikers wel onderscheid tussen ‘afwezigheid van gegevens’ en ‘gegevens - volgens de COTAN - van onvoldoende kwaliteit’.  Bij deze gebruikers is sprake van een nuancering, maar het lijkt toch niet gewenst om de beoordelingscriteria aan te passen, bijvoorbeeld louter op basis van buitenlandse gegevens, of bij te kleine groepen, om zo tot een positief oordeel te komen.

 De conclusie is dan ook dat de testpraktijk juist gebaat is bij een onafhankelijke instantie die waakt over testkwaliteit.  De COTAN zou echter de communicatie met betrekking tot de beoordelingen moeten verbeteren.

De mening van testgebruikers over de kwaliteit van de SVL

OORDEEL GEBRUIKER NormenBetrouw- baarheid Validiteit goed voldoende onvoldoende 5 100% 2 100% 3 100% OORDEEL COTAN GOEDVOLDOENDEGOED/ ONVOLD

Conclusie SVL  In het algemeen is de gebruiker tevreden  Er is echter zeker ook ruimte voor verbetering  Daar is de komende 25 jaar genoeg tijd voor!