VIOT-Lezing, 7 dec 2005 Bregje Holleman Universiteit Utrecht Het meten van tekstwaardering Likertschalen versus Semantisch differentialen VIOT-Lezing, 7 dec 2005 Bregje Holleman Universiteit Utrecht Goedemorgen. Ik ben Bregje Holleman en ik mag de spits afbijten in deze allereerste sessie van het Nijmeegse VIOTcongres. Mijn presentatie hier gaat over het meten van tekstwaardering. Dat doen taalbeheersers best vaak.
Tekstwaardering Belangrijke variabele in taalbeheersingsonderzoek In experimenten: Wat is het effect van stijlkenmerk S op …? In evaluatie-/optimaliseringsonderzoek: Hoe wordt tekst T gewaardeerd? Wat is een goede manier om tekstwaardering te meten? Beinvloedt vraagformulering de antwoorden? En zo ja, hoe? Taalbeheersers meten tekstwaardering in experimenten naar het effect van bepaalde stijlverschijnselen. Bijvoorbeeld: wat wordt beter gewaardeerd, een tekst die de lezer met u aanspreekt, of een tekst met je? Ook doen taalbeheersers vaak onderzoek naar de evaluatie van een specifieke tekst. Hoe wordt die door de doelgroep gewaardeerd? In beide gevallen wordt tekstwaardering vaak met vragenlijstvragen gemeten. Tekstwaardering is een soort van attitude, een evaluatief oordeel. Er bestaat veel onderzoek naar het meten van attitudes. Wat doen respondenten of proefpersonen als ze in het kader van een een vragenlijst evaluaties of attitudes moeten rapporteren? Hoe komt het dat de vraagformulering in dat soort onderzoek de antwoorden zo beinvloedt? Daar ben ik al geruime tijd mee bezig in mijn onderzoek. En vanuit die belangstelling ben ik eens gaan kijken naar de manier waarop wij tekstwaardering meten. In deze lezing wil ik dan ook een schets geven van dat onderzoek, dat focust op 2 vragen: Wat is een goede manier om tekstkwaliteit te meten? En vooral ook: hoe beinvloedt vraagformulering de antwoorden bij het meten van tekstkwaliteit?
Vragenlijsten voor tekstwaardering Webevaluatie: Kirakowski et al (2005), Muylle et al. (2004), enz. Tekstevaluatie: Lentz, Lentz & Pander Maat (1993), Van Wijk & Van der Pool (1990), Van Wijk (1996) Maes, Ummelen & Hoeken (1996) Eigenlijk meten wij tekstwaardering wel vaak, in van die vragenlijstjes, maar is er weinig onderzoek nAAr die vragenlijstjes. Lentz en Lentz & Pander Maat hebben veel gedaan aan het evalueren van teksten, maar eigenlijk niet zo erg veel aan het meten van tekstkwaliteit met gestandaardiseerde vragenlijsten. Van Wijk is wat meer bezig geweest met het in vragenlijsten meten van tekstkwaliteit. En ook doen Maes, Ummelen en Hoeken in hun boek “Instructieve Teksten” ook een voorstel voor het meten van tekstwaardering. Ik zal die twee vragenlijsten van Van Wijk en Maes et al. zo wat uitgebreider bespreken. Er is dus in de literatuur geen gevalideerd instrument beschikbaar is voor het meten van tekstwaardering. Naar website-evaluatie via vragenlijsten is wEl vrij veel en ook recent onderzoek, maar dat richt zich over het algemeen vooral op dimensies die relevant zijn voor websites, zoals navigeerbaarheid en layout. En minder op de traditionele tekstwaarderingsdimensies met oordelen over de begrijpelijkheid en de aantrekkelijkheid van een tekst.
Van Wijk (1996), Van Wijk & van der Pool (1990) Aantrekkelijkheid Betrokkenheid Lezersgericht Zelfbewust Aansprekend Levendig Verrassend Begrijpelijkheid Inhoud Openheid Helderheid Structuur Ordelijkheid Doorzichtigheid Van Wijk en Van der Pool stellen (in 1990 al) voor om tekstwaardering in een aantal dimensies op te delen: Aantrekkelijkheid en Begrijpelijkheid. En die op hun beurt weer op te delen in een aantal subdimensies. Elk stijlkenmerk wordt gemeten met 4 vragenlijstitems, een negatieve likertschaal, een positieve likerschaal en met twee sem differentialen die elk verschillend waren geformuleerd. Hier een voorbeeld voor de dimensie Openheid (uit Inhoud uit Begrijpelijkheid):
Van Wijk (1990): meting van “openheid” De tekst raakt de kern van de zaak Zeer oneens – zeer eens De tekst draait om de problemen heen Ik vind de tekst Verhullend – openhartig Recht door zee - omzichtig Voor elke dimensie kiest van Wijk dus 4 typen vragen. Je ziet hier voor Openheid een positieve Likertschaal (de bovenste), een negatieve likertschaal (de tweede: let op, er hoeft dus niet perse een ontkenning in de zin te staan, maar er wordt een negatieve eigenschap van de tekst benoemd) en twee semantisch differentialen. Van Wijk is dus duidelijk bezorgd dat de vraagvorm een effect heeft op de antwoorden, en doet daarom aan risicospreiding. Dat pakt vrij goed uit, want de Cronbach’s alfa’s van zijn schalen zijn redelijk: rond de .7 a .8. Dat risicospreiden door verschillende vraagvormen in 1 vragenlijst te gebruiken, vind ik dus helemaal niet onverstandig. Maar toch raak ik dan geintrigeerd. Is het nodig de schalen zo af te wisselen? Toen ik eens precies ging kijken naar wat er nu eigenlijk bekend is in de literatuur over, bijv., positieve en negatieve likertschalen, vond ik niet zo heel erg veel.
Eerder onderzoek naar positieve vs negatieve Likert-vragen Positieve eens/oneens-vragen worden anders beantwoord dan negatieve eens-oneens vragen (o.a. Falthzik & Jolson 1974) Ik vind x goed. Oneens 1 2 3 4 5 Eens Ik vind x niet goed. Oneens 1 2 3 4 5 Eens Geldt ook voor morfologische of lexicale negatie? En welke vraag is nu beter? Ik vond veel onderzoek naar positieve vs negatieve ja/nee-vragen. Maar voor Likertvragen kwam ik veel minder tegen. Vooral een onderzoek van Falthzik & Jolston, uit de marketinghoek). Zijn vergeleken positieve vragen (ik vind omo goed) met de equivalente vraag met een expliciete negatie (ik vind x niet goed). Ze verdeelden een random steekproef aselect in 2 helften en gaven de ene groep de positieve vragen en de andere groep de negatieve. Vervolgens bleek dat men het sterker eens was met de positieve vragen dan dat men het oneens was met negatieve vragen. Dus bij de positieve vraag zit men bijvoorbeeld gemiddeld op 4, bij de negatieve vraag zou men dan 2 moeten antwoorden, maar men antwoordt 3. Als je dus een positief oordeel over je product wilt, moet je ook positieve vragen stellen. Maar of je dit effect nu ook zult vinden in een andere context, buiten de marketing, is niet duidelijk. En ook niet of het alleen voor vragen met een syntactische negatie geldt (‘t woordje ‘niet’ in de zin), of ook voor andere typen tegengestelde vragen, met een morfologische negatie (duidelijk vs onduidelijk) of met een lexicale oppositie (makkelijk vs moeilijk). En bovendien: welke vraag is nu eigenlijk beter? Dat wordt niet duidelijk.
Eerder onderzoek naar Likertschalen vs Semantisch Differentialen Niet veel over bekend. Onderzoek naar bipolariteit versus unipolariteit Zijn bepaalde oordelen/attitudes eenpolig of juist tweepolig? Men neemt vaak, op gevoel, aan dat semantisch differentialen beter zijn… Vervolgens ging ik kijken hoe het zit met de vergelijking tussen Likertschalen en Semantisch diferentialen. Wat is beter, volgens eerder onderzoek? Ook daar lijkt niet veel aan gedaan. Eer is onderzoek naar de manier waarop menselijke oordelen cognitief gerepresenteerd zijn. Is dat bipolair, op een lijn van goed naar slecht (of vice versa)? Of is dat unipolair, met een lading op een bepaalde mate van goed-heid, en los daarvan, een bepaalde mate van slechtheid? Als je gelooft in bipolariteit, is de semantisch differentiaal een goed idee. Als je gelooft in unipolariteit, kun je beter Likertschalen nemen. Los daarvan zegt de onderbuik van de meesten dat semantisch differentialen beter zijn dan likertschalen, omdat in semantisch differentialen zowel het negatieve als het positieve perspectief op het evaluatieobject expliciet worden aangeboden.
Maes, Ummelen & Hoeken (1996) 6 vragen begrijpelijkheid Moeilijk-makkelijk; Eenvoudig-ingewikkeld; Onduidelijk-duidelijk; Onoverzichtelijk-overzichtelijk; Logisch opgebouw-onlogisch opgebouwd; bondig-omslachtig 6 vragen aantrekkelijkheid Interessant – oninteressant; Afstandelijk – aansprekend; Afhoudend – uitnodigend; Boeiend – saai; Persoonlijk – onpersoonlijk; Eentonig - afwisselend In hun boek “Instructieve teksten” geven Maes, Ummelen en Hoeken advies over het meten van tekstwaardering. Zij raden Likertschalen (dus eens/oneens-schalen) af, en adviseren de semantisch differentiaal, waarbij dan de polen van de semantisch differentiaal afwisselend positief en negatief geformuleerd zouden moeten worden: soms pos links en neg rechts, en soms andersom. Maes, Ummelen en Hoeken claimen niet dat dit DE gevalideerde vragensetjes zijn om aantrekkelijkheid en begrijpelijkheid te meten, en noemen het voorbeelden van vragen. Wel geven ze aan dat die vragen ook in eerder onderzoek naar tekstwaardering zijn gebruikt - en kennelijk naar tevredenheid.
Likertschalen vs Semantisch Differentialen Wat ik weet: Vraagformulering beinvloedt de antwoorden Maar is dat ook zo in tekstwaarderingsonderzoek? Wat ik wil weten: Er is formuleringseffect van positieve vs negatieve vragen voor vragen met syntactische negatie. Geldt dat ook voor morfologische en lexicale negatie? Semantisch Differentiaal lijkt ‘t minst sturend. Maar is dat ook zo? De tussenstand. Wat we dus nu weten is dat we niet zo erg zeker weten wat een goede set tekstwaarderingsvragen is. Maar dat wil ik maar even laten liggen voor een andere gelegenheid. Ook weten we dat vraagformulering de antwoorden beinvloedt. Dat is alleen nooit in onderzoek naar tekstwaardering aangetoond. Bovendien zou ik wel eens willen weten of dat effect van positieve vs negatieve likertvragen ook opgaat voor vragen met morfologische of lexicale negatie, dus voor vraagparen als duidelijk-onduidelijk, en voor makkelijk-moeilijk.
In 3 vragenlijstversies: Nieuwe experimenten Begrijpelijkheid en aantrekkelijkheid van tekst meten met de 12 items Maes et al. In 3 vragenlijstversies: Pos Lik, bijv. “Ik vind de tekst interessant. Eens 0 0 0 0 0 Oneens” Neg Lik, bijv. “Ik vind de tekst oninteressant. Eens 0 0 0 0 0 Oneens” Sem Dif, bijv. “Ik vind de tekst… Interessant 0 0 0 0 0 Oninteressant” Om dat te onderzoeken, heb ik de vragenlijstvragen van Maes et al genomen en er 3 vragenlijstversies van gemaakt. Naast de semantisch differentiaal ook Positieve Likertvragen en Negatieve Likertvragen. De vragen zijn dus equivalent in elke vragenlijstversie, alleen de vorm verschilt. Om nu te kijken of en hoe er een formuleringseffect optreedt, randomiseer je vragenlijstversies over een flinke groep respondenten en vergelijk je tussen personen. Als de gemiddelde antwoorden tussen subgroepen op een vraag verschillen, is dat terug te voeren op de manipulatie; op het verschil in vraagformulering. Om dan vervolgens te bepalen welke vraag het beste is, zou je kunnen kijken of de betrouwbaarheid van de verschillende vragenlijstvarianten verschilt. Is de cronbach’s alfa van een setje negatieve likertvragen anders dan die van een equivalent setje positieve likertvragen, of dan die van de semantisch differentialen? Dat is een van de criteria die ik heb gehanteerd. Natuurlijk kon ik niet in deze sessie staan en dan met 1 experiment aankomen. Daarom heb ik een aantal verschillende experimenten opgezet met verschillende teksten en verschillende respondenten.
Design 9 experimenten Steeds binnen elk experiment 3 vragenlijstversies: poslik, neglik en semdif In elk experiment: Vragenlijstversies gerandomiseerd over personen Ca 50 respondenten per vragenlijstversie Tussen experimenten: Respondenten: varierend van studenten tot heterogene populatie Teksten: varierend van informatief non-profit tot persuasief profit In totaal heb ik samen met studenten uit een mastercursus 9 experimenten opgezet, met dus in elk experiment die 3 vragelnijstversies. De teksten die werden geevalueerd in die experimenten varieerden van een persuasieve brochure over orgaandonatie tot een fragment uit de Troonrede of een commerciele folder van de Postbank. De respondenten varieerden van middelbare scholieren tot studenten of een heterogene groep Nederlanders.
Resultaten: formuleringseffecten In elk experiment leidt ca 1/3 van de vragen tot een significant formuleringseffect Alg beeld: negatieve likertvraag wordt meest positief beantwoord In veel experimenten voorkomende formuleringseffecten: Afhoudend/uitnodigend Eenvoudig/Ingewikkeld Duidelijk/Onduidelijk Persoonlijk/onpersoonlijk Dan de resultaten. Het algemene beeld is alsvolgt: In elk experiment zie je dat niet bij alle vragen een formuleringseffect optreedt. Gemiddeld verschillen de antwoorden op semdifferentialen van die op negatieve en positieve likertvragen, maar die verschillen zijn niet steeds significant. Ongeveer 1/3 van de vragen toont een significant verschil, en dat is keurig zoals dat vaak gaat in formuleringseffectenonderzoek. Er is dus vrij veel variantie tussen vragen. In welke richting gaan de effecten? Anders dan hoe eerder onderzoek voorspelde. Falthzik & Jolston voorspelden dat negatieve vragen minder positief worden beantwoord dan positieve vragen. Dat is niet zo, ‘t is precies andersom. Als je een positief oordeel over je tekst wilt, moet je negatieve likertschalen voorleggen. Men gaat het zo extreem oneens zijn met je stelling dat de tekst oninteressant is, dat je overall tekstoordeel heel positief uitpakt. Dus in eerder onderzoek werd met syntactische tegenstellingen een heel ander patroon gevonden dan in dit onderzoek, met morfologische en lexicale tegenstellingen. Is er nu nog een verschil tussen de morfologische en de lexicale tegenstellingen? Ik zou verwachten dat de morfologische tegenstellingen, de tegenstellingen met on-, leiden minder tot formuleringseffecten dan de andere, lexicale, tegenstellingen. Dat is echter niet zo. Significante formuleringseffecten komen even vaak voor bij woordparen als afhoudend/uitnodigend (lexicaal), als bij persoonlijk/onpersoonlijk (morfologisch). Er zijn zelfs bepaalde lexicale tegenstellingen die nooit tot een formuleringseffect leiden (zoals bondig/omslachtig).
Cronbach’s alfa’s per vraagversie: Resultaten (2) Cronbach’s alfa’s per vraagversie: Gemiddeld ca .8, met grote spreiding Geen enkele vraagversie is overtuigend het beste (of slechtste) De negatieve likertvragen leiden tot de meest positieve tekstoordelen. De positieve likert en semantisch differentiaal ontlopen elkaar soms niet veel, maar soms lijkt de semantisch differentiaal een middenpositie in te nemen, tussen de positieve likert en de negatieve likert. Is de semantisch differentiaal dus ook de beste vraag? Nou nee, of althans, dat blijkt in elk geval niet uit de betrouwbaarheden. De Cronbach’s alfa’s zijn vaak redelijk (hoewel in sommige experimenten opeens extreem slecht), maar er is geen duidelijk patroon in de verschillen. Bij het cluster aantrekkelijkheid lijken de positieve likertvragen in de meeste experimenten het beste. Bij het cluster begrijpelijkheid lijken de negatieve likertvragen het in de meeste experimenten het beste te doen. De semantisch differentiaal zwabbert veel: heeft soms opeens een extreem lage cronbach’s alfa in vgl met de andere 2 vraagtypen.
Vraagformulering maakt uit Voorlopige conclusie Vraagformulering maakt uit Stel negatieve vragen als je positieve uitkomsten wilt hebben Semantisch differentiaal is niet aantoonbaar de beste vraag Maar betere criteria dan Cronbach’s alfa zijn denkbaar De voorlopige conclusie is dus dat je negatieve vragen moet stellen als je positieve oordelen wilt hebben. Maar ook dat meer onderzoek nog even nodig is. De variantie tussen vragen en tussen experimenten bleek groot. De hier gepresenteerde conclusies geven een globaal beeld, maar netjes rekenen aan de varianties over experimenten heen is nog nodig. Deze data zijn vers van de pers. Verder is duidelijk dat het veel uitmaakt hoe je de vraag stelt in tekstwaarderingsonderzoek, maar dat nog niet bekend is welke vraagformulering het beste is. De betrouwbaarheden van de vragensets tonen geen consistente verschillen. Je kunt je natuurlijk afvragen of cronbach’s alfa’s nu wel zo’n goed criterium zijn om te kiezen welke vragenset ‘t beste is. Er zijn om te beginnen geen duidelijke criteria om de verschillen te interpreteren: als de alfa van een set semantisch differentialen .6 is, en van een set likertvragen .7, is dat verschil dan groot en betekenisvol genoeg om de likertvragen af te serveren? Er zijn interessantere criteria.
Welke vraagvorm kan verschillen in tekstkwaliteit het beste aantonen? Vervolgonderzoek Welke vraagvorm kan verschillen in tekstkwaliteit het beste aantonen? Helpt een gebalanceerde schaal? Maar ook: zijn dit alle relevante vragen, of de beste vragen naar tekstwaardering? De beste indicatie voor een goede meting, is in dit geval denk ik welke vraagvorm verschillen in kwaliteit goed kan aantonen. Als we een tekst zo manipuleren dat we een goede en een slechte versie hebben, wordt dit dan het beste zichtbaar met de neglik, de poslik of de semdif? Ik heb dit samen met studenten al eens geprobeerd te onderzoeken, maar toen was de manipulatie van tekstkwaliteit onvoldoende gelukt…. Ook is interessant om uit te zoeken of vraagformuleringseffecten verdwijnen als een gebalanceerde schaal wordt gebruikt. Maes en anderen wisselen de polen van hun semantisch differentialen af van positief naar negatief, en Van Wijk husselt positieve en negatieve likertvragen met semantisch differentialen. Maar helpt dit nu eigenlijk om formuleringseffecten te voorkomen? Sommigen verwachten van wel, anderen denken juist dat al die afwisseling tot invulfouten leidt. Het is nog niet veel onderzocht. Ik heb met een groepje studenten gekeken, en toen leek het erop dat formuleringseffecten niEt verdwenen door de vragenlijst te balanceren – je kreeg gewoon weer andere effecten… Daarnaast is er natuurlijk de kwestie of de dimensies en subdimensies en vragen van Maes et al, of die van Van Wijk wel de goede zijn: is de set compleet, bijvoorbeeld? En hoe onafhankelijk van teksttype kan een standaardvragenlijst naar tekstwaardering zijn? Ik denk dat het leuk & nuttig is om door te denken over deze thema’s. Het geeft inzicht in wat tekstwaardering is, en hoe dat gemeten moet worden. En geeft daarnaast meer fundamenteel inzicht in de manier waarop taalgebruikers dat soort oordelen cognitief gerepresenteerd hebben en de manier waarop ze ze communiceren in een vragenlijst. Ik blijf hier dus nog even over nadenken. Deels samen met studenten, zoals dit onderzoek ook tot stand kwam. (Zijn de gebruikte contrastieven goed? Is vernieuwend wel echt een goed contrast bij ouderwets? Of zou ‘bij de tijd’ beter zijn? En zijn alle termen die als vanzelf als negatief worden beschouwd, dat feitelijk wel? Maes en Van Wijk lijken aan te nemen dat ‘persoonlijk’ altijd positief is, en ‘onpersoonlijk’ negatief – maar dat zal op zijn minst van persoon tot persoon en van tekst tot tekst verschillen.)
Met veel dank aan de studenten van de mastercursus Vragenlijst & Vraagformulering blok 1 2005-2006: Annelieke, Joyce, Liselot, Lisa, Laurens, Leontine, Maaike, Daniëlle, Kim, Ellen, Renske, Marieke, Fenny, Jo, Karsten, Linda, Roos, Saskia, Mieke, Marjolein, Albertine, Naomi, Mirjam, Maarten, Bart, Femke, Roos, Debby, Lindy, Linda, Caroline, Marion, Geralda, Désirée, Tomas, Judith, Eline, Carly, Lotte, Ines; en (scriptiestudent) Margriet Brus. Zijn er vragen?