Evaluatie Van Interactieve Software Systemen Noor Christoph SWI, Universiteit van Amsterdam
Overzicht Hoe trek je een goede steekproef? Hoe zet je een betrouwbaar en valide onderzoek op? Hoe betrouwbaar is je onderzoek? Hoe valide is je onderzoek? Hoe kom je daar achter (theoretisch) ? Hoe realiseer je dat (praktisch) ?
Steekproeven Populatie Steekproef
Steekproeven Wanneer heb je een goeie steekproef? Welke proefpersonen? Random selectie van de deelnemers Hoeveel proefpersonen? Afhankelijk van variantie van de targetvariabele in de populatie Grote variantie > grote steekproef Kleine variantie > kleine steekproef
Betrouwbaarheid van onderzoeksgegevens Mate waarin de waarnemingen ‘waar’ zijn Elke waarneming gaat vergezeld van enige ruis: score = ‘ware score’ +/- ‘toevallige afwijking’ N.B.: Alleen toevallige meetfouten beïnvloeden de betrouwbaarheid !
Voorbeeld Zoektijd naar item op internet m.b.v. een zoekmachine Aantal waarnemingen zoektijd zoektijd
Betrouwbaar(der) Meten Door: Herhaald waarnemen (of bij veel testpersonen) en dan: Bereken een centrummaat. Toevallige afwijkingen (+/-) vallen tegen elkaar ‘weg’. Preciezere schatting van ‘werkelijke waarde’ (een kleiner betrouwbaarheidsinterval).
Hoe Kun Je Controleren of Je Gegevens Betrouwbaar Zijn? Test - hertest betrouwbaarheid Inter - item betrouwbaarheid Inter - rater betrouwbaarheid Item sampling
Test - Hertest Betrouwbaarheid Een test (bv. Vragenlijst voor het meten van gebruikersvriendelijkheid) twee maal distribueren bij dezelfde proefpersonen. Uitkomsten moeten hoog correleren = Hoge betrouwbaarheid van de vragenlijst
Inter-item Betrouwbaarheid Hierbij deel je een test (vragenlijst) in twee gelijke helften (achteraf!) en correleer je de uitkomsten op beide helften. Uitkomsten moeten wederom hoog correleren voor een goede betrouwbaarheid
Inter Rater Betrouwbaarheid Dezelfde proefpersoon wordt beoordeeld door 2 of meer onafhankelijke beoordelaars (raters): Interview Observatie Scores van beide ‘raters’ moeten hoog correleren, dan is het meetinstrument (de beoordelaar!) betrouwbaar. N.B. 1: hoge interbeoordelaarsbetrouwbaarheid ≠ zelfde score door beoordelaars!!! N.B. 2: pas op met eenvoudigweg “tellen” van % van overeenstemming ...!
Item Sampling De betrouwbaarheid van een instrument wordt hoger naarmate het aantal meetelementen van het instrument wordt verhoogd naar het totaal aantal bestaande meetelementen Oftewel: een balans vinden tussen zoveel mogelijk vragen of observaties opnemen in een Q (betrouwbaar) versus zo weinig mogelijk (efficiënt).
Validiteit “Weet wat je wilt meten!” Bijvoorbeeld “gebruikersvriendelijkheid”: De gebruiksvriendelijkheid van een Internetsite hangt onder meer af van de grafische kwaliteit, de navigatie en de aangeboden functionaliteit op de site Onder navigatie wordt verstaan het aantal ‘clicks’ dat de user moet doen om van A naar B te komen, de mate van oriëntatie op de site, in hoeverre men dezelfde weg terug kan vinden, in hoeverre men de juiste informatie vindt op de site…... Onderzoek is valide indien je meet wat je wilt meten, i.e. “gebruikersvriendelijkheid”.
Drie ‘Soorten’ Validiteit Content validiteit: In hoeverre bestudeer je het verschijnsel op een natuurgetrouwe, realistische wijze. Criterium validiteit: In hoeverre voorspellen de scores het te bestuderen verschijnsel.
Drie ‘Soorten’ Validiteit Construct validiteit In hoeverre meet het meetinstrument het verschijnsel dat je wilt meten: Gebruiksvriendelijkheid Meetinstrument 1 Meetinstrument 2 [vragenlijst] [interview] Hoge correlatie!
Construct Validiteit Het te meten begrip is niet direct meetbaar (i.e. “gebruikersvriendelijkheid”). Je operationaliseert het te meten begrip in een aantal verschillende meetinstrumenten (Multi-trait-Multi Method Matrix: MMMM) Correlaties tussen de verschillende meetmethoden moeten hoog zijn, doch niet perfect (overlapping)
Let Op! Het beoordelen van de betrouwbaarheid en validiteit van je gegevens is NIET het analyseren en interpreteren van de gegevens... ... De fase van data analyse volgt nadat je deze controles hebt uitgevoerd!
De praktijk Betrouwbaarheid en validiteit optimaliseren door: Een goede planning !!! (in tijd, acties en kosten). Voldoende observaties (proefpersonen) Observatie / meting van echte (eind)gebruikers Zo veel mogelijk “natuurlijke” maar ook zo veel mogelijk “gestandaardiseerde” tests.
Planning Wat wil je weten/ bereiken? Wanneer en waar testen? Onderzoeksopzet, en, hoe lang gaat een test duren? Welke apparatuur/software nodig? Welke ‘proefleiders’ Welke (en hoeveel) test-gebruikers Welke taken? Welke observaties en hoe de data verwerken? Welke hulpmiddelen voor de test-gebruikers? Rol van de ‘proefleider? Wat gaat het kosten? Pilot-test!
Etische En sociale aspecten Leg de test-gebruiker uit dat niet hij, maar het systeem het onderwerp van onderzoek is. Leg de test-gebruiker uit wat er met de gegevens gaat gebeuren. Zorg dat alles goed verzorgd is (ongestoorde werkomgeving, alle materiaal klaar liggend). Begin met een makkelijke binnenkomer! Zo min mogelijk observatoren. Geen op of aanmerkingen op fouten en of tempo. Achteraf: bewaar vertrouwelijkheid en bespreek na.
“Typische” maten Duur Benodigde tijd voor een taak (of aantal taken per tijdseenheid). Tijd nodig voor herstellen van fouten. Frequentie (relatief) aantal fouten. Aantal muiskliks / commando’s. Aantal (verschillende) features gebruikt. Aantal features dat de test-gebruiker zich herinnert. Aantal keren dat helpfaciliteiten zijn gebruikt (en was dit succesvol?). (Aantal) postieve / negatieve opmerkingen.
Maten – cntd: Hardop denken: ‘Constructive interaction’: Directe waarneming van “wat er in het hoofd omgaat”. ‘Constructive interaction’: Samen ontdekken/werken door 2 test-gebruikers. Retrospective testing: Achteraf verwoorden van strategie of problemen. Coaching: Uitgebreide interactie tussen test-gebruiker en proefleider.
Organisatie Eerst een pilot onderzoek. Schrijf een kort verslagje onmiddellijk na elke test. Goede boekhouding van alle verzamelde materiaal (een sessie moet uit allerlei bronnen gereconstrueerd kunnen worden!!). Niet (overbodig) veel gegevens, maar ook niet te weinig.
Opdracht 2 / 3 Opdracht 2 op de website. Loopt gedeeltelijk parallel met opdracht 3 Deadline voor opdracht 2 is verschoven